香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

成本是GPT的1/20,轟動(dòng)硅谷的中國大模型DeepSeek是怎么做到的?

善攻者,敵不知其所守;善守者,敵不知其所攻。這基本就是美國和中國了。

站在匯金國際大廈,透過巨大的落地窗,京杭大運(yùn)河一覽無余。樓下的環(huán)城北路,是杭州最繁忙的主干道之一。而在這座被嘈雜聲包圍的冷色調(diào)建筑里,誕生一家被美國硅谷稱為“東方神秘力量”的公司。

如今恐怕都不能用“火熱”“震驚”來形容它了。年末的時(shí)候,它迭代推出大語言模型DeepSeek-V3,報(bào)道稱“訓(xùn)練消耗的算力僅為最強(qiáng)大的開源模型Llama 3 405B的1/11”,轟動(dòng)了全球AI圈。

這家“神秘”的公司便是“深度求索”,大模型產(chǎn)品叫DeepSeek,如今更新到第三代,手機(jī)注冊賬號,個(gè)人就能免費(fèi)使用。創(chuàng)始人叫梁文鋒,80后,浙大高才生,也是深度求索母公司——私募巨頭幻方量化的創(chuàng)始人。

梁文鋒很低調(diào),平時(shí)“看論文,寫代碼,參與小組討論”,甚至連DeepSeek機(jī)器人都反復(fù)糾正自己的老板叫“朱明杰”。他提前囤了一萬枚英偉達(dá)的GPU,在大語言模型大門關(guān)閉前一只腳跨了過去。深度求索成了除大廠外唯一一家能做通用大模型的中國初創(chuàng)公司。

公司成立一年半,很年輕,休息日不加班。保潔阿姨說是一群不起眼的小伙子和小姑娘。而這幫目光澄澈的年輕人中,一個(gè)名叫羅福莉的95后脫穎而出,她僅僅參與了上一代大模型的關(guān)鍵研發(fā),就被雷軍用千萬年薪招至麾下,媒體叫她“天才少女”。

用梁文鋒受訪的話講,“看能力,而不是看經(jīng)驗(yàn)”,核心技術(shù)崗位“基本以應(yīng)屆和畢業(yè)一兩年的人為主”。

過去的一年里,他們一邊搞研究,一邊拿著新鮮熱乎的論文評獎(jiǎng)。當(dāng)有了一個(gè)不錯(cuò)的想法,公司會(huì)自上而下調(diào)動(dòng)資源,所以即便一個(gè)實(shí)習(xí)生,都能在大模型的研發(fā)上貢獻(xiàn)頗多。在硅谷圈,他們被描述為“一批高深莫測的奇才”。

無論是團(tuán)隊(duì)特征還是運(yùn)作結(jié)構(gòu),難免會(huì)讓人想起那股曾風(fēng)靡AI界的力量——OpenAI。這便是媒體和早期采訪中DeepSeek的樣子。

DeepSeek的規(guī)模不大,算上梁文鋒不到150人,而OpenAI有2000多人?;蛟S,從它進(jìn)入公眾視野的那一刻起,就注定會(huì)被拿來和OpenAI比較。

相較OpenAI的GPT系列產(chǎn)品,DeepSeek在訓(xùn)練方法和模型架構(gòu)上有多方面的創(chuàng)新。

雖然兩者都是基于Transformer架構(gòu),但它采用了全新的MLA(多頭潛在注意力機(jī)制)架構(gòu),能降低5%—13%的推理顯存,而自研的DeepSeekMoE架構(gòu),大幅減少了計(jì)算量。

知名科技博主Rick 張打了個(gè)比喻:

OpenAI的訓(xùn)練方法是‘大水漫灌式’,拿來的數(shù)據(jù)放到‘黑盒’里訓(xùn)練,一次不行再試一次,直到行為止,因此很燒錢;DeepSeek是先一步利用算法,對數(shù)據(jù)進(jìn)行總結(jié)和分類,然后輸送給大模型,類似把目錄和框架先給到大模型,再將所有內(nèi)容,按照這個(gè)分類和知識點(diǎn),訓(xùn)練大模型理解并掌握。這意味著大模型的訓(xùn)練相比‘黑盒’變得更加規(guī)律和透明化。

通過此法,DeepSeek形成了最大競爭優(yōu)勢——便宜,而且便宜到了“不可思議”。

根據(jù)媒體報(bào)道,DeepSeek-V3僅用了2048塊GPU,訓(xùn)練了不到2個(gè)月,共花費(fèi)550多萬美元。而GPT-4o模型訓(xùn)練成本約為1億美元,這意味著DeepSeek的成本只有GPT-4o的1/20。

OpenAI創(chuàng)始成員之一

OpenAI創(chuàng)始成員之一

對DeepSeek-V3超低訓(xùn)練成本感到震驚

鮮為人知的是,上半年中國大模型價(jià)格戰(zhàn)的“始作俑者”,正是DeepSeek。5月,DeepSeek-V2的推理成本被降到每百萬token僅1塊錢,是GPT-4 Turbo的1/70,智譜AI、豆包、通義千問等大模型先后跟進(jìn)。

DeepSeek也因此解鎖新綽號——AI界拼多多。

然而,DeepSeek并非和價(jià)格戰(zhàn)中的一些玩家那樣一直“虧錢賺吆喝”。梁文鋒曾說:“我們的原則是不貼錢,也不賺取暴利。這個(gè)價(jià)格也是在成本之上稍微有點(diǎn)利潤?!?/p>

由于DeepSeek太過驚艷,難免會(huì)被懷疑“站在了巨人的肩膀上”。

科技圈知名研究員David 劉(化名),曾體驗(yàn)過DeepSeek,他發(fā)現(xiàn)了一個(gè)早期的漏洞:當(dāng)你問DeepSeek是誰的時(shí)候,機(jī)器人會(huì)回答“我是ChatGPT”。

圖源:網(wǎng)絡(luò)

圖源:網(wǎng)絡(luò)

“國內(nèi)做大模型有個(gè)套路,喜歡拿GPT訓(xùn)練,速度又快又隱蔽。”劉說,“相互訓(xùn)練只是全球各大模型訓(xùn)練的常規(guī)操作。當(dāng)你問谷歌大模型產(chǎn)品‘你是誰’時(shí),它同樣會(huì)說‘我是文心一言’?!?/p>

不過,DeepSeek“站在了巨人的肩膀上”更多是指OpenAI為它提供了創(chuàng)新的“踏腳石”。

一位DeepSeek數(shù)據(jù)科學(xué)家表示,DeepSeek-V3采用的一項(xiàng)關(guān)鍵項(xiàng)目創(chuàng)新建立在FP8上訓(xùn)練模型,而非GPT使用的FP16。

簡而言之,F(xiàn)P8訓(xùn)練精準(zhǔn)度更低。如果沒有GPT-4等前沿模型“鋪路”,用較低的精準(zhǔn)度訓(xùn)練是不可能的。

打個(gè)比方。你想從A地到陌生的B地,你不知道如何到達(dá),甚至懷疑到底能否到達(dá)時(shí),就會(huì)變得小心翼翼,步履維艱。但如果A點(diǎn)到B點(diǎn)確定能到,而且只要按照大致方向前進(jìn),你就會(huì)放心大膽地向前跑。

清華大學(xué)人工智能學(xué)院教授沈陽認(rèn)為,從深度思考來看,DeepSeek是國內(nèi)大模型第一,也是全球開源大模型第一。

DeepSeek

DeepSeek

在不少業(yè)內(nèi)人看來,深度求索即將加入“大模型六小龍”的陣營。

“大模型六小龍”指的是,經(jīng)過一年多來的“百模大戰(zhàn)”,有六家估值超10億美元的獨(dú)角獸AI創(chuàng)業(yè)公司站穩(wěn)了腳跟,分別是智譜、MiniMax、月之暗面、百川智能、零一萬物和階躍星辰,它們帶著各自的產(chǎn)品緊跟國外領(lǐng)先大模型。

這六家公司都面臨同樣挑戰(zhàn)。在算力上缺乏高端芯片,只能通過AI人才優(yōu)化算法。商業(yè)化上面臨國內(nèi)大模型巨頭在開發(fā)和流量上的優(yōu)勢,它們積極尋找差異化應(yīng)用方向,以求在殘酷的競爭中活下來。

但深度求索是個(gè)例外。

在七家中國大模型明星創(chuàng)業(yè)公司中,它是“至今專注于研究和技術(shù)的公司,也是唯一一家尚未全面考慮商業(yè)化,選擇開源路線甚至都沒融過資的公司”。

或許梁文鋒真的試圖打破“國外從0到1,中國從1到N”的定式思維——?dú)W美人搞基礎(chǔ)性研究,中國人負(fù)責(zé)應(yīng)用落地。

而從如今歐美科技圈的各種評論來看,圣誕節(jié)后的“大禮”,除了中國第六代戰(zhàn)機(jī),可能沒有什么比推出一款對標(biāo)GPT、訓(xùn)練成本只要500萬美元且開源的大模型更震撼了。以至于他們反思:難道電動(dòng)車、無人機(jī)的故事,也會(huì)在AI領(lǐng)域重演嗎?

當(dāng)然,關(guān)于DeepSeek是否真的如媒體報(bào)道的那樣效率極高、成本極低,還有待驗(yàn)證。為此,我們請來了一些科技領(lǐng)域的專家,通過親身體驗(yàn),來客觀分析和評價(jià)一下DeepSeek的技術(shù)和前景,以及中美未來的圖景。

大頭有話說

張孝榮

深度科技研究院院長

關(guān)于DeepSeek的使用體驗(yàn),我有四個(gè)感受。

◎ 第一,在問題答復(fù)、文字處理方面,跟其他國產(chǎn)大模型相比,相差并不明顯,也時(shí)常容易出現(xiàn)AI幻覺。所謂的AI幻覺,指的就是AI工具給到的結(jié)論或資訊,存在一定的虛假成分或誤導(dǎo)性。

◎ 第二,相較于其他大模型,DeepSeek模型優(yōu)點(diǎn)體現(xiàn)在多模態(tài)處理、高分辨率圖片輸入、開源與商用授權(quán)政策上。換言之,能理解多種類型的數(shù)據(jù),從圖片到音視頻等等;可以再大尺寸分辨率圖片中,識別圖中細(xì)小的物體;并提供開源商用授權(quán),為開發(fā)者和研究者提供技術(shù)支持。

◎ 第三,不足之處主要體現(xiàn)在處理極端復(fù)雜的情形,或者非常規(guī)的視覺-語言(VLM)場景時(shí),還需要進(jìn)一步優(yōu)化。即讓大模型在同時(shí)接收處理一些非常規(guī)的圖像和文字時(shí),表現(xiàn)有待提高。

◎ 第四,由于這個(gè)產(chǎn)品剛起步推廣,至今也沒有開發(fā)移動(dòng)終端,社區(qū)和生態(tài)系統(tǒng)也有待完善。

進(jìn)一步分析訓(xùn)練方法和原理,與包括OpenAI的其他大模型相比,DeepSeek在高效性和成本效益方面具有明顯優(yōu)勢。

DeepSeek采用了混合專家架構(gòu)(MoE)和多頭潛在注意力機(jī)制(MLA),通過顯著壓縮鍵值(kv)緩存為潛在向量,減少了推理過程中對鍵值緩存的需求,提高了推理效率。

而以O(shè)penAI為例,則更注重內(nèi)部思維鏈(internal chain of thought)的構(gòu)建,在回答問題前會(huì)主動(dòng)思考,將復(fù)雜問題拆解為多個(gè)子問題。

此外,兩者在訓(xùn)練數(shù)據(jù)的選擇和優(yōu)化上可能也存在差異。

DeepSeek在架構(gòu)設(shè)計(jì)和優(yōu)化技術(shù)上進(jìn)行了創(chuàng)新,包括混合專家架構(gòu)、多頭潛在注意力機(jī)制、優(yōu)化預(yù)訓(xùn)練語料庫等。這些技術(shù)使得DeepSeek能夠在保持性能的同時(shí),大幅度降低計(jì)算和存儲(chǔ)需求。

通俗一點(diǎn)來說,包括以下做法:

1.數(shù)據(jù)壓縮:通過MLA架構(gòu)和FP8混合精度,減少數(shù)據(jù)量,降低內(nèi)存占用。

2.選擇性處理:優(yōu)先處理重要數(shù)據(jù),簡化次要數(shù)據(jù),提高訓(xùn)練效率。

3.知識蒸餾:利用教師模型生成高質(zhì)量數(shù)據(jù),加速學(xué)生模型訓(xùn)練。

最終結(jié)果就是,DeepSeek-V3作為一款參數(shù)量高達(dá)671B的大型語言模型,在預(yù)訓(xùn)練階段只用了2048塊GPU,這一數(shù)字相比其他大型模型動(dòng)輒幾萬塊GPU來說僅是個(gè)零頭,確實(shí)很少。

由于沒有直接驗(yàn)證,關(guān)于坊間所謂的“DeepSeek以1/11算力訓(xùn)練出超過Llama 3 405B的開源模型”的真實(shí)性,我無法給出確切結(jié)論,如果這一說法屬實(shí),那么它確實(shí)涉及到底層技術(shù)的革命性變化。

不可否認(rèn)的是,DeepSeek-V3的訓(xùn)練方法確實(shí)給大模型訓(xùn)練降低研發(fā)成本提供了新思路。

作為AI領(lǐng)域的一股清流,DeepSeek專注于研究和技術(shù)的態(tài)度值得肯定,它的實(shí)踐打破了“算法越強(qiáng)算力需求越大”的認(rèn)識誤區(qū),證明了大模型對先進(jìn)算力的依賴并非如想象中那么強(qiáng)烈,可以有低成本的選擇。同時(shí),DeepSeek的開源策略也為整個(gè)AI行業(yè)帶來了積極影響,加速了技術(shù)的普及和應(yīng)用。

何帥

資深科技自媒體人

從體驗(yàn)來看,DeepSeek有自己的優(yōu)點(diǎn),比如在解決數(shù)學(xué)運(yùn)算方面的邏輯性更強(qiáng)一些,但是在更廣泛的知識層面的問答、常識上的問答就和百度等主流模型以及OpenAI的大模型GPT-4尚存差距。

關(guān)于媒體或?qū)<宜f的DeepSeek訓(xùn)練效率更高、成本更低這件事,甚至“用1/11的訓(xùn)練速度超過谷歌的Llama”等,目前還停留在報(bào)道層面,只是這些報(bào)道,再加上員工曾被小米高薪挖走等熱點(diǎn)的疊加,讓它突然火了起來。據(jù)我所知,它在量化交易上的表現(xiàn)較為優(yōu)異,但其他商業(yè)化方面暫沒有特別突出的表現(xiàn),有待進(jìn)一步觀察。

相對可以肯定的是,DeepSeek是“站在巨人的肩膀上”,當(dāng)前國內(nèi)外的大模型發(fā)展都比較迅速,它作為“新人”自然可以集各家所長,進(jìn)行訓(xùn)練數(shù)據(jù)的選擇、模型架構(gòu)的設(shè)計(jì)以及優(yōu)化訓(xùn)練策略,這可能是它表現(xiàn)優(yōu)異的原因之一。

至于拿它在訓(xùn)練效率上的突破,來延伸到對英偉達(dá)沖擊,我覺得可能性不大,至少目前的影響很小。

中美之間,技術(shù)和人才的差距其實(shí)并不大,主要我們還是硬件部分受限,技術(shù)研究、軟件生態(tài)方面,基本上和美國不相向下。

張津京

BT財(cái)經(jīng)創(chuàng)始人

去年六月,我國大模型和人工智能頂級專家之一、清華大學(xué)的張鈸院士曾經(jīng)排序,指出國內(nèi)要想在大模型領(lǐng)域獲得突破。第一個(gè)要注意的是知識,第二個(gè)注意的就是算法,第三個(gè)是數(shù)據(jù),最后才是算力。

*小巴注:據(jù)業(yè)內(nèi)人士指出,知識可能是knowhow的意思,以供參考。

DeepSeek的做法,實(shí)際上就是跑通了張?jiān)菏康倪@套邏輯,也直接證明,國內(nèi)人工智能學(xué)界對這件事情的認(rèn)知和判斷是正確的。

與此同時(shí),它有可能會(huì)戳破美國制造的“人工智能硬件狂潮泡沫”。

所謂的人工智能硬件狂潮,簡單而言,即算力舉足輕重,由此英偉達(dá)的卡要做得越來越好,賣得越來越貴,買的人卻越來越多。因?yàn)樗懔Ω簧?,大模型就難以實(shí)現(xiàn)。

但現(xiàn)在的情況卻相反:不需要那么多的算力也可以搞出很好用的模型?;蛟S這也解釋了為什么當(dāng)前英偉達(dá)在到處尋找下一個(gè)階段人工智能的機(jī)會(huì),比如具身智能和機(jī)器人。

2025年的大模型發(fā)展,大概率會(huì)往這樣的方向發(fā)展。

第一,部分大模型不再沉醉于大規(guī)模的訓(xùn)練(OpenAI在GPT-5上的推遲就是一個(gè)信號),而是開始像DeepSeek精耕細(xì)作,做好內(nèi)部的訓(xùn)練。

第二,所有大模型都會(huì)去爭奪應(yīng)用領(lǐng)域,在細(xì)分場景里各自進(jìn)化——就我們團(tuán)隊(duì)的使用體驗(yàn)來說,數(shù)據(jù)分析解讀上,星火和通義千問就很不錯(cuò);文章寫作,文心一言效果最好;外文讀寫,智譜AI;豆包,多模態(tài)處理能力;Kimi大模型搜索上表現(xiàn)神奇等等——差異化競爭是未來方向。

業(yè)內(nèi)資深人士

從業(yè)內(nèi)視角看,DeepSeek橫空出世,肯定會(huì)面臨一些質(zhì)疑。原因在于,這么好的產(chǎn)品做出來了,但團(tuán)隊(duì)的成員,在歷史上都尚未發(fā)表過比較有價(jià)值的論文,也沒有成名的實(shí)戰(zhàn)項(xiàng)目,大家心里自然會(huì)犯嘀咕。

但這件事情比較振奮人心的一面在于,它說明,中國在工程能力和工程人才的儲(chǔ)備上,是比較夸張的,也是我們國家的核心優(yōu)勢。

就是我國科學(xué)家在面對這類問題時(shí),一貫的看法是,用系統(tǒng)和工程的視角看問題,絕對可以超越對手。

這是錢學(xué)森先生當(dāng)年提出的理論。

他將極其復(fù)雜的研制對象稱為“系統(tǒng)”,即由相互作用和相互依賴的若干組成部分結(jié)合成的具有特定功能的有機(jī)整體,而且這個(gè)“系統(tǒng)”本身又是它所從屬的一個(gè)更大系統(tǒng)的組成部分。

例如,研制一種戰(zhàn)略核導(dǎo)彈,就是研制由彈體、彈頭、發(fā)動(dòng)機(jī)、制導(dǎo)、遙測、外彈道測量和發(fā)射等分系統(tǒng)組成的一個(gè)復(fù)雜系統(tǒng);它可能又是由核動(dòng)力潛艇、戰(zhàn)略轟炸機(jī)、戰(zhàn)略核導(dǎo)彈構(gòu)成的戰(zhàn)略防御武器系統(tǒng)的組成部分。

研制這樣一種復(fù)雜工程系統(tǒng)所面臨的基本問題是:怎樣把比較籠統(tǒng)的初始研制要求逐步地變?yōu)槌汕先f個(gè)研制任務(wù)參加者的具體工作,以及怎樣把這些工作最終綜合成一個(gè)技術(shù)上合理、經(jīng)濟(jì)上合算、研制周期短、能協(xié)調(diào)運(yùn)轉(zhuǎn)的實(shí)際系統(tǒng),并使這個(gè)系統(tǒng)成為它所從屬的更大系統(tǒng)的有效組成部分。

從這個(gè)意義上來說,美國更崇尚自由探索,工程師以算法和軟件為主,最大的短板是工程師種類少、數(shù)量少、有吃苦精神的少。而中國恰恰相反,硬件工程師和可以“下工地”的工程師多。

比如,馬斯克是典型的系統(tǒng)論,所以在美國顯得特立獨(dú)行,但在中國就有情感共鳴,從造電動(dòng)汽車、火箭到人工智能,都有很強(qiáng)的系統(tǒng)論思想痕跡。

善攻者,敵不知其所守;善守者,敵不知其所攻。這基本就是美國和中國了。


相關(guān)內(nèi)容