欧美国产综合视频在线观看,亚洲毛片在线播放,国产成人精品视频频

成本是GPT的1/20，轟動硅谷的中國大模型DeepSeek是怎么做到的？

吳曉波頻道

2025-01-06 11:04:39

“善攻者，敵不知其所守；善守者，敵不知其所攻。這基本就是美國和中國了。”

站在匯金國際大廈，透過巨大的落地窗，京杭大運河一覽無余。樓下的環(huán)城北路，是杭州最繁忙的主干道之一。而在這座被嘈雜聲包圍的冷色調(diào)建筑里，誕生一家被美國硅谷稱為“東方神秘力量”的公司。

如今恐怕都不能用“火熱”“震驚”來形容它了。年末的時候，它迭代推出大語言模型DeepSeek-V3，報道稱“訓(xùn)練消耗的算力僅為最強大的開源模型Llama 3 405B的1/11”，轟動了全球AI圈。

這家“神秘”的公司便是“深度求索”，大模型產(chǎn)品叫DeepSeek，如今更新到第三代，手機注冊賬號，個人就能免費使用。創(chuàng)始人叫梁文鋒，80后，浙大高才生，也是深度求索母公司——私募巨頭幻方量化的創(chuàng)始人。

梁文鋒很低調(diào)，平時“看論文，寫代碼，參與小組討論”，甚至連DeepSeek機器人都反復(fù)糾正自己的老板叫“朱明杰”。他提前囤了一萬枚英偉達的GPU，在大語言模型大門關(guān)閉前一只腳跨了過去。深度求索成了除大廠外唯一一家能做通用大模型的中國初創(chuàng)公司。

公司成立一年半，很年輕，休息日不加班。保潔阿姨說是一群不起眼的小伙子和小姑娘。而這幫目光澄澈的年輕人中，一個名叫羅福莉的95后脫穎而出，她僅僅參與了上一代大模型的關(guān)鍵研發(fā)，就被雷軍用千萬年薪招至麾下，媒體叫她“天才少女”。

用梁文鋒受訪的話講，“看能力，而不是看經(jīng)驗”，核心技術(shù)崗位“基本以應(yīng)屆和畢業(yè)一兩年的人為主”。

過去的一年里，他們一邊搞研究，一邊拿著新鮮熱乎的論文評獎。當有了一個不錯的想法，公司會自上而下調(diào)動資源，所以即便一個實習生，都能在大模型的研發(fā)上貢獻頗多。在硅谷圈，他們被描述為“一批高深莫測的奇才”。

無論是團隊特征還是運作結(jié)構(gòu)，難免會讓人想起那股曾風靡AI界的力量——OpenAI。這便是媒體和早期采訪中DeepSeek的樣子。

DeepSeek的規(guī)模不大，算上梁文鋒不到150人，而OpenAI有2000多人?；蛟S，從它進入公眾視野的那一刻起，就注定會被拿來和OpenAI比較。

相較OpenAI的GPT系列產(chǎn)品，DeepSeek在訓(xùn)練方法和模型架構(gòu)上有多方面的創(chuàng)新。

雖然兩者都是基于Transformer架構(gòu)，但它采用了全新的MLA（多頭潛在注意力機制）架構(gòu)，能降低5%—13%的推理顯存，而自研的DeepSeekMoE架構(gòu)，大幅減少了計算量。

知名科技博主Rick 張打了個比喻：

OpenAI的訓(xùn)練方法是‘大水漫灌式’，拿來的數(shù)據(jù)放到‘黑盒’里訓(xùn)練，一次不行再試一次，直到行為止，因此很燒錢；DeepSeek是先一步利用算法，對數(shù)據(jù)進行總結(jié)和分類，然后輸送給大模型，類似把目錄和框架先給到大模型，再將所有內(nèi)容，按照這個分類和知識點，訓(xùn)練大模型理解并掌握。這意味著大模型的訓(xùn)練相比‘黑盒’變得更加規(guī)律和透明化。

通過此法，DeepSeek形成了最大競爭優(yōu)勢——便宜，而且便宜到了“不可思議”。

根據(jù)媒體報道，DeepSeek-V3僅用了2048塊GPU，訓(xùn)練了不到2個月，共花費550多萬美元。而GPT-4o模型訓(xùn)練成本約為1億美元，這意味著DeepSeek的成本只有GPT-4o的1/20。

OpenAI創(chuàng)始成員之一

對DeepSeek-V3超低訓(xùn)練成本感到震驚

鮮為人知的是，上半年中國大模型價格戰(zhàn)的“始作俑者”，正是DeepSeek。5月，DeepSeek-V2的推理成本被降到每百萬token僅1塊錢，是GPT-4 Turbo的1/70，智譜AI、豆包、通義千問等大模型先后跟進。

DeepSeek也因此解鎖新綽號——AI界拼多多。

然而，DeepSeek并非和價格戰(zhàn)中的一些玩家那樣一直“虧錢賺吆喝”。梁文鋒曾說：“我們的原則是不貼錢，也不賺取暴利。這個價格也是在成本之上稍微有點利潤?！?/p>

由于DeepSeek太過驚艷，難免會被懷疑“站在了巨人的肩膀上”。

科技圈知名研究員David 劉（化名），曾體驗過DeepSeek，他發(fā)現(xiàn)了一個早期的漏洞：當你問DeepSeek是誰的時候，機器人會回答“我是ChatGPT”。

圖源：網(wǎng)絡(luò)

“國內(nèi)做大模型有個套路，喜歡拿GPT訓(xùn)練，速度又快又隱蔽?！眲⒄f，“相互訓(xùn)練只是全球各大模型訓(xùn)練的常規(guī)操作。當你問谷歌大模型產(chǎn)品‘你是誰’時，它同樣會說‘我是文心一言’?！?/p>

不過，DeepSeek“站在了巨人的肩膀上”更多是指OpenAI為它提供了創(chuàng)新的“踏腳石”。

一位DeepSeek數(shù)據(jù)科學(xué)家表示，DeepSeek-V3采用的一項關(guān)鍵項目創(chuàng)新建立在FP8上訓(xùn)練模型，而非GPT使用的FP16。

簡而言之，F(xiàn)P8訓(xùn)練精準度更低。如果沒有GPT-4等前沿模型“鋪路”，用較低的精準度訓(xùn)練是不可能的。

打個比方。你想從A地到陌生的B地，你不知道如何到達，甚至懷疑到底能否到達時，就會變得小心翼翼，步履維艱。但如果A點到B點確定能到，而且只要按照大致方向前進，你就會放心大膽地向前跑。

清華大學(xué)人工智能學(xué)院教授沈陽認為，從深度思考來看，DeepSeek是國內(nèi)大模型第一，也是全球開源大模型第一。

DeepSeek

在不少業(yè)內(nèi)人看來，深度求索即將加入“大模型六小龍”的陣營。

“大模型六小龍”指的是，經(jīng)過一年多來的“百模大戰(zhàn)”，有六家估值超10億美元的獨角獸AI創(chuàng)業(yè)公司站穩(wěn)了腳跟，分別是智譜、MiniMax、月之暗面、百川智能、零一萬物和階躍星辰，它們帶著各自的產(chǎn)品緊跟國外領(lǐng)先大模型。

這六家公司都面臨同樣挑戰(zhàn)。在算力上缺乏高端芯片，只能通過AI人才優(yōu)化算法。商業(yè)化上面臨國內(nèi)大模型巨頭在開發(fā)和流量上的優(yōu)勢，它們積極尋找差異化應(yīng)用方向，以求在殘酷的競爭中活下來。

但深度求索是個例外。

在七家中國大模型明星創(chuàng)業(yè)公司中，它是“至今專注于研究和技術(shù)的公司，也是唯一一家尚未全面考慮商業(yè)化，選擇開源路線甚至都沒融過資的公司”。

或許梁文鋒真的試圖打破“國外從0到1，中國從1到N”的定式思維——歐美人搞基礎(chǔ)性研究，中國人負責應(yīng)用落地。

而從如今歐美科技圈的各種評論來看，圣誕節(jié)后的“大禮”，除了中國第六代戰(zhàn)機，可能沒有什么比推出一款對標GPT、訓(xùn)練成本只要500萬美元且開源的大模型更震撼了。以至于他們反思：難道電動車、無人機的故事，也會在AI領(lǐng)域重演嗎？

當然，關(guān)于DeepSeek是否真的如媒體報道的那樣效率極高、成本極低，還有待驗證。為此，我們請來了一些科技領(lǐng)域的專家，通過親身體驗，來客觀分析和評價一下DeepSeek的技術(shù)和前景，以及中美未來的圖景。

大頭有話說

張孝榮

深度科技研究院院長

關(guān)于DeepSeek的使用體驗，我有四個感受。

◎ 第一，在問題答復(fù)、文字處理方面，跟其他國產(chǎn)大模型相比，相差并不明顯，也時常容易出現(xiàn)AI幻覺。所謂的AI幻覺，指的就是AI工具給到的結(jié)論或資訊，存在一定的虛假成分或誤導(dǎo)性。

◎ 第二，相較于其他大模型，DeepSeek模型優(yōu)點體現(xiàn)在多模態(tài)處理、高分辨率圖片輸入、開源與商用授權(quán)政策上。換言之，能理解多種類型的數(shù)據(jù)，從圖片到音視頻等等；可以再大尺寸分辨率圖片中，識別圖中細小的物體；并提供開源商用授權(quán)，為開發(fā)者和研究者提供技術(shù)支持。

◎ 第三，不足之處主要體現(xiàn)在處理極端復(fù)雜的情形，或者非常規(guī)的視覺-語言（VLM）場景時，還需要進一步優(yōu)化。即讓大模型在同時接收處理一些非常規(guī)的圖像和文字時，表現(xiàn)有待提高。

◎ 第四，由于這個產(chǎn)品剛起步推廣，至今也沒有開發(fā)移動終端，社區(qū)和生態(tài)系統(tǒng)也有待完善。

進一步分析訓(xùn)練方法和原理，與包括OpenAI的其他大模型相比，DeepSeek在高效性和成本效益方面具有明顯優(yōu)勢。

DeepSeek采用了混合專家架構(gòu)（MoE）和多頭潛在注意力機制（MLA），通過顯著壓縮鍵值（kv）緩存為潛在向量，減少了推理過程中對鍵值緩存的需求，提高了推理效率。

而以O(shè)penAI為例，則更注重內(nèi)部思維鏈（internal chain of thought）的構(gòu)建，在回答問題前會主動思考，將復(fù)雜問題拆解為多個子問題。

此外，兩者在訓(xùn)練數(shù)據(jù)的選擇和優(yōu)化上可能也存在差異。

DeepSeek在架構(gòu)設(shè)計和優(yōu)化技術(shù)上進行了創(chuàng)新，包括混合專家架構(gòu)、多頭潛在注意力機制、優(yōu)化預(yù)訓(xùn)練語料庫等。這些技術(shù)使得DeepSeek能夠在保持性能的同時，大幅度降低計算和存儲需求。

通俗一點來說，包括以下做法：

1.數(shù)據(jù)壓縮：通過MLA架構(gòu)和FP8混合精度，減少數(shù)據(jù)量，降低內(nèi)存占用。

2.選擇性處理：優(yōu)先處理重要數(shù)據(jù)，簡化次要數(shù)據(jù)，提高訓(xùn)練效率。

3.知識蒸餾：利用教師模型生成高質(zhì)量數(shù)據(jù)，加速學(xué)生模型訓(xùn)練。

最終結(jié)果就是，DeepSeek-V3作為一款參數(shù)量高達671B的大型語言模型，在預(yù)訓(xùn)練階段只用了2048塊GPU，這一數(shù)字相比其他大型模型動輒幾萬塊GPU來說僅是個零頭，確實很少。

由于沒有直接驗證，關(guān)于坊間所謂的“DeepSeek以1/11算力訓(xùn)練出超過Llama 3 405B的開源模型”的真實性，我無法給出確切結(jié)論，如果這一說法屬實，那么它確實涉及到底層技術(shù)的革命性變化。

不可否認的是，DeepSeek-V3的訓(xùn)練方法確實給大模型訓(xùn)練降低研發(fā)成本提供了新思路。

作為AI領(lǐng)域的一股清流，DeepSeek專注于研究和技術(shù)的態(tài)度值得肯定，它的實踐打破了“算法越強算力需求越大”的認識誤區(qū)，證明了大模型對先進算力的依賴并非如想象中那么強烈，可以有低成本的選擇。同時，DeepSeek的開源策略也為整個AI行業(yè)帶來了積極影響，加速了技術(shù)的普及和應(yīng)用。

何帥

資深科技自媒體人

從體驗來看，DeepSeek有自己的優(yōu)點，比如在解決數(shù)學(xué)運算方面的邏輯性更強一些，但是在更廣泛的知識層面的問答、常識上的問答就和百度等主流模型以及OpenAI的大模型GPT-4尚存差距。

關(guān)于媒體或?qū)＜宜f的DeepSeek訓(xùn)練效率更高、成本更低這件事，甚至“用1/11的訓(xùn)練速度超過谷歌的Llama”等，目前還停留在報道層面，只是這些報道，再加上員工曾被小米高薪挖走等熱點的疊加，讓它突然火了起來。據(jù)我所知，它在量化交易上的表現(xiàn)較為優(yōu)異，但其他商業(yè)化方面暫沒有特別突出的表現(xiàn)，有待進一步觀察。

相對可以肯定的是，DeepSeek是“站在巨人的肩膀上”，當前國內(nèi)外的大模型發(fā)展都比較迅速，它作為“新人”自然可以集各家所長，進行訓(xùn)練數(shù)據(jù)的選擇、模型架構(gòu)的設(shè)計以及優(yōu)化訓(xùn)練策略，這可能是它表現(xiàn)優(yōu)異的原因之一。

至于拿它在訓(xùn)練效率上的突破，來延伸到對英偉達沖擊，我覺得可能性不大，至少目前的影響很小。

中美之間，技術(shù)和人才的差距其實并不大，主要我們還是硬件部分受限，技術(shù)研究、軟件生態(tài)方面，基本上和美國不相向下。

張津京

BT財經(jīng)創(chuàng)始人

去年六月，我國大模型和人工智能頂級專家之一、清華大學(xué)的張鈸院士曾經(jīng)排序，指出國內(nèi)要想在大模型領(lǐng)域獲得突破。第一個要注意的是知識，第二個注意的就是算法，第三個是數(shù)據(jù)，最后才是算力。

*小巴注：據(jù)業(yè)內(nèi)人士指出，知識可能是knowhow的意思，以供參考。

DeepSeek的做法，實際上就是跑通了張院士的這套邏輯，也直接證明，國內(nèi)人工智能學(xué)界對這件事情的認知和判斷是正確的。

與此同時，它有可能會戳破美國制造的“人工智能硬件狂潮泡沫”。

所謂的人工智能硬件狂潮，簡單而言，即算力舉足輕重，由此英偉達的卡要做得越來越好，賣得越來越貴，買的人卻越來越多。因為算力跟不上，大模型就難以實現(xiàn)。

但現(xiàn)在的情況卻相反：不需要那么多的算力也可以搞出很好用的模型。或許這也解釋了為什么當前英偉達在到處尋找下一個階段人工智能的機會，比如具身智能和機器人。

2025年的大模型發(fā)展，大概率會往這樣的方向發(fā)展。

第一，部分大模型不再沉醉于大規(guī)模的訓(xùn)練（OpenAI在GPT-5上的推遲就是一個信號），而是開始像DeepSeek精耕細作，做好內(nèi)部的訓(xùn)練。

第二，所有大模型都會去爭奪應(yīng)用領(lǐng)域，在細分場景里各自進化——就我們團隊的使用體驗來說，數(shù)據(jù)分析解讀上，星火和通義千問就很不錯；文章寫作，文心一言效果最好；外文讀寫，智譜AI；豆包，多模態(tài)處理能力；Kimi大模型搜索上表現(xiàn)神奇等等——差異化競爭是未來方向。

業(yè)內(nèi)資深人士

從業(yè)內(nèi)視角看，DeepSeek橫空出世，肯定會面臨一些質(zhì)疑。原因在于，這么好的產(chǎn)品做出來了，但團隊的成員，在歷史上都尚未發(fā)表過比較有價值的論文，也沒有成名的實戰(zhàn)項目，大家心里自然會犯嘀咕。

但這件事情比較振奮人心的一面在于，它說明，中國在工程能力和工程人才的儲備上，是比較夸張的，也是我們國家的核心優(yōu)勢。

就是我國科學(xué)家在面對這類問題時，一貫的看法是，用系統(tǒng)和工程的視角看問題，絕對可以超越對手。

這是錢學(xué)森先生當年提出的理論。

他將極其復(fù)雜的研制對象稱為“系統(tǒng)”，即由相互作用和相互依賴的若干組成部分結(jié)合成的具有特定功能的有機整體，而且這個“系統(tǒng)”本身又是它所從屬的一個更大系統(tǒng)的組成部分。

例如，研制一種戰(zhàn)略核導(dǎo)彈，就是研制由彈體、彈頭、發(fā)動機、制導(dǎo)、遙測、外彈道測量和發(fā)射等分系統(tǒng)組成的一個復(fù)雜系統(tǒng)；它可能又是由核動力潛艇、戰(zhàn)略轟炸機、戰(zhàn)略核導(dǎo)彈構(gòu)成的戰(zhàn)略防御武器系統(tǒng)的組成部分。

研制這樣一種復(fù)雜工程系統(tǒng)所面臨的基本問題是：怎樣把比較籠統(tǒng)的初始研制要求逐步地變?yōu)槌汕先f個研制任務(wù)參加者的具體工作，以及怎樣把這些工作最終綜合成一個技術(shù)上合理、經(jīng)濟上合算、研制周期短、能協(xié)調(diào)運轉(zhuǎn)的實際系統(tǒng)，并使這個系統(tǒng)成為它所從屬的更大系統(tǒng)的有效組成部分。

從這個意義上來說，美國更崇尚自由探索，工程師以算法和軟件為主，最大的短板是工程師種類少、數(shù)量少、有吃苦精神的少。而中國恰恰相反，硬件工程師和可以“下工地”的工程師多。

比如，馬斯克是典型的系統(tǒng)論，所以在美國顯得特立獨行，但在中國就有情感共鳴，從造電動汽車、火箭到人工智能，都有很強的系統(tǒng)論思想痕跡。

善攻者，敵不知其所守；善守者，敵不知其所攻。這基本就是美國和中國了。

上一篇：奧特曼驚呼奇點臨近！95%人類飯碗將被AI搶走，2028年百萬AI上崗

下一篇：被英偉達選中的中國公司

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放