亚洲一级香蕉视频,午夜视频日本,91视频高清

DeepSeek突圍奧秘曝光，一招MLA讓全世界抄作業(yè)！150+天才集結(jié)，開出千萬年薪

新智元

2025-02-01 21:04:58

DeepSeek這波強攻，徹底把OpenAI逼急了——深夜緊急上線o3-mini。

整整半個月，中國AI承包了國內(nèi)外各大頭條，影響力只增不減。

關(guān)于DeepSeek模型訓(xùn)練數(shù)據(jù)、GPU用量、成員構(gòu)成、RL訓(xùn)練算法，早已成為所有人的關(guān)注焦點。

SemiAnalysis一篇深度報道中，從多個方面進行了推測——訓(xùn)練成本、對閉源模型利潤影響、團隊等等。

其中一些關(guān)鍵亮點包括：

DeepSeek不是「副業(yè)」，在GPU等硬件支出遠超5億美元，論文中600萬美元僅是預(yù)訓(xùn)練運行GPU成本，研發(fā)、硬件總擁有成本（TCO）被排除在外

DeepSeek大約有5萬塊Hopper GPU，包括特供版H800和H20

DeepSeek大約有150名員工，并定期從北大、浙大等招募頂尖人才，據(jù)稱有潛力的候選人能拿到超130萬美元（934萬元）薪水

DeepSeek一個關(guān)鍵創(chuàng)新——多頭潛注意力（MLA），耗時多月開發(fā)，將每個查詢KV量減少93.3%，顯著降低推理價格

o3性能遠超R1和o1，谷歌Gemini 2.0 Flash Thinking與R1不相上下

V3和R1發(fā)布后，H100價格猛漲，杰文斯悖論（Jevon?s Paradox）正發(fā)揮作用

5萬塊Hopper GPU，投資超5億美金

DeepSeek背后頂級投資者幻方量化（High-Flyer），很早就洞察到了AI在金融領(lǐng)域之外的巨大潛力，以及規(guī)?；渴鸬年P(guān)鍵重要性。

基于這一認知，他們持續(xù)擴大 GPU 投資規(guī)模。

在使用數(shù)千個GPU集群進行模型實驗后，幻方在2021年投資購入了10,000塊A100，這一決策最終證明是極具前瞻性的。

隨著業(yè)務(wù)發(fā)展，他們在2023年5月決定分拆成立「DeepSeek」，以更專注地推進AI技術(shù)發(fā)展。由于當時外部投資者對AI領(lǐng)域持謹慎態(tài)度，幻方選擇自行提供資金支持。

目前，兩家公司在人力資源和計算資源方面保持密切合作。

與媒體將其描述為「副業(yè)項目」不同，DeepSeek已發(fā)展成為一個嚴肅且協(xié)調(diào)有序的重要項目。即使考慮到出口管制的影響，高級分析師估計他們在GPU方面的投資規(guī)模已超5億美元。

據(jù)SemiAnalysis評估，他們擁有約50,000塊Hopper架構(gòu)GPU，這些計算資源在幻方和DeepSeek之間共享使用，并在地理位置上進行了分散部署，用于交易、推理、訓(xùn)練和研究等多個領(lǐng)域。

根據(jù)分析，DeepSeek在服務(wù)器方面的資本支出總額約為16億美元，而運營這些計算集群的成本高達9.44億美元。

150+頂尖人才，年薪934萬

在人才戰(zhàn)略方面，DeepSeek專注于招募中國本土人才，不過分看重候選人的過往履歷，而是更注重其實際能力和求知欲望。

他們經(jīng)常在北京大學(xué)和浙江大學(xué)等頂尖高校舉辦招聘活動，現(xiàn)有員工中很多都來自這些學(xué)校。

公司的職位設(shè)置非常靈活，不會過分限定崗位職責(zé)，招聘廣告甚至強調(diào)可以自由使用數(shù)萬個GPU資源。

他們提供極具競爭力的薪酬待遇，據(jù)報道為優(yōu)秀候選人提供的年薪可達130萬美元以上，遠超其他科技巨頭和AI實驗室的水平。

目前公司約有150名員工，并保持快速擴張態(tài)勢。

歷史經(jīng)驗表明，資金充足且目標明確的創(chuàng)業(yè)公司，往往能夠突破現(xiàn)有技術(shù)邊界。

與谷歌等大公司的繁瑣決策流程相比，DeepSeek 憑借自主融資的優(yōu)勢，能夠更快速地將創(chuàng)新理念付諸實踐。

有趣的是，DeepSeek在運營模式上卻與谷歌相似，主要依靠自建數(shù)據(jù)中心而非外部服務(wù)提供商。

這種模式為技術(shù)創(chuàng)新提供了更大的實驗空間，使他們能夠在整個技術(shù)棧上進行深度創(chuàng)新。

在SemiAnalysis看來，DeepSeek已經(jīng)成為當今最優(yōu)秀的「開源權(quán)重」（open weights）實驗室，其成就超越了Meta Llama、Mistral等競爭對手。

訓(xùn)練成本不止600萬美金

DeepSeek的定價策略和運營效率在本周引發(fā)了廣泛關(guān)注，特別是有關(guān)DeepSeek V3訓(xùn)練成本「600萬美元」的報道。

但事實上，預(yù)訓(xùn)練成本僅是整體投入中的一小部分。

訓(xùn)練成本解析

高級分析師認為，預(yù)訓(xùn)練階段的支出遠不能代表模型的實際總投入。

據(jù)他們評估，DeepSeek在硬件方面的累計投資已遠超5億美元。在開發(fā)新架構(gòu)的過程中，需要投入大量資源用于測試新理念、驗證新架構(gòu)設(shè)計和進行消融實驗（ablation studies）。

比如，作為DeepSeek重要技術(shù)突破的多頭潛注意力機制（Multi-Head Latent Attention），其開發(fā)周期就長達數(shù)月，消耗了大量的人力資源和計算資源。

論文中，提到的600萬美元僅指預(yù)訓(xùn)練階段的GPU直接成本，這只是模型總成本的一個組成部分。

其中并未包含研發(fā)投入、硬件設(shè)施的總擁有成本（TCO）等關(guān)鍵要素。

舉例來說，Claude 3.5 Sonnet訓(xùn)練成本就達到了數(shù)千萬美元。

如果這就是Anthropic所需的全部投入，他們就不會從谷歌籌集數(shù)十億美元，更不會從亞馬遜獲得數(shù)百億美元的投資。

這是因為他們需要持續(xù)投入實驗研究、架構(gòu)創(chuàng)新、數(shù)據(jù)采集與清洗、人才招募等多個方面。

算法優(yōu)化，讓性能差距縮小

V3無疑是一個令人矚目的模型，但需要在合適的參照系下評估其成就。

許多分析將V3與GPT-4o進行對比，強調(diào)V3超越了后者的性能。這個結(jié)論雖然正確，但需要注意GPT-4o是在2024年5月發(fā)布的。

在AI快速迭代的背景下，半年前的技術(shù)水平已顯得相對陳舊。

此外，隨著時間推移，用更少的計算資源實現(xiàn)相當或更強的性能，也符合行業(yè)發(fā)展規(guī)律。推理成本的持續(xù)下降正是AI進步的重要標志。

一個典型的例子是，現(xiàn)在可以在普通筆記本電腦上運行的小型模型，已能達到與GPT-3相當?shù)男阅芩?，而后者在發(fā)布時需要超級計算機進行訓(xùn)練，且推理階段也需要多個GPU支持。

換言之，算法的持續(xù)優(yōu)化使得訓(xùn)練和推理同等性能的模型，所需的計算資源不斷減少，這種趨勢在行業(yè)內(nèi)屢見不鮮。

目前的發(fā)展趨勢表明，AI實驗室在絕對投入增加的同時，單位投入所能獲得的智能水平提升更為顯著。

據(jù)估計，算法效率每年提升約4倍，這意味著實現(xiàn)相同性能所需的計算資源每年減少75%。

Anthropic CEO Dario的觀點更為樂觀，認為算法優(yōu)化可以帶來10倍的效率提升。

就GPT-3級別的模型推理成本而言，已暴降1200倍。

在分析GPT-4成本演變時，高級分析師還觀察到類似的下降趨勢，盡管仍處于成本優(yōu)化曲線的早期階段。

與前述分析不同的是，這里的成本差異反映了性能提升和效率優(yōu)化的綜合效果，而非保持性能不變的單純比較。

在這種情況下，算法改進和優(yōu)化措施共同帶來了約10倍的成本降低和性能提升。

值得強調(diào)的是，DeepSeek獨特之處在于他們率先實現(xiàn)了這一成本和性能的突破。

雖然開源模型權(quán)重的做法，此前已有Mistral和Llama等先例，但DeepSeek的成就仍然顯著。

考慮到行業(yè)發(fā)展趨勢，到今年年底，相關(guān)成本可能還會進一步下降5倍左右。

R1與o1打平手，「推理」新范式

另一個引人關(guān)注的問題是，R1能夠達到與o1相當?shù)男阅芩剑鴒1僅在去年9月才發(fā)布。

那么，DeepSeek是如何能在如此短的時間內(nèi)，實現(xiàn)這一跨越的？

其關(guān)鍵在于，「推理」這一新范式的出現(xiàn)。

與傳統(tǒng)范式相比，推理范式具有更快的迭代速度，且能以較少的計算資源獲得顯著收益。

正如SemiAnalysis在scaling law報告中指出的，傳統(tǒng)范式主要依賴預(yù)訓(xùn)練，這種方式不僅成本越來越高，而且越來越難以實現(xiàn)穩(wěn)定的性能提升。

新的推理范式，主要通過合成數(shù)據(jù)生成和在現(xiàn)有模型基礎(chǔ)上進行后訓(xùn)練強化學(xué)習(xí)來提升推理能力，這使得以更低成本獲得快速進展成為可能。

隨著業(yè)界逐步掌握這一新范式的擴展技巧，高級分析師預(yù)計不同模型之間在能力匹配上的時間差距可能會進一步拉大。

雖然R1在推理性能上確實達到了相當水平，但它并非在所有評估指標上都占據(jù)優(yōu)勢，在許多場景下其表現(xiàn)甚至不如 o1。

OpenAI最近發(fā)布的o3測試結(jié)果顯示，其性能提升幾乎呈現(xiàn)垂直上升趨勢。

這似乎印證了「深度學(xué)習(xí)遇到了瓶頸」的說法，只是這個瓶頸的性質(zhì)與以往不同。

谷歌推理模型，實力相當

在R1引發(fā)廣泛關(guān)注的同時，一個重要事實往往被忽視：谷歌在一個月前就推出了一款更具性價比的推理模型——Gemini Flash 2.0 Thinking。

這個模型不僅可以直接使用，而且通過 API 提供了更長的上下文長度。

在已公布的基準測試中，F(xiàn)lash 2.0 Thinking表現(xiàn)優(yōu)于 R1，盡管基準測試并不能完全反映模型的真實能力。谷歌僅公布了3項基準測試結(jié)果，這顯然不足以提供完整的對比。

即便如此，分析師認為谷歌的模型具有很強的穩(wěn)定性，在多個方面都能與R1分庭抗禮，只是沒有獲得應(yīng)有的關(guān)注度。

這可能部分源于谷歌欠佳的市場策略和用戶體驗，也與出乎意料的競爭者R1的到來有關(guān)。

需要強調(diào)的是，這些比較并不會削弱DeepSeek的突出成就。

正是憑借快速行動、充足資金、卓越智慧和明確目標的創(chuàng)業(yè)公司特質(zhì)，DeepSeek才能在推理模型的競爭中超越Meta這樣的科技巨頭。

中國MLA創(chuàng)新，讓全世界抄作業(yè)

接下來，讓我深入扒一扒DeepSeek所取得的領(lǐng)先實驗室尚未實現(xiàn)的技術(shù)突破。

SemiAnalysis高級分析師預(yù)計，DeepSeek發(fā)布的任何技術(shù)改進，都會被西方實驗室迅速復(fù)制。

那么，這些突破性進展是什么？

實際上，主要的架構(gòu)創(chuàng)新與V3模型密切相關(guān)，該模型也是R1的基礎(chǔ)模型。

訓(xùn)練（前期和后期）

不是「下一個token預(yù)測」，而是「多token預(yù)測」

DeepSeek V3以前所未見的規(guī)模實現(xiàn)了多Token預(yù)測（MTP）技術(shù)，這些新增的注意力模塊可以預(yù)測接下來的多個 Token，而不是傳統(tǒng)的單個Token。

這顯著提高了訓(xùn)練階段的模型性能，且這些模塊可以在推理階段移除。

這是一個典型的算法創(chuàng)新案例，實現(xiàn)了在更低計算資源消耗下的性能提升。

其他方面，雖然DeepSeek在訓(xùn)練中采用了FP8精度，但像全球一些頂尖的實驗室已經(jīng)采用這項技術(shù)相當長時間了。

DeepSeek V3采用了我們常見的「混合專家模型」（MoE）架構(gòu)，個由多個專門處理不同任務(wù)的小型專家模型組成的大模型，展現(xiàn)出強大的涌現(xiàn)能力。

MoE模型面臨的主要挑戰(zhàn)是，如何確定將哪個Token分配給哪個子模型（即「專家」）。

DeepSeek創(chuàng)新性地采用了一個「門控網(wǎng)絡(luò)」（gating network），能夠高效且平衡地將Token路由到相應(yīng)的專家，同時保持模型性能不受影響。

這意味著路由過程非常高效，在訓(xùn)練過程中每個Token只需要調(diào)整小量參數(shù)（相較于模型整體規(guī)模）。

這既提高了訓(xùn)練效率，又降低了推理成本。

盡管有人擔(dān)心MoE帶來的效率提升，可能降低投資意愿，但Dario指出，更強大的AI模型帶來的經(jīng)濟效益非?？捎^，任何節(jié)省的成本都會立即被投入到開發(fā)更大規(guī)模的模型中。

因此，MoE效率提升不會減少總體投資，反而會加速AI規(guī)?；M程。

當前，包括OpenAI、谷歌、Anthropic等一些公司正專注于擴大模型的計算規(guī)模，并提高算法效率。

V3打好了基礎(chǔ)，RL立大功

對于R1而言，它極大地受益于其強大的基礎(chǔ)模型——V3，這在很大程度上要歸功于強化學(xué)習(xí)（RL）。

RL主要關(guān)注兩個方面：格式化（確保輸出連貫性）以及有用性與安全性（確保模型實用且無害）。

模型的推理能力，是在對合成數(shù)據(jù)集進行微調(diào)過程中自然涌現(xiàn)的，這與o1的情況類似。

值得注意的是，R1論文中并沒有提及具體的計算量，因為披露使用的計算資源，會暴露DeepSeek實際擁有的GPU數(shù)量遠超過其對外宣稱的規(guī)模。

這種規(guī)模的強化學(xué)習(xí)需要龐大的計算資源，特別是在生成合成數(shù)據(jù)時。

談到蒸餾，R1論文最引人注目的發(fā)現(xiàn)可能是，通過具有推理能力的模型輸出來微調(diào)較小的非推理模型，使其獲得推理能力。

數(shù)據(jù)集包含了約80萬個樣本，現(xiàn)在研究人員可以利用R1的思維鏈（CoT）輸出創(chuàng)建自己的數(shù)據(jù)集，并借此開發(fā)具有推理能力的模型。

未來，我們可能會看到更多小模型展現(xiàn)出推理能力，從而提升小模型的整體性能。

多頭潛注意力（MLA）

如開頭所述，MLA是一項重要的技術(shù)創(chuàng)新，它顯著降低了DeepSeek模型推理成本。

與標準注意力機制相比，MLA將每次查詢所需的KV緩存減少了約93.3%（KV緩存是Transforme模型中的一種內(nèi)存機制，用于存儲表示對話上下文的數(shù)據(jù)，從而減少不必要的計算開銷）。

KV緩存會隨著對話上下文的增長而不斷擴大，這會造成顯著的內(nèi)存限制。

通過大幅減少每次查詢所需的KV緩存量，可以相應(yīng)減少每次查詢所需的硬件資源，從而降低運營成本。

MLA這項創(chuàng)新，特別引起了許多美國頂級實驗室的關(guān)注。實際上，MLA首次在2024年5月發(fā)布的DeepSeek V2中就已推出。

此外，由于H20芯片比H100具有更高的內(nèi)存帶寬和容量，DeepSeek在推理工作負載方面獲得了更多效率提升。

R1并非真正動搖o1技術(shù)優(yōu)勢

在利潤率方面，SemiAnalysis發(fā)現(xiàn)了一個關(guān)鍵現(xiàn)象：R1并非真正動搖了o1的技術(shù)優(yōu)勢，而是以顯著更低的成本實現(xiàn)了相似的性能水平。

這種現(xiàn)象本質(zhì)上符合市場邏輯，接下來高級分析師將提出一個框架，來分析未來價格機制的運作方式。

技術(shù)能力的提升往往能帶來更高的利潤率。

這種情況與半導(dǎo)體制造業(yè)的發(fā)展模式極其相似，只是節(jié)奏更快。就像臺積電每當率先突破新制程時，都能獲得顯著的定價優(yōu)勢，因為他們提供了此前市場上不存在的產(chǎn)品。

其他落后的競爭對手（如三星、英特爾）則會采取較低的定價策略，以在性價比上達到平衡。

對芯片制造商（在這個類比中，即AI實驗室）來說，一個有利條件是他們可以靈活調(diào)整產(chǎn)能分配。

當新型號能提供更優(yōu)的性價比時，他們可以將產(chǎn)能轉(zhuǎn)移到新型號的生產(chǎn)上。雖然舊型號仍會繼續(xù)支持，但會相應(yīng)減少其供應(yīng)規(guī)模。

這種策略模式與當前AI實驗室的實際運營行為高度吻合，也反映了半導(dǎo)體制造業(yè)的基本規(guī)律。

率先破局者，手握定價權(quán)

這很可能就是AI能力發(fā)展的基本規(guī)律。

率先突破到新的能力層次，將帶來可觀的價格溢價，而那些能夠快速追趕到相同能力水平的競爭者，只能獲得適度利潤。

如果能為特定應(yīng)用場景保留較低能力水平的產(chǎn)品，這些產(chǎn)品仍將繼續(xù)存在。

但能夠追趕到領(lǐng)先能力水平的公司，將隨著每一代技術(shù)更迭而逐漸減少。

所有人見證了，R1取得了領(lǐng)先水平，卻采用了0利潤率的定價策略。

這種顯著的價格差異不禁讓人質(zhì)疑：為什么OpenAI的價格如此之高？這是因為他們采用了基于SOTA的前沿定價策略，享受著技術(shù)領(lǐng)先帶來的溢價優(yōu)勢。

甚至就連剛剛上線的o3-mini，網(wǎng)友也不忘暗諷一下模型的定價

SemiAnalysis預(yù)計，AI未來的發(fā)展速度，將超過領(lǐng)先芯片制造業(yè)的發(fā)展節(jié)奏。

快速實現(xiàn)最新能力意味著可以保持定價權(quán)（如ChatGPT Pro），而能力落后則意味著更低的定價，主要收益將流向提供token服務(wù)的基礎(chǔ)設(shè)施提供商。

當前正處于技術(shù)快速迭代的周期，我們將會看到產(chǎn)品以前所未有的速度更新?lián)Q代。

只要科技公司能夠通過scaling能力來開發(fā)出新功能，并在這些功能基礎(chǔ)上創(chuàng)造價值，就應(yīng)該擁有定價權(quán)。

否則，開源模型市場將在下一代技術(shù)中迅速商品化。

在這種背景下，高級分析師認為，市場存在一個「根本性的誤解」。

芯片制造業(yè)是目前資本最密集的行業(yè)，雖然全球沒有任何行業(yè)在研發(fā)投入上超過半導(dǎo)體行業(yè)，但這個最接近的現(xiàn)實類比實際上表明——模型公司發(fā)展態(tài)勢越快，對高性能芯片的需求也越大。

將AI token與「杰文斯悖論」（技術(shù)進步提高效率反而增加資源消耗）進行比較時，我們可以發(fā)現(xiàn)深刻的歷史相似性。

最初，業(yè)界并不確定是否能持續(xù)縮小晶體管尺寸，但當這一可能性得到證實后，整個行業(yè)都致力于將CMOS工藝微縮到極限，并在此基礎(chǔ)上構(gòu)建有意義的功能。

目前，我們正處于整合多個CoT模型和能力的早期階段。

我們正在像早期縮小晶體管一樣scaling模型規(guī)模，盡管這在技術(shù)進步方面可能會經(jīng)歷一段異常忙碌的時期，但這種發(fā)展趨勢對英偉達來說無疑是利好消息。

免費，還能維持多久？

事實上，市場一直在尋找一個突破點，而這就成為了他們的選擇。

如果DeepSeek愿意接受零利潤率甚至負利潤率運營，他們確實可以維持如此低的價格水平。

但顯然，提供前沿token服務(wù)的價格彈性閾值要高得多?？紤]到DeepSeek正在籌備新一輪融資，這種策略對他們來說是有其戰(zhàn)略意義的。

DeepSeek剛剛在推理能力這個關(guān)鍵突破點上，打破了OpenAI的高利潤率格局。

但這種領(lǐng)先優(yōu)勢能持續(xù)多久？

SemiAnalysis對此持懷疑態(tài)度——這更像是一個開源實驗室展示了它能夠達到閉源實驗室的能力水平。

高級分析師確實認為，一個更強大的開源實驗室（而DeepSeek現(xiàn)在無疑是其中表現(xiàn)最好的）對新興云服務(wù)提供商（Neoclouds）和各類服務(wù)提供商來說是重大利好。

無論采用開源還是閉源模式，計算資源的集中度仍然至關(guān)重要。

但如果上層服務(wù)提供商選擇免費提供其產(chǎn)品，那么提升計算資源的商業(yè)價值就成為可能。

這意味著更多的資金將流向計算資源提供方而非閉源模型提供商，換句話說，支出將更多地流向硬件設(shè)施而非其他環(huán)節(jié)。

與此同時，軟件企業(yè)也將從這一趨勢中獲得巨大收益。

上一篇：特朗普與黃仁勛會面都聊了啥？有DeepSeek

下一篇：機構(gòu)：蒸餾技術(shù)大幅降低開發(fā)成本有望加速AI應(yīng)用實際落地

香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放