香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

AI“百模大戰(zhàn)”打響,誰能稱王?

《科創(chuàng)板日報》4月28日訊(記者 張洋洋) “根據(jù)現(xiàn)在的反饋,任務性能測試上,包括ChatGPT在內(nèi),沒有一個大模型能夠全部達標?!边@基本上是業(yè)內(nèi)對雨后春筍般不斷涌現(xiàn)的人工智能大模型的共識。

ChatGPT推出后,基于大語言模型技術(shù)的同類型產(chǎn)品還在加快涌現(xiàn)。進入4月以來,從互聯(lián)網(wǎng)大廠,到A股上市公司,以及一眾創(chuàng)業(yè)公司,再加上高??蒲性盒#枷群蟀l(fā)布各自的大模型,總數(shù)已經(jīng)超過30家。

短短數(shù)月,多個模型競相涌現(xiàn),各家模型實力究竟如何?國內(nèi)大模型是否過剩了?行業(yè)終局,究竟是百花齊放,還是贏家通吃?在這場技術(shù)變革的討論聲中,大模型帶來的新能力里,哪些是最為關(guān)鍵的,最有可能帶來長期影響的?

AI大模型如雨后春筍 任務性能測試還未“滿分答卷”

據(jù)民生證券的統(tǒng)計,國內(nèi)已有超30個大模型亮相,行業(yè)儼然一副“百模大戰(zhàn)”的場景。

image

根據(jù)《科創(chuàng)板日報》記者約訪的人工智能行業(yè)人士反饋來看,業(yè)內(nèi)目前還沒有就具體模型給出直接的評判定論,但他們提供了一些維度,供外界做參考。

思必馳聯(lián)合創(chuàng)始人兼首席科學家、上海交通大學教授俞凱在接受《科創(chuàng)板日報》記者采訪時表示,一個必須要承認的事實是,現(xiàn)在的大模型,只有ChatGPT通過了通用性測試(用戶破億),國內(nèi)大模型與之對比,均還存在差距。

俞凱告訴記者,衡量一個大模型實力,第一是可以基于任務的性能測試,即通過定義任務集的方式,去比較所有大模型在每個任務上面的完成度。這種性能測試與人類能力對齊,包括理解能力、推理能力、判斷能力等。根據(jù)現(xiàn)在的反饋,任務性能測試上,包括ChatGPT在內(nèi),沒有一個大模型能夠全部達標。

第二,從安全性角度去判斷,這一點更多的體現(xiàn)為大模型與人類價值觀的耦合程度。

第三,是模型運行角度,從工程特性去判斷?!斑@是一個特別重要的能力?!?/span>俞凱強調(diào),如該大模型能夠接收多大的文本、回答反應的速度、運行的性能等。

俞凱所言,側(cè)重于技術(shù)指標。當然,也有從資源稟賦層面作出判斷的。

大模型領(lǐng)域資深行業(yè)人士王鈞(化名)則告訴記者,做大模型對團隊要求非常高,資金、技術(shù)、工程、產(chǎn)品、商業(yè)化等多個方面都不能有短板,最終考驗的是:核心成員對大方向、大節(jié)奏有沒有真正想清楚,能不能獲取足夠多的資源和支持,能否吸引各方面的關(guān)鍵人才加盟,吸引了一群不同背景的牛人之后,能不能磨合好。

“其中最稀缺的是核心算法研究和平臺工程的技術(shù)人才,這方面整個華人圈子人數(shù)都不多?!?/span>王鈞強調(diào)。

人才之爭,這在大模型市場的起勢階段已有十分鮮明的寫照。

“先發(fā)制人”的百度,派出的掌舵者是CTO王海峰,創(chuàng)業(yè)者團隊中,瀾舟科技的周明,銜遠科技的周伯文等,他們在人工智能行業(yè)的影響力已經(jīng)無需多言。此前,高調(diào)官宣人工智能創(chuàng)業(yè)的王慧文,入局的第一步就是在其個人社交媒體平臺發(fā)英雄帖,重金(新公司75%的股份)招聘頂級研發(fā)人才。

“判斷做得好不好的標準,不能看各公司自己的宣傳,一些業(yè)界公認的評測基準當然也可以作為參考,但最重要的還是用戶的認可,用戶尤其是高頻或者付費用戶最多的才是最好的?!蓖踱x稱。

“逼近了AGI核心 產(chǎn)業(yè)應用“泛化性”才是關(guān)鍵

囿于各種商業(yè)原因,對于各公司大模型實際的數(shù)據(jù)、測試反饋指標、投入的資源情況,乃至用戶數(shù)據(jù)等,外界很難全然知曉,那么對其實力情況,也很難去做全然科學的判斷。

但記者注意到,受訪者們均提到了一個顯性的評測角度,那就是“用戶反饋”,如回答的反應速度、準確性、可用性、上下文連貫邏輯等。這也是為何,每逢一個大模型新品推出,用戶第一時間會去關(guān)注回答是否會“翻車”。

就國內(nèi)當下幾個代表性大模型,《科創(chuàng)板日報》記者此前均有過實際體驗,結(jié)合多位用戶的使用反饋,目前大模型整體呈現(xiàn)如下特征:

ChatGPT-4是一個多模態(tài)大型語言模型,支持圖像和文本輸入,以文本形式輸出,在“模擬人類”的文本輸出方面,以及用戶規(guī)模上,綜合實力領(lǐng)先。

相比之下,國內(nèi)大模型種類多樣,能力各有千秋,目前更注重探索產(chǎn)業(yè)應用,用于解決產(chǎn)業(yè)技術(shù)壁壘問題。

在中文語義方面,國內(nèi)包括文心一言、千義通問等各模型理解能力有高有低,并未明顯拉開距離。在對刁鉆中文語句的理解方面,因國內(nèi)大模型的訓練數(shù)據(jù)主要來自中文語料庫,相比于ChatGPT主要來自英文語料庫,國產(chǎn)大模型因而會更勝一籌。

但也有個例。復旦大學邱錫鵬教授團隊發(fā)布國內(nèi)首個類ChatGPT模型MOSS,其英文回答水平比中文高,原因在于,英文作為科研主流語言,在學術(shù)界和工業(yè)界中得到廣泛應用,積累了大量高質(zhì)量的語料數(shù)據(jù),且相較中文數(shù)據(jù),英文數(shù)據(jù)開源程度高。

另外,MOSS在設(shè)計時考慮了人類的倫理道德準則,不會產(chǎn)生有偏見或可能有害的回答,這在一定程度會避免一些潛在的法律風險和商業(yè)倫理問題。這一點上,ChatGPT則沒有明確地處理。

大模型測評聲仍在此起彼伏。但俞凱坦言,目前去評判各模型能力如何以及好壞,其實不是合適的時間點。

在他看來,現(xiàn)在已經(jīng)面世的大模型,變革在于,基本都已實現(xiàn)思維鏈的涌現(xiàn)能力,逼近了AGI(通用人工智能)最核心的部分,業(yè)界現(xiàn)在更關(guān)注大模型是否有足夠的“泛化性”,即廣泛使用,但從產(chǎn)業(yè)角度而言,國內(nèi)大模型的用戶量級也還未達到泛在化。

“在未達到廣泛的通用性之前,以通用性的標準去做評判,還是需要慎重?!庇釀P強調(diào)。

大模型并未過剩 先發(fā)者未必就是"王者"

多個模型短期內(nèi)同時涌向市場,也有觀點提出,現(xiàn)在需要這么多大模型嗎?換句話說,大模型現(xiàn)在過剩了嗎?

行業(yè)普遍認為,盡管現(xiàn)在這么多大模型出現(xiàn),但還遠達不到過剩的程度。

王鈞認為,大模型對廠商的技術(shù)、資金、實力要求,目前只能說現(xiàn)在的產(chǎn)品剛剛能夠用得上。

俞凱表示,未來的行業(yè)AI應用范式將從一個通用模型變成一簇通用模型,大模型會分化,如按照領(lǐng)域區(qū)分,按功能區(qū)分,結(jié)合具體行業(yè)具體場景?,F(xiàn)在來看,非常專業(yè)的精深大模型還沒出來,這些會在今后不斷涌現(xiàn)。

達觀數(shù)據(jù)創(chuàng)始人兼CEO陳運文在接受《科創(chuàng)板日報》記者采訪時也表示,大模型賽道目前國內(nèi)是處于探索趕超階段,技術(shù)本身也還不成熟,未來還有很大的成長空間,“就像現(xiàn)在的飲料品牌一樣,如果拉長時間線來看,今天的大模型數(shù)量其實并不多?!?/p>

那么在未來,行業(yè)的終局,究竟是百花齊放,還是贏家通吃?

俞凱和陳運文均表示,未來將會是百花齊放的狀態(tài),原因就在于現(xiàn)在正處于起步階段,未來大模型在每個行業(yè)里面生長出來的產(chǎn)品形態(tài)都會不一樣,而面向不同的行業(yè),也將會出現(xiàn)垂直行業(yè)的應用模型。

王鈞則表示,大模型的高門檻決定了這是少數(shù)玩家才能做的事情,未來不會是百花齊放的姿態(tài),但究竟會不會像搜索引擎一樣一家獨大,還是操作系統(tǒng)只有兩三家的局面,亦或是云計算多家發(fā)展的格局,“現(xiàn)在沒法判斷,還是有些變量?!?/p>

多位資深業(yè)內(nèi)人士告訴《科創(chuàng)板日報》記者,在人工智能大模型上,OpenAI只是暫時一個暫時領(lǐng)先的“先發(fā)者”,微軟綁定OpenAI后確實取得了一定的競爭優(yōu)勢,但要看到谷歌、亞馬遜、Meta等也正在奮起直追。未來到底哪家公司能夠攜AI大模型取得類似蘋果今天一樣的全球市場地位,目前還極難判斷。先發(fā)者并不是最后王者的案例太多太多,以中國互聯(lián)網(wǎng)發(fā)展為例,最先出發(fā)的是新浪、搜狐、網(wǎng)易,但后面真正切得大蛋糕的卻是騰訊、阿里和字節(jié)等。

要更多地關(guān)注和深入思考AI的應用場景

無論是詫異ChatGPT的驚人表現(xiàn),還是對“百模大戰(zhàn)”的思考,今日種種關(guān)于大模型的討論,本質(zhì)無外乎這場技術(shù)革命給人類帶來的機會和挑戰(zhàn)。

但在網(wǎng)易有道CEO、計算機科學博士周楓看來,在這場技術(shù)風潮討論中,還有一個問題沒有被充分討論,那就是大模型帶來的新能力中,哪些是最為關(guān)鍵的,最有可能帶來長期影響的。

周楓認為,與之前眾多的自然語言處理技術(shù)相比,大語言模型至少具有三項根本性新能力:涌現(xiàn)能力、作為基座模型支持多元應用的能力、支持對話作為統(tǒng)一入口的能力。

周楓表示,涌現(xiàn)能力之所以重要,不僅因為它們是大模型出現(xiàn)后才有的新能力,而且由大模型涌現(xiàn)出來的,多數(shù)是非常重要的能力。例如,常識推理能力一直是AI領(lǐng)域的重大難題,而大模型的出現(xiàn)使得常識推理取得了重大進展。再比如,一旦‘推理‘能力涌現(xiàn),“思維鏈提示”策略就可以用來解決多步推理的難題。“因此,涌現(xiàn)能力的出現(xiàn),是大模型帶來的一項根本性變化”。

在基座模型方面,周楓說到,大型模型不僅可以縮短每個具體應用的開發(fā)周期,減少所需人力投入,也可以基于大模型的推理、常識和寫作能力,獲得更好的應用效果。因此,大模型可以成為AI應用開發(fā)的大一統(tǒng)基座模型,這是一個一舉多得、全新的范式,值得大力推廣。

本輪讓大語言模型真正火爆的契機,是基于對話聊天的ChatGPT。周楓表示,雖然之前的聊天機器人存在各種問題,但大型語言模型的出現(xiàn)再次讓聊天機器人這種交互模式可以重新想像。未來或?qū)⒂楷F(xiàn)出很多類似的以對話形態(tài)讓助手完成各種具體工作的項目。

“這三項能力在學術(shù)界已經(jīng)被廣泛討論,甚至被視為常識,但是在產(chǎn)業(yè)界和產(chǎn)品團隊中卻缺乏足夠的關(guān)注?!敝軛鞣Q,“這些大模型技術(shù)的特點已經(jīng)改變了我們對業(yè)務和產(chǎn)品規(guī)劃的思考方式,也會改變很多產(chǎn)品的經(jīng)濟模型。因此,產(chǎn)品經(jīng)理和業(yè)務負責人需要更多地關(guān)注和深入思考這些新能力的應用場景。”

俞凱也認為,在這場技術(shù)變革,除了技術(shù)層面的參數(shù)量級,資源層面的算法、算力、數(shù)據(jù)、人才資金等的討論,更需要關(guān)注的是,除大語言模型之外,其他與人工智能體系相關(guān)的東西。

這些就包括對語言的理解,對對話式人工智能的理解,以及對多模態(tài)人工智能的理解等。這些不僅是單獨算法的問題,還關(guān)涉業(yè)務,訓練策略,以及對人工智能技術(shù)歷程的理解。


相關(guān)內(nèi)容