助力工作哪家強?
大模型的時代似乎真正到來了。
伴隨著8月31日凌晨百度文心一言的正式開放,首批語言大模型產(chǎn)品獲批名單也終于出爐。它們共有11家,基本都是生成式AI,主要面向C端用戶開放。也就是說,從這個秋天開始,每個人都可以直接使用到國內(nèi)最前沿的AI產(chǎn)品,感受新科技的魅力。
目前來看,在首次獲批的11款大模型產(chǎn)品中,有7款已經(jīng)可以直接使用,他們分別是:文心一言(文心大模型)、豆包(云雀大模型)、商量SenceChat(日日新大模型)、百川大模型、訊飛星火認知大模型、智譜清言(智譜AI ChatGLM2)、MM智能助理(MINIMAX-ABAB大模型)。
這些產(chǎn)品不僅包括了百度、字節(jié)這樣的大廠和領(lǐng)域獨角獸,還有高校、初創(chuàng)公司,可以說集合了國內(nèi)大模型賽道中的核心力量,也是一眾大模型產(chǎn)品中的佼佼者。
正如前文所說,包含ChatGPT在內(nèi)的眾多大模型產(chǎn)品,都在強調(diào)實際應(yīng)用的能力,尤其是在工作場景中的應(yīng)用,更是最受重視。作為一位內(nèi)容生產(chǎn)者,我也一直期盼著大模型能夠真正應(yīng)用于工作中,成為“解放生產(chǎn)力”的關(guān)鍵工具。
帶著興奮與期待,我第一時間對這7款產(chǎn)品進行了體驗。或許一個普通用戶的體驗遠遠稱不上是“測評”,但可以最直觀地展示大模型產(chǎn)品的實際應(yīng)用效果,通過最簡單的方式,感受AI大時代之下,每個人正在經(jīng)歷的浪潮。
七款大模型測評,誰最好用?
能不能實際嵌入打工人的“工作流”,決定著AIGC中的G是不是真的可用。從自身的工作場景入手。目前國內(nèi)主流的語言大模型都強調(diào)生成的能力,也就是AIGC中的G。在內(nèi)容生產(chǎn)上,很容易從不同環(huán)節(jié)去體驗這些大模型產(chǎn)品的實際能力,同時在使用中感受交互性、便捷性等實際問題。
首先是素材和數(shù)據(jù)搜集的能力,這是內(nèi)容生產(chǎn)的基礎(chǔ)。
我以“2021年中國演出市場規(guī)?!薄?022年中國電動車市場規(guī)?!睘轭}對七款產(chǎn)品進行了提問,文心一言、豆包、商量SenceChat、訊飛星火的發(fā)揮比較穩(wěn)定,成功給出了正確的數(shù)據(jù),其中豆包、商量SenceChat回答的較為全面,兩個問題都給出了產(chǎn)業(yè)規(guī)模,還給出了品類數(shù)據(jù),同比增長數(shù)據(jù)等信息,文心一言、訊飛星火則更簡潔,但給出的答案比較清晰。
文心一言關(guān)于2021中國演出市場的回答
百川大模型、智譜清言、MM智能助理相對來講表現(xiàn)稍弱,往往一個問題能給出答案,另一個問題卻無法解答,百川大模型和智譜清言也都在答案中直言“無法獲取實時數(shù)據(jù)”“我沒有找到確切的數(shù)據(jù)”,但仍舊會提供部分參考信息,例如更早年份的數(shù)據(jù)信息等,希望能為用戶提供幫助。
百川大模型關(guān)于2022電動車市場規(guī)模的回答
MM智能助理則相對更加生硬,相對于其他產(chǎn)品的對話模式,其體驗版本缺乏連續(xù)性。輸入“2021年中國演出市場規(guī)?!保缑嬷苯犹崾疚覔Q個問題,沒有做出任何回答。但只有該產(chǎn)品在回答數(shù)據(jù)問題時會列出數(shù)據(jù)內(nèi)容的參考來源,在“2022年中國電動車市場規(guī)?!钡幕卮鹬?,其給出的答案最詳細也最全面,并最后還做出了“規(guī)模會持續(xù)增長”的判斷。
同樣在回答中做出分析判斷的還有百川大模型和商量SenceChat,例如分析疫情對演出市場產(chǎn)生了影響,以及某些數(shù)據(jù)更值得注意等。但這并不排除是對網(wǎng)絡(luò)數(shù)據(jù)的直接抓取所導(dǎo)致的。
商量SenceChat給出的數(shù)據(jù)答案
在我們的日常生活中,對于實時熱點數(shù)據(jù)的需求也非常重要,因此我選擇了當下中文網(wǎng)絡(luò)中的熱點進行了提問,包含最近爆火的劇集《鵲刀門傳奇》、抖音達人“一笑傾城”,以及諾蘭執(zhí)導(dǎo)的電影《奧本海默》。
在這些產(chǎn)品中,百度文心一言發(fā)揮最為穩(wěn)定,文心一言會默認接入百度搜索,這也是其信息檢索能力的最大保證。訊飛星火也展現(xiàn)了出色的搜索能力,盡管另外兩個問題回答比較簡潔,但只有它準確的說出了一笑傾城的粉絲數(shù)。
而其他五款產(chǎn)品的表現(xiàn)都參差不齊。他們基本都能答出《鵲刀門傳奇》的基本信息以及《奧本海默》的實時票房數(shù)據(jù),但面對一笑傾城,不少產(chǎn)品開始“胡說八道”,字節(jié)的豆包都在這個問題上翻了車,名字、年齡、粉絲數(shù)全部答錯;百川大模型和智譜清言直接開始“廢話文學(xué)”,稱“一笑傾城”可能指的是一位擁有大量粉絲的知名博主,但無法給出具體信息;MM智能助理的答案最為詳細,甚至直接給出了抖音ID,但卻基本全部錯誤。
MM智能助理“一本正經(jīng)的胡說八道”
面對比較確定的資料與數(shù)據(jù),大模型們都能給出不錯的答案,但在更細分的熱點領(lǐng)域,他們?nèi)孕枰鄶?shù)據(jù)信息的訓(xùn)練與采集。
文本創(chuàng)作是工作中的重點。我首先用“智能駕駛市場觀察”為題,讓大模型們?yōu)槲易珜懱峋V,七款產(chǎn)品都給我提供了還不錯的答案,其中百川大模型和文心一言的表現(xiàn)不錯,提綱撰寫更具邏輯性,還會從智能駕駛技術(shù)的不同部分、年代進行劃分。值得注意的是,我在指令中特意強調(diào)了要結(jié)合“新聞事件”,大多數(shù)回答只是將其作為文章一部分籠統(tǒng)概括,只有訊飛星火列舉出了相關(guān)事件并引申出了話題。
訊飛星火給出的提綱
簡單的提綱撰寫完成,還需要考驗產(chǎn)品們的創(chuàng)意創(chuàng)作能力。我告訴它們,刺猬公社希望開辟一個新能源車領(lǐng)域的新板塊,需要一個名字以及100字的簡介。模型們都完成了任務(wù),百川大模型的名字比較詩意:“馭風者”,并且強調(diào)“寓意著我們在新能源汽車領(lǐng)域中駕馭著時代的潮流”。
其他的模型則較為常規(guī):電動時代、綠動未來、綠色動力,中規(guī)中矩中也體現(xiàn)了新能源車市場的特點。而大廠們則稍顯“嚴肅”,豆包給出的欄目名字就叫“新能源”,文心一言是“新能源車的江湖”,簡介開篇也有點不知所云,“江湖,是一個充滿故事和傳說的事物”。
在更專業(yè)的文本創(chuàng)作、例如視頻腳本的場景下,面對“探訪北京最后一家家樂?!倍桃曨l腳本撰寫任務(wù),大模型們都給出了不錯的答案,鏡頭、文案、畫面都頗有想法,從“最后一家家樂福”這一點出發(fā),給出了不少情懷滿滿的文案。表現(xiàn)比較驚艷的是豆包,短視頻畢竟是字節(jié)的優(yōu)勢內(nèi)容,它直接給出了一個詳細表格,包含景別、運鏡、時間、畫面、旁白等一系列內(nèi)容,甚至直接幫我挑選了配樂。不過,《We are the Champions》似乎并不太符合這個略顯傷感的主題。
豆包給出的視頻腳本
在文本創(chuàng)意上,各家大模型表現(xiàn)不錯,其中百川大模型、智譜清言、文心一言都表現(xiàn)出了其獨有的特質(zhì):百川更重邏輯分析,智譜清言學(xué)術(shù)氣息很重,文心一言則以信息量取勝。
智譜清言的輿論監(jiān)控報告
在圖文創(chuàng)作等方面,文心一言則有著絕對的優(yōu)勢。只有文心一言目前能直接通過數(shù)據(jù)制作圖表,并且通過其自帶的插件與指令進行AI作圖,也可以直接輸入圖像指令,進行圖生文創(chuàng)作。除了能輸入語音與圖片指令的訊飛星火外,其他六款產(chǎn)品基本只能輸出文本,并在回答里強調(diào)自己是“語言大模型”。
在文本校對、數(shù)據(jù)運算等方面,各家表現(xiàn)基本差距不大,文心一言還是通過強大的產(chǎn)品功能拔得頭籌,不僅可以在提問欄輸入長文本,還能直接上傳文件,實現(xiàn)文本摘要、問答、衍生創(chuàng)作等功能。MM智能助理的體驗感較差,除了體驗版限速外,其輸入欄還不能輸入過長的文本,這也導(dǎo)致校對等功能被迫缺失。
文心一言的文生圖功能
總的來說,更便捷好用的無疑是文心一言。得益于百度的強悍生態(tài)以及多年積累,在產(chǎn)品功能上更具優(yōu)勢,目前基本可以覆蓋全部工作流程,盡管效果見仁見智,但只有解決了“能不能”的前提下,才能保證“好不好”。
不得不說,不同的產(chǎn)品都有著不同的優(yōu)勢,如百川大模型的強邏輯性、訊飛星火的信息更新速度、豆包的英文學(xué)習(xí)等,如果想要真正為工作賦能,不如組合起來一起使用。畢竟小孩子才做選擇,成年人選擇“全都要”。
他們是誰?
這7款產(chǎn)品或許是賽道關(guān)注者眼中的熟客,但對于大眾來說,其中不少是新面孔。他們背后的公司是誰?為何能進入名單之中?想要了解這些產(chǎn)品真正的獨特之處,還是要深入了解它們的母公司。
文心一言一直是大模型熱以來國內(nèi)最受關(guān)注的產(chǎn)品之一,憑借在AI領(lǐng)域展現(xiàn)出的強大實力,百度也再次回到互聯(lián)網(wǎng)企業(yè)的中心點。文心一言正式發(fā)布于2023年3月,是百度AI十余年成果的集大成者,其背后是百度自主研發(fā)的文心大模型,也是國內(nèi)最頭部的大模型產(chǎn)品之一。之所以能在這一次的體驗中“拔得頭籌”,與百度的努力不無關(guān)系。
相對來講,豆包背后的抖音集團要更低調(diào)一些。云雀大模型的研發(fā)工作開始的較晚,消息也更少,但仍舊不耽誤字節(jié)的追趕,面對騰訊、阿里、華為一眾大廠AI產(chǎn)品勢頭正勁之時,字節(jié)率先追趕百度,以智能助理“豆包”為載體,搭上了公眾開放的首班車,令人驚訝。
目前來看,豆包的表現(xiàn)尚可,總體稱得上是“中規(guī)中矩”。跟市面上的其他大模型產(chǎn)品來講,豆包更人格化、使用的門檻更低,產(chǎn)品界面就像是普通的社交產(chǎn)品,而對象是智能助理“豆包”。合理猜測,字節(jié)正是希望用這種更接地氣的方式觸達更多的用戶,盤活幾個月的深度布局。
訊飛星火同樣入局較晚,但在過去的幾個月里,訊飛不斷地all in AIGC,也成功在賽道里嶄露頭角。2022年12月,訊飛才正式啟動對于大模型產(chǎn)品的專項研發(fā),作為專注語音領(lǐng)域的企業(yè),做一款更完備的語言大模型產(chǎn)品,只能說訊飛的野心很大。2023年5月,訊飛星火認知大模型正式發(fā)布,在教育、辦公等領(lǐng)域的AIGC表現(xiàn)出色,短短半年時間里成果斐然。
商量SenseChat背后是商湯科技推出的日日新SenseNova”大模型。在國內(nèi)人工智能賽道,商湯科技是無法繞開的。其成立于2014年,是國內(nèi)最早專注于AI領(lǐng)域的企業(yè)之一, 創(chuàng)始團隊源于2001年在香港創(chuàng)立的香港中文大學(xué)多媒體實驗室,有著很深的學(xué)術(shù)背景。日日新SenseNova”大模型推出于2023年4月,目前的商量SenseChat已經(jīng)是2.0版本,其參數(shù)更是達到千億級規(guī)模。
大廠與獨角獸們的聲勢浩大之下,初創(chuàng)企業(yè)們同樣值得關(guān)注。
百川大模型背后百川智能是近年來國內(nèi)AI賽道的明星公司之一,其由前搜狗CEO王小川創(chuàng)立,是AI熱潮的產(chǎn)物之一,成立半年不到,非常年輕。百川以超強的迭代速度震撼整個行業(yè),自6月發(fā)布中英文語言模型Baichuan-7B,其已經(jīng)發(fā)布了三款大模型產(chǎn)品,這次更是直接開放訪問,來到大眾面前。
百川智能就像創(chuàng)始人王小川一樣,學(xué)霸背景、明星創(chuàng)業(yè)者,天然就能吸引市場的目光。
智譜清言則是智譜ai推出的C端產(chǎn)品之一。智譜AI則是高校研發(fā)的代表,是由清華大學(xué)計算機系知識工程實驗室的技術(shù)成果轉(zhuǎn)化而來的AI初創(chuàng)公司,入局也更早,成立于2019年6月。智譜AI合作研發(fā)了雙語千億級超大規(guī)模預(yù)訓(xùn)練模型GLM-130B,推出了認知大模型平臺Bigmodel.ai。除了智譜清言外,還推出了CodeGeeX和CogView等應(yīng)用產(chǎn)品。
得益于自身高校背景,智譜已達成許多政企合作,在一眾初創(chuàng)公司中,智譜AI在商業(yè)落地上已經(jīng)擁有了不錯的成績。
相對“難用”的MM智能助理背后的MiniMax也是一家AI初創(chuàng)公司,成立于2021年11月,與商湯科技有著不小的聯(lián)系,創(chuàng)立人為前商湯科技副總裁、通用智能技術(shù)負責人閆俊杰。目前MiniMax已經(jīng)歷經(jīng)三輪融資,發(fā)布了包括文本到視覺/語音/文本三個基礎(chǔ)模型架構(gòu),推出自研通用大模型“ABAB”,以及虛擬聊天軟件Glow、生成式對話AI產(chǎn)品Inspo等。
值得注意的是,Minimax的估值很高,是大模型初創(chuàng)公司中最具商業(yè)價值的公司之一,在完成了新一輪2.5億美元融資后,整體估值超過12億美元。盡管從體驗上略有缺失,但Minimax的技術(shù)實力絕對不容小覷。
大模型賽道,風起云涌
大模型賽道早已沸騰多時,但這一次的獲批開放意義非凡:
這標志著大模型產(chǎn)品真正開始走向公眾,市場與商業(yè)的殘酷磨礪已經(jīng)來到玩家們眼前,產(chǎn)品端的“亮劍”只是一個開始。
AIGC的市場仍舊是藍海,無論是大廠還是初創(chuàng)公司都垂涎欲滴。據(jù)艾瑞咨詢預(yù)測,2023 年中國 AIGC 產(chǎn)業(yè)規(guī)模約為 143 億元,2028 年產(chǎn)業(yè)規(guī)模預(yù)計將達到 7202 億元,到 2030 年將突破萬億規(guī)模,達到 11441 億元。更重要的是,自chatgpt4發(fā)布以來,互聯(lián)網(wǎng)科技產(chǎn)業(yè)的未來的方向似乎從未如此清晰:誰抓住了AI,誰就掌握了未來。
于是,百模大戰(zhàn)應(yīng)聲而起。無論是自研大模型,還是垂直領(lǐng)域的中小模型,以及基于大模型技術(shù)開展業(yè)務(wù)的公司如雨后春筍。但世界是殘酷的,對于不少企業(yè)來說,悶頭研發(fā)不管用了,生存的問題已經(jīng)近在眼前。相對于剛剛爆發(fā)時的熱情,投資人們也開始更謹慎地審視這個賽道,誰能講出新故事,誰才能成為下一個“燒錢”換未來的成功者。
大模型領(lǐng)域尤其激烈,作為整個aigc的技術(shù)基底,大模型的重要性猶如芯片之于手機。從首批獲批的大模型名單中我們就能窺見AI江湖風起云涌。
以百度為例,如果說3月的首次發(fā)布還帶著一些被GPT4“趕鴨子上架”的窘迫,那么時隔近6個月,文心一言的全民開放更像是“龍王歸位”——五個月里,文心一言飛速進化,其從數(shù)萬億數(shù)據(jù)和數(shù)千億知識中不斷訓(xùn)練,并采用有監(jiān)督精調(diào)、人類反饋的強化學(xué)習(xí)和提示等技術(shù),不斷提升著自身的技術(shù)優(yōu)勢。
在WAVE SUMMIT深度學(xué)習(xí)開發(fā)者大會上,百度首席技術(shù)官王海峰再次提及了文心大模型、飛槳平臺、AI原生應(yīng)用如流等一系列技術(shù)發(fā)展,其中擁有超過800萬開發(fā)者的飛槳功不可沒,進一步帶動了文心一言的進化。百度是大廠中最好的案例,厚積薄發(fā),AIGC也是其實現(xiàn)二次崛起的唯一機會,能否保持住領(lǐng)先優(yōu)勢,至關(guān)重要。
wave summit大會上王海峰的發(fā)言
其他巨頭也并不是吃素的。不講尚未發(fā)布的通義千問(阿里)、盤古大模型(華為),在很多人眼中“落后”的字節(jié)就是一個最好的案例,事實上,在過去的幾個月里,字節(jié)一直在進行更基礎(chǔ)的布局工作。
現(xiàn)如今的一眾大廠中,字節(jié)在資金、人才,還是數(shù)據(jù)、算力,其都有著很深的積累,AIGC產(chǎn)品只是時間問題,字節(jié)選擇不冒進,更穩(wěn)的讓產(chǎn)品落地。2023年6月,字節(jié)就發(fā)布大模型服務(wù)平臺 " 火山方舟 ",吸收集合了多家 AI 科技公司及科研院所的大模型產(chǎn)品,率先開始企業(yè)端服務(wù),現(xiàn)如今的豆包,就是字節(jié)向C端進發(fā)的開始。
對于一些獨角獸公司來說,大模型更是“彎道超車”的重要機會,訊飛、商湯科技都有著類似的期望。
對于訊飛這樣一家領(lǐng)域巨頭來說,能夠如此快的研發(fā)出大模型產(chǎn)品,并非易事,前不久,訊飛高調(diào)宣布了與華為的合作,這或許也能為我們解答一些疑惑。在7月的投資者說明會上,訊飛也再次強調(diào)了對于大模型產(chǎn)品研發(fā)的堅定,下半年繼續(xù)all in。對于訊飛來說,這是一個絕佳的實現(xiàn)二次生長的機會,但在商業(yè)仍未落地的情況下,風險并不算低。
而在首批獲批名單中,大語言模型“書生·浦語”(internlm-123b)備受關(guān)注。據(jù)悉,其在12項評測中超越gpt-4,綜合性能全面超越gpt-3.5-turbo。而在其背后,除了上海人工智能實驗室等多家科研機構(gòu)外,商湯科技也是其中之一。多方下注,已經(jīng)成為玩家們的策略之一。
書生·浦語開源體系
就像騰訊,除了發(fā)布NLP萬億大模型——混元(HunYuan)AI 大模型之外,還投資了多家AI領(lǐng)域初創(chuàng)公司,百川大模型就是其中之一。在百川背后還能看到小米科技、金山軟件,紅點資本等大企業(yè),每一個明星公司的成功都不是偶然。
智譜AI也已經(jīng)完成4輪融資,而最近的一輪是由美團戰(zhàn)略獨資完成的。目前智譜A已經(jīng)估值近5億美元,除了美團外,背后還有多家資本公司的助力。
在大模型戰(zhàn)爭中,沒有人愿意落在后面,無論是自研、還是投資,整個互聯(lián)網(wǎng)產(chǎn)業(yè)都在卷入其中。
但幸運的是,殘酷的商業(yè)故事暫時還與用戶無關(guān)?!盁X”內(nèi)卷之下,大模型產(chǎn)品不斷問世、迭代,AGI(通用人工智能)也隨之洪波涌起。每個人都能夠成為技術(shù)的受益者,在這一次的體驗測評中,我深刻感受到了AI對于工作、生活的改變,伴隨著余下幾款大模型產(chǎn)品的開放,我們或許真的將迎來一個全新的時代:關(guān)于生產(chǎn)力的解放,更關(guān)于世界的未來。