香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

人工智能走得太快,讓人跟不上節(jié)奏

編者按:人工智能的發(fā)展不是線性的,而是指數(shù)式的。指數(shù)式發(fā)展的特點是越往后越突破你的想象。本文是對最近AI領(lǐng)域發(fā)展情況的一次盤點,文章來自編譯。

過去的一個月徹底改變了人工智能的現(xiàn)狀,而最近一周,這個變化的速度更是顯著加快。AI實驗室推出了一系列新產(chǎn)品——部分具有革命性,部分屬于漸進式改進——讓人難以跟上節(jié)奏。我相信,這些變化當中有幾項屬于真正突破,它們將重塑人工智能的未來,也許也包括我們的未來。以下是當前的最新情況:

聰明的AI現(xiàn)已無處不在

去年年底,唯一公開可用的GPT-4/Gen2級別模型是GPT-4。但現(xiàn)如今,這類模型已經(jīng)多達六到十個,其中部分模型甚至開放權(quán)重,任何人都可以免費使用或修改。美國這邊有OpenAI的GPT-4o、Anthropic的Claude Sonnet 3.5、Google的Gemini 1.5、Meta的開源模型Llama 3.2、Elon Musk的Grok 2以及亞馬遜的新Nova。中國也推出了三種似乎達到GPT-4級別的多語言開源模型,阿里巴巴的Qwen、R1的DeepSeek以及01.ai的Yi。歐洲的唯一玩家是法國的Mistral。各種名字的大模型背后傳遞的信息是,構(gòu)建高性能人工智能并不需要OpenAI獨有的“魔法配方”,而是需要計算機科學(xué)人才以及訓(xùn)練模型所需的芯片和算力。

實際上,GPT-4級別的人工智能發(fā)布時曾令人震驚,引發(fā)了對未來的廣泛焦慮,但如今它已經(jīng)可以運行在我的家用電腦上。Meta本月發(fā)布的最新小型模型Llama 3.3就具備了類似的性能,并且可以完全離線運行在我的游戲PC上。而微軟的新型微型Phi 4同樣達到了GPT-4級,且?guī)缀踉谑謾C上就可運行,而其稍弱的前身Phi 3.5已經(jīng)完全可以在手機上運行??梢哉f,這種“一定程度的智能”已經(jīng)觸手可及。

正如我之前討論過那樣,這些無處不在的人工智能現(xiàn)在開始支持智能體了。這些智能體可是能夠追求自己目標的自治AI。之前我曾用早期智能體做過比價以及建筑工地的監(jiān)控,你能看出這意味著什么。

非常智能的AI已經(jīng)到來

這意味著,如果GPT-4級別的表現(xiàn)就是AI所能達到的最高水平的話,就已經(jīng)足以讓我們用五到十年時間的持續(xù)改變才能適應(yīng)它們的能力。但目前并沒有跡象表明AI的發(fā)展準備要踩剎車了。我們知道這一點,是因為過去一個月還有兩項重要發(fā)布——Gen3模型的初次亮相(可看作GPT-5級的模型)以及o1模型的發(fā)布。這些模型能夠在回答之前先“思考”,從而令其推理能力遠超其他大語言模型。目前Gen3還處在早期階段,因此本文只想重點談?wù)刼1。

我在o1-preview版本發(fā)布時曾經(jīng)提到過,但后續(xù)推出更復(fù)雜的o1和o1-pro極大地提高了該模型的能力。這些模型在回答問題之前會花時間在背后“思考”——模仿人類的邏輯問題解決過程。這種方法被叫做測試時計算(test time compute),事實證明這是提升模型問題解決能力的關(guān)鍵。實際上,這些模型現(xiàn)在足夠聰明,可以在許多領(lǐng)域的研究做出有意義的貢獻,無論是大規(guī)模的還是小規(guī)模的。

舉個有趣的例子,我讀到一篇談最近社交媒體恐慌的文章——一篇學(xué)術(shù)論文聲稱,黑色塑料餐具可能會令人中毒,因為這些東西部分是由回收電子垃圾制成。該文章提出,一種名為BDE-209的化合物可能會用極高的速度從這些餐具浸出,接近美國環(huán)保署規(guī)定的安全劑量臨界值。許多人因此扔掉了自己的鍋鏟,但麥吉爾大學(xué)的Joe Schwarcz認為這個結(jié)論不合理,并發(fā)現(xiàn)了論文第七頁的一個數(shù)學(xué)錯誤:作者將BDE-209的劑量錯誤地乘以了10倍——但論文作者以及同行評審都沒注意到這個。我很好奇o1能否發(fā)現(xiàn)這個錯誤。于是,我用手機將PDF文本粘貼進去,然后鍵入:“仔細檢查這篇論文里面的數(shù)學(xué)計算?!陛斎刖椭挥羞@些,o1一下子就發(fā)現(xiàn)了這個錯誤(其他AI模型并沒有發(fā)現(xiàn))。

當模型不僅能夠處理整篇學(xué)術(shù)論文,還能夠理解“數(shù)學(xué)檢查”這一任務(wù)的上下文,并且成功檢查出問題時,這已經(jīng)從根本上改變了AI的能力。實際上,我的實驗以及其他人所做的類似嘗試已經(jīng)讓人擬定了一項研究計劃,試圖了解o1發(fā)現(xiàn)科學(xué)文獻存在錯誤的頻率。目前我們還不知道o1能以多高的頻率完成這樣的壯舉,但顯然這值得進一步探索,因為這標志著能力邁向新的前沿。

即便是o1的早期版本preview model,也似乎代表了科學(xué)能力的一次飛躍。一篇由哈佛大學(xué)、斯坦福大學(xué)以及其他研究機構(gòu)的研究人員撰寫的醫(yī)學(xué)工作論文就震撼了學(xué)界。論文得出結(jié)論:“o1-preview在鑒別診斷、診斷性臨床推理和管理推理方面表現(xiàn)出了超人能力,在多個領(lǐng)域優(yōu)于上一代的模型以及人類醫(yī)生?!彪m然這篇論文尚未經(jīng)過同行評審,并不意味AI可以取代醫(yī)生,但這個發(fā)現(xiàn)與上述結(jié)果共同表明,在不久的將來,不拿AI作為第二意見可能會是一種錯誤。

可能更重要的是,有越來越多的研究人員告訴我,o1,尤其是 o1-pro,正在生成新穎想法,解決其所在領(lǐng)域那些意想不到的問題。問題是,現(xiàn)在只有專家才能評估人工智能是錯還是對。比方說,我非常聰明的沃頓商學(xué)院同事 Daniel Rock 讓我向 o1-pro發(fā)起挑戰(zhàn):“讓它用文獻里面沒有的證明來證明神經(jīng)網(wǎng)絡(luò)的通用函數(shù)逼近定理,要求不能 1)假設(shè)層無限寬以及2)超過 2 層?!?/p>

這種說法對嗎?我不知道。這已經(jīng)超出了我的專業(yè)范疇。丹尼爾等專家乍一看也無法判斷它是否正確,但覺得這件事情足夠有趣,值得研究。事實證明,該證明是有錯誤的(盡管與 o1-pro 進行更多交互可能會修復(fù)這些錯誤)。但這樣的結(jié)果還是提供了一些激發(fā)進一步思考的新方法。正如丹尼爾指出那樣,研究人員使用 o1 時不需要它做到正確才有用:“要求 o1 用創(chuàng)造性的方式完成證明其實是要求它成為研究同事了。這個模型不必做到證明正確才有用,它只需幫助我們成為更好的研究人員就行了?!?/p>

我們現(xiàn)在擁有的人工智能似乎能解決非常困難的博士級問題,或者至少可以作為研究人員的協(xié)同智能來有效解決這些問題了。當然,問題是,除非你自己是某個領(lǐng)域的博士,否則你其實并不知道這些答案正確與否,這給人工智能評估帶來了一系列新挑戰(zhàn)。需要進一步測試才能了解它能有多大用處,以及在哪些領(lǐng)域有用,但人工智能的這一新前沿能力仍值得關(guān)注。

人工智能會觀察你并跟你交談

AI語音模型已經(jīng)推出幾個月了,但最近一周,AI又新增了一項革命性的功能——視覺能力?,F(xiàn)在,ChatGPT和Gemini都能夠?qū)崟r觀看視頻并通過語音同時與用戶交互。比方說,我可以共享實時屏幕,讓Gemini新的小型Gen3模型Gemini 2.0 Flash為我這篇文章的草稿提供反饋。

或者,其實你可以親自上手免費試用。真的非常值得一試。Gemini 2.0 Flash還屬于小型模型,內(nèi)存有限,但體驗過后你會逐漸理解它的潛力。這些能夠通過視覺和語音這兩種最常見的人類感覺與人類進行實時交互的模型,可以將AI從電腦屏幕里的對話框中解放出來,變成你身邊的“同伴”。事實上,ChatGPT的高級語音模式也可以在手機上實現(xiàn)類似功能,這意味著這個能力已經(jīng)被數(shù)百萬用戶廣泛使用。隨著AI越來越貼近我們的生活,其影響將十分深遠而廣泛。

AI 視頻突然變得非常好了

過去一年,AI在圖像生成方面已經(jīng)表現(xiàn)得非常出色,許多模型甚至在我的筆記本電腦上就能生成與真實照片幾乎無異的圖像。這些模型的操作也變得更加直觀了。比方說,輸入“飛機上的水獺在用藍牙”或“飛機上的水獺在用Wi-Fi”,它們都能正確生成相關(guān)圖像。如果你想親自嘗試的話,不妨試試Google最近發(fā)布的Imagen 3,其ImageFX界面非常的簡便易用。

不過,上周的真正突破來自AI文本轉(zhuǎn)視頻生成器。此前,中國公司的AI模型一直是視頻生成領(lǐng)域最先進水平的代表,包括一些令人印象深刻的系統(tǒng),如Kling,以及一些開源模型。但這種情況正在迅速改變。首先,OpenAI發(fā)布了強大的Sora工具,然后Google推出了更加強大的Veo 2視頻生成器,頗有一種你追我趕交替領(lǐng)先的勢頭。

展示總是比講述更好,所以請看一下這個 8 秒剪輯的合集(目前的極限,盡管它顯然可以制作更長的電影)。我在每個剪輯中都提供了確切的提示,并且剪輯僅從 Veo 2 制作的第一組電影中選擇(它一次創(chuàng)建四個剪輯),因此沒有從許多示例中挑選。注意物體、陰影和反射的明顯重量和重量,在保持發(fā)型和細節(jié)的情況下跨場景的一致性,以及場景與我要求的接近程度(如果你尋找的話,紅色氣球就在那里)。有錯誤,但現(xiàn)在乍一看很難發(fā)現(xiàn)它們(盡管它仍然在努力處理體操,這對視頻模型來說非常困難)。真的令人印象深刻。

這一切意味著什么?

我會把更深入的反思留給后面的文章,但這里最重要的經(jīng)驗教訓(xùn)是,不管結(jié)果是好是壞,我們離人工智能發(fā)展的終點還很遠。值得注意的不僅是個別突破——比方說AI能夠檢查數(shù)學(xué)論文、生成接近電影質(zhì)量的視頻剪輯,或者運行在家用游戲PC上——而是技術(shù)變革的速度和廣度。一年前,GPT-4讓人看到了未來的曙光。而如今,它已經(jīng)可以運行在手機上,而更新的模型甚至能發(fā)現(xiàn)學(xué)術(shù)同行評審遺漏的錯誤。這種變革不是線性的進步——我們正在目睹人工智能以不均衡的方式迅速突破,甚至我們連評估其影響都變得困難起來。這表明,塑造這些技術(shù)對我們所在領(lǐng)域變革方式的機會就在當下,我們得趁局勢尚未明朗開始介入,等到變革完成之后才去應(yīng)對恐為時已晚。

譯者:boxi。


相關(guān)內(nèi)容