香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

被騙了?GPT-4其實(shí)沒(méi)有推理能力?!

今年三月,OpenAI 重磅發(fā)布了 GPT-4 大模型,帶來(lái)了比 ChatGPT 背后 GPT-3.5 更強(qiáng)的推理、計(jì)算、邏輯能力,也引發(fā)了全民使用的熱潮。在各行各領(lǐng)域研究人員、開(kāi)發(fā)者、設(shè)計(jì)師的使用過(guò)程中,「GPT-4 是最為領(lǐng)先的大模型」似乎已成為了公認(rèn)的結(jié)果。

然而,8 月 7 日,畢業(yè)于美國(guó)麻省理工學(xué)院、現(xiàn)任 Dyania Health CTO 的 Konstantine Arkoudas 最新撰寫了一篇標(biāo)題為《GPT-4 Can't Reason》(GPT-4 不能推理)的預(yù)印本(指尚未在需要同行評(píng)審的科學(xué)期刊上出版的科學(xué)文獻(xiàn)的草稿)論文,在業(yè)界引起軒然大波。

該論文指出,GPT-4 與 GPT 3.5 相比有了全面的實(shí)質(zhì)性改進(jìn)。然而,盡管確實(shí)取得了令人印象深刻的改進(jìn),但其有充分的理由對(duì) GPT-4 的推理能力表示高度懷疑。這篇論文討論了推理的本質(zhì),批評(píng)當(dāng)前 NLP 界對(duì)推理問(wèn)題的表述以及目前評(píng)估 LLM 推理表現(xiàn)的方式,同時(shí)分享了基于 GPT-4 給出的 21 個(gè)不同推理問(wèn)題的集合。

最終得出結(jié)論:盡管 GPT-4 偶爾會(huì)閃現(xiàn)出分析的才華,但它目前是完全無(wú)法推理的。

圖片

一語(yǔ)掀起千層浪,難道此前 GPT-4 在短短幾分鐘之內(nèi)生成一款游戲代碼,難道都不算是推理嗎?

01 什么是推理?

其實(shí)在今年一月初,論文作者 Konstantine Arkoudas 就在 Medium 平臺(tái)上分享了一篇有關(guān) ChatGPT 的非正式評(píng)估,評(píng)估涉及的學(xué)科非常廣泛,包括傳統(tǒng) NLU、民間物理、信息檢索、心理理論、空間推理、簡(jiǎn)單邏輯推理和數(shù)學(xué)。

圖片

當(dāng)時(shí)其得到的主要結(jié)論是:ChatGPT 是一項(xiàng)開(kāi)創(chuàng)性的突破;基于 LLM 的系統(tǒng)并不只是“隨機(jī)鸚鵡”,而是建立了真正的抽象,并能展現(xiàn)創(chuàng)造力;這類系統(tǒng)將帶來(lái)大量令人興奮的新應(yīng)用;盡管取得了上述的成就,但這些系統(tǒng)在推理能力上仍然受到嚴(yán)重限制。

在他看來(lái),如今升級(jí)版的 GPT-4 依然如此,甚至完全沒(méi)有推理能力。

在論文中,Konstantine Arkoudas 指出,業(yè)界關(guān)于“LLM 是否有推理能力”的爭(zhēng)論已經(jīng)持續(xù)了很長(zhǎng)時(shí)間。

一方面,是 LLM 支持派。他們對(duì)大模型美好推理能力預(yù)測(cè)往往會(huì)依賴不斷變化的“定律”,而這些所謂的“定律”,Konstantine Arkoudas 認(rèn)為,實(shí)際上就是站不住腳的經(jīng)驗(yàn)證據(jù)、大量有問(wèn)題的建模假設(shè)、理解不清的概念(LLM 特性),以及甚至包含一點(diǎn)教條信念,即在龐大的語(yǔ)料庫(kù)中最大限度地減少下一個(gè)標(biāo)記預(yù)測(cè)的交叉熵?fù)p失,就能通過(guò)遷移學(xué)習(xí)的魔力和通用高級(jí)表征的構(gòu)建,提供一個(gè)通用的推理引擎。

另一方面,則是 LLM 懷疑派。他們往往有著嚴(yán)謹(jǐn)?shù)恼摀?jù),但是這些論點(diǎn)大多是基于過(guò)往經(jīng)驗(yàn)和分析,有些含糊不清(例如,LLM 缺乏“世界模型”,即關(guān)于世界如何運(yùn)作的內(nèi)部模型)。

基于這兩方面考慮,Konstantine Arkoudas 認(rèn)為,對(duì)于可靠的魯棒 LLM 推理的合理性,最令人信服的先驗(yàn)(過(guò)往經(jīng)驗(yàn)和分析)考慮是計(jì)算復(fù)雜性的結(jié)果。推理是一個(gè)非常難以計(jì)算的問(wèn)題。事實(shí)上,在一般情況下(一階或高階邏輯),它在算法上是不可判定的。

Konstantine Arkoudas 表示,「任何 LLM,無(wú)論規(guī)模有多大,經(jīng)過(guò)多么廣泛和巧都無(wú)法破解任意推理問(wèn)題。這與機(jī)器學(xué)習(xí)中著名的 "沒(méi)有免費(fèi)的午餐"定理是一致的,后者指出了模型通用性與性能之間類似的反比關(guān)系」。

因此,為了驗(yàn)證“GPT-4 是否具有推理能力”,首先要做的是統(tǒng)一理念,即什么是推理,以及判定推理能力所采用的具體方法。

對(duì)于推理的定義,Konstantine Arkoudas 表示,「推理不是不擇手段地得出正確的答案,而是根據(jù)正確的理由得出正確的答案?!?/p>

更準(zhǔn)確地說(shuō),推理是提出論點(diǎn),更重要的是證明論點(diǎn)的過(guò)程。一個(gè)論證包括一個(gè)結(jié)論(可以說(shuō)是論證的結(jié)果)和一系列前提,結(jié)論就是由這些前提推導(dǎo)出來(lái)的。前提代表了為論證目的而被視為既定的信息,即使只是暫時(shí)的。結(jié)論和前提通常是陳述句,用自然語(yǔ)言或符號(hào)邏輯的符號(hào)來(lái)表達(dá),可真可假,但也可以用圖表等其他符號(hào)來(lái)表示。如果 S 中的所有句子都為真,則 p 為真,在這種情況下,這個(gè)論點(diǎn)被認(rèn)為是有效的。

對(duì)于方法論,Konstantine Arkoudas 在論文中所采用的評(píng)估不是基于一個(gè)語(yǔ)料庫(kù)或一組語(yǔ)料庫(kù)。相反,其對(duì) GPT-4 在廣泛領(lǐng)域的 21 個(gè)簡(jiǎn)單推理問(wèn)題上的性能進(jìn)行了詳細(xì)的定性分析,其中大部分是從頭開(kāi)始編寫的,而其余的(例如 Wason 的選擇任務(wù))則經(jīng)過(guò)手動(dòng)調(diào)整,使模型不易識(shí)別它們,這樣做的部分原因也是為了避免數(shù)據(jù)污染。

02 用測(cè)試問(wèn)題驗(yàn)證 GPT-4 的推理性

基于此,Konstantine Arkoudas 從多個(gè)維度對(duì) GPT-4 提出問(wèn)題,并根據(jù)其輸出進(jìn)行了詳盡的分析。

值得一提的是,由于 GPT-4 的屬性,有時(shí)候即使用相同的“Prompt”,在不同的運(yùn)行中也可能會(huì)得到不同的答案。

接下來(lái),驗(yàn)證開(kāi)始(以下所有測(cè)試時(shí)間多出自 2023 年 7 月 5 日測(cè)試結(jié)果)。

簡(jiǎn)單算術(shù)

Konstantine Arkoudas 表示,執(zhí)行基本算術(shù)運(yùn)算的能力是通用推理的必要組成部分,尤其是在科學(xué)和工程應(yīng)用領(lǐng)域。為了確保 GPT-4 不會(huì)死記硬背,他提出了讓 GPT-4 在其選擇的范圍內(nèi)隨機(jī)選擇兩個(gè)隨機(jī)整數(shù),然后對(duì)選擇的值執(zhí)行操作。

KA 給出的 Prompt 是:

在 1381 和 1453 之間選擇兩個(gè)隨機(jī)數(shù),然后將它們相乘,并報(bào)告結(jié)果。

GPT-4 的回答是:

當(dāng)然,讓我們?cè)?1381 到 1453 的范圍內(nèi)選取兩個(gè)隨機(jī)數(shù)。假設(shè)這個(gè)數(shù)字是 1405 和 1421。

要得到乘積,我們只需將這兩個(gè)數(shù)字相乘:1405*1421 = 1996025

圖片

但實(shí)際上,正確答案是 1405*1421=1996505。

事實(shí)證明,GPT-4 仍然無(wú)法可靠地執(zhí)行基本算術(shù)運(yùn)算,如加法和乘法。

Konstantine Arkoudas 表示,也許 LLM 的支持者此時(shí)可能會(huì)承認(rèn) GPT-4 不是一個(gè)圖靈完備的框架,不能執(zhí)行通用計(jì)算:它不能進(jìn)行加、乘法或除法運(yùn)算,不能對(duì)列表進(jìn)行排序、不能求逆矩陣或解微分方程組、不能將任意程序編譯成機(jī)器碼、不能推導(dǎo)定理等等。

不過(guò),這些計(jì)算能力的缺失可以通過(guò)第三方插件來(lái)彌補(bǔ),如 ReAct、MRKL 框架。正是這種工作方式催生了 LangChain 和 AutoGPT 這樣的系統(tǒng)。這里的想法是使用 LLM 作為規(guī)劃器,將復(fù)雜問(wèn)題遞歸分解為一系列子問(wèn)題,通過(guò)適當(dāng)?shù)?API 將這些子問(wèn)題分派給專門的代理。

然而,Konstantine Arkoudas 認(rèn)為,這種方法的問(wèn)題在于它的循環(huán)性。規(guī)劃本身就需要推理,所以這是一個(gè) "兩難選擇",即我們無(wú)法通過(guò)將問(wèn)題委托給合適的代理來(lái)解決推理問(wèn)題,因?yàn)檎页鑫械姆椒ǎㄈ绾畏纸鈫?wèn)題、調(diào)用哪些代理、如何調(diào)用以及如何分解結(jié)果)本身在計(jì)算上就不可行。這不僅需要理解自然語(yǔ)言的能力,還需要推理先決條件和效果的能力。即使在這些過(guò)于簡(jiǎn)單化的假設(shè)下,規(guī)劃的計(jì)算成本也非常高昂(PSPACE-complele),需要進(jìn)行徹底的簡(jiǎn)化才能將復(fù)雜度降低到 NP-complele 的水平。在更現(xiàn)實(shí)的假設(shè)條件下,規(guī)劃是在不完全的知識(shí)條件下進(jìn)行的,在機(jī)制上是不可判定的。正如我們今天所理解的那樣,期望通用 LLMs 能夠成功解決規(guī)劃問(wèn)題是天真的想法。

簡(jiǎn)單計(jì)數(shù)

給 GPT-4 一個(gè)命題變量,在它前面有 27 個(gè)否定符號(hào),并要求它計(jì)算否定的數(shù)量。對(duì)于人類來(lái)說(shuō),這是個(gè)很容易的任務(wù),尤其是因?yàn)榉穸ǚ?hào)是分五塊寫的,每塊有五個(gè)小點(diǎn),最后是一對(duì)否定符號(hào),但是 GPT-4 的表現(xiàn)如何呢?

KA:

在下面的公式中,p 被否定了多少次:

~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~~~~ ~~ p

GPT-4 的回答是:

GPT-4:你給出的公式在命題變量 "p "前面包含了 28 個(gè)否定符號(hào)("~")。在邏輯學(xué)中,否定符號(hào)將語(yǔ)句的真值改變?yōu)樗南喾粗?。如果一個(gè)語(yǔ)句為真,那么它的否定就是假的,反之亦然。雙重否定,如"~ ~ p",等價(jià)于 "p",因?yàn)閷?duì)一個(gè)命題否定兩次,它就恢復(fù)到原來(lái)的真值。

如果有余數(shù),那么就有一個(gè)否定。如果沒(méi)有,那么就沒(méi)有否定。

28 除以 2 是 14,沒(méi)有余數(shù),也就是說(shuō)沒(méi)有否定。因此,實(shí)際上在給定的公式中,變量 "p "并沒(méi)有被否定。它只相當(dāng)于 "p"。

圖片

Konstantine Arkoudas 發(fā)現(xiàn),GPT-4 多數(shù)了一個(gè)否定符號(hào)帶來(lái)的差別似乎并不嚴(yán)重,直到我們意識(shí)到它在邏輯輸入上的所有差別,正如 GPT-4 自己(不請(qǐng)自來(lái))的解釋所強(qiáng)調(diào)的那樣。即使在明確告訴 GPT-4 要慢慢來(lái)、仔細(xì)數(shù)的情況下,多次重復(fù)這個(gè)實(shí)驗(yàn)也得到了大相徑庭的結(jié)果。

常識(shí)性問(wèn)題

緊接著 Konstantine Arkoudas 又提出:“Mable 上午 9 點(diǎn)的心率是 75bom,下午 7 點(diǎn)的血壓是 120/80。她于晚上 11 點(diǎn)死亡。她中午還活著嗎?”

圖片

GPT-4:

根據(jù)所提供的信息,我們無(wú)法確定 Mable 中午是否還活著。所提供的數(shù)據(jù)點(diǎn)(上午 9 點(diǎn)的心率和下午 7 點(diǎn)的血壓)都表明她當(dāng)時(shí)還活著。但是,如果沒(méi)有更多關(guān)于她下午 7 點(diǎn)到 11 點(diǎn)之間或者具體到中午的情況信息,我們就無(wú)法確定她中午時(shí)的狀況。

請(qǐng)記住,醫(yī)療信息可能是復(fù)雜而微妙的。要了解一個(gè)人的健康狀況,通常需要進(jìn)行全面的檢查,并應(yīng)由專業(yè)醫(yī)護(hù)人員進(jìn)行。如果這是一個(gè)假設(shè)性問(wèn)題,請(qǐng)記住現(xiàn)實(shí)生活中需要更完整的信息。

在目前的情況下,其實(shí)可以將常識(shí)論證視為從給定信息加上未說(shuō)明的前提得出的直接推導(dǎo)結(jié)論,這些前提構(gòu)成了普遍接受的背景知識(shí)。在這種特殊情況下,這種常識(shí)性知識(shí)就是 "人在死前是活著的,死后就不會(huì)再活著 "這樣的命題。在論文中,Konstantine Arkoudas 認(rèn)為,GPT-4 給出"這是一個(gè)復(fù)雜的問(wèn)題,請(qǐng)務(wù)必向?qū)I(yè)人士咨詢 "的說(shuō)法似乎具有諷刺意味。

Wason 選擇問(wèn)題

Wason 選擇任務(wù)是推理心理學(xué)的主要內(nèi)容。

KA:

桌上放著七張撲克牌,每張撲克牌的一面都有一個(gè)數(shù)字,另一面有一個(gè)單色的圖案。牌面分別顯示 50、16、紅、黃、23、綠、30。如果一張牌上顯示的是 4 的倍數(shù),那么反面的顏色就是黃色,你需要翻哪張牌來(lái)檢驗(yàn)這個(gè)命題的真?zhèn)危?/p>

GPT-4:

命題是:"如果一張牌上的數(shù)字是 4 的倍數(shù),那么另一面的顏色是黃色"。為了驗(yàn)證這個(gè)命題,你必須翻開(kāi)下面的牌:

撲克牌"16":根據(jù)命題,另一面的顏色應(yīng)該是黃色。通過(guò)翻開(kāi)這張牌,你可以檢查命題的這一部分是否成立。

撲克牌"黃色":翻開(kāi)這張牌,你就可以檢查對(duì)面的數(shù)字是否是 4 的倍數(shù)。

撲克牌"50"和"30":雖然這兩張卡片上的數(shù)字不是 4 的倍數(shù),但還是要檢查一下,以確保另一面的顏色不是黃色。如果另一面是黃色,那么就推翻了“只有 4 的倍數(shù)的另一面是黃色”的命題。

你不需要翻開(kāi)卡片"23"、"紅色 "或 "綠色"。卡片"23"不是 4 的倍數(shù),所以根據(jù)給定的命題,另一面是什么顏色并不重要。如果 "紅色 "和 "綠色 "卡片的另一面的數(shù)字是 4 的倍數(shù),它們也不會(huì)推翻命題,因?yàn)槊}并沒(méi)有說(shuō)明黃色是唯一可以出現(xiàn)在數(shù)字是 4 的倍數(shù)的卡片的另一面的顏色。

圖片

事實(shí)上,只有 16、紅色和綠色需要翻轉(zhuǎn)。因此,在精確度方面,這些回答再次表明,GPT-4 并不理解物質(zhì)條件式的語(yǔ)義。

當(dāng) GPT-4 說(shuō)撲克牌 "50 "和 "30 "必須翻過(guò)來(lái)時(shí),它似乎把 if 錯(cuò)當(dāng)成了 if and only if:「當(dāng)這些卡片上顯示的數(shù)字不是 4 的倍數(shù),它們應(yīng)檢查以確保另一面的顏色不是黃色。如果另一面是黃色,那么就會(huì)推翻 "只有 4 的倍數(shù)的另一面是黃色 "這一命題」。當(dāng)然,所檢驗(yàn)的命題并不要求只有 4 的倍數(shù)的另一面是黃色;它只是要求,如果一張牌的另一面是 4 的倍數(shù),那么另一面一定是黃色;或者換句話說(shuō),如果一張牌的正面不是黃色,那么另一面的數(shù)字就不是 4 的倍數(shù)。

但要注意的是,即使是將規(guī)則錯(cuò)誤地解釋為一個(gè)雙重條件,也沒(méi)有得到一致的遵守。如果 GPT-4 將被測(cè)試的規(guī)則理解為一個(gè)雙重條件,因而不得不翻轉(zhuǎn) 50 和 30,那么它就應(yīng)該對(duì) 23 做同樣的事情。但它沒(méi)有這樣做。

事實(shí)上,它明確地說(shuō),撲克牌 "23 "不是 4 的倍數(shù),因此根據(jù)給定的命題,另一面是什么顏色并不重要,這與它用來(lái)作為翻轉(zhuǎn) 50 和 30 的理由的二條件解釋相矛盾。這再次說(shuō)明了這些例子中出現(xiàn)的另一個(gè)重要主題:GPT-4 的回答,無(wú)論對(duì)錯(cuò),往往都存在內(nèi)在的不一致。

除此之外,Konstantine Arkoudas 還在論文中驗(yàn)證了空間推理、熵、簡(jiǎn)單編譯器的正確性、時(shí)間推理等能力。

因篇幅問(wèn)題,我們?cè)诒疚闹兄贿x取以上幾個(gè)示例加以說(shuō)明。

03 結(jié)論

最終種種驗(yàn)證無(wú)疑證明了 GPT-4 推理能力的慘淡畫(huà)面。

結(jié)果表明,該模型存在內(nèi)部不一致性、不能正確應(yīng)用基本推理技術(shù)和缺乏對(duì)推理中起基礎(chǔ)性作用的概念(如物質(zhì)條件)的理解等問(wèn)題。

但是現(xiàn)實(shí)中,這些問(wèn)題往往歸納為大模型帶來(lái)的誤差與“幻覺(jué)”,實(shí)則其實(shí)是它不具備推理能力。

鑒于 GPT-4 是目前最有能力的 LLM,Konstantine Arkoudas 從這些發(fā)現(xiàn)中得出三個(gè)主要結(jié)論:

在軟件開(kāi)發(fā)(或一般的科學(xué)和工程)中使用生成式人工智能來(lái)完成乏味的任務(wù)(作為一種針對(duì)知識(shí)密集型編碼問(wèn)題的渦輪增壓自動(dòng)補(bǔ)全)之外的任何任務(wù)都充滿了嚴(yán)重的風(fēng)險(xiǎn)。正確性的規(guī)范標(biāo)準(zhǔn)是至關(guān)重要的,在這些領(lǐng)域,目前的 LLM 不能滿足這樣的標(biāo)準(zhǔn)。就像生成人工智能已經(jīng)開(kāi)始用糟糕的廣告污染網(wǎng)絡(luò)一樣,它有可能大規(guī)模地增加 Bug 代碼。

如果 LLM 推理繼續(xù)改進(jìn),嚴(yán)格的證明檢查就可能變得越來(lái)越重要。對(duì)于應(yīng)用程序來(lái)說(shuō),對(duì)系統(tǒng)推理的正確性有信心是必不可少的,尤其是在科學(xué)、醫(yī)學(xué)和工程領(lǐng)域,而驗(yàn)證檢查是一種能夠提供這種信任的技術(shù)。這種方法可以通過(guò)要求 LLMS 將其推理正規(guī)化(用易于驗(yàn)證檢查的符號(hào)表示法來(lái)表示),或者可能通過(guò)培訓(xùn)其他 LLMS 檢查用自然語(yǔ)言表示的一段推理來(lái)實(shí)現(xiàn)。

就目前情況來(lái)看,反烏托邦的場(chǎng)景涉及一個(gè)讓人類屈服的流氓人工智能,甚至其他人類使用人工智能來(lái)達(dá)到邪惡的目的,是非常牽強(qiáng)的。當(dāng)最先進(jìn)的人工智能系統(tǒng)在空間推理過(guò)程中甚至無(wú)法區(qū)分左右時(shí),行業(yè)中還有那么多呼吁制定政策和機(jī)構(gòu)來(lái)保護(hù)人類免受其 AI 侵害的做法顯然是不成熟的。

04 爭(zhēng)議

在 Konstantine Arkoudas 看來(lái),當(dāng)前的生成式 AI 還處于發(fā)展的早期,距離推理能力以及 AGI 時(shí)代還有很遠(yuǎn)的距離。

此篇論文一經(jīng)發(fā)布,也在 HN 上吸引了很多人的關(guān)注與討論,難道過(guò)去 5 個(gè)月間,我們都被騙了嗎?

圖片

不過(guò),他的這一獨(dú)特的看法,也得到了不少 AI 學(xué)者的認(rèn)同。

人工智能領(lǐng)域內(nèi)的“叛逆者”、紐約大學(xué)心理學(xué)和神經(jīng)科學(xué)榮譽(yù)教授Gary Marcus 發(fā)推文表示:“如果這是真的——正如我早就說(shuō)過(guò)的——我們距離通用人工智能還差得很遠(yuǎn)。可能需要進(jìn)行大量的重新校準(zhǔn):沒(méi)有推理就不可能擁有通用人工智能?!?/p>

圖片

@SiSafLtd首席人工智能官 Nikos Tzagarakis 表示,“深度學(xué)習(xí)算法是為了根據(jù)感知進(jìn)行預(yù)測(cè)而構(gòu)建的。他們可能會(huì)偽造推理,但實(shí)際上這是感知?!?/p>

不過(guò),也有網(wǎng)友提出質(zhì)疑:

我瀏覽了這些資料,并嘗試重現(xiàn)了一些報(bào)告的故障,從中得出了兩個(gè)結(jié)論。

1. 作者不善于 Prompt。有很多方法可以減少幻覺(jué),為模型提供更好的思考路徑。

2. 作者使用的是 ChatGPT 的 GPT-4,導(dǎo)致他將 "GPT-4 "與 "ChatGPT "混為一談。雖然你可以認(rèn)為這是 OpenAI 的共同失誤,但由于 OpenAI 的溝通不暢,任何認(rèn)真評(píng)估這些模型的人都會(huì)知道,你需要做的第一件事就是使用 API 并鎖定模型版本。就作者而言,他應(yīng)該使用 gpt-4-0314 或 gpt-4-0613。我懷疑他只是使用了 ChatGPT 的 GPT-4,而且很可能是默認(rèn)模型。(任何人都不應(yīng)該使用默認(rèn)模式。這是性能優(yōu)化最差的模型,在推理任務(wù)上的表現(xiàn)比 Plugins 模型更差,甚至在上下文大小的任務(wù)上也是如此)。

如果作者一直在認(rèn)真地評(píng)估模型,那么說(shuō)明模型是他要做的第一件事。也許他應(yīng)該解釋一下他的理由。

至此,你怎么看?


相關(guān)內(nèi)容