當 OpenAI 在 2022 年 11 月底悄悄推出 ChatGPT 時,這家位于舊金山的人工智能公司幾乎不抱任何期望。誠然,OpenAI 內(nèi)部沒有人預料到這將引發(fā)一場病毒式的巨大熱潮。
自那時起,該公司一直在瘋狂追趕——并試圖從中獲利。
由此,《麻省理工科技評論》找到了 ChatGPT 幕后團隊,進行了一次深入的獨家專訪,以下是愛范兒編譯的專訪全文。
據(jù) OpenAI 政策部門的 Sandhini Agarwal 說,ChatGPT 最初被視為「研究預覽版」:對兩年前的技術(shù)的更加成熟的版本的預告,更重要的是,通過公眾的反饋嘗試糾正其中的一些缺陷。
「我們不想過分宣傳它,宣稱這是一個重大的根本性進步」,參與了 ChatGPT 研發(fā)工作的 OpenAI 研究員 Liam Fedus 說道。
為了深入了解這款聊天機器人——它是如何開發(fā)的,OpenAI 自發(fā)布以來如何不斷更新它,以及它的開發(fā)者如何看待其成功。
我們采訪了四名幫助建立這款已成為最受歡迎的互聯(lián)網(wǎng)應(yīng)用之一的人員。
除了 Agarwal 和 Fedus 之外,我還采訪了 OpenAI 的聯(lián)合創(chuàng)始人 John Schulman 和 OpenAI 校準團隊的負責人 Jan Leike。
校準團隊致力于解決人工智能如何實現(xiàn)用戶想要的行為(而無其他行為)的問題。
我得到的感覺是,OpenAI 仍然對其研究預覽的成功感到困惑,但已經(jīng)抓緊機會推進這項技術(shù),觀察數(shù)百萬用戶如何使用它并盡力修復出現(xiàn)的最大問題。
自 11 月份以來,OpenAI 已經(jīng)對 ChatGPT 進行了多次更新。研究人員正在使用對抗訓練技術(shù)來阻止 ChatGPT 被用戶誘導產(chǎn)生不良行為(也被稱為越獄)。
這項工作讓多個聊天機器人相互對抗:一個聊天機器人扮演對手的角色,通過生成文本來攻擊另一個聊天機器人,強迫它違反通常的約束并產(chǎn)生不想要的響應(yīng)。成功的攻擊被添加到 ChatGPT 的訓練數(shù)據(jù)中。希望它能學習忽略這些攻擊。
OpenAI 還與微軟簽訂了數(shù)十億美元的交易,并與貝恩(譯者注:一家全球管理咨詢公司)達成聯(lián)盟,后者計劃在其客戶(包括可口可樂)的營銷活動中使用 OpenAI 的生成性 AI 模型。
OpenAI 之外,圍繞 ChatGPT 的熱潮引發(fā)了對大規(guī)模語言模型的又一輪熱炒,全球各地的公司和投資者都加入了這場熱潮。
這僅僅三個月時間就產(chǎn)生了太多的炒作。 ChatGPT 的來源是什么?OpenAI 采取什么措施確保它已經(jīng)準備好公之于眾?他們下一步將做什么?
Jan Leike:坦率地說,這太讓人不知所措了。我們感到非常驚訝,一直在努力趕上進度。
John Schulman:在發(fā)布后的幾天里,我一直在查看 Twitter,那個時期我的消息流里滿是 ChatGPT 的截圖。
我預料到它對人們來說會很直觀,并且會有一定的追隨者,但我沒料到它會這般流行。
Sandhini Agarwal:看到人們開始如此廣泛地使用它,這對我們所有人來說都是一個驚喜。我們在這些模型上投入了太多的時間,使得我們常常會忘記對外界來說,這些模型有多驚人。
Liam Fedus:我們沒有預料到這款產(chǎn)品會如此受歡迎。畢竟之前有太多人嘗試開發(fā)通用聊天機器人了,我知道成功的可能性很小。然而,我們的私人測試已經(jīng)讓我們相信,我們有一些人們真正會喜歡的東西。
Jan Leike:我很想更好地理解這背后的原因——是什么在驅(qū)動著這一切病毒式傳播行為。說真的,我們不太明白。
團隊的部分困惑,源于 ChatGPT 的大部分技術(shù)并不新鮮。ChatGPT 是 GPT-3.5 的「精修版」,后者是 OpenAI 幾個月前發(fā)布的一系列大規(guī)模語言模型。而 GPT-3.5 本身又是 GPT-3 的更新版本,后者出現(xiàn)在 2020 年。該公司在其網(wǎng)站上提供這些模型的應(yīng)用編程接口 (API),使其他軟件開發(fā)人員可以輕松地將這些模型集成到自己的代碼中。OpenAI 還發(fā)布了 GPT-3.5 「先行預覽版」, 發(fā)布于 2022 年 1 月的 InstructGPT。但這些以前的技術(shù)版本中沒有哪一個像 ChatGPT 那樣面向公眾推出。
Liam Fedus:ChatGPT 模型是從與 InstructGPT 相同的語言模型微調(diào)后得到的,我們使用類似的方法進行了精細調(diào)整。我們添加了一些對話數(shù)據(jù)并稍微對訓練過程有過調(diào)整。所以我們不想過分宣傳它,宣稱這是一個重大的根本性進步。但事實證明,對話數(shù)據(jù)對 ChatGPT 有著極大的積極影響。
John Schulman:從標準基準評估來看,在這些模型之間的底層技術(shù)實力其實相差不大,但 ChatGPT 更易于訪問和使用。
Jan Leike:某種意義上,你可以將 ChatGPT 理解為是我們發(fā)布有些時日的 AI 系統(tǒng)的其中一個版本。
從底層來看,它并不比之前的模型強多少。在 ChatGPT 發(fā)布的近一年之前,同樣的基礎(chǔ)模型就已經(jīng)提供了 API。
另一方面,我們使它更符合人們想要做的事情。它在對話中與你交流,聊天界面易于使用,它試圖成為一個有用的工具。這是令人驚嘆的進步,我認為這是人們正在意識到的地方。
John Schulman:它更容易推斷意圖,用戶可以通過反復交流來達到自己想要的目的。
ChatGPT 的訓練方式與 InstructGPT 非常相似,都是用一種被稱為「人工反饋強化學習 (RLHF)」的技術(shù)。這是 ChatGPT 的殺手锏?;舅悸肥遣捎脙A向于隨意吐出任何內(nèi)容的大規(guī)模語言模型——在這種情況下是 GPT-3.5——并教它學習人類用戶的偏好進行響應(yīng),從而實現(xiàn)精細化調(diào)整。
Jan Leike:我們有一個龐大的團隊,去閱讀 ChatGPT 的提示和響應(yīng),判斷一個響應(yīng)是否比另一個響應(yīng)更佳。
所有這些數(shù)據(jù)然后被合并到一個訓練步驟中。其中大部分都是我們在 InstructGPT 中所做的事情。
你想讓它真的有用,你想讓它說真話,你想讓它變得無害化。
然后它還有一些專門用于產(chǎn)生對話和作為助手的特質(zhì)。
比如說,如果用戶的查詢指令不夠清晰,它應(yīng)該接著提出問題。它還應(yīng)該亮明自己是一個 AI 系統(tǒng)的身份,不應(yīng)假定自己沒有的身份,更不應(yīng)表明自己擁有本不具備的能力。
當用戶要求它執(zhí)行本不應(yīng)執(zhí)行的任務(wù)時,它必須明確拒絕。
在這次訓練中出現(xiàn)的一句話是「作為 OpenAI 訓練的語言模型......」這句提醒本非硬性規(guī)定,但它卻成為人類審核員對其給出高度評價的一點。
Sandhini Agarwal:事實正是如此。人類審核員必須根據(jù)一系列標準對模型進行評級,例如真實性。但他們開始傾向于那些他們認為是做得對的事,比如不要不懂裝懂。
由于 ChatGPT 使用的是 OpenAI 用過的技術(shù),所以團隊向公眾發(fā)布這個模型時,并沒有做特殊準備。他們認為自己為以前的模型設(shè)置的門檻已經(jīng)足夠高了。
Sandhini Agarwal:在準備發(fā)布時,我們不認為這個模型是一個新的威脅。GPT-3.5 早已存于世上,我們清楚它已足夠安全。而且 ChatGPT 通過對人類偏好的培訓,自己學習了拒絕,拒絕了許多請求。
Jan Leike:對 ChatGPT,我們確實進行了一些額外的「紅隊測試」(譯者注:全方位的攻擊模擬,以發(fā)現(xiàn)系統(tǒng)漏洞),OpenAI 的所有人都坐下來,嘗試「搞壞」該模型。我們有外援在做同樣的事。我們與老用戶進行過搶先體驗測試(Early-Access),后者給我們提供反饋。
Sandhini Agarwal:我們確實發(fā)現(xiàn)它產(chǎn)生了某些(人們)不想要的輸出內(nèi)容,但 GPT-3.5 同樣會產(chǎn)生這些東西。就風險方面而言,它作為研究預覽版,這就是它最初(被發(fā)布)的原因,所以其實問題不大。
John Schulman:你沒辦法等到你的系統(tǒng)完美再去發(fā)布。我們已經(jīng)對早期版本進行了幾個月的測試,參與者對產(chǎn)品印象都很好。
我們最大的擔心是其準確性,因為這個模型喜歡捏造事實。但 InstructGPT 和其他大規(guī)模語言模型已經(jīng)面世,所以我們認為只要 ChatGPT 在準確性和其他安全問題方面優(yōu)于前者,那推出它應(yīng)該沒太大問題。
發(fā)布前,我們確信這些模型在準確性和安全方面似乎是比其他模型更好,于是根據(jù)我們有限的評估,我們做出了發(fā)布的決定。
發(fā)布之后,OpenAI 一直在觀察人們?nèi)绾问褂盟谝淮慰吹疆斠粋€大型語言模型被放在數(shù)以千萬計的用戶手中時,它的表現(xiàn)如何,這些用戶可能想測試它的極限并發(fā)現(xiàn)它的缺陷。該團隊試圖抓住 ChatGPT 最有可能產(chǎn)生問題的例子,進而利用它們來優(yōu)化該模型的未來版本。
Sandhini Agarwal:我們還有很多后續(xù)步驟。我堅信 ChatGPT 的病毒傳播,會使我們已知且迫切想要解決的許多問題浮出水面并變得更加緊急。
比如,我們知道該模型仍存在偏見。是的,ChatGPT 非常擅長拒絕不良請求,但它也很容易受提示詞影響,讓其只能接受那些請求。
Liam Fedus:觀察用戶提供的豐富且創(chuàng)新的應(yīng)用場景,實在是令人感到興奮,但我們總是關(guān)注改進的領(lǐng)域。我們認為通過部署、獲取反饋并不斷改進的迭代過程,我們可以生產(chǎn)出最合乎需求且功能強大的技術(shù)。隨著我們的技術(shù)不斷演變,出現(xiàn)新的問題總是不可避免。
Sandhini Agarwal:在 ChatGPT 發(fā)布后的幾周時間里,我們查看了幾個用戶發(fā)現(xiàn)的最糟糕的案例,我指的是人們能看到的最糟的情況。我們初步評估了每個案例,并商量著如何去修復。
Jan Leike:(那些案例)有時是在 Twitter 上廣泛傳播的事件,也有一些人選擇私下聯(lián)系我們。
Sandhini Agarwal:我們發(fā)現(xiàn)許多問題實際上就是上面提到的越獄行為,是我們急待解決。不過由于用戶想盡辦法才能讓 ChatGPT 說出骯臟的話語,并非我們此前忽視了,我們也沒有感到太過驚訝。
盡管如此,這是我們目前正積極解決的問題。當我們發(fā)現(xiàn)越獄行為時,我們就把它們添加進我們的訓練和測試數(shù)據(jù)當中。我們看到的所有數(shù)據(jù)都會成為未來模型的一部分。
Jan Leike:每當我們有一個更好的模型時,我們就想把它放出來進行測試。我們自信地認為,一些有針對性的對抗性訓練,可以使越獄的情況得到很大的改善。
目前尚不清楚這些問題會否完全消失,但我們認為我們可以提高越獄的難度。
同樣,在發(fā)布之前,我們并不是不知道存在越獄的可能性。
只是我認為,一旦你部署下去,就很難去預測哪些行為會成為安全隱患。因此,我們把重點放在監(jiān)測人們使用該系統(tǒng)的目的上,觀察會發(fā)生什么,繼而對其作出響應(yīng)。
并不是說我們沒有主動去解決問題。而是當一個系統(tǒng)與現(xiàn)實世界接入后,我們沒辦法預見到所有可能發(fā)生的情況。
今年 1 月,微軟公布了必應(yīng) Chat,一款搜索聊天機器人,許多人認為它是 OpenAI 未公布的 GPT-4 版本(OpenAI 表示,Bing 是由我們下一代模型提供驅(qū)動的,微軟專門為搜索場景進行定制。它融合了 ChatGPT 和 GPT-3.5 的優(yōu)勢) 。
名聲在外的科技巨頭使用聊天機器人,這對那些負責建立基礎(chǔ)模型的人帶來了新的挑戰(zhàn)。