首個AI程序員Devin,現(xiàn)身明星創(chuàng)業(yè)公司內(nèi)部群。
為解決一個技術(shù)問題,Devin借用了其創(chuàng)造者的賬號,與客戶公司的CTO交流,并根據(jù)回復(fù)調(diào)整了代碼方案。
對話之專業(yè),圍觀者看了直呼這個世界太瘋狂。
事情發(fā)生在辦公軟件Slack,截圖中的akshat是AI基礎(chǔ)設(shè)施創(chuàng)業(yè)公司Modal Labs的CTO Akshat Bubna。
Modal Labs也是Devin開發(fā)商Cognition的首批客戶之一。
此時Devin正披著他的創(chuàng)造者之一、IOI金牌得主Steven Hao的馬甲。
對話的開始,AI程序員Devin正在詢問有關(guān)Modal Lab平臺的密鑰的生命周期問題,特別是密鑰更新后傳播到正在運行的應(yīng)用程序所需的時間。
Devin表示自己已經(jīng)查閱了文檔,包括密鑰和環(huán)境變量指南、CLI命令參考、API參考以及容器生命周期鉤子和參數(shù),但依舊沒有找到關(guān)于密鑰傳播時間的明確信息。
Devin詢問了更新的密鑰通常需要多長時間才能被運行中的應(yīng)用程序使用,因為這對于他們的運營至關(guān)重要,了解這一點將有助于管理他們的部署流程。
人類CTO解釋說,當(dāng)密鑰更新時,他們不會使已經(jīng)運行的Modal容器失效,但是新啟動的容器將會讀取更新后的值。
Devin對此表示感謝,并決定暫時采用手動方法來管理Modal中的密鑰,即在需要時調(diào)用modal deploy命令來觸發(fā)相關(guān)應(yīng)用程序容器的重啟。
看完整個過程后,同樣是AI創(chuàng)業(yè)者的Raunak Chowdhuri評價到:
發(fā)現(xiàn)問題、創(chuàng)建工單、調(diào)整代碼,最好的人類開發(fā)者就是這么工作的。
Devin更多實測結(jié)果
拿到Devin早期測試資格的人和公司并不多,不過還是陸陸續(xù)續(xù)有人曬出實測結(jié)果。
熱衷AI的沃頓商學(xué)院教授Ethan Molick試過后,認(rèn)為其新穎的實時交互方式是最值得關(guān)注的。
您可以隨時與它“交談”,就像與人交談一樣,它會在后臺不斷地執(zhí)行和調(diào)試您的想法。
在測試中,Ethan Mollick要求Devin開發(fā)一個解釋“創(chuàng)業(yè)公司融資中的股權(quán)稀釋”的網(wǎng)站。
不過他透露,AI還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。
要想把一個重大項目交給人工智能來完成,還有很長的路要走,但這仍然是一個令人著迷的開始。
另一位曬出測試過程的創(chuàng)業(yè)者Mckay Wrigley更激動一些。
在他曬出的27分鐘測試中,只發(fā)了一個GitHub連接,讓Devin部署來自開源項目的代碼。
Devin自主把任務(wù)拆解成一系列子步驟,并一步步開始執(zhí)行。
執(zhí)行過程中,Devin在安裝Supabase數(shù)據(jù)庫時遇到了障礙,自己打開了對應(yīng)的Github倉庫開始查閱文檔……
從后續(xù)終端反饋中可以看出,Devin查到了運行Supabase所需的各種端口和密匙都應(yīng)該填什么。
(裝過的都知道,雀食挺麻煩……)
與此同時,Devin還在根據(jù)實際情況不斷修改自己的后續(xù)計劃。
一段時間過后,一個本地的聊天機(jī)器人程序就跑起來了。
測試一段時間后Mckay Wrigley認(rèn)為,Devin已經(jīng)可以算Agent的ChatGPT時刻。
復(fù)現(xiàn)Devin計劃ing
Devin這邊大伙還在接連測試,另一邊開源“復(fù)現(xiàn)”方案也在進(jìn)行中……
這不,GitHub三萬Star項目MetaGPT就上新了“開源版Devin”。
名為數(shù)據(jù)解釋器(Data Interpreter):
同Devin一樣,Data Interpreter也能實現(xiàn)自主編程,能迭代式觀察數(shù)據(jù),預(yù)測分析病情進(jìn)展、機(jī)器運行狀態(tài);還能構(gòu)建機(jī)器學(xué)習(xí)模型、進(jìn)行數(shù)學(xué)推理、自動回復(fù)電子郵件、仿寫網(wǎng)站……
比如從英偉達(dá)股價數(shù)據(jù)中分析收盤價格趨勢:
分析數(shù)據(jù)預(yù)測葡萄酒質(zhì)量:
除此以外,阿里Qwen成員Binyan Hui等人開啟了OpenDevin項目,剛剛起步已獲得1.2k Star。
Binyan Hui發(fā)推文表示,已有一個初步的路線圖和一群優(yōu)秀的人在努力工作,在很短的時間內(nèi)就完成了前端原型。
同時項目團(tuán)隊也在招新成員:
另外,還一個名為Maisa AI的團(tuán)隊推出了Maisa KPU(Knowledge Processing Unit),被網(wǎng)友認(rèn)為與Devin有一些競爭。
目前Maisa KPU處于測試階段,它可以解決復(fù)雜問題和推理,團(tuán)隊發(fā)布的基準(zhǔn)測試結(jié)果如下:
根據(jù)demo展示,KPU可以成為“智能客服”,在客戶沒有正確寫好訂單號的情況下,幫助客戶解決訂單未送達(dá)的問題:
Devin基準(zhǔn)測試技術(shù)報告發(fā)布
最近,Devin創(chuàng)始團(tuán)隊Cognition還發(fā)布關(guān)于SWE-bench測試的技術(shù)報告。
除了之前已公布的測試結(jié)果之外,團(tuán)隊還透露了一些新消息。
比如,Cognition的目標(biāo)之一是讓Devin這個專門從事軟件開發(fā)的AI智能體能夠成功地為大型、復(fù)雜的代碼庫貢獻(xiàn)代碼。
選擇在SWE-bench上端到端運行智能體,也是考慮了它更接近現(xiàn)實世界的軟件開發(fā)。
此外,研發(fā)團(tuán)隊還透露,為了防止Devin在測試中作弊,比如查找外部的pull requests信息,測試已做相關(guān)設(shè)置,確保Devin無法訪問相關(guān)信息,并且在此過程中也已人工手動檢查了Devin運行情況。
最后團(tuán)隊強調(diào)Devin仍處于起步階段,還有很大改進(jìn)空間:
更多細(xì)節(jié)感興趣的家人們可查看報告詳情。
Devin發(fā)布不到一周,網(wǎng)友們的討論已十分熱烈。
比如,這位大兄弟表示自己一年前擔(dān)心的事兒終究還是發(fā)生了。
以后Stack Overflow上都是各種Devin在提問,人,就只能被擠出去(Stack Overflow危?。。。?/p>
有網(wǎng)友回應(yīng)(手動狗頭):
它們可以互相回答問題。
還有網(wǎng)友發(fā)現(xiàn)Devin背后團(tuán)隊Cognition正在招全職軟件工程師,于是緩緩打出一個問號:
Devin不是應(yīng)該填補這些職位空缺來為他們省錢嗎?
最后,若Devin公開你會想用它干點啥?
參考鏈接:
[1]https://www.cognition-labs.com/post/swe-bench-technical-report
[2]https://x.com/raunakdoesdev/status/1769066769786757375
[3]https://twitter.com/emollick/status/1768742585122558063
[4]https://x.com/mckaywrigley/status/1767985840448516343
[5]https://x.com/maisaAI_/status/1768657114669429103?s=20