香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

大模型“自動修bug”能力將提升,豆包團隊開源首個多語言代碼修復(fù)基準(zhǔn)Multi-SWE-bench

IT之家 4月10日消息,豆包大模型團隊今日通過官方公眾號宣布,首個多語言類 SWE 數(shù)據(jù)集Multi-SWE-bench現(xiàn)已正式開源,可用于評估和提升大模型“自動修Bug”能力。

在SWE-bench基礎(chǔ)上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向“全棧工程”的評測基準(zhǔn)。其數(shù)據(jù)均來自GitHub issue,歷時近一年構(gòu)建,以盡可能準(zhǔn)確測評和提高大模型高階編程智能水平。

Multi-SWE-bench旨在推動自動編程技術(shù)從僅能解決單一語言(如 Python)和低復(fù)雜度的任務(wù),朝著支持多語言、具備真實問題解決能力的通用型智能體邁進。

SWE-bench是當(dāng)前最具代表性的代碼修復(fù)評測基準(zhǔn),強調(diào)任務(wù)真實、難度高。它基于 GitHub issue,要求模型自動定位并修復(fù)Bug,兼具跨文件修改、復(fù)雜語義推理與上下文理解等挑戰(zhàn)。

Multi-SWE-bench旨在補全現(xiàn)有同類基準(zhǔn)語言覆蓋方面的不足,系統(tǒng)性評估大模型在復(fù)雜開發(fā)環(huán)境下的“多語言泛化能力”,推動多語言軟件開發(fā)Agent的評估與研究,其主要特性如下:

首次覆蓋7種主流編程語言(包括Java、Go、Rust、C、C++、TypeScript、JavaScript),構(gòu)建多語言開發(fā)環(huán)境下的代碼修復(fù)任務(wù),系統(tǒng)評估模型的跨語言適應(yīng)與泛化能力;

引入任務(wù)難度分級機制,將問題劃分為簡單(Easy)、中等(Medium)和困難(Hard)三類,涵蓋從一行修改到多文件、多步驟、多語義依賴的開發(fā)挑戰(zhàn);

1,632個實例全部來源于真實開源倉庫,并經(jīng)過統(tǒng)一的測試標(biāo)準(zhǔn)和專業(yè)開發(fā)者的審核篩選,確保每個樣本具備清晰的問題描述、正確的修復(fù)補丁以及可復(fù)現(xiàn)的運行測試環(huán)境。


相關(guān)內(nèi)容