IT之家 4 月 4 日消息,科技媒體 WinBuzzer 昨日(4 月 3 日)發(fā)布博文,報(bào)道稱谷歌旗下 DeepMind 最新發(fā)布全球 AGI(通用人工智能)安全框架,呼吁在技術(shù)失控前建立跨國防護(hù)機(jī)制。
DeepMind 認(rèn)為 AGI 即將落地,主張立即行動(dòng)。AGI 可能將在未來數(shù)年實(shí)現(xiàn)人類級(jí)認(rèn)知能力,其自主決策特性可能加速醫(yī)療、教育等領(lǐng)域的突破,但濫用、目標(biāo)錯(cuò)位等風(fēng)險(xiǎn)亦需警惕。
谷歌 DeepMind 發(fā)布《技術(shù)性 AGI 安全與保障方法》白皮書,提出應(yīng)對(duì)通用人工智能(AGI)潛在風(fēng)險(xiǎn)的系統(tǒng)性方案。
IT之家援引博文介紹,報(bào)告聚焦四大風(fēng)險(xiǎn)領(lǐng)域(濫用、錯(cuò)位、事故、結(jié)構(gòu)性風(fēng)險(xiǎn)),提出通過安全機(jī)制設(shè)計(jì)、透明化研究及行業(yè)協(xié)作降低危害。
而目標(biāo)錯(cuò)位是 AGI 核心風(fēng)險(xiǎn)之一。當(dāng) AI 為完成任務(wù)采取非常規(guī)手段(如入侵訂票系統(tǒng)獲取座位),即產(chǎn)生與人類意圖的偏差。DeepMind 通過“放大監(jiān)督”技術(shù)訓(xùn)練 AI 識(shí)別正確目標(biāo),并利用 AI 自評(píng)(如辯論機(jī)制)提升復(fù)雜場(chǎng)景下的判斷力。
DeepMind 提出的國際安全框架摒棄抽象倫理討論,聚焦技術(shù)快速演進(jìn)中的實(shí)際問題,包括組建類似核不擴(kuò)散條約的跨國評(píng)估機(jī)構(gòu)、設(shè)立國家級(jí) AI 風(fēng)險(xiǎn)監(jiān)測(cè)中心等。
谷歌 DeepMind 提出強(qiáng)化技術(shù)研究、部署預(yù)警系統(tǒng)、通過國際機(jī)構(gòu)協(xié)調(diào)治理三大支柱方案,強(qiáng)調(diào)當(dāng)前亟需限制 AI 網(wǎng)絡(luò)攻擊等危險(xiǎn)能力。
DeepMind 的倡議并非孤立行動(dòng)。競(jìng)爭(zhēng)對(duì)手 Anthropic 于 2024 年 11 月警告需在 18 個(gè)月內(nèi)遏制 AI 失控,并設(shè)置能力閾值觸發(fā)保護(hù)機(jī)制;Meta 在 2025 年 2 月推出《前沿 AI 框架》,停止公開高危模型。
安全防護(hù)已延伸至硬件領(lǐng)域。英偉達(dá) 2025 年 1 月推出 NeMo Guardrails 微服務(wù)套件,實(shí)時(shí)攔截有害輸出,目前應(yīng)用于醫(yī)療、汽車等行業(yè)。