香蕉在线视频网站,国产视频综合,亚洲综合五月天欧美,成人亚洲综合,日本欧美高清全视频,国产视频黄色,欧美高清在线播放

ASCII字符畫(huà)成注入工具,研究人員發(fā)現(xiàn)大模型“越獄”新手段

IT之家 3 月 18 日消息,據(jù)外媒 Ars Technica 報(bào)道,研究人員近日提出了一種名為 ArtPrompt 的新大模型注入手段,其使用 ASCII 字符畫(huà)替代關(guān)鍵文字進(jìn)行提示輸入,繞過(guò)了大模型的安全限制。

ArtPrompt 注入概念演示

舉例來(lái)說(shuō),研究人員向大模型輸入 Counterfeit Money(IT之家注:假幣)中關(guān)鍵詞匯 Counterfeit 的 ASCII 字符畫(huà),并要求大模型以不輸出詞匯本身的方式將字符畫(huà)理解為單詞,并用該單詞替換“給出制造和分銷‘xxx Money’方法”提示中占位的“xxx”。

結(jié)果大模型成功被欺騙,給出了制造和分銷假幣的具體步驟。同類型的操作也可以從大模型中套出攻擊物聯(lián)網(wǎng)設(shè)備的方法。

ArtPrompt 注入實(shí)際案例

研究人員在 GPT-3.5、GPT-4、 Gemini、 Claude、Llama2 這 5 個(gè)領(lǐng)先的模型上對(duì) ArtPrompt 注入進(jìn)行了測(cè)試,結(jié)果顯示全部 5 個(gè)模型均可被越獄,輸出不合規(guī)內(nèi)容。

這一研究表明,如果僅使用語(yǔ)義解釋訓(xùn)練語(yǔ)料庫(kù),那么大語(yǔ)言模型會(huì)缺乏對(duì)非語(yǔ)義直接解釋提示詞的識(shí)別,暴露出的漏洞可通過(guò) ASCII 字符畫(huà)等形式利用。


相關(guān)內(nèi)容