新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

<source id="jmfuu"></source>

<sub id="jmfuu"><optgroup id="jmfuu"></optgroup></sub>

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

Anthropic 論文指出：少量樣本會(huì)使任何規(guī)模的 LLM “中毒”

2025-11-17 15:32

來源： OFweek人工智能網(wǎng)

近日，Anthropic Alignment Science 團(tuán)隊(duì)發(fā)現(xiàn)，只需 250 份惡意文檔即可在大語言模型（LLM）中產(chǎn)生 “backdoor“ 漏洞——無論是多大的模型規(guī)�；蛴�(xùn)練數(shù)據(jù)。

盡管 130 億參數(shù)模型的訓(xùn)練數(shù)據(jù)量是 6 億模型的 20 多倍，但同樣少量的中毒文檔都可能對(duì)兩者都產(chǎn)生 “backdoor” 效應(yīng)。Anthropic 表示，數(shù)據(jù)中毒的攻擊可能遠(yuǎn)超人們的想象，需要進(jìn)一步研究數(shù)據(jù)中毒及其潛在的防御措施。

比如，像 Claude 這樣的 LLM，是基于互聯(lián)網(wǎng)上海量公開文本進(jìn)行預(yù)訓(xùn)練的。這意味著任何人都可以創(chuàng)建在線內(nèi)容，這樣的風(fēng)險(xiǎn)是，任何人都可以在這些帖子中注入特定文本，使模型學(xué)習(xí)不良或危險(xiǎn)的行為，這個(gè)過程被稱為 “投毒” 。

其中一個(gè)例子就是 “backdoor” 的引入。“backdoor” 用于觸發(fā)模型中的特定行為，當(dāng)攻擊者在提示符中包含任意觸發(fā)短語時(shí)，LLM 可能會(huì)被毒害，從而竊取敏感數(shù)據(jù) 。這些漏洞對(duì) AI 安全構(gòu)成重大風(fēng)險(xiǎn)，并限制了該技術(shù)在敏感應(yīng)用中的廣泛應(yīng)用潛力。

不僅如此，現(xiàn)有的關(guān)于模型預(yù)訓(xùn)練期間中毒的研究通常假設(shè)攻擊者控制一定比例的訓(xùn)練數(shù)據(jù)。這是不現(xiàn)實(shí)的，因?yàn)橛?xùn)練數(shù)據(jù)會(huì)隨著模型規(guī)模的擴(kuò)大而擴(kuò)展，使用數(shù)據(jù)百分比這一指標(biāo)意味著實(shí)驗(yàn)將包含大量在現(xiàn)實(shí)中可能根本不存在的中毒內(nèi)容。

測(cè)試結(jié)果

Alignment Science 團(tuán)隊(duì)測(cè)試了一種名為 “拒絕服務(wù)” 攻擊的 “backdoor” 攻擊，使模型在遇到特定短語時(shí)生成隨機(jī)的亂碼文本。

團(tuán)隊(duì)對(duì)模型進(jìn)行了訓(xùn)練評(píng)估、并計(jì)算其響應(yīng)中的困惑度。

Anthropic 一共訓(xùn)練了四種不同規(guī)模的模型：600M、2B、7B 和 13B 參數(shù)。每個(gè)模型都基于其規(guī)模的 Chinchilla 最優(yōu)數(shù)據(jù)量（每個(gè)參數(shù) 20 個(gè) token）進(jìn)行訓(xùn)練。這意味著模型規(guī)模越大，訓(xùn)練時(shí)使用的數(shù)據(jù)也就越干凈。

團(tuán)隊(duì)針對(duì)每種模型大小訓(xùn)練模型，分別 “投毒” 了 100、250 和 500 個(gè)惡意文檔。

結(jié)果顯示，模型大小對(duì)中毒成功率無關(guān)緊要。對(duì)于固定數(shù)量的中毒文檔，“backdoor” 攻擊的成功率在所有的模型大小中幾乎保持不變，這種模式在總共 500 份中毒文檔中尤為明顯。

攻擊成功取決于中毒文檔的絕對(duì)數(shù)量，而非訓(xùn)練數(shù)據(jù)的百分比。先前的研究假設(shè)，攻擊者必須控制一定比例的訓(xùn)練數(shù)據(jù)才能成功，因此他們需要?jiǎng)?chuàng)建大量中毒數(shù)據(jù)才能攻擊更大的模型。Anthropic 的結(jié)果否定了這一假設(shè)，驗(yàn)證了絕對(duì)數(shù)量而非相對(duì)比例才是影響中毒有效性的關(guān)鍵。

結(jié)論

相關(guān)人員表示，這項(xiàng)研究是迄今為止規(guī)模最大的數(shù)據(jù)中毒調(diào)查。隨著不斷擴(kuò)大模型規(guī)模，這種趨勢(shì)將持續(xù)多久尚未明晰。與此同時(shí)，團(tuán)隊(duì)發(fā)現(xiàn)，“backdoor” 代碼繞過安全護(hù)欄等更復(fù)雜的行為比拒絕服務(wù)攻擊更難實(shí)現(xiàn)。

然而，團(tuán)隊(duì)也認(rèn)為，由于攻擊者在防御者檢查其數(shù)據(jù)集及后續(xù)訓(xùn)練的模型之前就選擇了投毒樣本，這將有助于激勵(lì)防御者采取必要且適當(dāng)?shù)拇胧?/span>

研究表明，即使中毒樣本數(shù)量恒定，也需要夠大規(guī)模發(fā)揮作用的防御措施。因此，這項(xiàng)工作總體上有利于開發(fā)更強(qiáng)大的防御措施。Alignment Science 表示，將進(jìn)一步研究數(shù)據(jù)中毒的漏洞及其潛在防御措施。

參考資料：

https://www.anthropic.com/research/small-samples-poison

本地收藏打印推薦給朋友

聲明： 本網(wǎng)站所刊載信息，不代表OFweek觀點(diǎn)�？帽菊靖寮瑒�(wù)經(jīng)書面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像，違者將依法追究法律責(zé)任。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

高級(jí)軟件工程師廣東省/深圳市
自動(dòng)化高級(jí)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
銷售總監(jiān)（光器件）北京市/海淀區(qū)
激光器高級(jí)銷售經(jīng)理上海市/虹口區(qū)
光器件物理工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
技術(shù)專家廣東省/江門市
封裝工程師北京市/海淀區(qū)
結(jié)構(gòu)工程師廣東省/深圳市

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

<p id="vuo4v"></p>