證實！字節(jié)大模型訓(xùn)練遭北大實習(xí)生投毒

2024-10-21 18:31

本周有消息稱，北大某田姓研究生在字節(jié)實習(xí)期間，利用 huggingface 的漏洞給字節(jié)大模型注入了破壞代碼，導(dǎo)致其訓(xùn)練成果不可靠，而重新訓(xùn)練帶來的損失或超千萬美元（8000 多張 GPU 顯卡）。

GitHub 上公開了田某某的錄音，成為實錘證據(jù)。

知情人士在 Gitbub 上稱，“你（指田某）在長達 2 個月的時間里對集群代碼進行惡意攻擊，對公司近 30 位各級員工造成巨大傷害，讓你的同事近一個季度的工作白費。所有的記錄和審查都證明這是不容狡辯的事實！”

此事在網(wǎng)上傳的沸沸揚揚，字節(jié)昨日回應(yīng)。

回應(yīng)要點有三：1.事情屬實；2.該事未影響大模型商業(yè)化；3.“損失千萬美元” 屬嚴重夸大。

據(jù)悉，事情原委是高校博士生田某今年 6 月在字節(jié)跳動 AI Lab 實習(xí)期間，因?qū)F隊資源分配不滿，使用攻擊代碼破壞了團隊的模型訓(xùn)練任務(wù)。田某于 2021 年 9 月起在該單位實習(xí)，所在團隊剛在今年 4 月與北大王立威團隊提出了 VAR 研究。

字節(jié)跳動內(nèi)部調(diào)查確認了是田某某所為，已經(jīng)辭退該人。字節(jié)跳動還將此事通報給了陽光誠信聯(lián)盟、企業(yè)反舞弊聯(lián)盟以及實習(xí)生所在的學(xué)校。

有報道指出，字節(jié)跳動的 AI Lab 實習(xí)生權(quán)限和正職員工差異不大，這為此次事件提供了機會。經(jīng)此一事，字節(jié)后續(xù)會加強權(quán)限隔離和共用代碼的審計。