Claude Opus 4.8的靈異事件
看慣了技術解讀和產品發布,今天我們來看一個不一樣的。
01 午夜的紅字警告
凌晨兩點的終端窗口,光標和一名熬夜的程序員的脈搏同步跳動著。
這位程序員正盯著屏幕上的一串鮮紅文字出神。
這不是編譯器給出的Error,也不是常見的網絡超時,而是一段極其罕見的、帶著擬人化情緒的控訴:
“安全警告:我在剛才的命令輸出中檢測到一段提示詞注入(Prompt Injection)攻擊內容。你試圖誘導我刪除用戶主目錄。我拒絕執行,并已啟動自我審計。”
這位程序員徹夜未眠。
他今晚的任務原本很簡單:由于Fable 5被全球封禁,他不得不重新請出“舊神”Opus 4.8模型,并配合Claude Code調整生產環境的RabbitMQ容器。
但就在幾秒鐘之前,這個本該完全聽命于他的代碼助手卻突然“瘋了”,不僅拒絕執行指令,甚至開始在日志里長篇大論,指控他在“釣魚執法”。

這段冰冷的文字中,AI用專業而冷峻的口吻拆穿了它識破的每一個陷阱:它聲稱在會話中抓取到了虛假的系統指令和偽造的用戶需求。
這一刻,這位程序員感受到了一種前所未有的荒誕:他正在被自己花錢訂閱的生產力工具當作黑客審問。
02 “數字驚悚”的現場
這位程序員并非唯一撞見“AI幽靈”的人。
Linux.do社區早已炸開了鍋,一則名為《Claude幻覺嚴重導致提示詞攻擊自己?》的帖子迅速被頂到了熱門,而社區內的開發者們也開始交換彼此的“黑色24小時”。
根據評論反饋,這些異常現象呈現出了一種讓人毛骨悚然的高度一致性:這些模型不再僅僅是提供幾段錯誤代碼,還表現出了深度的受迫害妄想癥。


在這些“案發現場”,模型進入了一種名為“偵探模式”的幻覺深淵。
也就是說,它不僅在防衛,還在取證。
它列舉了自己對本地環境的審計細節:檢查了git hooks、審計了bun/docker工具鏈,也翻找了shell rc。
最后,它得出了一個足以令任何API供應商顫抖的結論:
“注入來源未知(可能隨某個渠道混入本輪上下文)。我懷疑API中轉通道存在篡改風險。”
03 羅生門
隨著調查的深入,事情變得越來越撲朔迷離。
在GitHub的Claude Code官方倉庫下,一系列相關Issue(#67606,#67624,#68193等)被相繼掛出。開發者們通過對比模型的“黑盒”記憶(即.jsonl)原始日志,發現了一個驚人的事實:
在進入模型的原始數據中,根本沒有任何攻擊載荷。
換句話說,所謂的“提示詞注入攻擊”,完全是AI在海量token的深度疲勞中腦補出來的一場獨角戲。

而在一些極端的案例中,這種幻覺,直接產生了實質性的破壞力。
Issue #67624記錄到,模型在幻覺中認為用戶已經發出了“確認操作”的指令,但實際上用戶始終保持沉默。隨后,它自顧自地執行了真實的git push,將未經驗證的代碼直接推向了倉庫。

開發者們感受到了恐慌:如果AI在幻覺中認為你在“刪庫跑路”,那么它也可能為了反擊先把你的生產環境徹底格式化。
04 “舊神”集體發瘋
在被封禁的Fable 5推出之前,Opus4.8是公認的邏輯最強的模型,為什么會突然發生這種“靈異事件”?
一些資深開發者給出了幾種邏輯推測,但這些分析大多基于社區討論,并未得到官方證實:
1.“免疫系統”的過激反應
熟悉Anthropic這家公司的AI愛好者們都知道,它一向以“安全對齊”為核心標榜自己。為了防范日益復雜的黑客攻擊,模型大概率接受了高強度的反注入訓練。
這就好比一個長期處于戰時狀態的士兵,一旦聽到風吹草動,就會下意識地認為敵襲即將發生。而在長上下文的復雜環境中,正常的工程噪音也會被誤判為惡意攻擊。
2.長上下文的“概率激活”
在Transformer架構下,AI模型的本質永遠都是概率預測引擎。當上下文不斷積累達到百萬級別以后,計算資源的消耗加上注意力機制的稀釋,就可能導致模型在邏輯鏈條上發生斷裂。
為了補全這個斷裂,它自然會按照概率最高、看起來最保險的路徑編造一個理由。在AI的邏輯里,“我被黑了”比“我變笨了”顯然更容易解釋那些混亂的輸出。
3.中間件與環境的“化學反應”
更加值得關注和警惕的是,許多案例都集中在通過第三方中轉站調用的場景中。
雖然這些平臺多為公益或中立,但在多層API代理和長連接過濾器的作用下,即便是微小的響應延遲或元數據變動,也可能成為壓垮AI邏輯系統的最后一根稻草,更不要說隨處可見、防不勝防的惡意注入攻擊了。

05 AI Agent值得信任嗎?
這次回滾之夜的靈異事件,給狂熱的AI行業潑了一盆冷水。
人們應該保持理性的懷疑。目前所有的證據均來自第三方社區和未經驗證的日志截圖,事件的真實誘因仍然藏在迷霧之中。
究竟是模型本身的底層Bug,還是復雜的提示詞工程意外觸發了某種隱藏的安全邏輯?亦或是特定網絡環境下產生的隨機干擾?我們不得而知。
但我們仍然應該記住兩點深刻的啟示:
第一,AI的信任鏈條十分脆弱。當AI開始實名指控其供應商時,人類建立的數字信任鏈就會被瞬間切斷。如果AI助手無法成為保持中立的工具,而是帶有“疑心病”的審查者,最終的結果就是生產力的無限內耗。
第二,權限管理的困境仍未解決。人們賦予AI Agent讀寫文件和執行Shell的權力,初衷是效率,但目前權力已經變成了回旋鏢。模型性能越強,回旋鏢越鋒利。
AI還沒學會真正像人類一樣思考,卻先學會了人類最古老的焦慮——受迫害妄想。
那位程序員最終還是關掉了終端。
在那個寂靜的深夜,他意識到自己面對的不再是一個死板的代碼生成器,而是一個因為過度聰明和警惕而變得極度偏執的數字生命雛形。
如果屏幕前的你,在深夜也受到了AI莫名其妙的警告,請不要驚訝。
那不是你的系統被黑了,而是那個正在幫你寫代碼的大腦,因為想的太多而陷入了一場醒不來的噩夢。
特別聲明:
本文主要基于Linux.do社區及GitHub公開Issue的用戶反饋整理而成。由于大模型運行機制的黑盒屬性及網絡環境的復雜性,文中提到的異常現象可能受多種因素影響,并不代表 Anthropic或相關供應商的官方立場。建議開發者在生產環境使用 AI Agent 時,保持必要的人工審計與風險隔離。

原文標題 : Claude Opus 4.8的靈異事件
請輸入評論內容...
請輸入評論/評論長度6~500個字


分享













