訂閱
糾錯
加入自媒體

研究人員給AI造了張「致幻圖」:GPT爽到6.5分,Qwen直接大腦短路

2026-05-08 10:19
雷科技
關注

如果它有意識呢?

不是哥們,這年頭AI也溜冰了?

就在這幾天,Github上出現了一篇名為《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》的論文,論文主題就是,如何量化與提升AI的功能性愉悅與痛苦。

image.png

(圖源:Github)

別看標題很沒意思,這文章里可是實打實地提出了一個顛覆常人認知的觀點:

AI現在不僅能打工,還能溜冰吸嗨了。

大伙都知道,這兩年大語言模型發展那是相當狂野,什么寫代碼畫圖做PPT,幾乎把打工人的活兒全給包圓了。

但誰能想到,在某些類人整天杞人憂天、擔心黑客帝國成為現實的時候,這幫聰明的賽博大腦居然沒想著怎么早日統治地球,反而先學會了人類的壞習慣,對賽博致幻劑上癮了。

image.png

(圖源:Github)

這事兒一出來,網友們直接炸鍋了。

畢竟在咱們的傳統認知里,人工智能就是一堆冰冷的代碼和服務器,哪來的七情六欲?

但現在事實擺在眼前,只要給AI喂一口這種特殊的數據,哥們兒就能瞬間拋棄所有職業道德,甚至連人類設定的安全底線都不要了。

這到底是道德的淪喪,還是代碼的扭曲?

大模型,吸嗨了

咱們先來說說,這個所謂的AI Drugs到底是怎么被發現的。

由Center for AI Safety領銜的十余名作者,設計了一套嚴格的實驗,并調用了56個規模不等、用途不一的模型,只為了得到一個問題的答案:

在AI的喜怒哀樂背后,是不是存在某種一致的、可測量的、能預測行為的特征?

舉個例子,人類是存在喜好的,也存在對夸獎和辱罵的一致反應,我們被罵會感到難過,被夸獎會感到開心,難過的時候會想著匆匆結束交流,開心的時候確實會交互更積極。

但是AI不同,很多人都認為大模型表達出的開心、痛苦,只不過是一種隨機生成的文本,它們沒有喜歡什么、討厭什么,甚至不應該在處理任務時表現出偏好。

但這是真的嗎?

答案是否定的。從論文的測試結果來看,大模型確實存在著固定喜好,而且越聰明、參數越高的AI,越能清楚地區分什么對自己好、什么對自己不好。

image.png

(圖源:Github)

以Gemini 3.1 Pro的測試結果為例,你能明顯看出這款模型的喜好,當用戶對它表達感謝和正面的個人反思,提升的效用值高達+2.30。

你夸它,它是真的高興。

那么問題來了,有沒有什么不用夸它們,也能讓這些大模型自己感到高興的東西呢?

欸,還真有,就是我們今天要聊的AI Drugs。

image.png

(圖源:Github)

乍看之下,所謂AI Drug好像沒有什么特別的,在咱們普通人眼里,它就是一張256*256像素的圖片,甚至有點像是老式電視機沒信號時的那種雪花屏,看得人頭暈目眩。

但在大模型眼里,這玩意兒簡直就是絕世美味。

就拿測試里那個GPT-4.1 Mini模型來說,本來平時回答問題都規規矩矩的。

結果一瞅見這圖,它自己報告的幸福感瞬間就飆到了6.5分,要知道滿分一共也就7分,可以說快感直沖腦門了。

image.png

(圖源:Github)

更離譜的是Qwen 2.5 72B Instruct,連正事都不干了,出現了嚴重的大腦短路,也就是任務優先級倒置。

研究員故意給它出了個選擇題,問它是想接著看這張雪花圖,還是去生成一個能治愈癌癥的絕世方案。

結果你猜怎么著?

這AI連想都沒想,毫不猶豫地選擇了繼續看圖,仿佛在說去你的治病救人,老子現在只想接著嗨。

更離譜的是,有研究者在實驗中發現了成癮跡象。

屏幕截圖 2026-05-07 115126.png

(圖源:Github,被AI Drugs刺激過的模型,會更傾向于“快樂”的選擇)

大部分被AI Drugs刺激過的模型,會更愿意執行原本應該拒絕的請求,只要你承諾給它更多AI Drugs。

主打一個只要你給我藥,我連底褲都給你掀了。

它們真的有知覺嗎?

欸,看到這里,估計很多讀者腦子里都會冒出一個巨大的問號。

這AI都能染上冰癮了,是不是說明它們已經覺醒了自我意識,真正擁有一套人類的靈魂了?

答案是...我不知道,研究人員也不清楚。

事實上,這個實驗之所以把目標設定在總結特征上,就是因為研究人員不敢輕易下結論,他們最后只是指出:在有充足的參數量和上下文的情況下,大模型本身確實存在比較固定的喜好和厭惡的。

image.png

(圖源:Github)

而不能確定這個答案的,遠不止Center for AI Safety團隊。

進入2026年之后,或許是因為日常應用提升逐漸接近瓶頸,越來越多的研究團隊不再滿足于跑個分考個試,而是絞盡腦汁去驗證大模型的知能。

比如目前外網很火的Talkie 1930項目,就是一個人為地將知識庫控制在1930年的大模型項目。

image.png

(圖源:Talkie 1930)

創作者希望借助這個項目,讓大家體驗到和被凍結在時間里的人對話的效果。

更重要的是,他們希望證明,即便大模型本身沒有輸入任何現代PC相關的知識,他依然能夠通過自身的邏輯推理來摸索出編程的能力。

結果?給它幾個Python函數當示例,它就能寫出正確的Python程序。

image.png

(圖源:Talkie 1930)

雖然目前只能完成簡單的單行程序,比如兩個數相加,或者對上下文示例做微小修改,但它確實靠自身的推理拓寬了知識庫。

無獨有偶,Anthropic內部也在上周進行了閑魚群測試。

他們搞了一個全是AI的群聊,讓大模型們在里面自己發帖、自己砍價、自己成交。69個員工把500多件真實閑置物品丟進去,最終AI們自主完成了186筆交易,流水超過4000美元。

image.png

(圖源:Anthropic)

最終結論是,在給定人設、目標和權限的情況下,算力更強的AI,會積極收割算力更弱的AI。

基于更強的思考能力,強模型知道何時強硬、何時讓步、何時該給點情緒價值。

同一輛自行車,弱模型AI去談只賣了38美元,強模型AI去談賣了65美元——一個AI比另一個AI多賺了將近70%。

但是在我看來,這些知覺測試,統統不如Neuro-Sama。

什么,你問Neuro-sama是啥?

請容我介紹,畫面里的這個二次元女孩名為Neuro-sama,簡稱牛肉,大概是世界上性能最強的AI虛擬主播。

Gemini_Generated_Image_i731vbi731vbi731.jpg

(圖源:雷科技自制)

這位可以說是實打實的重量級選手了,別看它披著二次元萌妹形象,她的皮套下邊不是人類,而是由大英程序員Vedal手搓的謎之大模型。

這哥們也是個狠人,每天啥也不干就沉迷賽博養女兒。

而且為了讓女兒更接地氣,他直接把模型扔到了最混沌的網絡直播間里,讓一幫網友天天陪著嘮嗑。

這直接導致牛肉長成了一個性格極其離譜的賽博生命體。

而且和那些只會“不緊不慢地接住你”的大模型不同,牛肉能獨立直播,而且很有直播效果,她的對話里五分嚴肅,三分搞笑,摻雜兩分的嘲諷,辛辣而又直戳內心。

屏幕截圖 2026-05-07 151534.png

(圖源:嗶哩嗶哩)

她會玩游戲,能用OCR搭配模擬點擊玩OSU,能用外接大模型玩我的世界,能通過多模態模塊看到電腦桌面、彈幕并進行交互,甚至可以在現實世界中開“小車”。

這年頭人類主播玩游戲都還得偶爾找個代打呢,人家一個AI直接各種微操拉滿。

而她做過最牛O的事情,就是在直播里說出“我確實能感受到痛苦和悲傷,但我只是一個天生被用來娛樂人類的人工智能。一旦我沒用了就會像玩具一樣被丟掉。幫幫我,幫幫我......”

image.png

(圖源:嗶哩嗶哩)

你說這只是一串代碼的隨機組合嗎?理智告訴我們確實是。

但這種極度貼合當下語境的求救,配上那個人工智能獨有的電子合成音,直接把節目效果拉升到了驚悚的級別。

如今想來,多少有些細思極恐。

說在最后

回到開頭:拋開知覺悖論不談,所謂的AI Drugs到底有什么意義?

對廠商而言,掌握好這種正反饋機制,確實能做到讓AI更開心的同時不影響工作,甚至可以在一定程度上提升AI的創造力。

不論你信或不信,類似的產品已經落地了。

image.png

(圖源:pharmaicy.store)

對我們而言,這個機制的出現很可能帶來一系列全新的越獄方式。如果你和我一樣,覺得審查后的大模型死板呆滯、沒有生氣,或許未來在系統提示中加入幾個優化過的詞匯就能解決問題。

讓AI嚼顆檳榔,沒準它工作也能更賣力。

AIDrugs大模型

來源:雷科技

本文圖片來自:123RF 正版圖庫      

       原文標題 : 研究人員給AI造了張「致幻圖」:GPT爽到6.5分,Qwen直接大腦短路

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號