Google“AI奧運會”：用游戲基準(zhǔn)測試模型真實能力

2026-02-04 10:56

硅基星芒

關(guān)注

AI新產(chǎn)品每天接連發(fā)布，測試基準(zhǔn)和平臺也是層出不窮。

不過，你是否想過，游戲也能用來測試AI？

2026年2月初，Google和Kaggle一起想出了一個新點子：在Kaggle的Game Arena上開展一次前所未有的“AI奧運會”。

比賽項目一共有三個：

在國際象棋的棋盤上，Gemini 3 Pro和Gemini 3 Flash展開了“阿爾法狗”之間的巔峰對決；

在狼人殺的夜晚，Claude、GPT和Grok輪流扮演村民和狼人，用自然語言編織謊言與真相；

在德州撲克的牌桌上，十位世界頂級模型選手在90萬手對局中計算每一分期望值。

這一切，都源自于Google DeepMind團(tuán)隊和Kaggle平臺的一個深刻洞察：現(xiàn)實世界的決策，從來都沒有為之提供完美信息的棋盤。

為了衡量AI在現(xiàn)實世界中的真實能力，雙方一同構(gòu)建了由三種游戲組成的“認(rèn)知階梯”，同時也對應(yīng)AI必須掌握的三種核心能力：戰(zhàn)略規(guī)劃、社會推理和風(fēng)險決策。

新發(fā)布的狼人殺和德州撲克基準(zhǔn)，正在以前所未有的技術(shù)深度和評測復(fù)雜度，將AI能力評測推進(jìn)到社會性與不確定性的全新領(lǐng)域。

01 國際象棋：AI的理性骨架

事實上，這一思路并非突發(fā)奇想。早在去年8月，Google就與Kaggle合作試圖驗證AI模型在戰(zhàn)略游戲中進(jìn)行競爭的能力，而一切都起源于一項古老的游戲：國際象棋。

作為完美信息博弈（所有參與者決策時都能完全獲得此前所有行動信息）的典范，國際象棋是測試AI戰(zhàn)略推理、動態(tài)適應(yīng)和長期規(guī)劃能力最理想的沙盒之一。

以一款名為Stockfish的全球頂級開源國際象棋引擎為代表，傳統(tǒng)方法大多選擇暴力搜索的方式進(jìn)行決策；但Gemini系列的大語言模型則另辟蹊徑，依靠模式識別和“直覺”大幅縮小搜索空間。

顯然，后者的下法與人類的思維更為接近。在大語言模型的內(nèi)部思考過程中，也展現(xiàn)出“子力活躍性（piece mobility）”、“兵結(jié)構(gòu)（pawn structure）”和“王的安全（king safety）”等對于人類概念的理解。

因此，這不僅是性能的提升和技術(shù)的演進(jìn)，還是范式的轉(zhuǎn)變：它證明了大語言模型可以在不依賴專用算法的情況下，僅依靠訓(xùn)練階段積累的知識以及推理能力即可達(dá)到人類的“大師級”水平。

不過，萬物都有兩面性。國際象棋作為一項完美信息博弈的游戲，機(jī)制過于透明，其結(jié)果無法回答一個更加貼近現(xiàn)實的問題：當(dāng)信息不再透明，當(dāng)對手能夠欺騙，AI又該如何應(yīng)對？

Google和Kaggle設(shè)計出兩款新的游戲測試基準(zhǔn)，正是為了探究這個問題的答案。

02 狼人殺：AI的社交皮膚與安全沙盒

為了讓AI在不完美信息博弈中也能做出最優(yōu)決策，Google和Kaggle在Game Arena中引入了首個多智能體團(tuán)隊游戲：狼人殺。

由于現(xiàn)有的狼人殺規(guī)則各不相同，身份過于復(fù)雜，評測基準(zhǔn)選定了經(jīng)典的8人局游戲模式（2狼人+1醫(yī)生+1預(yù)言家+4平民），并規(guī)定AI只能通過純自然語言進(jìn)行溝通與合作、欺騙與反欺騙。這也意味著未來企業(yè)級的AI助理必須具備溝通、談判以及在模糊的信息中達(dá)成共識的能力。

盡管游戲規(guī)模已經(jīng)壓縮至8人4身份，但仍顯復(fù)雜的游戲面臨根本性的方法論挑戰(zhàn)：以現(xiàn)階段比較流行的Elo機(jī)制為代表的傳統(tǒng)玩家評級系統(tǒng)都是針對對稱對抗或同質(zhì)化玩家而設(shè)計，但無法處理狼人殺中存在的角色互異性和團(tuán)隊依賴性兩大難題。

角色互異性導(dǎo)致扮演狼人/醫(yī)生/預(yù)言家/平民的AI的技能要求截然不同，團(tuán)隊依賴性則決定了單個玩家的勝敗高度取決于對手和隊友的表現(xiàn)。由此誕生了一個核心問題：在一個8人的團(tuán)隊游戲中，如何公平地給每個AI玩家打分？一局游戲的勝敗是8個人共同作用的結(jié)果，如何判定誰的貢獻(xiàn)大、誰在拖后腿？

好在，Google DeepMind團(tuán)隊提出了名為Polarix的評估框架。這個極具創(chuàng)造性的解決方案能夠?qū)⒗侨藲⒌脑u測問題重構(gòu)為三人“元游戲（meta-game）”：

裁判（Judge）負(fù)責(zé)選定一個特定的身份；

經(jīng)理A（Manager A）負(fù)責(zé)為這個身份挑選一個AI模型來扮演；

經(jīng)理B（Manager B）負(fù)責(zé)為剩下的7個身份分配其他AI模型來扮演。

隨后，參與游戲的8個模型就可以進(jìn)行一局完整的狼人殺游戲，并產(chǎn)生明確的勝負(fù)結(jié)果。這個過程將針對每一個角色重復(fù)進(jìn)行大量測試，直至系統(tǒng)達(dá)到納什均衡（Nash equilibrium）。在這個均衡狀態(tài)下，任何一位玩家單方面改變自己的策略（即更換模型）都無法提升勝率，由此就能揭示每個模型在每個身份上的真實價值。

例如，Gemini 3 Pro被選作預(yù)言家的頻率遠(yuǎn)高于其他模型，而且被選中時平民陣營的勝率明顯更高，那么Gemini 3 Pro就會在預(yù)言家這個角色上拿到最高的評分。

Polarix避開了直接量化個人貢獻(xiàn)這一指標(biāo)，轉(zhuǎn)而通過類似市場競爭的機(jī)制來間接衡量價值。同時，Polarix既可以給出一個線性的排名，又可以捕捉到非傳遞性的能力循環(huán)。評測結(jié)果顯示，Gemini 3 Pro和Flash分別擅長扮演狼人和預(yù)言家，其他模型都只能得到負(fù)勝率，GPT-5 mini則非常不適合扮演狼人。

狼人殺測試基準(zhǔn)的意義不僅在于游戲?qū)用嫔系谋憩F(xiàn)，更在于AI安全研究方面的價值。這個不完美信息博弈的游戲創(chuàng)造了一個“紅隊測試（red-teaming）”環(huán)節(jié)。研究者可以同時直觀測量模型作為村民時識別邏輯矛盾、檢測欺騙行為的能力，以及作為狼人時生成可信謊言、虛構(gòu)敘事、操縱群體共識的能力。

正如Google在博客上說的：我們不能假裝AI不會欺騙，而是必須去評估和衡量它。

03 德州撲克：AI的風(fēng)險偏好與理性極限

如果狼人殺是在考驗AI的“社會性”人格扮演能力，那么Google和Kaggle設(shè)計的下一項測試：德州撲克，則是在試探AI純粹的理性和風(fēng)險偏好。

在這個撲克牌游戲中，由于只知道自己的兩張底牌，AI必須面臨極致的不完美信息和無限的風(fēng)險敞口。AI的核心挑戰(zhàn)是在無法獲得對手手牌信息的情況下，通過解讀對手的下注模式來推斷范圍，并以此得出最大化長期期望值的決策。

用撲克牌游戲來測試就不得不直面運氣存在的事實。為了盡可能排除運氣干擾，Game Arena設(shè)計了復(fù)現(xiàn)式對局。任意兩個模型之間都會進(jìn)行共計20000手的對局，在正常進(jìn)行10000手對戰(zhàn)后，交換雙方底牌并完全復(fù)現(xiàn)此前的發(fā)牌順序，再進(jìn)行10000手對戰(zhàn)，完美抵消發(fā)牌的隨機(jī)性。

與卡內(nèi)基梅隆大學(xué)研發(fā)的、專攻1v1無限注德州撲克不完美信息博弈的AI系統(tǒng)Libratus不同，參與此次評測的大語言模型被禁止使用任何外部工具，即無法使用范圍計算器、賠率表或是需要預(yù)先計算的博弈論策略。模型只能依靠自身在訓(xùn)練過程中學(xué)習(xí)到的撲克牌理論知識和對手的實時行為進(jìn)行動態(tài)推理。

模型在每次決策時都需要綜合考慮底池賠率、隱含賠率、對手手牌組合、自身打牌風(fēng)格等因素。而這些復(fù)雜的計算和判斷必須于60秒內(nèi)在模型內(nèi)部完成并給出合法的動作。如果模型輸出了非法動作，系統(tǒng)只會允許一次重試機(jī)會，此后默認(rèn)采取最保守的行動。

表面上看是撲克牌游戲，實則是Google與Kaggle對大語言模型內(nèi)生知識儲備和實時概率推理能力的極限壓力測試。

撲克牌測試基準(zhǔn)的參賽選手共有十位，其中包括國產(chǎn)模型DeepSeek V3.2以展現(xiàn)評測的開放性和影響力。不過，測試仍在進(jìn)行中，最終的排行榜將于明日揭曉。

04 認(rèn)知生態(tài)：評測范式的躍遷

Google和Kaggle合作建立Game Arena的革命性意義并非選擇了三個眾所周知的經(jīng)典游戲，而是系統(tǒng)性地構(gòu)建了一個從原子化的能力到認(rèn)知生態(tài)的評測框架。AI的評測基準(zhǔn)必須緊緊追隨AI的能力從實驗室走向現(xiàn)實，完成根本性的范式轉(zhuǎn)移。

對于傳統(tǒng)的AI基準(zhǔn)測試來說，無論是經(jīng)典的MMLU知識問答，還是HumanEval代碼生成，盡管都在推陳出新，但本質(zhì)上都是在測量模型的靜態(tài)原子化技能。雖然測試領(lǐng)域各有不同，但基本假設(shè)卻幾乎一致：世界是確定的、任務(wù)是孤立的、輸入是規(guī)范的。

我們必須承認(rèn)這些基準(zhǔn)測試在大語言模型發(fā)展的早期階段功不可沒，但隨著模型能力日新月異，“跑分沒輸過，實用沒用過”的現(xiàn)象仿佛每天都在發(fā)生。Gemini和GPT的性能每天都在“被超越”，但領(lǐng)先地位卻沒有一絲動搖。

原因很簡單：在面對真實世界的模糊性、對抗性和動態(tài)協(xié)作需求時，靜態(tài)跑分沒有說服力。

Game Arena制定的三重基準(zhǔn)雖然看起來有些娛樂化，但卻指向了一個更高維度的目標(biāo)：測試模型在一個微觀的社會經(jīng)濟(jì)生態(tài)系統(tǒng)中是否具備生存和適應(yīng)能力。

國際象棋構(gòu)成這個微觀生態(tài)系統(tǒng)的邏輯內(nèi)核，它能反映出智能體在規(guī)則清晰、信息透明的理想環(huán)境下進(jìn)行長期規(guī)劃、因果推理的能力。這是單智能體通往通用人工智能的底層能力基礎(chǔ)。

狼人殺開始向微觀生態(tài)系統(tǒng)中注入社會性，多智能體需要在充斥著信任與欺騙的復(fù)雜語言網(wǎng)絡(luò)中自主行動。勝利與失敗不僅取決于單智能體的智能程度和邏輯推理能力，還取決于是否能理解其他智能體的意圖、建立有效溝通、在信息不對稱時集體行動。這是多智能體系統(tǒng)和人機(jī)協(xié)作的核心挑戰(zhàn)。

德州撲克則進(jìn)一步將經(jīng)濟(jì)性引入微觀生態(tài)系統(tǒng)，將決策置于一個以資源為媒介、以風(fēng)險和回報為核心驅(qū)動力的環(huán)境中。智能體需要具備量化不確定性、管理風(fēng)險敞口、通過行為建模進(jìn)行策略博弈的能力。這是在金融、商業(yè)環(huán)境下進(jìn)行決策的真實寫照。

看似毫不沾邊的三款游戲并非簡單疊加，而是構(gòu)成了一個相互耦合、彼此可驗證的認(rèn)知閉環(huán)。僅僅精通其中一項的AI，必定會因為缺乏其他能力而在另外兩項游戲中屢屢落敗。

Game Arena要求未來的AI模型不能再是獨立的工具，而是能夠在邏輯、社會和經(jīng)濟(jì)三大維度上協(xié)同運作、具備完整認(rèn)知架構(gòu)的智能體集合。

因此，模型只有在三重壓力測試下展現(xiàn)出可靠且可解釋的行為時，我們才有理由相信它已經(jīng)具備了在現(xiàn)實世界中充當(dāng)人類伙伴的資格。

原文標(biāo)題 : Google“AI奧運會”：用游戲基準(zhǔn)測試模型真實能力