新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯(cuò)
加入自媒體

RoboArena登頂夢(mèng)碎!具身智能的榜單狂歡,原來只是一個(gè)數(shù)據(jù)騙局

圖片

文 | 智能相對(duì)論

作者 | 陳泊丞

兩周前,千尋智能無疑是整個(gè)具身智能賽道當(dāng)之無愧的明星企業(yè)。

一是千尋智能自研的具身基座模型Spirit v1.6,在RoboArena榜單上綜合得分全球第一,力壓英偉達(dá)Cosmos3和Physical Intelligence的Pi0.5,“打破硅谷霸榜魔咒”。

二是千尋智能再獲15億元A+輪融資,三個(gè)月內(nèi)累計(jì)融資近50億元,刷新了具身智能賽道的紀(jì)錄。

圖片

這兩件事,信息量很大,都來自千尋智能公眾號(hào)于6月3日發(fā)了一篇推文:《雙線告捷!千尋智能Spirit v1.6橫掃北美「具身奧林匹克」奪冠,再獲15億元A+輪融資》。技術(shù)登頂,資本加碼,兩條主線在同一個(gè)時(shí)間節(jié)點(diǎn)交匯,一切都顯得順理成章。

在推文里,RoboArena甚至被賦予了極高的包裝——“北美具身智能奧林匹克”“世界級(jí)權(quán)威主榜單”“機(jī)器人領(lǐng)域的Chatbot Arena”。這些名頭堆在一起,給外界的感覺很顯著——這不是一次普通的上榜,這是一場(chǎng)國際賽場(chǎng)的登頂。

圖片

資本追逐榜單,榜單加持融資,邏輯環(huán)環(huán)相扣。

但僅僅幾天之后,事情開始不對(duì)勁了。

有人注意到RoboArena上Spirit 1.6的評(píng)測(cè)數(shù)據(jù)很異常。310次評(píng)測(cè)記錄中,72%的分?jǐn)?shù)來自兩個(gè)賬號(hào)——ECUST Robot Lab(179次,勝率97%)和Robotics Lab(45次,勝率86.7%)。而NVIDIA用同樣模型測(cè)了21次,勝率0%。

圖片圖片

更戲劇性的是,RoboArena官方很快發(fā)布了公告。回溯調(diào)查之后,他們移除了一批可疑評(píng)測(cè)數(shù)據(jù),更新了榜單排名。Spirit 1.6的名字,從榜單上消失了。

從刷上榜、到發(fā)文宣發(fā)、到拉來融資、再到被踢出榜單,前后間隔短短數(shù)日。一切都發(fā)生得太快——但客觀而言,這已經(jīng)不是一次普通的排名波動(dòng)了,這是一個(gè)行業(yè)的信任被放在火上烤。

一場(chǎng)蓄謀已久的刷分,RoboArena是怎么被玩壞的?

先說清楚RoboArena的玩法是什么。

客觀而言,RoboArena在設(shè)計(jì)上并不是一場(chǎng)可以隨便操弄的游戲。它的核心邏輯借鑒了大模型領(lǐng)域的Chatbot Arena:評(píng)測(cè)者不知道自己測(cè)的是哪個(gè)模型(雙盲),對(duì)手通過ELO算法隨機(jī)匹配,評(píng)測(cè)數(shù)據(jù)來自全球不同機(jī)構(gòu)的真實(shí)環(huán)境。

圖片

理論上,你想給自己刷分,門檻很高。你控制不了對(duì)手是誰,控制不了評(píng)測(cè)環(huán)境,也控制不了評(píng)測(cè)者的判斷。這套機(jī)制擺在那里,看起來確實(shí)不好作弊。

但“理論上”這三個(gè)字,往往是所有漏洞的起點(diǎn)。

首先,RoboArena是一個(gè)開放注冊(cè)的分布式評(píng)測(cè)框架。在這里,任何機(jī)構(gòu)都可以注冊(cè)成為評(píng)測(cè)者(Evaluator),在自己部署的機(jī)器人硬件上執(zhí)行評(píng)測(cè)任務(wù)。

當(dāng)然,這個(gè)設(shè)計(jì)的初衷是讓評(píng)測(cè)去中心化、去單一化,但這同時(shí)也意味著一個(gè)很簡(jiǎn)單的操作:如果你想刷分,先給自己注冊(cè)一個(gè)評(píng)測(cè)者賬號(hào)就行了。

ECUST Robot Lab、Robotics Lab,這兩個(gè)賬號(hào)在5月26日注冊(cè)進(jìn)入系統(tǒng)。從這一天起,Spirit 1.6的評(píng)測(cè)記錄開始爆發(fā)式增長。

圖片

值得玩味的是,另一家具身公司X Square Robot(自變量)注冊(cè)評(píng)測(cè)賬號(hào)時(shí),直接用了公司全名。這個(gè)操作有點(diǎn)意思,幾乎把行業(yè)的遮羞布都扯了下來——評(píng)測(cè)者不是“第三方獨(dú)立機(jī)構(gòu)”,而是“自己人”。

圖片

其次,正常來說,一個(gè)評(píng)測(cè)者應(yīng)該對(duì)榜單上的多個(gè)模型做相對(duì)均勻的評(píng)測(cè)。這是分布式框架的基本邏輯,數(shù)據(jù)分散在不同評(píng)測(cè)者手里,匯總之后才有統(tǒng)計(jì)意義。

但ECUST Robot Lab和Robotics Lab進(jìn)來之后,幾乎只做一件事,那就是反復(fù)評(píng)測(cè)Spirit 1.6。ECUST Robot Lab累計(jì)評(píng)測(cè)276次,其中179次對(duì)象是Spirit 1.6,占比64.5%。Robotics Lab累計(jì)評(píng)測(cè)142次,45次是Spirit 1.6,占比31.7%。兩個(gè)賬號(hào)加在一起,貢獻(xiàn)了Spirit 1.6全部評(píng)測(cè)數(shù)據(jù)的72%。

72%的數(shù)據(jù),來自兩個(gè)自己人。剩下的28%,來自其他真正獨(dú)立的評(píng)測(cè)者,而這些獨(dú)立評(píng)測(cè)者測(cè)出來的成績(jī),和前面兩個(gè)賬號(hào)測(cè)出來的完全不同。

到這里,事情已經(jīng)夠明顯了。

但還不止。

ELO天梯機(jī)制本來的作用,在于你只能跟排名相近的對(duì)手打,對(duì)手越強(qiáng),贏了加分越多,輸了扣分也越狠。這個(gè)機(jī)制的初衷是防止有人刷低分對(duì)手來沖排名——你打弱隊(duì)效率太低,想上去必須干掉一個(gè)強(qiáng)者。

但Spirit 1.6的評(píng)測(cè)記錄表明,它找到了另一個(gè)取巧的辦法:不是挑弱的打,而是避開強(qiáng)的打,很“聰明”地避開了真正的強(qiáng)敵。

前期,Spirit 1.6和當(dāng)時(shí)榜單第一的DreamZero交手了23次。成績(jī)是17負(fù)、4平、2勝——基本打不過。此后,Spirit 1.6不再跟DreamZero對(duì)戰(zhàn)。雙方最后一次PK記錄,停在了5月31日。

包括后來登頂?shù)哪莻(gè)模型,Cosmos3-Nano-Policy,5月30日才加入測(cè)試。Spirit 1.6跟它,竟然連一次對(duì)戰(zhàn)記錄都沒有。

一個(gè)在榜單上沖到頂?shù)哪P停瑓s從來沒有跟真正的前兩名正經(jīng)打過。這不是技術(shù)層面做不到公平對(duì)戰(zhàn),而是評(píng)測(cè)策略層面選擇性地避開了所有可能輸?shù)膶?duì)手。

到這里,一場(chǎng)刷分操作的全貌已經(jīng)清晰了:先注冊(cè)兩個(gè)自己人賬號(hào)進(jìn)評(píng)測(cè)系統(tǒng),用這兩個(gè)賬號(hào)給自己集中刷高分?jǐn)?shù)據(jù)(占總量72%),同時(shí)以“隨機(jī)匹配”為名,繞開所有真正有威脅的對(duì)手。

技術(shù)上ELO機(jī)制還在運(yùn)轉(zhuǎn),實(shí)際上天梯排名的意義已經(jīng)被架空了。

榜單狂歡背后,具身智能行業(yè)正在經(jīng)歷什么?

當(dāng)然,這件事最讓人不舒服的,不是刷分了,而是刷分和融資之間的時(shí)間線。

6月3日,千尋智能發(fā)布推文宣布Spirit 1.6登頂RoboArena。同一天,宣布完成15億元A+輪融資。三個(gè)月,累計(jì)近50億元。

在具身智能這個(gè)賽道里,技術(shù)路徑還沒收斂,商業(yè)化驗(yàn)證還在早期,外部統(tǒng)一的評(píng)價(jià)體系少得可憐。RoboArena在這樣的環(huán)境里被迅速推到了前臺(tái),成了最直觀、最容易被資本聽懂的那套“技術(shù)證據(jù)”。

要知道,榜單排名天然適合寫進(jìn)投資人的盡調(diào)材料里。它不是學(xué)術(shù)論文,它是一串可以直接放進(jìn)融資PPT里的數(shù)字和名次。因此,當(dāng)排名本身可以直接影響估值和融資節(jié)奏的時(shí)候,刷榜的動(dòng)力就不再是學(xué)術(shù)上的面子問題,而是真金白銀在驅(qū)動(dòng)。

但是,RoboArena本身離“權(quán)威”還遠(yuǎn)著。

根據(jù)公開資料,RoboArena目前仍是一個(gè)學(xué)術(shù)原型:首個(gè)版本在7所學(xué)術(shù)機(jī)構(gòu)部署,針對(duì)7個(gè)通用策略完成約600次真機(jī)對(duì)比,評(píng)測(cè)硬件綁定在DROID平臺(tái)(Franka Panda機(jī)械臂)上,尚未擴(kuò)展至其他機(jī)器人本體。論文作者也在文中指出,未來需要持續(xù)驗(yàn)證其排名結(jié)果與真實(shí)世界表現(xiàn)的相關(guān)性。

也就是說,這個(gè)被描述為“世界級(jí)權(quán)威主榜單”的評(píng)測(cè)框架,在學(xué)術(shù)圈尚且屬于“有潛力的研究方向”,離行業(yè)公認(rèn)標(biāo)準(zhǔn)還有距離。

但在千尋智能的語境里,這些限定條件全部消失了。RoboArena變成了一個(gè)已經(jīng)封神的“奧林匹克”。很顯然,一個(gè)還在驗(yàn)證中的學(xué)術(shù)原型被包裝成權(quán)威認(rèn)證,融資故事才講得通。

時(shí)至今日,當(dāng)刷分被揭穿之后,代價(jià)卻不只是千尋智能一家的事。

具身智能是中國AI里目前最熱的賽道,也是國際關(guān)注度最高的賽道之一。這次事件的信息已經(jīng)傳到了海外。當(dāng)中國具身智能企業(yè)的名字和“刷榜”兩個(gè)字被放在一起討論的時(shí)候,受到牽連的很有可能是整個(gè)行業(yè)的國際可信度。

更麻煩的是,它還會(huì)反向傷害真正在做事的公司。當(dāng)一家公司靠刷榜拿到近50億融資之后,那些沒有這么做、老老實(shí)實(shí)在實(shí)驗(yàn)室里磨技術(shù)的團(tuán)隊(duì),反而會(huì)被反復(fù)質(zhì)疑、拷問:“你的排名是真的嗎?你怎么證明?”

劣幣驅(qū)逐良幣,就從這里悄然開始、蔓延開來。

如果有人覺得“反正榜單都會(huì)被刷,那投入技術(shù)有什么用”——這才是這件事最糟糕的后果。

當(dāng)然,在這場(chǎng)風(fēng)波里,也有值得說一說的一面。

在Spirit 1.6刷分的那段時(shí)間里,WALL-OSS也在全力沖擊榜單。它沒有找到“定向只測(cè)自己”的方法,只能在合規(guī)框架里正常打榜,最終被兩個(gè)刷分賬號(hào)擠出了競(jìng)爭(zhēng)序列。作為一家真正遵守規(guī)則、按實(shí)力去打的團(tuán)隊(duì),卻被這個(gè)扭曲的評(píng)測(cè)生態(tài)攔在了門外,實(shí)屬唏噓。

此外,Cosmos3-Nano-Policy的登頂,是另一個(gè)硬核實(shí)力的證明。這次官方更新榜單之后,它還在榜上——可見,一個(gè)靠合法合規(guī)評(píng)測(cè)打上來的模型,是經(jīng)得起回溯調(diào)查的。

誠然,榜單本身不是假的。有人刷,不代表這個(gè)評(píng)價(jià)體系應(yīng)該被廢棄。但前提是,規(guī)則必須能攔住想鉆空子的人。

結(jié)語

根據(jù)最新消息,RoboArena已經(jīng)出手了。回溯調(diào)查、排除了有利益關(guān)聯(lián)的評(píng)測(cè)數(shù)據(jù)、重置了評(píng)測(cè)者準(zhǔn)入規(guī)則。這是對(duì)的,也是必要的。

圖片

但這場(chǎng)風(fēng)波,不應(yīng)該只以“榜單更新”為終點(diǎn)。

千尋智能的事件之所以值得被認(rèn)真對(duì)待,不是因?yàn)樗卸嗪币姡且驗(yàn)樗赡懿皇枪吕.?dāng)一個(gè)行業(yè)的評(píng)價(jià)標(biāo)準(zhǔn)本身還不夠成熟,而評(píng)價(jià)結(jié)果又可以直接撬動(dòng)數(shù)十億級(jí)別的融資時(shí),鉆空子的動(dòng)力是系統(tǒng)性的,不是某一個(gè)人、某一個(gè)公司的問題。

靠一份榜單講故事融資的窗口,到今天還沒關(guān)上。但通過這件事,至少有了一個(gè)可以放在臺(tái)面上的共識(shí):你拿給你的投資人看的那個(gè)“第一”,得是真的。

榜單可以更新,但信任重建,要難得多。

從今天開始,具身智能行業(yè)要走的路還很長。

*本文圖片均來源于網(wǎng)絡(luò)

       原文標(biāo)題 : RoboArena登頂夢(mèng)碎!具身智能的榜單狂歡,原來只是一個(gè)數(shù)據(jù)騙局

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)