物理AI火了，我的一些新思考

2026-05-18 17:07

新眸

關(guān)注

物理AI是AI發(fā)展的終極模式，它不僅需要理解人的指令，還要理解物理世界的所有規(guī)律。

新眸原創(chuàng)·作者 | 鹿堯

最近有個詞在圈子里傳得很熱，叫“物理AI”。

這個詞其實在去年初的拉斯維加斯CES展會上，就被黃仁勛演講時反復(fù)念叨了十多遍，但直到今年，“Physical AI”才迎來了真正意義上的爆發(fā)。

那么，“物理AI”究竟是什么？

前兩天我看到一段機器人澆花的視頻，機器人先走到水龍頭前，擰開閥門，把水壺灌滿，然后轉(zhuǎn)身走到花盆邊，調(diào)整角度，把水均勻地澆進去，壺嘴沒有撞到花盆邊緣，水也沒有灑出來。

讓一臺機器理解“端一杯水”，它得知道杯子是圓柱形的，得算出該用多大的力捏住才不會滑也不會碎，得明白水是液體、晃動會灑出來，得在行走過程中實時調(diào)整手臂角度來抵消身體的起伏。

這些東西，人類三歲小孩憑直覺就能做到。但對AI來說，這是一個巨大的跨越。過去十年，AI學(xué)會了看、學(xué)會了聽、學(xué)會了說話、學(xué)會了畫圖，但它始終困在屏幕里。物理AI要做的事情，就是把這個聰明的大腦，裝進一個能在真實世界里跑、跳、抓、放的軀體里。

說白了，物理AI就是讓AI理解并作用于物理世界。它不再只是處理文字和圖片，而是要在重力、摩擦力、慣性都起作用的環(huán)境里，做出正確的動作。

一個很少被國內(nèi)討論的事實是，“Physical AI”這個提法并非出自某個芯片巨頭的公關(guān)部門。這個概念最早見于2020年的一篇論文，發(fā)表在《Nature Machine Intelligence》上。文中第一次系統(tǒng)定義了Physical AI：

一類能夠執(zhí)行通常與智能生物體相關(guān)聯(lián)任務(wù)的實體系統(tǒng)，核心在于把物理規(guī)律深度整合進人工智能系統(tǒng)，讓機器不再是“物理盲”，能夠完成從感知到行動的閉環(huán)。

從2020年學(xué)術(shù)圈的一聲槍響，到2026年產(chǎn)業(yè)界全面接棒，中間隔了整整六年。這六年里，傳感器成本降低了幾個量級，端側(cè)AI算力從理論走向工程化，機器人本體的可靠性和量產(chǎn)能力也悄悄走到了臨界點——這些才是物理AI從論文走向產(chǎn)線的隱性推力。

從演示到干活

如果說2023年的大語言模型讓AI學(xué)會了聊天，那2026年物理AI的關(guān)鍵詞只有一個：干活。

事情的變化是肉眼可見的。

去年這個時候，機器人公司出來秀肌肉的方式還是拍Demo視頻，設(shè)定好場景，反復(fù)排練，一鏡到底。好看是好看，但你不知道它拍了多少遍。

而今年，玩法完全不同了。今年智元機器人在南昌的一條3C產(chǎn)線上做了一件事：把機器人扔進真實工廠，連續(xù)干了幾個小時的活，全程直播。沒有預(yù)設(shè)劇本，沒有限定場景，就是工人日常面對的那條產(chǎn)線。幾十萬人次在線圍觀。

一個月后，智元在香港宣布人形機器人實現(xiàn)萬臺量產(chǎn)。從實驗室里的一臺原型機，到工廠產(chǎn)線上的一萬臺，這個坎翻過去，性質(zhì)就變了。

智元的路線很有意思，大多數(shù)機器人創(chuàng)業(yè)公司聚焦在某個環(huán)節(jié)上，做本體的只管本體，做大模型的只管大模型，做靈巧手的只管手。智元選了另一條路：全棧都做，同時布局本體制造、AI模型、靈巧操作和數(shù)據(jù)采集四個方向，還投資了60多家產(chǎn)業(yè)鏈上下游公司。

這么做的代價也很直觀，母公司員工一千多人，到今年底預(yù)計進一步突破人，光薪資一年就是十幾到二十個億。這條路燒錢，但一旦跑通，壁壘也最深。

智元創(chuàng)始人鄧泰華提過一個叫“XYZ曲線”的分析框架。他說具身智能的發(fā)展分三個階段：X是開發(fā)嘗鮮期，大家還在玩Demo；Y是部署成長期，機器人開始真正進產(chǎn)線干活；Z是終局的智能涌現(xiàn)期。

他給2026年的定性是：“部署態(tài)元年，正式從‘能動’走向‘會干’”。“能動”和“能干”，差一個字，但差的是整個產(chǎn)業(yè)的成年禮。

海外也在沖刺，太平洋對岸的節(jié)奏一點不慢。

美國人形機器人公司Figure AI是這條賽道上一個繞不開的名字。去年9月，他們完成了一輪超過10億美元的融資，估值干到了390億美元，在那會兒是全球估值最高的人形機器人公司。

一個月后發(fā)布了新一代產(chǎn)品Figure 03，1米68的身高，差不多60公斤重，演示了澆花、端菜、疊衣服這些家務(wù)活。創(chuàng)始人Brett Adcock特意在社交媒體上補了一句：所有動作都是機器人自主完成的，沒有人在背后遙控。

技術(shù)上值得留意的是，F(xiàn)igure做了一次重大的路線調(diào)整，終止了和OpenAI的合作，全面轉(zhuǎn)向自研的神經(jīng)網(wǎng)絡(luò)系統(tǒng)Helix。

這套系統(tǒng)模仿人類認知做成了三層結(jié)構(gòu)，最底層管平衡和本能反應(yīng)，中間層把大腦指令翻譯成每秒200次的電機控制，最高層是邏輯大腦，負責(zé)理解場景和做決策。這個“本能-反射-思考”的三層架構(gòu)，思路挺巧妙的，相當(dāng)于給機器人裝了一個不會宕機的神經(jīng)系統(tǒng)。

還有件事值得一提。今年英偉達在GTC大會上宣布了一個動作：和全球四大工業(yè)機器人巨頭，ABB、庫卡、安川、發(fā)那科，達成了深度合作。全球已經(jīng)安裝在產(chǎn)線上的超過200萬臺工業(yè)機器人，以后可以通過英偉達的仿真平臺做虛擬調(diào)試和AI訓(xùn)練。

這四家公司加一塊占了全球工業(yè)機器人市場超過一半的份額。接下來十年，這些機器人都會面臨一輪從“傳統(tǒng)編程”到“AI驅(qū)動”的升級換代。未來哪個軟件平臺能嵌進這個進程，就相當(dāng)于拿到了下一代工業(yè)自動化的“操作系統(tǒng)”層。英偉達顯然不想錯過這張船票。

供應(yīng)鏈的跨界搶跑

還有一個有意思的現(xiàn)象：汽車供應(yīng)鏈企業(yè)正在成規(guī)模地涌進物理AI賽道。

今年北京車展上，安波福、法雷奧、地平線、千尋位置這些老牌汽車供應(yīng)商，扎堆展示了機器人相關(guān)方案。當(dāng)時不少業(yè)內(nèi)人士都認識到，具身智能感知和汽車智駕的感知是一樣的，汽車的解決方案可以直接用到人形機器人上。

仔細一想確實如此。汽車智能駕駛系統(tǒng)本質(zhì)上就是一個“移動機器人”的感知-決策-執(zhí)行閉環(huán)，其中的視覺感知、路徑規(guī)劃、實時控制三大模塊，與傳統(tǒng)工業(yè)機器人和人形機器人在技術(shù)架構(gòu)上高度同源。

汽車供應(yīng)商手中的攝像頭、雷達、線控底盤和實時操作系統(tǒng)，稍加適配就能遷移到機器人領(lǐng)域。從這個意義上說，汽車產(chǎn)業(yè)過去十年在智能化上燒的上千億研發(fā)費用，正在以“技術(shù)溢出”的方式流進物理AI賽道。

這或許能解釋為什么中國的機器人公司能這么快沖進量產(chǎn)階段。制造能力和供應(yīng)鏈管理不是憑空長出來的，很多是現(xiàn)成的。那些已經(jīng)在汽車產(chǎn)線上磨合了十幾年的零部件供應(yīng)商，現(xiàn)在換了個新戰(zhàn)場。

國外有現(xiàn)成的案例，就拿特斯拉來說，它的第一代人形機器人Optimus也在加速入場。此前特斯拉在2026年第一季度財報電話會議上明確宣布，公司將向“以AI、自動駕駛出租車和人形機器人為核心的未來轉(zhuǎn)型”，第一代機器人生產(chǎn)線將下線100萬臺產(chǎn)能，并取代現(xiàn)有Model S和Model X的生產(chǎn)線。

100萬臺的數(shù)字放到今天的語境里可能顯得夸張，但特斯拉的邏輯是清楚的：它要把汽車制造領(lǐng)域積累的大規(guī)模生產(chǎn)能力和供應(yīng)鏈管理經(jīng)驗，直接復(fù)制到人形機器人領(lǐng)域。

馬斯克要的不是一臺“能動的機器人”，而是一臺能在工廠里和人類協(xié)同作業(yè)的“量產(chǎn)工具”。這條路一旦走通，它對制造業(yè)自動化格局的沖擊將不亞于Model 3對燃油車市場的沖擊。

世界模型為什么今年突然能用起來了

講完了產(chǎn)業(yè)層面的大廠動作，不妨把鏡頭往深拉一層，這場物理AI競賽的技術(shù)底座是什么？

如果用一句話概括，那就是：世界模型的工程化突破。我覺得這也是理解這波浪潮最關(guān)鍵的一點。

“世界模型”這個概念不新了，2018年就有人提出來，核心想法很簡單：讓AI學(xué)會一套對物理世界運轉(zhuǎn)規(guī)律的內(nèi)部理解，這樣它就能預(yù)測“如果我推這個杯子一下，會發(fā)生什么”。但以前這東西基本只活在論文里——太吃算力，生成質(zhì)量不穩(wěn)定，做不了實時交互。

轉(zhuǎn)折發(fā)生在最近一年。英偉達推出了一個叫Cosmos的系列模型，它的核心能力就是從文字或圖像生成符合物理規(guī)律的動作數(shù)據(jù)。

舉個例子：你想訓(xùn)練一臺機器人學(xué)會在各種天氣下搬箱子，不用真的在雨天、雪天、半夜去工廠里拍視頻。在仿真環(huán)境里設(shè)定好參數(shù)，Cosmos可以直接生成海量的、高度逼真的訓(xùn)練數(shù)據(jù)，覆蓋各種極端場景。

今年年初，螞蟻靈波團隊開源了一個叫LingBot-World的框架，專門做交互式世界模型。它能實現(xiàn)近10分鐘連續(xù)穩(wěn)定的視頻生成，端到端交互延遲控制在秒單位。用戶可以像打游戲一樣，用鍵盤和鼠標(biāo)實時控制虛擬角色，模型即時反饋場景變化。這個意義在于，世界模型從“離線渲染”變成了“在線交互”，訓(xùn)練效率提升了一個量級。

還有創(chuàng)業(yè)公司極佳視界發(fā)布了GigaWorld-1平臺，定位是物理世界的“數(shù)字沙盒”。一個月后，阿里巴巴的ABot-PhysWorld在一個叫WorldArena的評測基準(zhǔn)上超過了它，綜合排名沖到了第一。競爭正在以月為單位往前拱。

這些開源項目的重要性不在于參數(shù)有多高，而在于它們把一個“只有巨頭玩得起”的游戲，變成了“小團隊也能上手”的工具。當(dāng)造輪子的人足夠多，真正跑起來的車才會多。

世界模型之所以在物理AI時代成為核心要件，是因為它回答了那個一直懸而未決的問題：如何讓機器人以低成本、高效率的方式學(xué)會物理世界的復(fù)雜規(guī)律？

真實世界的訓(xùn)練數(shù)據(jù)獲取成本極高，且天然帶有分布偏差，你很難在現(xiàn)實中湊齊工廠暴雪夜班、物流倉庫斷電應(yīng)急、產(chǎn)線工人突發(fā)介入等所有邊緣場景。但合成數(shù)據(jù)可以。通過在仿真環(huán)境中用提示詞操控場景參數(shù)，研究者可以在數(shù)小時內(nèi)生成覆蓋極端條件的大規(guī)模訓(xùn)練視頻，這在傳統(tǒng)實采路線下需要數(shù)月甚至數(shù)年。

這個突破的杠桿效應(yīng)，可能超過一切單一算法改進。

范式變了

世界模型的突破，其實只是物理AI技術(shù)棧進化的一部分。底層技術(shù)的變化，正在推動整個機器人行業(yè)的架構(gòu)重建。

傳統(tǒng)機器人用的是“感知、規(guī)劃、控制”三段式。先由傳感器感知環(huán)境，工程師寫好規(guī)則告訴機器怎么規(guī)劃路徑，最后執(zhí)行動作。這在工廠流水線這種結(jié)構(gòu)化環(huán)境里沒問題，但場景一復(fù)雜就暴露短板，機器只會按預(yù)設(shè)劇本走，遇到?jīng)]見過的狀況直接卡住。

物理AI走的是另一條路：“感知、推理、執(zhí)行”。感知之后不經(jīng)過人類寫死的規(guī)則，而是由訓(xùn)練過的神經(jīng)網(wǎng)絡(luò)自己推理出該做什么，然后執(zhí)行。本質(zhì)的區(qū)別在于，前者是“工程師替機器思考”，后者是“機器自己理解物理世界”。

國際機器人標(biāo)準(zhǔn)組織今年發(fā)布了一份技術(shù)路線圖，預(yù)測未來三年內(nèi)，80%的新機型將采用這種新架構(gòu)，傳統(tǒng)三段式方案會逐漸退出主流。這不是小修小補，是整套范式的換軌。

就像某位業(yè)內(nèi)專家說的，我覺得總結(jié)得挺到位：物理AI是AI發(fā)展的終極模式，因為它不僅需要理解人的指令，還要理解物理世界的所有規(guī)律。

黃仁勛說機器人開發(fā)的ChatGPT時刻已然到來。”在我看來，物理AI和語言模型的“ChatGPT時刻”性質(zhì)完全不同。語言模型的“那一刻”是讓全世界普通人第一次親手用上了AI。而物理AI的“那一刻”，是讓AI第一次真正開始干活。

如今這個賽道處于一個很特殊的階段：方向被鎖定了，概念被認可了，但格局還沒定。

一方面，做演示和做量產(chǎn)是兩套完全不同的能力體系。一臺樣機能跑通，一萬臺產(chǎn)品在真實場景里考驗的是制造一致性、供應(yīng)鏈韌性、場景泛化能力、運維體系，這些跟AI算法沒什么關(guān)系，但每一項都足夠卡死一批玩家。另一方面，真實世界的數(shù)據(jù)采集成本高、周期長、覆蓋面窄，這幾乎注定了物理AI的大規(guī)模訓(xùn)練將嚴(yán)重依賴合成數(shù)據(jù)。

與此同時，從汽車供應(yīng)鏈、傳統(tǒng)工業(yè)自動化，到消費電子代工，這些看起來和“AI”關(guān)系不大的行業(yè)，正在以技術(shù)溢出的方式加速切入物理AI。它們的制造能力、供應(yīng)鏈管理經(jīng)驗和場景資源，可能是決定物理AI落地速度的關(guān)鍵變量。

一個直覺性的判斷是，你看2023年初ChatGPT引爆的那波AI浪潮，真正賺到最多價值的不是模型廠商，而是基礎(chǔ)設(shè)施提供商。物理AI這波浪潮會不會重演同樣的劇情？

英偉達的布局暗示著它正在賭這個方向，但故事還沒寫完。2026年是部署態(tài)元年，產(chǎn)業(yè)競爭才剛剛開始。三年后回看今天，哪些名字還在牌桌上，哪些已經(jīng)出局，可能會出乎大多數(shù)人的意料。

本文系新眸原創(chuàng)

— END —

原文標(biāo)題 : 物理AI火了，我的一些新思考