新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

VLA已死?這家公司想用 VLOA 給機器人裝上“物理直覺”

2026-05-14 16:53
星河頻率
關注

作者|李沐蓉

今年5月,英偉達機器人負責人 Jim Fan 在紅杉峰會上拋出一句話:「VLA已死」。

這四個字,把具身智能行業積壓已久的焦慮推上了臺面。

機器人泛化這道題,究竟該怎么解?

完成 10 億元 A 輪融資的 RoboScience,給出了自己的答案:VLOA(Vision-Language-Object-Action)。

VLOA,相比于 VLA 它在視覺和動作之間嵌入 Object,聚焦物體該怎樣動,模型不只是「看到并執行」,而是能夠在一定程度上理解「動作如何在物理世界中發生與演化」。

VLOA 將任務轉化為對物體運動軌跡的理解,再據此生成動作,這就從底層邏輯上一定程度上解決了泛化難題。

據了解,本輪融資主要用于持續深化 VLOA 模型,以及推進自研機器人本體的工程化與量產。

10億融資背后,資本押的是什么?

資本對 RoboScience 的關注,其實在去年就已經開始。

天使輪階段,京東、招商局創投、零一創投,便用兩億投出信任票。

到了今年 A 輪,融資規模進一步擴大,累計融資超過 13 億元,投資方包含多家國內外知名產業巨頭和一線財務機構。

資本持續追投的背后,是對團隊能力和 VLOA 模型的押注。

RoboScience 團隊的稀缺之處,在于它不僅擁有工程落地能力,更有前沿的學術研究成果。

創始人田野,本科畢業于中科大物理學院,后進入斯坦福 AI Lab,師從吳恩達。

在蘋果工作的七年時間里,他擔任 Apple AI Platform 技術負責人,參與 Apple Intelligence、端側動態神經網絡、編譯融合系統等核心項目研發落地,具備成熟的 AI 技術部署及生態構建經驗。

這意味著,他并不僅理解模型,更理解如何把模型部署到硬件系統里。

團隊另一位關鍵人物,首席科學家邵林,不僅是新加坡國立大學計算機系助理教授,還是 IEEE 機器人與自動化學會機器學習技術委員會的聯合主席。

他長期深耕于機器人感知與操作、強化學習、機器人操作模型等前沿領域,在 ICRA、IROS、IEEE 等頂會頂刊中發表過超 35 篇論文,技術成果走在行業前沿。

深受蘋果產品哲學的影響,這支團隊從一開始就選擇了「模型自研+本體自研」的全棧路線。

他們認為,如果模型和硬件脫節,將永遠無法真正理解機器人在真實世界里的失敗到底出在哪兒,是感知錯了,還是執行不了?閉環迭代必須自己掌控兩端。

這種「軟硬一體化」的布局正好契合了資本對硬科技閉環能力的偏好。

普華資本在領投 Pre-A 輪時的評價,精準概括了市場對這條路線的期待:

RoboScience 獨創的 VLOA 大模型架構,以及快慢腦分層系統,不僅解決了行業長期存在的泛化性難題,更通過自研的 RoboMirage 仿真引擎構建了高效的數據閉環,為通用機器人的實現鋪平了道路。

VLOA模型,突破具身智能泛化瓶頸

過去兩年,VLA 模型幾乎成為整個機器人行業最主流的大腦模型,視覺看見環境、語言理解任務、動作執行指令。

它給機器人提供了一套簡單、統一、易于講述的「大腦范式」,第一次讓機器人具備了任務理解能力。

優必選 Walker S2、智平方 AlphaBot 2,都在不同程度上搭載或強調 VLA 模型。

但問題逐漸暴露,VLA 似乎只能理解任務,不能理解物理世界。

4 月,一篇發表在 arXiv 上的論文用因果干預實驗論證了 VLA 模型在動態場景中「災難性地失敗」。

當環境發生變化時,模型傾向于重復先前的動作,而不是根據新狀態調整,更嚴重的是,在復雜場景下,多模態語義特征會發生「語義坍塌」,導致模型失去區分能力。

Covariant 聯合創始人 Peter Chen 曾直言:

「VLA 擅長回答『這是什么』,卻不擅長回答『這樣做之后會發生什么』——它缺乏對物理因果鏈的理解。」

VLOA 模型,在傳統 VLA 的基礎上,將「Object」單獨抽離出來,作為視覺-語言到動作之間的核心中間層。

RoboScience 認為機器人所有操作,本質上都是在改變物體在三維空間中的位置、姿態和交互關系。

無論是擰瓶蓋、疊衣服還是端起水杯,任務不管多復雜,最終都可以統一描述為「物體軌跡的變化」。

整個模型架構拆成兩層:

上層是從 V→O(Vision to Object),由具身世界模型負責語義規劃,理解場景中的對象和指令意圖,回答物體應該發生怎樣的狀態變化才算完成任務;

下層 O→A(Object to Action),由通用操作模型負責物理執行,讓機器人依據物理規律操作物體,使其產生期望的運動變化。

兩層之間傳遞的,是以 3D 點云軌跡形式表達的物體軌跡(Object Trajectory),包括物體的位置、姿態、運動方向以及預測置信度。

換句話說,VLOA 試圖把「物體運動」變成機器人理解世界的基礎語言。

這樣的路線,相比 VLA 有三個優勢。

第一,泛化基礎更接近真實物理操作。

傳統 VLA 更像「動作記憶」,而 VLOA 關注的是物體運動規律,它更接近真實世界操作本質。

第二,實現跨本體泛化。

上層世界模型并不綁定具體機器人形態,因此,同一套模型理論上可以遷移到不同機器人本體上,包括單臂、雙臂、人形、輪式機器人。

第三,更少的數據實現更優的效果。

模型分層使得數據的收集和處理更有條理,他們抓住了機器人與物理世界交互的本質,關注物體運動的軌跡,讓使得海量視頻數據都能成為訓練資源,降低對真機數據的依賴。

據團隊披露,目前具身世界模型已經積累數百萬小時多模態操作數據集,并以每周數十萬小時速度持續增長。

不久前,馬斯克也提到要用視頻訓練替代真機數據,這也說明 RoboScience 路線的前瞻性。

泛化的終極答案,依然在路上

今天,整個具身智能行業,其實都在圍繞同一個終極目標展開競爭:通用機器人。

真正的通用機器人,不是只會完成一個任務,而是能夠像人類一樣,在無限變化的世界中持續適應。

當前,具身智能泛化面臨著三重挑戰:

任務泛化,機器人能否理解并執行從未見過的新任務指令,而不是只能重復訓練過的固定流程;

場景泛化,機器人能否在陌生環境中維持穩定工作,從實驗室走向真實世界之后,依然保持可靠性;

對象泛化,機器人能否操作訓練中從未出現過的新物體,從不同材質、形狀,到重量、摩擦力、柔性結構都發生變化時,依然具備穩定操作能力。。

三重挑戰,讓具身智能從「可用」邁向「可靠」,異常艱難。

VLOA 模型的出現為破解泛化瓶頸提供了一條極具想象力的技術路徑,其實目前整個行業都在多條技術路線上,對泛化難題進行攻堅。

今年 4 月,Physical Intelligence 發布了最新的π0.7 模型,展示出一種令研究團隊自己都感到意外的「組合泛化能力」。

在訓練數據中,模型幾乎沒有見過空氣炸鍋相關操作,僅存在兩個極其邊緣的關聯片段。

但模型最終卻能夠通過拼合不同機器人操作片段、網頁預訓練知識以及歷史動作經驗,形成對「空氣炸鍋如何工作」的功能性理解,并完成相應任務。

利用組合泛化,模型不再死記硬背特定任務的解決方案,可以通過已有經驗遷移解決未知問題。

還有部分公司在推進世界模型與 VLA 的融合路線。

智平方作為國內最早布局端到端 VLA 的創業團隊之一,在去年 11 月發布了 Video2Act 融合架構,將世界模型與 VLA 結合。

不僅讓機器人「理解任務」,還讓機器人能夠預測物理變化過程,從而提升復雜環境下的推理與決策能力。

京東 Joy Future Academy 在 VLA 的框架下,提出了 JoyAI-RA 0.1 模型,引入了統一動作空間,為不同形態的機器人提供一套統一的動作接口。

模型可以在同一個空間內學習人類視頻、仿真軌跡和真實機器人動作,顯著提升了跨實體知識遷移的效率。

這背后,其實反映出行業另一個重要趨勢:機器人正在嘗試擺脫「一機一模型」的割裂狀態。

還有,魔法原子發布自研世界模型 Magic-Mix。

該模型由兩個核心引擎構成,Magic-Mix WAM 負責物理環境理解、空間推演與動作決策;

Magic-Mix Creator 則作為離線數據生成引擎,通過合成大批量訓練數據,降低對昂貴、周期長的真機數據采集的依賴,為模型提供持續的數據供給,形成一個「數據生成-訓練-反饋」的閉環。

本質上,這套架構直指 VLA 模型在真實世界中泛化不足和執行不穩定的長期痛點,讓機器人能夠理解物理世界、預測未來并做出決策。

行業針對 VLA 模型的爭議,在 5 月英偉達機器人負責人 Jim Fan 在紅杉 AI Ascent 峰會上的發言中達到頂點。

他給出的論斷「VLA 已死」引發激烈討論。

雖然不少研究者認為 VLA 仍在諸多場景中發揮著不可替代的作用,但這一聲音至少折射出整個行業對現有模型泛化能力的擔憂。

智源研究院院長王仲遠指出,最現實的路徑是通過「VLA +強化學習」攻克具體場景,讓機器人先干起來,在真機運行中積累更多數據,形成數據閉環,最后再解決泛化性難題。

而智平方創始人郭彥東的判斷則是:

VLA 遠遠沒有結束,它是通往物理世界智能的最強主航道,行業正快速向「世界模型+VLA」的混合路線靠攏,下一代機器人大腦是類腦 VLA。

在這樣的行業背景下,RoboScience 的 10 億元 A 輪融資,其實是資本對「AI 大腦路線」的投票。

VLOA ,不是讓模型記住更多場景,而是讓模型理解操作的物理本質,把「物體怎么動」學會,其泛化能力,最終必須讓成百上千臺機器人在真實環境中的持續運行中得到驗證。

目前陷入概念之爭,VLA是否已死、端到端還是分層、世界模型是終點還是過渡方案,還為時過早,也尚無必要。

最重要的是,如何通過架構的創新去不斷提升模型的能力。

泛化這道題沒有標準答案,但方向是清晰的,無論哪條路,最終都必須讓模型從「看過什么做什么」,進化到「理解了什么都能做」。

這場競賽的勝負手,不取決于誰先喊出下一個口號,而取決于誰先讓模型真正理解物理世界。

       原文標題 : VLA已死?這家公司想用 VLOA 給機器人裝上“物理直覺”

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號