人形機器人當上辦公室實習生, 前NVIDIA工程師的“強化學習”之路

2026-07-02 18:12

來源：Wired 作者：Will Knight

人形機器人能跑能跳，但離真正有用還差一步。一家由前NVIDIA工程師創辦的瑞士創業公司Flexion用“強化學習”讓機器人自主學會了開門、爬樓梯、搬箱子——辦公室雜務的末日還會遠嗎？

人形機器人可以跑步、跳舞，偶爾還能踢人一腳。但要真正“像個人”，它們還得學會做各種辦公室雜活。現在，一家由前NVIDIA機器人研究員創辦的瑞士創業公司Flexion Robotics認為自己找到了答案。該公司開發了一套方法，能訓練機器人執行復雜任務，包括開門、爬樓梯和搬箱子。關鍵在于先在模擬環境中教機器人單個技能，然后讓一個“主AI算法”決定如何組合使用它們。

大多數機器人演示視頻展示的是已經被訓練好去做某一件特定事情的機器人，比如疊襯衫或上貨架。通常這種訓練是通過“遙操作”完成的——幕后有個人控制機器人的動作。但這種方法在機器人進入陌生環境時就不太可靠了。Flexion聲稱它的系統不同——更高效——因為它在模擬環境中訓練機器人，僅需有限的人類指令。

一臺宇樹機器人的“職場秀”

在一段演示視頻中，一臺經過改裝的宇樹（Unitree）人形機器人接到指令：“一個裝零食的包裹已送到Flexion。請走樓梯去取，然后坐電梯上來。打開它，把零食放進零食區架子上的空抽屜里。”機器人完全自主地執行了這一系列動作。它能做到這一點，靠的是組合不同的AI系統。

主AI模型通過“觀看”人類做各種事情的視頻來理解該做什么——比如要去郵件室，它知道需要開某些門、使用電梯。但視頻只教它“什么時候做什么動作”，不教它“怎么物理執行”。接著軟件觸發它在模擬環境中學會的技能，并在真實世界中執行。系統還同時控制機器人的電機，讓它能行走、移動四肢、保持平衡。

“強化學習”是秘密武器

圖片來源：Wired

據Flexion聯合創始人兼CEO、前NVIDIA機器人科學家Nikita Rudin介紹，這套軟件的“秘密配方”是大規模使用“強化學習”——讓計算機通過反復試錯來掌握任務。從主AI模型到模擬環境到電機控制，軟件的每一層都采用了這種方法。“人形機器人本身并不是有趣的、革命性的東西，”分析師George Chowdhury說，“真正重要的是支撐它們的AI模型。”

ABI Research估計，到2036年，機器人基礎模型市場規模可達1500億美元。Flexion正在與多家機器人公司合作，并強調其軟件可以跨不同人形機器人平臺使用。Chowdhury指出，Flexion需要與硬件制造商緊密合作才能成功，且將面臨激烈競爭。但如果沒有Flexion展示的這種編程能力，“這個市場根本不存在”。

“辦公室實習生”背后的商業邏輯

Elon Musk和黃仁勛等科技領袖人物認為，人形機器人將對經濟產生巨大影響，因為它們最終可能替代大量人類勞動。但Flexion的演示反映了一個事實：賦能人形機器人需要AI的根本性進步。目前市場上的人形機器人硬件日益成熟，但缺少的是讓它們能夠自主學習和適應的“大腦”。Flexion的強化學習方案如果能夠規模化，可能會成為解鎖人形機器人商業化的關鍵鑰匙。

值得關注的是，Flexion選擇的是“軟件優先”路線——而非自己制造機器人硬件。這種策略與NVIDIA提供“機器人大腦”的思路類似，都是在硬件商品化的同時，靠軟件和AI來分一杯羹。在機器人行業的“掏金熱”中，“賣鑠鏟”的硬件商和“賣地圖”的軟件商，誰能笑到最后，答案還遠未揭曉。

原文標題 : 人形機器人當上辦公室實習生，前NVIDIA工程師的“強化學習”之路