她曾掌舵OpenAI技術(shù)，如今要顛覆OpenAI的規(guī)則

2026-05-13 14:37

恕我直言，今天你跟AI的交流，跟對(duì)講機(jī)沒什么區(qū)別。

輸入，發(fā)送，它開始思考。你盯著屏幕，等幾秒，甚至幾分鐘。然后它吐出一大段文字。你讀完，再輸入下一條。

如果人機(jī)交互永遠(yuǎn)停留在這個(gè)方式，AGI不會(huì)到來。

因?yàn)槿祟悈f(xié)作從來不是回合制的。兩個(gè)人面對(duì)面吵架，語氣、表情、停頓、搶話，信息在每一個(gè)毫秒里流動(dòng)。這才是真實(shí)的帶寬。

有一家公司正在改寫這個(gè)規(guī)則。它叫Thinking Machines Lab，創(chuàng)始人Mira Murati，前OpenAI首席技術(shù)官。她的目標(biāo)與老東家不同：OpenAI做頂級(jí)閉源模型，她做人類與AI的協(xié)作。

要協(xié)作，先掀翻回合制。

昨天，TML發(fā)布了TML-Interaction-Small。名字叫Small，參數(shù)2760億，是行業(yè)內(nèi)第一個(gè)原生支持實(shí)時(shí)、多模態(tài)人機(jī)協(xié)作的大模型。0.4秒響應(yīng)延遲，無需喚醒的視覺主動(dòng)介入，聽、看、想、說四個(gè)動(dòng)作同步。

在智能和交互的基準(zhǔn)測(cè)試中，它雙雙登頂。部分競(jìng)品連參賽資格都沒有。

大模型下半場(chǎng)的戰(zhàn)役，已經(jīng)從算力與參數(shù)的堆砌，演變?yōu)闄C(jī)器情商與交互本能的革命。

外掛是一條死路

回想一下，為什么面對(duì)面吵架比發(fā)郵件高效？

郵件是回合制的。你寫一段，我回一段。中間隔著思考和打字的時(shí)間，情緒、表情、語氣全部丟失。面對(duì)面不同。我還沒說完，你就打斷；我剛皺眉，你就調(diào)整說辭。信息的交換是并行的、連續(xù)的、雙向的。

當(dāng)前的AI，包括OpenAI和Anthropic的旗艦產(chǎn)品，本質(zhì)上都是郵件模式。

TML的技術(shù)報(bào)告里給這種現(xiàn)象起了個(gè)名字：?jiǎn)尉€程現(xiàn)實(shí)感知。用戶說完之前，AI處于“五感消失”狀態(tài)。它聽不到你的語氣，看不到你的表情，不知道你停頓是因?yàn)楠q豫還是因?yàn)榇瓪狻Ｋ苫卮鸬倪^程中，感知同樣被凍結(jié)。除非你強(qiáng)行打斷，否則它就像一臺(tái)背誦錄音機(jī)，從頭放到尾。

這套機(jī)制的根源在于架構(gòu)。現(xiàn)有的多模態(tài)AI，絕大部分是外掛縫合的。語音活動(dòng)檢測(cè)模塊判斷用戶是否說完，語音識(shí)別模塊把聲音轉(zhuǎn)成文字，大語言模型思考，語音合成模塊把文字讀出來。級(jí)聯(lián)，串行，每一步都增加延遲，每一步都丟失信息。

強(qiáng)化學(xué)習(xí)之父Rich Sutton在《The Bitter Lesson》里說過一句話，TML把它貼在報(bào)告里：所有依賴人類手工設(shè)計(jì)的復(fù)雜外掛系統(tǒng)，最終都會(huì)被底層模型通過暴力計(jì)算和統(tǒng)一架構(gòu)降維打擊。

翻譯成人話：外掛沒有未來。真正的交互能力，必須長在模型身體里，像呼吸一樣自然。從提示詞驅(qū)動(dòng)，升級(jí)為伴隨式協(xié)作。

雙向奔赴的無縫交互

說起來簡(jiǎn)單，做起來難。要在技術(shù)底層徹底打破“回合制”的束縛，難度無異于給天上的飛機(jī)更換引擎。

TML-Interaction-Small（以下簡(jiǎn)稱TML-Small）之所以能做到聽、看、想、說四個(gè)動(dòng)作的同步，源于底層架構(gòu)的四個(gè)易于理解的顛覆性創(chuàng)新：

1.時(shí)間對(duì)齊的微輪轉(zhuǎn)

這就是TML架構(gòu)中最有想象力的核心。

傳統(tǒng)的Transformer架構(gòu)把輸入和輸出的信息流都?jí)嚎s成了一個(gè)有序的token序列。但文字與音頻和視頻包含的信息量和復(fù)雜程度截然不同，不能被簡(jiǎn)單地劃分到同一個(gè)維度之中，因此TML-Small將現(xiàn)實(shí)世界的連續(xù)音視頻流都切分成了每200毫秒一個(gè)的“微輪轉(zhuǎn)”。

在這個(gè)200毫秒的微小切片之內(nèi)，模型同時(shí)接收輸入并生成輸出。它無需等待用戶完成整個(gè)交互過程，只需要用這種高頻碎片化的方式就可以持續(xù)不斷地與用戶進(jìn)行雙向的信息交換。

這種類似微積分的處理方式有效地打破了人為設(shè)置的“回合邊界”，模型也能夠自然地聽懂人們說話時(shí)喘氣帶來的停頓和話語權(quán)的交接。當(dāng)前音頻模型主要的應(yīng)用場(chǎng)景“同聲傳譯”即可由此實(shí)現(xiàn)。

2.無編碼器的早期融合

告別了“縫合怪”，TML也實(shí)現(xiàn)了極致的早期融合。

由于堅(jiān)信外掛的模塊不是通往AGI的正確道路，這款新模型沒有采用龐大的獨(dú)立語音識(shí)別系統(tǒng)或視覺編碼模型。

音頻被直接轉(zhuǎn)化為dMel信號(hào)，視頻畫面被切分為40×40像素的微小圖塊并經(jīng)過輕量級(jí)的MLP網(wǎng)絡(luò)處理，隨后這些音視頻的原始切片就會(huì)和文本一起送入同一個(gè)Transformer架構(gòu)之中。

所有組件都從零開始聯(lián)合訓(xùn)練，就是TML-Small能夠做到零損耗和無時(shí)差的原生多模態(tài)感知的秘訣。

3.前臺(tái)交互+后臺(tái)思考的雙軌系統(tǒng)

性能、速度和成本，全球的AI企業(yè)都在費(fèi)盡心思試圖突破這個(gè)不可能三角的邊界。很多端到端的語音大模型為了追求毫秒級(jí)的延遲，往往只能做簡(jiǎn)單的閑聊，也就是只能做一些簡(jiǎn)單的翻譯，一旦遇到復(fù)雜的數(shù)學(xué)推理或是編程直接崩潰。

TML給出了一種優(yōu)雅的架構(gòu)解法：雙軌并行。

交互模型始終駐留前臺(tái)，保持實(shí)時(shí)在線，和人類企業(yè)的前臺(tái)服務(wù)人員一樣負(fù)責(zé)察言觀色、快速回應(yīng)、穩(wěn)住場(chǎng)面。

一旦遇到需要深思熟慮、調(diào)用搜索、使用工具的復(fù)雜任務(wù)時(shí)，前臺(tái)就會(huì)將豐富的上下文打包給后臺(tái)進(jìn)行異步處理。

4.2760億參數(shù)的算力經(jīng)濟(jì)學(xué)與底層工程

如此高頻的交互，必然會(huì)帶來致命的算力成本壓力。好在，TML-Small并非浪得虛名，作為一個(gè)276B參數(shù)的混合專家（MoE）模型，每次推理時(shí)的活躍參數(shù)僅有12B。

同時(shí)，為了應(yīng)對(duì)海量200毫秒級(jí)別的碎片產(chǎn)生的推理開銷，TML團(tuán)隊(duì)也學(xué)習(xí)國產(chǎn)AI企業(yè)深入底層，開發(fā)了流式會(huì)話（Streaming sessions）技術(shù)。通過在GPU內(nèi)存中持久化保留序列能夠避免頻繁的內(nèi)存重新分配，這套優(yōu)化方案也已經(jīng)貢獻(xiàn)給了開源框架SGLang。

競(jìng)品連考場(chǎng)都進(jìn)不去

榜單上的數(shù)據(jù)讓人沉默。

在“智能與交互質(zhì)量”的綜合評(píng)估中，TML-Small同時(shí)占據(jù)高智商和快響應(yīng)兩個(gè)角落的頂點(diǎn)。在交互延遲測(cè)試中，它跑出0.40秒，比OpenAI和Google的最新實(shí)時(shí)模型還快，接近人類本能反應(yīng)的極限。

但真正讓人震撼的是另外兩件事。

第一件，TML被迫創(chuàng)建了全新的評(píng)測(cè)維度。因?yàn)楝F(xiàn)有的商業(yè)模型，在這些任務(wù)上的得分基本都是零。測(cè)試很簡(jiǎn)單：用戶要求每4秒提醒一次深呼吸。TML-Small準(zhǔn)確率超過60%。其它模型陷入沉默。它們沒有時(shí)間觀念。

第二件，主動(dòng)視覺測(cè)試。傳統(tǒng)的語音助手必須聽到喚醒詞才看一眼屏幕。TML-Small主動(dòng)盯著屏幕，用戶完成目標(biāo)時(shí)主動(dòng)插話提示。沒有喚醒，沒有外掛，AI第一次真正長出了眼睛，擁有了時(shí)間。

帶寬躍遷之后的世界

一旦AI突破了回合制的協(xié)作帶寬瓶頸，它就不再是一個(gè)屏幕里的文本生成器。幾個(gè)行業(yè)的商業(yè)邏輯將被重寫。

數(shù)字員工的定義要改了。現(xiàn)在的AI客服只會(huì)照本宣科。你語氣變了，它聽不出來；你皺眉了，它看不見。換成一個(gè)擁有TML能力的數(shù)字員工，它能在你不耐煩之前主動(dòng)停掉冗長的回答，能在你猶豫時(shí)補(bǔ)充信息。客服、銷售、咨詢，這些依賴人類情緒識(shí)別的行業(yè)，將迎來一次范圍打擊。

空間計(jì)算和下一代游戲也會(huì)變。蘋果Vision Pro被詬病“缺乏靈魂”，缺的就是一個(gè)實(shí)時(shí)伴隨的智能體。TML驅(qū)動(dòng)的AR眼鏡，智能體和你看到同樣的景象，能做危險(xiǎn)提示，能同聲傳譯。游戲里的NPC不用再呆呆地站在固定位置，它們有時(shí)間觀念，能主動(dòng)互動(dòng)，徹底擺脫腳本。

具身智能終于有了大腦。自動(dòng)駕駛和機(jī)器人面對(duì)的世界沒有暫停鍵。傳統(tǒng)大模型“等你說完我再思考”的模式，對(duì)機(jī)器人來說是致命的卡頓。TML每200毫秒處理一次的機(jī)制，恰好匹配機(jī)器人底層“感知—決策—控制”的循環(huán)。這是現(xiàn)階段的最優(yōu)解，也是唯一解。

結(jié)語

TML在報(bào)告結(jié)尾坦承了局限：超長會(huì)話的上下文管理、對(duì)優(yōu)質(zhì)網(wǎng)絡(luò)的依賴。但更大規(guī)模的模型將在今年晚些時(shí)候推出。

過去三年，行業(yè)拼命堆砌參數(shù)，讓AI寫更復(fù)雜的代碼、解更難的數(shù)學(xué)題。有一件事正在被淡忘：

人類文明的偉大，不僅有個(gè)體的靈光一現(xiàn)，還有協(xié)作與溝通的本能。

當(dāng)人類試圖打造AGI時(shí)，讓機(jī)器懂得如何與人類同頻呼吸、無縫交流，遠(yuǎn)比讓它變得更聰明更加重要。

對(duì)講機(jī)時(shí)代應(yīng)該結(jié)束了。

原文標(biāo)題 : 她曾掌舵OpenAI技術(shù)，如今要顛覆OpenAI的規(guī)則