她曾掌舵OpenAI技術(shù),如今要顛覆OpenAI的規(guī)則

恕我直言,今天你跟AI的交流,跟對(duì)講機(jī)沒什么區(qū)別。
輸入,發(fā)送,它開始思考。你盯著屏幕,等幾秒,甚至幾分鐘。然后它吐出一大段文字。你讀完,再輸入下一條。
如果人機(jī)交互永遠(yuǎn)停留在這個(gè)方式,AGI不會(huì)到來。
因?yàn)槿祟悈f(xié)作從來不是回合制的。兩個(gè)人面對(duì)面吵架,語氣、表情、停頓、搶話,信息在每一個(gè)毫秒里流動(dòng)。這才是真實(shí)的帶寬。
有一家公司正在改寫這個(gè)規(guī)則。它叫Thinking Machines Lab,創(chuàng)始人Mira Murati,前OpenAI首席技術(shù)官。她的目標(biāo)與老東家不同:OpenAI做頂級(jí)閉源模型,她做人類與AI的協(xié)作。

要協(xié)作,先掀翻回合制。
昨天,TML發(fā)布了TML-Interaction-Small。名字叫Small,參數(shù)2760億,是行業(yè)內(nèi)第一個(gè)原生支持實(shí)時(shí)、多模態(tài)人機(jī)協(xié)作的大模型。0.4秒響應(yīng)延遲,無需喚醒的視覺主動(dòng)介入,聽、看、想、說四個(gè)動(dòng)作同步。
在智能和交互的基準(zhǔn)測(cè)試中,它雙雙登頂。部分競(jìng)品連參賽資格都沒有。
大模型下半場(chǎng)的戰(zhàn)役,已經(jīng)從算力與參數(shù)的堆砌,演變?yōu)闄C(jī)器情商與交互本能的革命。
01
外掛是一條死路
回想一下,為什么面對(duì)面吵架比發(fā)郵件高效?
郵件是回合制的。你寫一段,我回一段。中間隔著思考和打字的時(shí)間,情緒、表情、語氣全部丟失。面對(duì)面不同。我還沒說完,你就打斷;我剛皺眉,你就調(diào)整說辭。信息的交換是并行的、連續(xù)的、雙向的。
當(dāng)前的AI,包括OpenAI和Anthropic的旗艦產(chǎn)品,本質(zhì)上都是郵件模式。
TML的技術(shù)報(bào)告里給這種現(xiàn)象起了個(gè)名字:?jiǎn)尉程現(xiàn)實(shí)感知。用戶說完之前,AI處于“五感消失”狀態(tài)。它聽不到你的語氣,看不到你的表情,不知道你停頓是因?yàn)楠q豫還是因?yàn)榇瓪狻K苫卮鸬倪^程中,感知同樣被凍結(jié)。除非你強(qiáng)行打斷,否則它就像一臺(tái)背誦錄音機(jī),從頭放到尾。
這套機(jī)制的根源在于架構(gòu)。現(xiàn)有的多模態(tài)AI,絕大部分是外掛縫合的。語音活動(dòng)檢測(cè)模塊判斷用戶是否說完,語音識(shí)別模塊把聲音轉(zhuǎn)成文字,大語言模型思考,語音合成模塊把文字讀出來。級(jí)聯(lián),串行,每一步都增加延遲,每一步都丟失信息。
強(qiáng)化學(xué)習(xí)之父Rich Sutton在《The Bitter Lesson》里說過一句話,TML把它貼在報(bào)告里:所有依賴人類手工設(shè)計(jì)的復(fù)雜外掛系統(tǒng),最終都會(huì)被底層模型通過暴力計(jì)算和統(tǒng)一架構(gòu)降維打擊。

翻譯成人話:外掛沒有未來。真正的交互能力,必須長在模型身體里,像呼吸一樣自然。從提示詞驅(qū)動(dòng),升級(jí)為伴隨式協(xié)作。
02
雙向奔赴的無縫交互
說起來簡(jiǎn)單,做起來難。要在技術(shù)底層徹底打破“回合制”的束縛,難度無異于給天上的飛機(jī)更換引擎。
TML-Interaction-Small(以下簡(jiǎn)稱TML-Small)之所以能做到聽、看、想、說四個(gè)動(dòng)作的同步,源于底層架構(gòu)的四個(gè)易于理解的顛覆性創(chuàng)新:
1.時(shí)間對(duì)齊的微輪轉(zhuǎn)
這就是TML架構(gòu)中最有想象力的核心。
傳統(tǒng)的Transformer架構(gòu)把輸入和輸出的信息流都?jí)嚎s成了一個(gè)有序的token序列。但文字與音頻和視頻包含的信息量和復(fù)雜程度截然不同,不能被簡(jiǎn)單地劃分到同一個(gè)維度之中,因此TML-Small將現(xiàn)實(shí)世界的連續(xù)音視頻流都切分成了每200毫秒一個(gè)的“微輪轉(zhuǎn)”。

在這個(gè)200毫秒的微小切片之內(nèi),模型同時(shí)接收輸入并生成輸出。它無需等待用戶完成整個(gè)交互過程,只需要用這種高頻碎片化的方式就可以持續(xù)不斷地與用戶進(jìn)行雙向的信息交換。
這種類似微積分的處理方式有效地打破了人為設(shè)置的“回合邊界”,模型也能夠自然地聽懂人們說話時(shí)喘氣帶來的停頓和話語權(quán)的交接。當(dāng)前音頻模型主要的應(yīng)用場(chǎng)景“同聲傳譯”即可由此實(shí)現(xiàn)。
2.無編碼器的早期融合
告別了“縫合怪”,TML也實(shí)現(xiàn)了極致的早期融合。
由于堅(jiān)信外掛的模塊不是通往AGI的正確道路,這款新模型沒有采用龐大的獨(dú)立語音識(shí)別系統(tǒng)或視覺編碼模型。
音頻被直接轉(zhuǎn)化為dMel信號(hào),視頻畫面被切分為40×40像素的微小圖塊并經(jīng)過輕量級(jí)的MLP網(wǎng)絡(luò)處理,隨后這些音視頻的原始切片就會(huì)和文本一起送入同一個(gè)Transformer架構(gòu)之中。

所有組件都從零開始聯(lián)合訓(xùn)練,就是TML-Small能夠做到零損耗和無時(shí)差的原生多模態(tài)感知的秘訣。
3.前臺(tái)交互+后臺(tái)思考的雙軌系統(tǒng)
性能、速度和成本,全球的AI企業(yè)都在費(fèi)盡心思試圖突破這個(gè)不可能三角的邊界。很多端到端的語音大模型為了追求毫秒級(jí)的延遲,往往只能做簡(jiǎn)單的閑聊,也就是只能做一些簡(jiǎn)單的翻譯,一旦遇到復(fù)雜的數(shù)學(xué)推理或是編程直接崩潰。
TML給出了一種優(yōu)雅的架構(gòu)解法:雙軌并行。

交互模型始終駐留前臺(tái),保持實(shí)時(shí)在線,和人類企業(yè)的前臺(tái)服務(wù)人員一樣負(fù)責(zé)察言觀色、快速回應(yīng)、穩(wěn)住場(chǎng)面。
一旦遇到需要深思熟慮、調(diào)用搜索、使用工具的復(fù)雜任務(wù)時(shí),前臺(tái)就會(huì)將豐富的上下文打包給后臺(tái)進(jìn)行異步處理。
4.2760億參數(shù)的算力經(jīng)濟(jì)學(xué)與底層工程
如此高頻的交互,必然會(huì)帶來致命的算力成本壓力。好在,TML-Small并非浪得虛名,作為一個(gè)276B參數(shù)的混合專家(MoE)模型,每次推理時(shí)的活躍參數(shù)僅有12B。
同時(shí),為了應(yīng)對(duì)海量200毫秒級(jí)別的碎片產(chǎn)生的推理開銷,TML團(tuán)隊(duì)也學(xué)習(xí)國產(chǎn)AI企業(yè)深入底層,開發(fā)了流式會(huì)話(Streaming sessions)技術(shù)。通過在GPU內(nèi)存中持久化保留序列能夠避免頻繁的內(nèi)存重新分配,這套優(yōu)化方案也已經(jīng)貢獻(xiàn)給了開源框架SGLang。
03
競(jìng)品連考場(chǎng)都進(jìn)不去
榜單上的數(shù)據(jù)讓人沉默。
在“智能與交互質(zhì)量”的綜合評(píng)估中,TML-Small同時(shí)占據(jù)高智商和快響應(yīng)兩個(gè)角落的頂點(diǎn)。在交互延遲測(cè)試中,它跑出0.40秒,比OpenAI和Google的最新實(shí)時(shí)模型還快,接近人類本能反應(yīng)的極限。

但真正讓人震撼的是另外兩件事。
第一件,TML被迫創(chuàng)建了全新的評(píng)測(cè)維度。因?yàn)楝F(xiàn)有的商業(yè)模型,在這些任務(wù)上的得分基本都是零。測(cè)試很簡(jiǎn)單:用戶要求每4秒提醒一次深呼吸。TML-Small準(zhǔn)確率超過60%。其它模型陷入沉默。它們沒有時(shí)間觀念。
第二件,主動(dòng)視覺測(cè)試。傳統(tǒng)的語音助手必須聽到喚醒詞才看一眼屏幕。TML-Small主動(dòng)盯著屏幕,用戶完成目標(biāo)時(shí)主動(dòng)插話提示。沒有喚醒,沒有外掛,AI第一次真正長出了眼睛,擁有了時(shí)間。
04
帶寬躍遷之后的世界
一旦AI突破了回合制的協(xié)作帶寬瓶頸,它就不再是一個(gè)屏幕里的文本生成器。幾個(gè)行業(yè)的商業(yè)邏輯將被重寫。
數(shù)字員工的定義要改了。現(xiàn)在的AI客服只會(huì)照本宣科。你語氣變了,它聽不出來;你皺眉了,它看不見。換成一個(gè)擁有TML能力的數(shù)字員工,它能在你不耐煩之前主動(dòng)停掉冗長的回答,能在你猶豫時(shí)補(bǔ)充信息。客服、銷售、咨詢,這些依賴人類情緒識(shí)別的行業(yè),將迎來一次范圍打擊。
空間計(jì)算和下一代游戲也會(huì)變。蘋果Vision Pro被詬病“缺乏靈魂”,缺的就是一個(gè)實(shí)時(shí)伴隨的智能體。TML驅(qū)動(dòng)的AR眼鏡,智能體和你看到同樣的景象,能做危險(xiǎn)提示,能同聲傳譯。游戲里的NPC不用再呆呆地站在固定位置,它們有時(shí)間觀念,能主動(dòng)互動(dòng),徹底擺脫腳本。
具身智能終于有了大腦。自動(dòng)駕駛和機(jī)器人面對(duì)的世界沒有暫停鍵。傳統(tǒng)大模型“等你說完我再思考”的模式,對(duì)機(jī)器人來說是致命的卡頓。TML每200毫秒處理一次的機(jī)制,恰好匹配機(jī)器人底層“感知—決策—控制”的循環(huán)。這是現(xiàn)階段的最優(yōu)解,也是唯一解。
05
結(jié)語
TML在報(bào)告結(jié)尾坦承了局限:超長會(huì)話的上下文管理、對(duì)優(yōu)質(zhì)網(wǎng)絡(luò)的依賴。但更大規(guī)模的模型將在今年晚些時(shí)候推出。
過去三年,行業(yè)拼命堆砌參數(shù),讓AI寫更復(fù)雜的代碼、解更難的數(shù)學(xué)題。有一件事正在被淡忘:
人類文明的偉大,不僅有個(gè)體的靈光一現(xiàn),還有協(xié)作與溝通的本能。
當(dāng)人類試圖打造AGI時(shí),讓機(jī)器懂得如何與人類同頻呼吸、無縫交流,遠(yuǎn)比讓它變得更聰明更加重要。
對(duì)講機(jī)時(shí)代應(yīng)該結(jié)束了。
原文標(biāo)題 : 她曾掌舵OpenAI技術(shù),如今要顛覆OpenAI的規(guī)則
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
圖片新聞
-

落地?zé)o錫!京東首個(gè)物流機(jī)器人超級(jí)工廠來了
-

OpenAI發(fā)布的AI瀏覽器,市場(chǎng)為何反應(yīng)強(qiáng)烈?
-

馬云重返一線督戰(zhàn),阿里重啟創(chuàng)始人模式
-

機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-

存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬
-

長安汽車母公司突然更名:從“中國長安”到“辰致科技”
-

豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-

字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
最新活動(dòng)更多
-
6月30日立即申請(qǐng)?jiān)囉?> 【免費(fèi)試用】旭之源工業(yè)電源一一機(jī)器人的穩(wěn)定“心臟“
-
精彩回顧立即查看>> 【限時(shí)免費(fèi)】物理場(chǎng)仿真助力生物醫(yī)學(xué)領(lǐng)域技術(shù)創(chuàng)新
-
精彩回顧立即查看>> 【直播】 智測(cè)未來·2026海克斯康春季產(chǎn)品創(chuàng)新日
-
精彩回顧立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會(huì)
-
精彩回顧立即查看>> OFweek 2026(第十五屆)中國機(jī)器人產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 維科杯· OFweek 2025中國機(jī)器人行業(yè)年度評(píng)選
推薦專題
- 1 AI狂歡遇上油價(jià)破百,全球股市還能漲多久? | 產(chǎn)聯(lián)看全球
- 2 全球股市陷AI獨(dú)大結(jié)構(gòu)性瘋狂
- 3 DeepSeek融資500億,梁文鋒難逃資本局
- 4 全球資本,重倉中國機(jī)器人
- 5 連夜測(cè)了一波DeepSeek-V4,我發(fā)現(xiàn)它可能只剩“審美”這個(gè)短板了
- 6 谷歌2026 I/O大會(huì)完整回顧:模型依然重要,但智能體正在接管一切
- 7 “國產(chǎn)GPU第一股”摩爾線程首季扭虧,但造血能力仍待考驗(yàn)
- 8 Anthropic發(fā)布2028年全球AI領(lǐng)導(dǎo)力的兩種情景報(bào)告
- 9 Figure AI 交付突破350臺(tái),陪跑特斯拉會(huì)迎來iPhone 時(shí)刻嗎?
- 10 AI界的殺豬盤:9秒刪庫跑路,全員被封號(hào),還繼續(xù)扣錢!
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享





