新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯(cuò)
加入自媒體

她曾掌舵OpenAI技術(shù),如今要顛覆OpenAI的規(guī)則

圖片

恕我直言,今天你跟AI的交流,跟對(duì)講機(jī)沒什么區(qū)別。

輸入,發(fā)送,它開始思考。你盯著屏幕,等幾秒,甚至幾分鐘。然后它吐出一大段文字。你讀完,再輸入下一條。

如果人機(jī)交互永遠(yuǎn)停留在這個(gè)方式,AGI不會(huì)到來。

因?yàn)槿祟悈f(xié)作從來不是回合制的。兩個(gè)人面對(duì)面吵架,語氣、表情、停頓、搶話,信息在每一個(gè)毫秒里流動(dòng)。這才是真實(shí)的帶寬。

有一家公司正在改寫這個(gè)規(guī)則。它叫Thinking Machines Lab,創(chuàng)始人Mira Murati,前OpenAI首席技術(shù)官。她的目標(biāo)與老東家不同:OpenAI做頂級(jí)閉源模型,她做人類與AI的協(xié)作。

要協(xié)作,先掀翻回合制。

昨天,TML發(fā)布了TML-Interaction-Small。名字叫Small,參數(shù)2760億,是行業(yè)內(nèi)第一個(gè)原生支持實(shí)時(shí)、多模態(tài)人機(jī)協(xié)作的大模型。0.4秒響應(yīng)延遲,無需喚醒的視覺主動(dòng)介入,聽、看、想、說四個(gè)動(dòng)作同步。

在智能和交互的基準(zhǔn)測(cè)試中,它雙雙登頂。部分競(jìng)品連參賽資格都沒有。

大模型下半場(chǎng)的戰(zhàn)役,已經(jīng)從算力與參數(shù)的堆砌,演變?yōu)闄C(jī)器情商與交互本能的革命。

01

外掛是一條死路

回想一下,為什么面對(duì)面吵架比發(fā)郵件高效?

郵件是回合制的。你寫一段,我回一段。中間隔著思考和打字的時(shí)間,情緒、表情、語氣全部丟失。面對(duì)面不同。我還沒說完,你就打斷;我剛皺眉,你就調(diào)整說辭。信息的交換是并行的、連續(xù)的、雙向的。

當(dāng)前的AI,包括OpenAI和Anthropic的旗艦產(chǎn)品,本質(zhì)上都是郵件模式。

TML的技術(shù)報(bào)告里給這種現(xiàn)象起了個(gè)名字:?jiǎn)尉程現(xiàn)實(shí)感知。用戶說完之前,AI處于“五感消失”狀態(tài)。它聽不到你的語氣,看不到你的表情,不知道你停頓是因?yàn)楠q豫還是因?yàn)榇瓪狻K苫卮鸬倪^程中,感知同樣被凍結(jié)。除非你強(qiáng)行打斷,否則它就像一臺(tái)背誦錄音機(jī),從頭放到尾。

這套機(jī)制的根源在于架構(gòu)。現(xiàn)有的多模態(tài)AI,絕大部分是外掛縫合的。語音活動(dòng)檢測(cè)模塊判斷用戶是否說完,語音識(shí)別模塊把聲音轉(zhuǎn)成文字,大語言模型思考,語音合成模塊把文字讀出來。級(jí)聯(lián),串行,每一步都增加延遲,每一步都丟失信息。

強(qiáng)化學(xué)習(xí)之父Rich Sutton在《The Bitter Lesson》里說過一句話,TML把它貼在報(bào)告里:所有依賴人類手工設(shè)計(jì)的復(fù)雜外掛系統(tǒng),最終都會(huì)被底層模型通過暴力計(jì)算和統(tǒng)一架構(gòu)降維打擊。

翻譯成人話:外掛沒有未來。真正的交互能力,必須長在模型身體里,像呼吸一樣自然。從提示詞驅(qū)動(dòng),升級(jí)為伴隨式協(xié)作。

02

雙向奔赴的無縫交互

說起來簡(jiǎn)單,做起來難。要在技術(shù)底層徹底打破“回合制”的束縛,難度無異于給天上的飛機(jī)更換引擎。

TML-Interaction-Small(以下簡(jiǎn)稱TML-Small)之所以能做到聽、看、想、說四個(gè)動(dòng)作的同步,源于底層架構(gòu)的四個(gè)易于理解的顛覆性創(chuàng)新:

1.時(shí)間對(duì)齊的微輪轉(zhuǎn)

這就是TML架構(gòu)中最有想象力的核心。

傳統(tǒng)的Transformer架構(gòu)把輸入和輸出的信息流都?jí)嚎s成了一個(gè)有序的token序列。但文字與音頻和視頻包含的信息量和復(fù)雜程度截然不同,不能被簡(jiǎn)單地劃分到同一個(gè)維度之中,因此TML-Small將現(xiàn)實(shí)世界的連續(xù)音視頻流都切分成了每200毫秒一個(gè)的“微輪轉(zhuǎn)”。

在這個(gè)200毫秒的微小切片之內(nèi),模型同時(shí)接收輸入并生成輸出。它無需等待用戶完成整個(gè)交互過程,只需要用這種高頻碎片化的方式就可以持續(xù)不斷地與用戶進(jìn)行雙向的信息交換。

這種類似微積分的處理方式有效地打破了人為設(shè)置的“回合邊界”,模型也能夠自然地聽懂人們說話時(shí)喘氣帶來的停頓和話語權(quán)的交接。當(dāng)前音頻模型主要的應(yīng)用場(chǎng)景“同聲傳譯”即可由此實(shí)現(xiàn)。

2.無編碼器的早期融合

告別了“縫合怪”,TML也實(shí)現(xiàn)了極致的早期融合。

由于堅(jiān)信外掛的模塊不是通往AGI的正確道路,這款新模型沒有采用龐大的獨(dú)立語音識(shí)別系統(tǒng)或視覺編碼模型。

音頻被直接轉(zhuǎn)化為dMel信號(hào),視頻畫面被切分為40×40像素的微小圖塊并經(jīng)過輕量級(jí)的MLP網(wǎng)絡(luò)處理,隨后這些音視頻的原始切片就會(huì)和文本一起送入同一個(gè)Transformer架構(gòu)之中。

所有組件都從零開始聯(lián)合訓(xùn)練,就是TML-Small能夠做到零損耗和無時(shí)差的原生多模態(tài)感知的秘訣。

3.前臺(tái)交互+后臺(tái)思考的雙軌系統(tǒng)

性能、速度和成本,全球的AI企業(yè)都在費(fèi)盡心思試圖突破這個(gè)不可能三角的邊界。很多端到端的語音大模型為了追求毫秒級(jí)的延遲,往往只能做簡(jiǎn)單的閑聊,也就是只能做一些簡(jiǎn)單的翻譯,一旦遇到復(fù)雜的數(shù)學(xué)推理或是編程直接崩潰。

TML給出了一種優(yōu)雅的架構(gòu)解法:雙軌并行。

交互模型始終駐留前臺(tái),保持實(shí)時(shí)在線,和人類企業(yè)的前臺(tái)服務(wù)人員一樣負(fù)責(zé)察言觀色、快速回應(yīng)、穩(wěn)住場(chǎng)面。

一旦遇到需要深思熟慮、調(diào)用搜索、使用工具的復(fù)雜任務(wù)時(shí),前臺(tái)就會(huì)將豐富的上下文打包給后臺(tái)進(jìn)行異步處理。

4.2760億參數(shù)的算力經(jīng)濟(jì)學(xué)與底層工程

如此高頻的交互,必然會(huì)帶來致命的算力成本壓力。好在,TML-Small并非浪得虛名,作為一個(gè)276B參數(shù)的混合專家(MoE)模型,每次推理時(shí)的活躍參數(shù)僅有12B。

同時(shí),為了應(yīng)對(duì)海量200毫秒級(jí)別的碎片產(chǎn)生的推理開銷,TML團(tuán)隊(duì)也學(xué)習(xí)國產(chǎn)AI企業(yè)深入底層,開發(fā)了流式會(huì)話(Streaming sessions)技術(shù)。通過在GPU內(nèi)存中持久化保留序列能夠避免頻繁的內(nèi)存重新分配,這套優(yōu)化方案也已經(jīng)貢獻(xiàn)給了開源框架SGLang。

03

競(jìng)品連考場(chǎng)都進(jìn)不去

榜單上的數(shù)據(jù)讓人沉默。

在“智能與交互質(zhì)量”的綜合評(píng)估中,TML-Small同時(shí)占據(jù)高智商和快響應(yīng)兩個(gè)角落的頂點(diǎn)。在交互延遲測(cè)試中,它跑出0.40秒,比OpenAI和Google的最新實(shí)時(shí)模型還快,接近人類本能反應(yīng)的極限。

但真正讓人震撼的是另外兩件事。

第一件,TML被迫創(chuàng)建了全新的評(píng)測(cè)維度。因?yàn)楝F(xiàn)有的商業(yè)模型,在這些任務(wù)上的得分基本都是零。測(cè)試很簡(jiǎn)單:用戶要求每4秒提醒一次深呼吸。TML-Small準(zhǔn)確率超過60%。其它模型陷入沉默。它們沒有時(shí)間觀念。

第二件,主動(dòng)視覺測(cè)試。傳統(tǒng)的語音助手必須聽到喚醒詞才看一眼屏幕。TML-Small主動(dòng)盯著屏幕,用戶完成目標(biāo)時(shí)主動(dòng)插話提示。沒有喚醒,沒有外掛,AI第一次真正長出了眼睛,擁有了時(shí)間。

04

帶寬躍遷之后的世界

一旦AI突破了回合制的協(xié)作帶寬瓶頸,它就不再是一個(gè)屏幕里的文本生成器。幾個(gè)行業(yè)的商業(yè)邏輯將被重寫。

數(shù)字員工的定義要改了。現(xiàn)在的AI客服只會(huì)照本宣科。你語氣變了,它聽不出來;你皺眉了,它看不見。換成一個(gè)擁有TML能力的數(shù)字員工,它能在你不耐煩之前主動(dòng)停掉冗長的回答,能在你猶豫時(shí)補(bǔ)充信息。客服、銷售、咨詢,這些依賴人類情緒識(shí)別的行業(yè),將迎來一次范圍打擊。

空間計(jì)算和下一代游戲也會(huì)變。蘋果Vision Pro被詬病“缺乏靈魂”,缺的就是一個(gè)實(shí)時(shí)伴隨的智能體。TML驅(qū)動(dòng)的AR眼鏡,智能體和你看到同樣的景象,能做危險(xiǎn)提示,能同聲傳譯。游戲里的NPC不用再呆呆地站在固定位置,它們有時(shí)間觀念,能主動(dòng)互動(dòng),徹底擺脫腳本。

具身智能終于有了大腦。自動(dòng)駕駛和機(jī)器人面對(duì)的世界沒有暫停鍵。傳統(tǒng)大模型“等你說完我再思考”的模式,對(duì)機(jī)器人來說是致命的卡頓。TML每200毫秒處理一次的機(jī)制,恰好匹配機(jī)器人底層“感知—決策—控制”的循環(huán)。這是現(xiàn)階段的最優(yōu)解,也是唯一解。

05

結(jié)語

TML在報(bào)告結(jié)尾坦承了局限:超長會(huì)話的上下文管理、對(duì)優(yōu)質(zhì)網(wǎng)絡(luò)的依賴。但更大規(guī)模的模型將在今年晚些時(shí)候推出。

過去三年,行業(yè)拼命堆砌參數(shù),讓AI寫更復(fù)雜的代碼、解更難的數(shù)學(xué)題。有一件事正在被淡忘:

人類文明的偉大,不僅有個(gè)體的靈光一現(xiàn),還有協(xié)作與溝通的本能。

當(dāng)人類試圖打造AGI時(shí),讓機(jī)器懂得如何與人類同頻呼吸、無縫交流,遠(yuǎn)比讓它變得更聰明更加重要。

對(duì)講機(jī)時(shí)代應(yīng)該結(jié)束了。

       原文標(biāo)題 : 她曾掌舵OpenAI技術(shù),如今要顛覆OpenAI的規(guī)則

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)