訂閱
糾錯
加入自媒體

趨勢丨把大模型刻進AI芯片,極致構思背后看迭代周期博弈

2026-03-09 10:58
Ai芯天下
關注

前言:

2026年2月,一家名為Taalas的多倫多初創公司,宣布完成1.69億美元新一輪融資,累計融資約2.19億美元,并同步亮相其首款芯片HC1。

Taalas的MSIC路線“炸掉內存墻”

HC1運行Llama 3.1 8B的速度達到驚人的17,000 tokens/秒,是英偉達B200的數十倍,成本卻僅為后者的1/20。這場“模型即芯片”的豪賭,撕開了AI算力市場的一道裂痕。

自1945年馮·諾依曼架構確立以來,計算與存儲分離的設計統治了芯片行業八十年——數據需要不斷在內存和計算單元之間“搬運”,這道“內存墻”成為AI算力的核心瓶頸。Taalas發明了“Mask ROM recall fabric + SRAM”架構,將Llama 3.1 8B的數十億參數通過掩模ROM固化在硅片金屬層中,同時保留部分SRAM區域用于處理KV緩存和LoRA微調。

HC1基于臺積電6nm工藝,面積815mm²,集成了530億顆晶體管,功耗僅200W左右,10張卡組成的系統也只需2.5千瓦空氣冷卻。Taalas CEO Ljubisa Bajic曾是AMD與英偉達架構師,也是明星芯片公司Tenstorrent的創始人,他帶領25人團隊、僅用3000萬美元研發成本,兩年半時間造出了這顆“反常識”的芯片。

固化硬件的代價與“刻舟求劍”的風險

上世紀90年代末,3dfx Voodoo顯卡曾是3D圖形領域的霸主,它將3D渲染的光柵步驟做成“固定管線”刻死在電路中。但到了1999年,當開發者開始探索可編程著色器以實現更豐富的3D效果時,Voodoo因硬件固化無法支持新功能,最終被英偉達GeForce取代,公司走向破產。

2016-2018年的AI芯片潮中,一大批初創公司針對CNN(卷積神經網絡)設計了專門的“卷積加速引擎”,在人臉識別、自動駕駛等圖像任務中表現搶眼。但2017年《Attention is All You Need》發布后,Transformer架構徹底改變了AI的底層數學邏輯,那些將CNN固化在芯片里的企業,因缺乏通用矩陣計算能力而黯然退場。

對比這兩個案例可以發現,硬件固化的程度決定了風險等級:Voodoo固化的是渲染管線,雖畫面落后但依然能用;CNN芯片固化的是算法,適用場景大幅收窄但仍有價值;而Taalas固化的是特定的模型版本——一旦模型更新,芯片便可能直接淪為“電子垃圾”。模型換了,芯片就是廢鐵,這種極致綁定讓Taalas押注于一個前提:AI算法已經進入“平臺期”,架構不再劇烈變化。

專用芯片在垂直場景中的生存邏輯

盡管風險極高,但Taalas并非在追逐一個虛無的夢想。在真實的商業世界里,并非所有場景都需要一個通曉萬物的“通用神靈”。大量垂直場景需要的,是一個極其穩定、便宜、速度極快的“電子牛馬”,把手頭那件事干到極致。

Taalas的HC1精準命中了三類對延遲敏感、模型版本穩定的應用場景:

企業專用模型:金融、醫療、法律等行業長期使用固定版本的私有化模型,推理成本降至傳統方案的1/266,足以讓許多此前不可行的AI應用具備商業價值。

邊緣推理:人形機器人、自動駕駛汽車、智能手機等設備對實時性要求極高,且無需運行多模型。汽車遇到臨時修路等突發狀況時,需要低于1毫秒的“本能推理反射”,固化了大模型的專用芯片能實現本地極速響應。

大規?头電商、運營商的智能客服常年運行標準化對話模型,HC1的“秒級響應”能顯著提升用戶體驗,同時將運營成本削減90%以上。

這種“互補而非替代”的定位,為Taalas在英偉達的陰影下找到了生存空間。

模型迭代與硬件交付的時間賽跑

然而,定位清晰并不能消除商業模式的核心不確定性——模型迭代周期與芯片開發周期之間的巨大錯位。

如今,開源大模型的進化是以“月”甚至“周”為單位的。但一顆先進制程的芯片,從架構設計到流片量產,通常需要18到24個月。當芯片走下產線時,它所“凍結”的模型在日新月異的算法世界里,將淪為“古董”,且一旦固化模型存在致命缺陷,整批芯片只能報廢。

Taalas對此給出的防守策略是“極速物理迭代”。他們與臺積電合作開發了“兩層金屬”方案——改變模型不需要重新設計整個底層硅片,只需更改芯片最上層的兩層金屬掩模,將新模型的硬件化周期壓縮到兩個月左右。同時,HC1保留了LoRA微調的支持,企業可以在物理大模型外部掛載小型的“知識補丁”來調整特定任務表現。

從“通用主導”走向“通用與專用并存”

在推理成為AI算力新主戰場的2026年,市場正在從“通用主導”向“通用與專用并存”的分裂格局演進。

英偉達通過200億美元收購Groq的推理技術,已釋放出“通用巨頭向專用賽道妥協”的信號。與此同時,Etched選擇固化Transformer架構,Groq采用純SRAM的LPU路線,Cerebras用晶圓級引擎突破內存墻,Tenstorrent擁抱RISC-V的可編程架構——多元技術路線各顯神通,共同蠶食著曾經固若金湯的推理市場。

未來的AI算力版圖,或許將呈現“三分天下”的格局:英偉達GPU和通用加速器主導,用于探索AGI的智力邊界,處理最復雜、最多變的未知任務;Taalas這類“物理硬化”芯片滲透進每一個路燈、家電、工業機器人中;谷歌TPU、微軟Azure Maia等云廠商自研芯片深耕云內部署。

結語:

Taalas的HC1證明,當大模型變成像電阻、電容一樣廉價且隨處可見的電子元器件時,AI真正的大爆發才算拉開大幕。

網絡援引:

鈦媒體:《1.69億融資押注專用芯片:Taalas要靠“去GPU化”改寫AI算力格局》

維科網:《挑戰英偉達算力霸權?多倫多一家創企將大模型“刻進”芯片》

芯智訊:《17000 Tokens/s!48倍碾壓英偉達B200!這家把大模型“刻”進芯片的公司,什么來頭?》

搜狐:《全球芯片圈炸鍋:這個“瘋子”把模型刻進硅片,80年架構說廢就廢 》

       原文標題 : 趨勢丨把大模型刻進AI芯片,極致構思背后看迭代周期博弈

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號