訂閱
糾錯
加入自媒體

大模型日報| 字節跳動對多模態又有了新創意,HBM刻蝕需求爆發

2026-01-09 18:56
硅基星芒
關注

01

重大發布(新模型/產品/開源)

①阿里千問開源持續進行中:Embedding與Reranker系列登場

阿里通義千問團隊于1月8日再度開源兩款名為模型Qwen3-VL-Embedding和Qwen3-VL-Reranker的模型。

上述模型是業內首批基于Qwen3-VL架構打造的開源多模態嵌入與重排序模型,主要用于將多模態和混合模態內容(包括但不限于文本、圖像、音頻和視頻)統一映射至同一個高維語義空間,以此實現“看圖找文”、“看文搜視頻”等跨模態檢索能。

1

兩款模型分別有2B和8B兩種參數規格的版本,支持32K上下文窗口和任務指令定制。目前,上述模型已經在Hugging Face、ModelScope和GitHub全面開源。

690b464dc98f85ab3339fb1b2e40b72d

短評:

目前AI的多模態能力仍然存在一定局限性,對于復雜內容的識別,哪怕是Gemini 3 Pro的效果都談不上有多理想。阿里千問團隊延續了開源的技術路線,為跨模態識別領域提供了兩款重要的基座模型。

它們未必能立刻解決所有的識別難題,但仍然為行業提供了新的思路。在閉源模型的“黑箱”問題越來越嚴重的情況下,開源策略反而可能成為多模態領域實現突破的關鍵方法。

②OpenAI深入醫療行業:OpenAI for Healthcare已落地多家頂級醫院

OpenAI昨日推出了新產品OpenAI for Healthcare,這是一套專門為醫療行業打造、支持HIPAA(健康保險攜帶和責任法案)合規的AI產品組合。兩款產品的相繼發布,證明OpenAI已經開始系統性地進入醫療領域的核心場景。

這一產品組合主要包含兩部分:

一是ChatGPT for Healthcare:基于GPT-5.2模型設計,目標是優化臨床、科研和運營工作流。它能夠引用數百萬篇同行評審文獻、臨床指南和公共衛生建議,并附帶完整出處,同時也支持對接醫院內部的政策數據庫,確保其回答與機構標準保持一致;

二是OpenAI API for Healthcare:面向開發者設計,支持構建病歷摘要、隨訪調度、環境聽診等定制化工具,已有Abridge、Ambience等公司基于這一產品開始打造臨床輔助應用。

目前,波士頓兒童醫院、Cedars-Sinai、斯坦福醫學兒童健康、UCSF和HCA醫療集團等頂尖機構已開始部署。早期試點結果顯示,AI輔助有助于降低診療錯誤率。

短評:

相比之前的ChatGPT Health,OpenAI的這款新產品進一步涉足了醫療行業更深層的領域,需求擴展也會帶來更高的風險。

但是,OpenAI仍然讓醫生作為決策者,明確強調“Clinicians stay in charge”,不代替醫生做出診斷,也不輕易回答醫學問題,其功能聚焦于輔助整合、文檔生成、結合患者情況提供機構指南和最新文獻等,最大程度避免了信任與合規相關問題。

如果這一產品組合能夠實現規;瘧茫鞔筢t院接入OpenAI生態后就會形成平臺依賴,GPT-5也將成為智能醫療的底層基礎設施。

③智譜GLM-5即將發布,目標AGI底層突破

在智譜完成上市的同時,清華大學計算機系教授也正式宣布:智譜的新一代大模型GLM-5即將問世。

在2025年,智譜模型的高速迭代領跑國內AI行業,從年初試探性地發布GLM-4.1,到7月GLM-4.5的正式發布,再到9月的GLM-4.6和12月的GLM-4.7,這家國內AI初創企業的模型能力已經能夠和國際頂尖模型同臺競技。

兩周前發布的GLM-4.7在代碼、Agent和多語言任務中拿下多項開源與國產模型SOTA,目前在Aritificial Analysis新版本的智能程度排行榜上位居全球第7,國內第1。

唐杰表示,智譜的新模型GLM-5將繼續以實現AGI為目標,在以下三方面實現技術突破:

一是超越Transformer的全新架構:隨著AI能力的增強和應用場景的擴大,Transformer架構存在的長上下文計算開銷過大、記憶機制僵化等弊端正在被逐步擴大,智譜需要研發新的模型架構,并推進“芯片-算法協同設計”以提升能效;

二是更加通用的強化學習范式:模型訓練不再局限于代碼等可驗證環境,而是支持數十個小時的復雜任務執行;

三是持續學習和自主進化:目前的模型在完成訓練后,其智能程度就已經被確定,智譜將布局在線學習能力,使AI在推理階段仍能提升智能。

短評:

GLM-5提出的三大技術突破方向均屬于AI學術領域內公認的硬核難題,短期內難以在產品上實現落實,模型在真實任務中的可靠性和成本效益更加值得關注。

④Grok Code即將迎來重大升級

馬斯克昨日發布消息稱xAI將在下一個月對旗下編程推理模型Grok Code系列產品進行一次重量級更新,新版本的模型將顯著提升在復雜場景中的編程能力。

對于較大的程序項目,過去的模型需要開發者進行分步引導和多輪調試以完成編碼任務,未來有望通過單次提示直接完成。

短評:

Vibe Coding(氛圍編程)的應用場景越來越豐富,面對Claude Code在編程領域一家獨大,Google、OpenAI和xAI都紛紛出手開始進入市場競爭。

目前,在Artificial Analysis的編程排行榜上,Grok 4與其他三家相比稍顯落后,本次更新預計能達到同一水平。未來,上述幾款產品的能力差距將進一步被壓縮,token價格將成為短期競爭的關鍵指標。

⑤阿里云發布多模態交互開發套件

在阿里云的通義智能硬件展上,其最新開發的多模態交互開發套件首次亮相。

這一套件的主要亮點如下:

一是低成本快速接入:適配30款以上的主流終端芯片,未來將與玄鐵協同實現軟硬件一體優化;

二是超低交互時延:端到端語音響應只需1秒,視頻交互只需1.5秒,支持全雙工對話與實時視覺理解;

三是開箱即用的生態:預置多種常用Agent,接入阿里云百煉生態,可通過A2A協議兼容第三方Agent,靈活擴展業務場景。

短評:

新套件的發布是阿里注重AI應用層和Agent落地的又一重大舉措。阿里將通義系列大模型的能力深度封裝到硬件開發套件中,這些具備感知、規劃和執行能力的智能體就可以真正融入用戶的生活并解決問題。在下一代人機交互入口的競爭中,掌握終端交互的體驗才能定義AI的形態。

02

技術進展(論文/SOTA/算法)

①字節跳動DreamStyle:三模態引導的視頻風格化框架

字節跳動對于多模態又有了新的創意。近日,字節在Github上上傳了一個名為DreamStyle的統一、高效的視頻風格化框架,支持文本描述、風格參考圖、首幀引導三種輸入方式生成特定風格的視頻,并通過自研的數據管道和token級的LoRA微調技術,顯著提升了長視頻風格的一致性和畫面質量,在真實的評測中超越了現有的方法。

framework

傳統的視頻風格化工具大多只能處理單一樣式的輸入(如文生視頻和圖生視頻),導致視頻時間一旦延長,就會導致效果不穩定、時序閃爍嚴重等問題。

DreamStyle采用了自建的高質量訓練數據集,結合SDXL(Stability AI團隊開發的開源文生圖框架)、Seedream 4.0和ControlNet(可控圖像生成技術)以確保風格遷移的準確性和運動的連貫性。同時,該框架基于阿里開源的Wan14B-I2V模型架構,引入Token-specific LoRA技術,有效區分不同條件的信號以減少語義混亂。

短評:

該框架聚焦于風格遷移這一明確任務而設計,對于短視頻平臺和廣告公司來說具備一定商業價值。不過,部署門檻可能較高,是否支持輕量化或邊緣設備有待觀察。

03

 算力與基礎設施(芯片/云/數據中心)

①東京電子提升48%資本開支押注HBM驅動的蝕刻設備需求

根據日經新聞消息,全球半導體設備巨頭東京電子(Tokyo Electron)即將加大AI算力基建的相關投入,公司預計在2026財年將資本支出提升48%至2400億日元,創下歷史新高,同時,研發投入增長16%達到2900億日元。

這一激進投資的核心邏輯,是押注HBM(高帶寬內存)擴產帶來的先進蝕刻設備需求爆發。

由于英偉達等高端AI廠商的芯片產品廣泛采取多層堆疊HBM,各大DRAM制造商都在加速擴產。HBM三巨頭中的三星和海力士都已經宣布投入數十億美元新建HBM產線,預計于2027年至2028年投產。為了提升AI芯片的性能,每增加一層HBM堆疊,就需要更多的精密蝕刻設備用以構建芯片之間的精密互連結構,而這正是東京電子的核心業務之一。

2025財年,東京電子的DRAM互連蝕刻系統銷售額已經突破千億,預計到2030年,累計銷售額將達到5000億日元。為迎合這一需求爆發的周期,東京電子于日本多地擴建研發、生產與物流中心。

短評:

目前看來,AI的浪潮不會衰退,HBM的供給不足問題已經對算力增長造成阻礙,因此這一投資伴隨的風險幾乎可以忽略。AI硬件的競爭,已經從GPU擴展到HBM,并進一步向上游制造設備延伸。

       原文標題 : 大模型日報| 字節跳動對多模態又有了新創意,HBM刻蝕需求爆發

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號