大模型日報| 字節跳動對多模態又有了新創意，HBM刻蝕需求爆發

2026-01-09 18:56

硅基星芒

關注

重大發布（新模型/產品/開源）

①阿里千問開源持續進行中：Embedding與Reranker系列登場

阿里通義千問團隊于1月8日再度開源兩款名為模型Qwen3-VL-Embedding和Qwen3-VL-Reranker的模型。

上述模型是業內首批基于Qwen3-VL架構打造的開源多模態嵌入與重排序模型，主要用于將多模態和混合模態內容（包括但不限于文本、圖像、音頻和視頻）統一映射至同一個高維語義空間，以此實現“看圖找文”、“看文搜視頻”等跨模態檢索能。

兩款模型分別有2B和8B兩種參數規格的版本，支持32K上下文窗口和任務指令定制。目前，上述模型已經在Hugging Face、ModelScope和GitHub全面開源。

690b464dc98f85ab3339fb1b2e40b72d

短評：

目前AI的多模態能力仍然存在一定局限性，對于復雜內容的識別，哪怕是Gemini 3 Pro的效果都談不上有多理想。阿里千問團隊延續了開源的技術路線，為跨模態識別領域提供了兩款重要的基座模型。

它們未必能立刻解決所有的識別難題，但仍然為行業提供了新的思路。在閉源模型的“黑箱”問題越來越嚴重的情況下，開源策略反而可能成為多模態領域實現突破的關鍵方法。

②OpenAI深入醫療行業：OpenAI for Healthcare已落地多家頂級醫院

OpenAI昨日推出了新產品OpenAI for Healthcare，這是一套專門為醫療行業打造、支持HIPAA（健康保險攜帶和責任法案）合規的AI產品組合。兩款產品的相繼發布，證明OpenAI已經開始系統性地進入醫療領域的核心場景。

這一產品組合主要包含兩部分：

一是ChatGPT for Healthcare：基于GPT-5.2模型設計，目標是優化臨床、科研和運營工作流。它能夠引用數百萬篇同行評審文獻、臨床指南和公共衛生建議，并附帶完整出處，同時也支持對接醫院內部的政策數據庫，確保其回答與機構標準保持一致；

二是OpenAI API for Healthcare：面向開發者設計，支持構建病歷摘要、隨訪調度、環境聽診等定制化工具，已有Abridge、Ambience等公司基于這一產品開始打造臨床輔助應用。

目前，波士頓兒童醫院、Cedars-Sinai、斯坦福醫學兒童健康、UCSF和HCA醫療集團等頂尖機構已開始部署。早期試點結果顯示，AI輔助有助于降低診療錯誤率。

短評：

相比之前的ChatGPT Health，OpenAI的這款新產品進一步涉足了醫療行業更深層的領域，需求擴展也會帶來更高的風險。

但是，OpenAI仍然讓醫生作為決策者，明確強調“Clinicians stay in charge”，不代替醫生做出診斷，也不輕易回答醫學問題，其功能聚焦于輔助整合、文檔生成、結合患者情況提供機構指南和最新文獻等，最大程度避免了信任與合規相關問題。

如果這一產品組合能夠實現規模化應用，各大醫院接入OpenAI生態后就會形成平臺依賴，GPT-5也將成為智能醫療的底層基礎設施。

③智譜GLM-5即將發布，目標AGI底層突破

在智譜完成上市的同時，清華大學計算機系教授也正式宣布：智譜的新一代大模型GLM-5即將問世。

在2025年，智譜模型的高速迭代領跑國內AI行業，從年初試探性地發布GLM-4.1，到7月GLM-4.5的正式發布，再到9月的GLM-4.6和12月的GLM-4.7，這家國內AI初創企業的模型能力已經能夠和國際頂尖模型同臺競技。

兩周前發布的GLM-4.7在代碼、Agent和多語言任務中拿下多項開源與國產模型SOTA，目前在Aritificial Analysis新版本的智能程度排行榜上位居全球第7，國內第1。

唐杰表示，智譜的新模型GLM-5將繼續以實現AGI為目標，在以下三方面實現技術突破：

一是超越Transformer的全新架構：隨著AI能力的增強和應用場景的擴大，Transformer架構存在的長上下文計算開銷過大、記憶機制僵化等弊端正在被逐步擴大，智譜需要研發新的模型架構，并推進“芯片-算法協同設計”以提升能效；

二是更加通用的強化學習范式：模型訓練不再局限于代碼等可驗證環境，而是支持數十個小時的復雜任務執行；

三是持續學習和自主進化：目前的模型在完成訓練后，其智能程度就已經被確定，智譜將布局在線學習能力，使AI在推理階段仍能提升智能。

短評：

GLM-5提出的三大技術突破方向均屬于AI學術領域內公認的硬核難題，短期內難以在產品上實現落實，模型在真實任務中的可靠性和成本效益更加值得關注。

④Grok Code即將迎來重大升級

馬斯克昨日發布消息稱xAI將在下一個月對旗下編程推理模型Grok Code系列產品進行一次重量級更新，新版本的模型將顯著提升在復雜場景中的編程能力。

對于較大的程序項目，過去的模型需要開發者進行分步引導和多輪調試以完成編碼任務，未來有望通過單次提示直接完成。

短評：

Vibe Coding（氛圍編程）的應用場景越來越豐富，面對Claude Code在編程領域一家獨大，Google、OpenAI和xAI都紛紛出手開始進入市場競爭。

目前，在Artificial Analysis的編程排行榜上，Grok 4與其他三家相比稍顯落后，本次更新預計能達到同一水平。未來，上述幾款產品的能力差距將進一步被壓縮，token價格將成為短期競爭的關鍵指標。

⑤阿里云發布多模態交互開發套件

在阿里云的通義智能硬件展上，其最新開發的多模態交互開發套件首次亮相。

這一套件的主要亮點如下：

一是低成本快速接入：適配30款以上的主流終端芯片，未來將與玄鐵協同實現軟硬件一體優化；

二是超低交互時延：端到端語音響應只需1秒，視頻交互只需1.5秒，支持全雙工對話與實時視覺理解；

三是開箱即用的生態：預置多種常用Agent，接入阿里云百煉生態，可通過A2A協議兼容第三方Agent，靈活擴展業務場景。

短評：

新套件的發布是阿里注重AI應用層和Agent落地的又一重大舉措。阿里將通義系列大模型的能力深度封裝到硬件開發套件中，這些具備感知、規劃和執行能力的智能體就可以真正融入用戶的生活并解決問題。在下一代人機交互入口的競爭中，掌握終端交互的體驗才能定義AI的形態。

技術進展（論文/SOTA/算法）

①字節跳動DreamStyle：三模態引導的視頻風格化框架

字節跳動對于多模態又有了新的創意。近日，字節在Github上上傳了一個名為DreamStyle的統一、高效的視頻風格化框架，支持文本描述、風格參考圖、首幀引導三種輸入方式生成特定風格的視頻，并通過自研的數據管道和token級的LoRA微調技術，顯著提升了長視頻風格的一致性和畫面質量，在真實的評測中超越了現有的方法。

framework

傳統的視頻風格化工具大多只能處理單一樣式的輸入（如文生視頻和圖生視頻），導致視頻時間一旦延長，就會導致效果不穩定、時序閃爍嚴重等問題。

DreamStyle采用了自建的高質量訓練數據集，結合SDXL（Stability AI團隊開發的開源文生圖框架）、Seedream 4.0和ControlNet（可控圖像生成技術）以確保風格遷移的準確性和運動的連貫性。同時，該框架基于阿里開源的Wan14B-I2V模型架構，引入Token-specific LoRA技術，有效區分不同條件的信號以減少語義混亂。

短評：

該框架聚焦于風格遷移這一明確任務而設計，對于短視頻平臺和廣告公司來說具備一定商業價值。不過，部署門檻可能較高，是否支持輕量化或邊緣設備有待觀察。

算力與基礎設施（芯片/云/數據中心）

①東京電子提升48%資本開支押注HBM驅動的蝕刻設備需求

根據日經新聞消息，全球半導體設備巨頭東京電子（Tokyo Electron）即將加大AI算力基建的相關投入，公司預計在2026財年將資本支出提升48%至2400億日元，創下歷史新高，同時，研發投入增長16%達到2900億日元。

這一激進投資的核心邏輯，是押注HBM（高帶寬內存）擴產帶來的先進蝕刻設備需求爆發。

由于英偉達等高端AI廠商的芯片產品廣泛采取多層堆疊HBM，各大DRAM制造商都在加速擴產。HBM三巨頭中的三星和海力士都已經宣布投入數十億美元新建HBM產線，預計于2027年至2028年投產。為了提升AI芯片的性能，每增加一層HBM堆疊，就需要更多的精密蝕刻設備用以構建芯片之間的精密互連結構，而這正是東京電子的核心業務之一。

2025財年，東京電子的DRAM互連蝕刻系統銷售額已經突破千億，預計到2030年，累計銷售額將達到5000億日元。為迎合這一需求爆發的周期，東京電子于日本多地擴建研發、生產與物流中心。

短評：

目前看來，AI的浪潮不會衰退，HBM的供給不足問題已經對算力增長造成阻礙，因此這一投資伴隨的風險幾乎可以忽略。AI硬件的競爭，已經從GPU擴展到HBM，并進一步向上游制造設備延伸。

原文標題 : 大模型日報| 字節跳動對多模態又有了新創意，HBM刻蝕需求爆發