訂閱
糾錯
加入自媒體

大模型日報|中國大模型第一股IPO倒計時,阿里通義推出自己的手機管家

2025-12-30 18:42
硅基星芒
關注

圖片

01

重大發布(新模型/產品/開源)

①ChatGPT手機版更新:切換“標準思考”與“擴展思考”

12月29日,OpenAI對安卓端的ChatGPT進行更新,允許手機用戶設置模型的思考深度,在“Standard Thinking(標準思考)”和“Extended Thinking(擴展思考)”中進行切換。

在此之前,由于算力訪問限制,手機端用戶只能使用標準思考模式,無法進行長時間的深度推理,一定程度上限制了其實用性。與此同時,PC端的UI界面也得到了布局上的優化。不過,經過更新后,仍然只有Plus級別以上的訂閱會員才能享受到這些權限。

作為對比,OpenAI目前的最大競爭對手Google Gemini的手機端和PC端都早已具備這一功能,免費版用戶即可使用,UI界面清晰。

(Gemini手機端)

(Gemini PC端)

短評:允許龐大的手機端用戶群體使用更深度的推理服務證明OpenAI的算力變得更加充足,界面的優化也有助于改善現有用戶的使用體驗。但對于技術層面已經沒有領先優勢的OpenAI來說,維持現有用戶的活躍度遠遠不夠,諸如此類的小型更新無法拉新,GPT-5.2的大型更新又“差評如潮”。這也印證了先前的判斷:OpenAI在做的事情是“別人有的我們也要有”,而不是“我們做了別人沒有的”。

②雙端同步+定時提醒,騰訊元寶上線任務功能

騰訊的元寶同樣迎來了一次產品功能的迭代:手機端和電腦端同步添加了任務功能,用戶僅通過一句話就可以設置循環定時任務,讓AI幫忙記事、提醒甚至是陪聊。

這次功能更新看似簡單,但也表明騰訊正在把元寶“問答工具”的定位修改為“日常陪伴型AI”,通過人們生活中高頻且剛需的定時任務,讓用戶生態進一步牢固。

831c6bfea644fc35eb8dc1fbaf6d962a

根據產品功能描述,任務功能需要讓AI完成以下流程:理解模糊的指令、生成可執行的計劃、跨端側同步以及在提醒后繼續對話。因此,AI需要具備不僅限于以下技術能力:

一是根據“一句話”生成結構化的計劃:用戶為了方便,給出的指令往往是模糊的,但AI則需要精確完成時間抽取、意圖分類、動作生成等關鍵環節;

二是任務的持久化存儲,并在手機端和PC端實現同步,這就需要輕量級的用戶任務數據庫;而提醒的觸發則需要后臺具備調度服務的功能;

三是具備上下文記憶,這也是AI普遍面臨的一大問題,AI要實現提醒后繼續陪聊就必須配備更大的上下文窗口,以實現任務狀態的記憶、動態響應和多輪對話的管理。

短評:

騰訊的用戶基數毋庸置疑,元寶誕生在這個溫床中具備非常大的競爭優勢。不過,雖然任務功能的上線蘊含不少技術層面上的提升,但對于財大氣粗的騰訊來說,其AI研發進度仍然略顯緩慢。

02

技術進展(論文/SOTA/算法)

①通義MAI-UI開源:首個通用GUI智能體基座直接刷新SOTA紀錄

前段時間,豆包手機助手在互聯網上掀起風浪,引起了騰訊、阿里等科技巨頭公司的警惕。

如今,阿里通義團隊也推出了自己的手機管家,其開源的MAI-UI宣稱為全球首個面向“真實手機生活”的通用GUI智能體基座模型,并在5項權威性測試(如Android World和MobileWorld等)中全部登頂SOTA,戰勝了以Gemini為首的國際領先大模型。

項目地址:https://github.com/Tongyi-MAI/MAI-UI

根據阿里云官方社區內的用戶體驗反饋,這一智能體基座模型主要有如下幾個引人注目的亮點:

一是拒絕揣測用戶意圖,主動詢問用戶歸還決策權,避免“自作主張”的現象;

二是能夠調用API而非“點擊屏幕”,善于使用高德、Github、釘釘等結構化的工具,通過顯著降低操作次數有效提升了準確率;

三是實現了端側和云側的分離,日常任務在手機端運行2B參數的小型模型即可完成,復雜任務則依靠云端的32B大模型完成,支付密碼等隱私操作只在本地運行,絕不上傳;

四是強大的抗干擾能力,通過在動態環境中引入在線強化學習機制,解決手機環境中的各種意外狀況。

短評:

字節的豆包手機助手發布僅一天后,騰訊的微信和阿里的淘寶等APP就以安全性為由拒絕其訪問;而阿里的MAI-UI目前能夠調用的,也只是阿里系的產品(高德、釘釘)和Github等開放平臺。因此,AI能幫人做事的前提是App愿意“開門”,其行動的自由度,仍然與母公司的軟件生態控制力高度關聯。

短期內,手機助手類產品仍然只能在特定的生態環境中得以流暢運行。即便是通過商業合作等方式實現了類似淘寶和微信的協同,銀行這種高風險的政府App也絕不會輕易開放權限。因此,AI助手在真實世界中,目前還“寸步難行”。

②文生圖門檻再降低:FLUX.2 Turbo開源,刷新文生圖速度

今天凌晨,生成式AI媒體平臺fal開源了名為FLUX.2 [dev] Turbo的文生圖模型,瞬間登頂Artificial Analysis的開源模型排行榜。值得注意的是,阿里的Z-image Turbo在一周前剛剛成為這一榜單的霸主。截至30日下午,Flus.2 [dev] Turbo模型仍位于開源榜第一,全榜第十。

項目地址:https://fal.ai/models/fal-ai/flux-2/turbo

該模型是fal基于Black Forest Labs的FLUX.2 [dev]模型優化推出的Turbo版本,主打極快的生成速度,一張高清圖僅需花費約5秒,全流程推理步驟從50步壓縮到8步,速度提升超過6倍,且畫面質量更加穩定可控。

目前這一模型已經開放在線免費體驗,但更重要的是:該模型的硬件需求并不高,RTX 4090的用戶即可本地部署并進行微調;生成一張1024×1024像素的圖像成本僅為0.008美元,創下文生圖成本最低記錄。

短評:

這一開源文生圖模型的發布,讓文生圖能力徹底從“大廠提供的收費服務”變成了“人人可用的生產工具”。如此低廉的成本,無異于在宣告AI巨頭們“閉源+高質量”路線的終結。

盡管文生圖在當下看來毫無疑問已經是賠本買賣,但是當此類開源模型大規模普及后,它就可以搖身一變,成為可編程且易于私有化部署的模型底座,走向工作流和智能體的商業化路徑。

03

商業動態(融資/合作/財報)

①主打“通用智能體”的Manus 被 Meta 收入麾下

今天上午,Manus官方發布消息:Manus已被Meta收購。兩天前,Manus團隊放出的立項初期會議紀要中強調的“通用性”,如今已經成功變為最大的賣點。根據官方數據,Manus上線至今處理的Tokens超過147萬億,創建了超過8000萬臺虛擬計算機,而其三年內順利完成四輪融資、兩年內估值增長超過30倍、上限僅9個月ARR破億等利好消息則已經向市場證明:通用智能體具備盈利能力。

盡管Meta的這次收購具體交易細節尚未公布,但這一舉動顯然是為了搶占智能體賽道的入口。事實上,Meta在先前的AI大模型競爭中已經處于落后地位,其Llama系列大模型的綜合能力雖然也處于第一梯隊,但與文本領域的巨頭Gemini和GPT系列存在明顯差距,而多模態領域也被Gemini以及國內字節的Seedream和阿里的Qwen甩開。因此,Meta沒有在以前的賽道上加速追逐,而是選擇成為“通用性Agent”新賽道的領跑者。

短評:

如此看來,Manus的定位與Meta就顯得極為匹配。Manus也面臨著類似的問題,雖然能夠覆蓋的應用范圍較廣,但智能程度無法與頂尖模型競爭,從消耗的Tokens數量來看更是與豆包這種“龐然大物”存在數量級的差距。

根據Manus首席執行官肖弘的說法,Meta的這次收購并不改變Manus的運作方式和決策機制,但若是雙方仍然遵循原先的路徑,恐怕“通用性Agent”市場中的蛋糕很快就會被分走,畢竟對于Google和字節等公司來說,實現通用性并非技術難題。“全面但不精通”是Meta與Manus下一步必須解決的問題。

②智譜港股上市:堅持AI模型能力的競爭

同樣是今天上午,國產AI初創公司智譜確定了1月8日于港股上市。全球發售3741.95萬H股,每股發行價格116.2港元。

招股書中,智譜對公司的定義為“中國領先的人工智能公司,致力于追求通用人工智能(AGI)創新”。目前,智譜的產品體系涵蓋范圍較廣,大語言模型(GLM-4.7)和智能體(AutoGLM)等領域均實現了一定程度上的覆蓋。

目前,智譜的虧損情況仍然在加重。其2022、2023、2024年和2025年上半年的虧損額分別為1.44億、7.88億、29.58億和23.58億,研發投入數額也在不斷增加。不過,值得注意的是,國內AI初創企業中,仍然能在模型智能化程度上保持競爭力的企業已經為數不多,而智譜則是其中之一:其最新版模型GLM-4.7在Artificial Analysis的榜單中拿下了相當不錯的成績。

短評:

作為軟件生態與硬件資源均面臨限制的國內AI初創企業,在多家AI公司選擇將模型的研發重點遷移至多模態的背景下,GLM系列產品能夠與Gemini和GPT保持競爭實屬不易。但是,智譜要面對的對手,不僅是國外這兩大巨頭,國內的阿里、字節和騰訊也不容忽視。

在大模型領域內,暫時還無法確定智譜的核心競爭力。但是,開源的AutoGLM則起到了一定的補充作用,Agent成為未來的關注重點已成事實,智譜開源的基座模型或許會成為其發展的堅固基石。

       原文標題 : 大模型日報|中國大模型第一股IPO倒計時,阿里通義推出自己的手機管家

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號