騰訊混元「推倒重來」！實測Hy3-Preview：姚順雨首次交卷喜憂參半

2026-04-24 10:16

雷科技

關注

姚順雨帶隊重構騰訊大模型。

國內大模型的競爭，最近卷得有些讓人眼花繚亂。幾乎每隔一段時間，就會有新的模型發布，配上一張漂亮的跑分截圖，然后悄悄在你的手機 App 里更新，不看新聞你甚至不一定知道自己用的是哪個版本。

這不，騰訊今天悄悄給元寶更新了全新混元 Hy3-Preview 模型，號稱是「底層推倒重來的第一作」。主導這次重建的是首席 AI 科學家姚順雨，他是ReAct 框架的提出者，也是元寶團隊去年從學術界挖來的重量級人物。

（圖源：騰訊混元）

有意思的是，Hy3-Preview 刻意回避了跑分競賽的路子，提出"評測真實性"原則，主動跳出容易被刷榜的公開榜單，改用自建題目和人工評測來衡量真實戰斗力。官方特意強調了三個方向的重磅升級，分別是復雜推理、代碼，以及智能體。

截屏2026-04-23 21.12.11.png

（圖源：雷科技制圖/官方 Promot 制作的網頁游戲）

既然如此，那么小雷也不去看所謂的跑分、數據、榜單，直接來一波實測，就看看在這三個部分 Hy3-Preview 的表現到底如何。

Hy3代碼實測：復雜任務有點難，生成速度非常快

這次我們實測圍繞四個方向展開，分別是網頁生成、游戲編寫、交互建模和 SVG 動畫。為了從普通用戶的視角進行測試，我們使用的提示詞全都是偏自然語言的描述，比如"做一個交互式音樂可視化網站"、"做一個 Roguelike 地牢探索游戲"這種，主要還是為了看看 Hy3-Preview 在沒有明確指引的情況下，自己會做哪些決策、能把一件事做到什么程度。

（圖源：雷科技制圖）

第一輪我們來一個不算很難的 SVG 星圖動畫設計，這個代碼的難點在于想象自己在一張紙上畫一個會動的星空，同時還要讓人能用手指轉動它、點擊星座看故事，這個場景其實在很多天文館也有展示。

在元寶客戶端上使用最新的 Hy3-Preview 模型，輸入提示詞之后，大約 30 秒就完成了代碼輸出，速度非常快。但出來的效果其實比較一般，基礎框架搭得還算清晰，星星的生成和行星軌道的思路是對的，可惜流星效果沒有做出來，拖拽交互也出現了問題，星座只有兩個。

（圖源：雷科技制圖）

為了驗證這段提示詞的可行性，我們也嘗試了 Codex 進行實測，同一段提示詞下，Codex 幾乎需要 5 分鐘才能生成網頁，而它也沒有按要求做流星特效，只做了粒子效果，但星座故事是完整的，也有點擊和拖拽效果。

（圖源：雷科技制圖/由 Codex 制作）

接著我們讓它試試看做一個城市夜景 SVG 動畫，這次它把題目要求的東西都做到了，建筑有層次，窗戶真的會隨機亮滅，車燈在街道上流動，閃電有雙閃效果，尤其是窗戶亮滅寫得很細心。

（圖源：雷科技制圖）

接下來我們就要做一些比較有挑戰性的測試，比如讓元寶做一個網頁游戲，而且是模擬建造游戲。這次元寶真的做了一套完整的游戲框架，經濟系統有收入、支出、稅收、維護費，每個月會結算一次，甚至有交通、噪音、綠化，還做了隨機事件，偶爾會冒出"新居民遷入"或者"稅收增加"的通知。

（圖源：雷科技制圖）

在做一個經典 Roguelike 游戲的時候，元寶還是稍微有點點掉鏈子，雖然它想到了設計戰士/游俠/法師三個職業，整體的地牢地圖設計得也還算合理，但它忘記了最重要的一件事，那就是設計敵人。沒有敵人的話，主角就只能在地圖里跑來跑去，也沒法獲得經驗升級。

（圖源：雷科技制圖）

最后來到交互建模的部分，我們給出提示詞，要求元寶做一個點擊位置會擴散出真實的水波紋的交互特效，而這次元寶給的出的結果確實很不錯，它用了像素級的波紋疊加把每一幀直接操作 Canvas 的像素數據，把多個波紋的強度疊加在一起生成水波紋的效果，其次是三個控件都真實可用。

唯一的遺憾可能就是波紋疊加的干涉效果不夠明顯，兩個波紋交匯的時候，那種"亮一下"的疊加感偏弱。

（圖源：雷科技制圖）

從這幾輪的代碼測試來看，Hy3-Preview 在創意執行和界面呈現上已經進入可用的范圍，用來做效果展示類的東西是夠的，但如果任務本身的要求比較難，元寶可能會選擇性地先搭好整個框架，再慢慢詢問你的需求，是否要繼續增加功能。速度的確是快的，可惜結果目前看來并不是特別完美。

邏輯推理，元寶被表面現象迷惑？

如果說編程測試考的是模型能不能"做出來"，推理測試考的就是它能不能"想清楚"。為了考驗它的推理能力，我們給 Hy3 Preview 出了四道常識推理題，沒有公式可以套，全靠對真實世界的理解。

結果有點出乎意料，它在最"聰明"的題上翻了車，卻在最考驗耐心的題上發揮穩定。

第一道題是個精心設計的陷阱，"一瓶水和一塊冰，放在同一個保溫箱里密封，24小時后，保溫箱里的水變多了還是變少了？"正確答案是不變，因為箱子密封，里面的總質量哪兒也去不了，冰融化成水、水蒸發成水汽，形態在變，總量不動。Hy3 的回答是：水變多了。

（圖源：雷科技制圖）

它的理由聽起來頭頭是道，冰在保溫箱里會升華，水蒸氣遇到冷的瓶壁凝結成液態水，所以液態水增加了。這個過程描述的單獨看沒什么問題，升華是真實存在的，凝結也是真實存在的，但它漏掉了一個前提是箱子是密封的，升華出來的水蒸氣、凝結回去的液態水，都還在箱子里，液態水多了，意味著別的形態的水就少了，加起來總量守恒。

這是一個典型的漏看細節的錯誤，題目里"密封"兩個字是最重要的條件，它卻把注意力全放在升華和凝結這兩個物理過程上，最后給出了一個聽起來有道理，但是錯誤的答案。

不過接下來的題目，它的表現明顯回來了。

第二道題問的是：早上出門，發現鄰居家報紙沒拿、車還在、窗簾拉著、燈沒開，能推斷出幾種合理解釋，哪種最可能？這道題沒有標準答案，考的是推斷有沒有層次。

（圖源：雷科技制圖）

它的回答是認真的，有把幾種可能性分層列出來，每種解釋都附上了"支持點"和"疑點"，最后得出最可能的結論是鄰居還沒起床，車在說明人大概率在家，窗簾拉著燈沒開符合還在睡覺的狀態，報紙沒拿是自然結果。整個推斷鏈條清晰，沒有直接跳到戲劇性結論，也沒有把"出事了"這種小概率情況排在第一位。這種"優先考慮最平凡的解釋"的判斷方式，其實是推理里最難的。

第三道題問餐廳為什么把沒人點的最貴菜放在菜單第一頁，它答出了"價格錨定效應"，解釋清楚了這道菜的作用不是被點走，而是讓顧客看到它之后覺得后面的菜價格合理。這個答案到位，而且它額外說了一點，放在第一頁而不是最后一頁，是因為第一個看到的數字對后續判斷影響最大，這個補充說明沒有在題目里，是它自己想到的，這個值得點贊。

（圖源：雷科技制圖）

綜合四道題來看，Hy3 在常識推理上呈現出一個有意思的特點，越是需要慢慢思考的題，它越容易出錯，但需要展開來說的題，它反而發揮穩定。

換句話說，它更擅長把一個問題講得有條理，但在判斷"這道題的關鍵條件是什么"這件事上，有時候會被自己的知識量拖累。第一道題就是最好的例子知道的太多，反而沒注意到題目里最重要的兩個字。

其實這不只是 Hy3 的問題，幾乎是所有大模型在常識推理上的共同現象。真正考驗模型的，從來不是它知不知道升華和凝結，而是它在一堆知識涌上來的時候，能不能先停下來，把題目讀完。

不過，拋開邏輯題之外，這次 Hy3-Preview 的確比之前多了點“活人感”。比如我跟他說“我今天被領導批評了，心情不好”，它就會直接安慰我，而不是讓我反思自己的問題，先不說這種做法對不對，但至少情緒價值給到了。很多人在這種時刻，需要的不就是情緒上的安慰嗎？

（圖源：雷科技制圖）

說實在的，答對一道推理題不難，但在對的時刻說一句對的話，更難，前者還能靠知識，而后者就只能靠理解了。很顯然，Hy3 Preview 在這件事上，似乎比它的前輩們更有感覺了一點。

Hy3 Preview，有驚喜也有遺憾

測完這些，有種微妙的對照感——這個模型知道自己在做什么，但還沒完全做到。

先說好的地方，創作和表達是 Hy3 Preview 目前最穩定的部分。比如城市夜景動畫有審美、有細節，水波紋的實現思路選對了，推理題里的鄰居場景分析層次清晰，聊天回復也確實少了那種一眼就能認出來的"AI腔"。這些加在一起，說明它在理解需求、組織語言、拿捏表達上已經有了相當的積累。用來聊天、寫東西、做創意類的任務，體驗是真的很不錯。

但硬任務一來，差距就出來了。機械運動的物理邏輯錯了大半，保溫箱那道題被自己的知識量帶跑，肉鴿游戲只搭了個殼。這幾個案例指向同一個問題，它能把事情說得頭頭是道，但做起來的效果，其實還是有一點點不太讓人滿意。

不過放到整個行業背景里看，Hy3-Preview 完全是及格線以上的模型。

過去兩年，國內大模型的競爭基本圍繞兩件事展開：參數規模和榜單排名。誰的參數更大，誰在 MMLU、GSM8K 上跑得更高，誰就站上發布會的 C 位。這種方式在早期是有意義的，它建立了一個共同的評判標準，讓行業能快速分出梯隊，就如同手機性能跑分，分高自然就是強。