牛津大學最新論文：大模型如何編碼問題難易程度？ - OFweek 人工智能網

當前位置： OFweek 人工智能網 > 自然語言處理 > 正文

牛津大學最新論文：大模型如何編碼問題難易程度？

2025-11-07 18:32

來源： OFweek人工智能網

大型語言模型（LLM）在復雜任務上可以展現卓越性能。然而，它們卻經常在看似簡單的問題上失敗。

近日，牛津大學的研究團隊發表了一篇論文，研究 LLM 是否編碼了一種與人類判斷相符的問題難度概念，并追蹤了這種表征在基于可驗證獎勵的強化學習（RLVR）數學推理過程中的演變。

團隊使用了 60 個模型訓練線性探針，并在 Easy2HardBench 的數學和編碼子集上評估了它們的難度估計性能。

研究表明，人類得出的難度評級可以從模型激活中強而線性地解碼，而 LLM 得出的難度評級則顯示出明顯較弱的編碼。

同時，將模型推向“更簡單”的表征可以減少輸出長度，并通過防止幻覺來提高準確性。

團隊還發現，在 GRPO 訓練過程中，人類難度表示隨著模型能力的增強而增強，而 LLM 難度表示則退化——隨著模型的改進，自動難度估計變得越來越不協調。

實驗結果

團隊使用可驗證獎勵強化學習 (RLVR) 來增強模型推理能力。它將強化學習融入到具有基于規則的結果獎勵的低階模型中，可以根據模型對數學問題最終答案的準確性給予二元獎勵。

他們使用 Easy2HardBench 中的兩個數學子集構建探測數據集，每個問題都有一個難度分數。

同時，團隊從 18 個模型家族的 60 個變體中提取激活值，包含 DeepSeek、Qwen-2.5等大模型，以檢驗增強的推理能力是否能帶來更好的難度表征。

結果表明：

人類難度在 LLM 激活中呈線性編碼。模型激活更好地編碼了人類對難度的評價，而非 LLM 推導出的難度估計。
難度表征隨模型大小而變化。更大的模型能更好地表征編碼難度。
最佳探測位置因任務而異。雖然最后一個標記位置通常在所有數據集上都能產生最優探針，但某些位置在特定模型中表現出色，這表明最后一個標記位置并非普遍最優。
線性探針可以引導模型進行更長的迭代，并誘導工具推理。

結論

團隊發現，人類難度表征在訓練過程中保持穩定或有所提升，相比之下，LLM 難度表征在早期層和中間層普遍退化，性能下降幅度高達 50%。這種層級范圍內的退化表明，LLM 難度表征是一個噪聲信號，GRPO 會系統性地覆蓋它。

但是，這也存在幾個局限性。團隊僅關注 E2H 中的編碼和數學任務，而忽略了其他三個子集。計算資源的限制使得模型無法在所有 E2H 子集上進行廣泛的實驗，也無法在更大的模型上進行 GRPO 訓練。

鑒于此因，研究人員將開展更廣泛的跨模型研究，這對于全面刻畫沿難度方向的轉向效應至關重要。

相關人員表示，未來的研究應該調查探測結果是否能推廣到 Codeforces 以外的其他需要編碼和推理的智能體任務，并探索難度表征在推理和多輪對話過程中是如何演變的。

參考資料：

https://arxiv.org/pdf/2510.18147

本地收藏打印推薦給朋友

聲明： 本網站所刊載信息，不代表OFweek觀點。刊用本站稿件，務經書面授權。未經授權禁止轉載、摘編、復制、翻譯及建立鏡像，違者將依法追究法律責任。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

即日-5.20
立即下載>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選
精彩回顧
立即查看>> 【在線會議】液冷服務器信號完整性及冷卻液關鍵電參數測試

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號