新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

<noscript id="ew3hq"><tbody id="ew3hq"></tbody></noscript>

當前位置： OFweek 人工智能網 > 自然語言處理 > 正文

突破瓶頸高效測評：谷歌提出自然語言生成任務評測新方法BLEURT

2020-05-29 14:30

利用機器學習創造一個度量標準需要解決根本的挑戰：這一指標需要在不同域和時間上具備連續性。然而訓練數據的數量總是有限的，同時公開數據集也是稀疏的。即使目前最大的人類評測數據集WMT度量任務數據集，包含了260k的人類測評，僅僅只覆蓋了新聞領域。這對于訓練一個適用范圍廣泛的NLG測評指標遠遠不夠。

為了解決這一問題，遷移學習被引入了這項研究。首先充分利用了BERT中上下文詞語表示，BERT是目前用于語言理解最先進的非監督表示學習方法，并成功應用于想YiSi和BERTScore等NLG指標上。

其次研究人人員引入了一種新穎的預訓練機制來提升BLEURT的魯棒性。實驗表明直接在人類測評數據集上訓練回歸模型十分不穩定，因為無法控制測評指標在哪個域或者哪個時間跨度上使用。其精度很容易在出現域漂移的情況時下降，例如測試時文本信息來自于與訓練句子對不同的域時。同時在質量漂移時其性能也會下架，例如要預測評級比訓練評級高時就可能引起性能下降，不過這也是機器學習研究正在取得進展的標志特征。

BLEURT的成功取決于模型利用數百萬合成句子對兒來進行預熱，隨后再利用人類評級進行微調。通過給來自維基百科的句子加入隨機擾動來生成訓練數據，研究人員沒有采用人類評級而是利用了文獻中的模型和指標，使得訓練樣本的數量可以低成本地進行擴充。

BLEURT數據生成過程，結合了隨機擾動和現有的指標和模型。

BLEURT的預訓練分別在語言模型目標和NLG評測目標上訓練了兩次。隨后在WMT指標數據集上進行了調優，下圖展示了BLEURT端到端的訓練流程。實驗表明預訓練模型極大地提升了BLEURT的精度，特別在測試分布外數據時尤其如此。

結論

與多個指標在機器翻譯和數據文本生成任務上的比較結果表明，BLEURT顯示出了優異的性能。例如BLEURT在2019年的WMT Metrics Shared任務上的精度超過了BLEU48％。

在WMT’19 Metrics Shared 任務上，不同指標和人類評級結果的相關性。

研究人員希望這一指標可以為NLG任務提供更好的評測方式，提供靈活的語義的評測視角。BLEURT可以為人們提供除了重合度外更好的測評指標，打破現有測評方法對于算法研發的束縛。

<上一頁 1 2

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

6月30日
立即申請試用>> 【免費試用】旭之源工業電源一一機器人的穩定“心臟“
精彩回顧
立即查看>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

<source id="nltfe"><tr id="nltfe"></tr></source>