新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

突破瓶頸高效測評:谷歌提出自然語言生成任務評測新方法BLEURT

2020-05-29 14:30
將門創投
關注

利用機器學習創造一個度量標準需要解決根本的挑戰:這一指標需要在不同域和時間上具備連續性。然而訓練數據的數量總是有限的,同時公開數據集也是稀疏的。即使目前最大的人類評測數據集WMT度量任務數據集,包含了260k的人類測評,僅僅只覆蓋了新聞領域。這對于訓練一個適用范圍廣泛的NLG測評指標遠遠不夠。

為了解決這一問題,遷移學習被引入了這項研究。首先充分利用了BERT中上下文詞語表示,BERT是目前用于語言理解最先進的非監督表示學習方法,并成功應用于想YiSi和BERTScore等NLG指標上。

其次研究人人員引入了一種新穎的預訓練機制來提升BLEURT的魯棒性。實驗表明直接在人類測評數據集上訓練回歸模型十分不穩定,因為無法控制測評指標在哪個域或者哪個時間跨度上使用。其精度很容易在出現域漂移的情況時下降,例如測試時文本信息來自于與訓練句子對不同的域時。同時在質量漂移時其性能也會下架,例如要預測評級比訓練評級高時就可能引起性能下降,不過這也是機器學習研究正在取得進展的標志特征。

BLEURT的成功取決于模型利用數百萬合成句子對兒來進行預熱,隨后再利用人類評級進行微調。通過給來自維基百科的句子加入隨機擾動來生成訓練數據,研究人員沒有采用人類評級而是利用了文獻中的模型和指標,使得訓練樣本的數量可以低成本地進行擴充。

BLEURT數據生成過程,結合了隨機擾動和現有的指標和模型。

BLEURT的預訓練分別在語言模型目標和NLG評測目標上訓練了兩次。隨后在WMT指標數據集上進行了調優,下圖展示了BLEURT端到端的訓練流程。實驗表明預訓練模型極大地提升了BLEURT的精度,特別在測試分布外數據時尤其如此。

結  論

與多個指標在機器翻譯和數據文本生成任務上的比較結果表明,BLEURT顯示出了優異的性能。例如BLEURT在2019年的WMT Metrics Shared任務上的精度超過了BLEU48%。

在WMT’19 Metrics Shared 任務上,不同指標和人類評級結果的相關性。

研究人員希望這一指標可以為NLG任務提供更好的評測方式,提供靈活的語義的評測視角。BLEURT可以為人們提供除了重合度外更好的測評指標,打破現有測評方法對于算法研發的束縛。

<上一頁  1  2  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號