訂閱
糾錯
加入自媒體

OpenAI提出Image GPT實現高質量圖像補全和樣本生成

2020-07-17 10:13
將門創投
關注


與先進自監督模型的比較,雖然需要更多的計算但是本文提出的模型還是能得到更具競爭力的結果。

由于像BERT這類基于掩膜的語言模型在眾多語言任務上超越了生成模型的結果,研究人員同時還利用BERT測評圖像模型。研究人員沒有調優而是使用了15%的掩膜來去除像素,并從非掩膜的像素中來預測出這些結果。結果表明基于BERT模型的線性探測器具有明顯的劣勢但卻能在調優下實現后來者居上。

BERT和iGPT-L預訓練模型在32x32分辨率上的比較,可以看到生成模型在預訓練階段得到的特征更好,而BERT模型在調優后則迎頭趕上。

雖然非監督學習無需人類標記數據,但近年來自監督學習取得了長足的進步,有效使用了有限的標注數據。成功的半監督學習方法都使用了像連續性正則、數據增強、準標簽等手段來實現,純粹基于生成的方法近年來沒有顯示出有效的競爭力。iGPT-L在這一子領域對基準數據進行了評測,結果表明在沒有圖像增強的情況下性能超過了Mean Teacher和MixMatch,并接近FixMatch的水平。

與精心設計的半監督方法不同,iGPT-L在沒有任何數據增強和調優的情況下用于邏輯回歸分類器的擬合,實現了非常好的半監督學習結果。

局限性

雖然iGPT在各種圖像任務上都很成功,但卻不得不提這種方法的局限性。由于使用了GPT-2中的通用序列遷移器架構,這種方法需要大規模的計算資源,iGPT-L典型情況下需要2500 V-100 GPU日的計算才能達到MoGo模型的水平,而后者只需要約70 V100 計算日的訓練。

此外,這一基于transformer模型的輸入分辨率較低,而其他自監督方法可以利用卷積編碼器輕松地處理高維度輸入。也許在未來需要構建多尺度transformer的新架構來處理輸入維度受限的問題。這一工作僅僅是大規模語言模型在新領域嘗試的原型驗證,無需領域知識的人工編碼。然而龐大的計算量消耗、卷積網絡的高精度表現使得這一方法在實際工作中并不實用。

最后,生成模型會受到訓練序列中偏見的影響。有的對于構建上下文關系十分有利,但有的卻會造成不好的結果。例如在訓練數據中男性較多就會造成生成圖像中包含更多的或者完全都是男性,而不是有男有女的場景。在未來的研究中希望可以對數據進行更有效的除偏處理,并更好的理解數據偏見與模型的關系。

利用語言模型GPT對圖像進行處理的想法非常獨特,實驗也顯示了這種非監督方法的對于全新領域的通用性,在提供足夠計算資源的情況下序列transformer也許能在未來為很多新領域提供解決問題新思路。

關于我“門”

將門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注于使創新的技術落地于真正的應用場景,激活和實現全新的商業價值,服務于行業領先企業和技術創新型創業公司。

將門技術社群專注于幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注于投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在近四年的時間里,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。

<上一頁  1  2  3  4  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號