AI的數據、算法、算力“輪流坐莊”，NLP到了“數據為王”的時代

2020-05-09 08:33

它的需求可能只有初中語文即可。但是，NLP的數據需求早已超過這樣的標注太多。

例如，客服詢問用戶是否購買此商品時，“我要和家人商量一下”、“我會考慮”、“我現在不方便，你一會兒再打過來”，標注人員得準確標注出暫不購買，暫不考慮，拒絕購買或者興趣較大等多種意圖。

一方面，這依賴于平臺進行的場景深挖，這也是為什么云測數據智能客服單個場景的意圖標注就分為10－20個大類、上百個子類，根據業務需求可能還會有進一步的標注細分，如此數據標注可以更細化、直達需求。

另一方面，這繞不開人員能力的持續培訓，把“干體力”的標注工人轉化成懂一些專業的業務人員，典型的如云測數據在金融服務領域通過幾個月的專業培訓，培養出銷售人員視角去揣測用戶話語中的意圖。

舉例來看，在客服溝通中，用戶回饋“我在開車”這短短的一個語料數據，可能需要標記出“有車一族”、“司機”、“沒有明顯拒絕”、“可能有興趣”等多個標注給NLP算法，按云測數據自己的說法，其培訓達到的目標，是讓標注員工達到成為專業員工的水準。

顯然，在NLP標注數據的初期階段將各大金融機構的AI客服機器人訓練到大致相當的初級認知智能水平后，再進行提升、提高銷售轉化或者服務滿意度，都需要質量更高、針對特定需求更強的NLP標注數據。

值得一提的是，在NLP領域不是所有標注都能通過人員培訓來解決，醫療、法律等過于專業的領域可能還是依賴專家標注（邀請醫生、律師等參與標注），那是一個更復雜的故事了。

4、工具使用，持續加碼“便捷化”

工欲善其事必先利其器，NLP的標注雖然不像CV有很多空間維度的數據需求，但工具提升便捷度進而提升標準效率和準確性的價值仍然不可小覷。

這方面，巨頭的腳步更早，在國外，Google Fluid Annotation一度是NLP標注“最好使”的工具，國內，大廠和專業平臺的工具也被廣泛使用，云測數據在工具上的創新優勢很明顯。

總體而言，標注工具適合自己的才是最好的。這種根據定制化需求開發貼合實際需要的數據工具對場景化數據的生產，發揮著重要作用。

無論如何，持續加碼“便捷化”，是一個不會停止的過程。

NLP數據產業的機會，將會是誰坐莊？

在AI領域，雖然有大廠走在前列，但市場并沒有被巨頭壟斷，中型AI平臺也常常嶄露頭角成為主角。以AI數據服務領域為例，像云測數據這種專注于企業服務的第三方獨立平臺，以客戶為中心的企業基因，一直貫穿在數據交付的始終。

一個典型的表現是，高精確度的NLP數據需要以企業服務的心態與客戶仔細對接需求，例如，用戶需求的場景是什么，如果是訂票，AI問答應該主要導向訂票，對應的NLP數據也要往這個方向去標注。

這一過程中需要數據服務人員對需求進行拆解、預判甚至提前給出建議，與客戶反復溝通確認達成一致后，才能真正地去作業。大廠偏重于技術架構、前沿技術開發、云服務器中心大規模并發能力等建設，很難俯下身好好完成這件事，這時候，AI數據專業化平臺更有優勢。

此外，影響競爭格局走向的還有數據服務的安全性。

在數據采集與標注行業，復制一份數據在技術上非常簡單，也能節省大量的人力和運營成本，但給客戶帶來的損失卻不小（尤其是被競爭對手拿到），保證數據隱私性和安全性，在AI激烈的競爭環境下幾乎成為某些客戶的首要決策標準。

總而言之，高專業度、高精準度、高效率、強安全才能贏得AI數據客戶尤其是NLP數據客戶的選擇，不論巨頭還是AI數據專業化平臺在行業爆發式增長的關口都在努力，落實和推進了諸多動作。NLP數據產業正處在藍海，一個不會由巨頭坐莊的藍海。

<上一頁 1 2 3

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

圖片新聞

新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区