理想與現實的努力平衡: OpenAI開啟測試API試水商業化道路

2020-06-22 09:29

OpenAI是一家以追求通用人工智能為目標的研究機構，為AI研究和社區提供了一系列高性能的研究成果和開源模型。其使命在于構建出高度自主并在大多數工作崗位上達到或者超過人類的表現，為人類提供安全、共贏的人工智能系統。

但純粹的研究理想也需要負擔龐大的科研開銷，為了平衡使命和現實，OpenAI開始嘗試將研發出的高性能算法GPT－3構建成API以實現商業化，以反哺消耗巨大的研究，同時促進算法和研究的進一步迭代改進。

基于這一強大的自然語言模型，OpenAI發布了一款通用的文本處理接口，與先前為特定目標設計的AI系統不同的是，此API可以允許用戶任務嘗試任意英文語言任務。研究人員和開發者可以利用它構建更為優秀的產品或者更具智能化水平的應用，同時還能為探索這一技術的優點和局限做出貢獻。目前已經有十多個公司利用這一API在語義搜索、聊天機器人、客戶服務、文本生成、生產力工具和內容補全等方面開發了一系列有效的產品。

在強大的語言模型下，API可以實現對于輸入文本信息模式的有效學習和處理。用戶可以用少數幾個樣本對模型進行“編程”，使它按照你的方式來回答問題。下圖中顯示了調用API的一個樣例，可以看到在提供了一個問答樣本后（紅框中），模型可以根據問答樣例的語言模式回答新的問題（藍色）。模型不僅可以實現問答任務，還顯示出了其中已經涵蓋了非常豐富的語料和知識信息。

用戶可以按照這種方式對模型進行定制化的打磨，一方面通過數據集（大數據或者是少量數據）對模型進行調優訓練，另一方面也可以通過人機交互的反饋來對模型的輸出進行改進。

此API同時兼顧了易用性和靈活性，一方面可以讓任何人都有接入最前沿人工智能技術的簡單方式，同時也為研究人員提供了增加生產力的靈活方式，使得團隊可以集中精力處理機器學習的核心問題。目前支持該API的是最新的GPT－3模型，GPT－3是OpenAI最近發布的非常強大的自然語言處理模型，完整模型包含了175 billion的參數。下表顯示了GPT－3相關模型的架構和參數量。

機器學習領域的發展一日千里，所以背后所支撐的處理流程和模型也在不斷迭代和更新。下面幾個小視頻展示了如何應用這一API到用戶的日常工作生活中，以此來解決問題并提高生產力。

針對電子表格的制作，Tabulate插件提供了結構化的表格生成方案。用戶僅僅需要輸入想要制表的主體，模型就能生成比較理想的表頭。在少量的修改后，選擇填充表格模型就能從已有知識中填充出內容。這一例子中顯示了公司名稱、代碼和上市的年份。為了聚焦互聯網公司，只需要輸入兩個互聯網公司的名字，模型就能找到相關內內容進行填充，還能按照創立年份排序。此外還能夠從非結構文本中對文本信息進行結構化填充！突然感覺以后不用做excel了

第二個例子是利用模型對網頁內容進行語義搜索。比如你打開了一個wiki百科頁面來尋找答案，現在再也不需要一字一句讀完整篇文章了，只需要利用網頁插件輸出你想要問的問題，模型就能根據語義搜索到頁面中對應的段落，不僅解答了你的疑問還能對文本位置進行定位，大幅度地提高了資料檢索的效率。

下面的例子完整地展示了如何構建個性化的應用，通過簡單的linux指令和對應含義的描述，就能構建出一條語義操作模型。直接輸出各種口語化表達模型，就能生成對應的命令和命令組合來實現你想要的結果。這個例子中，我們看到了API將人機交互簡化到了何種程度，極大地減少了初學者的學習成本、提高了使用者的利用效率，看來用自然語言和計算機交互的時代已經非常近了。

但技術的進步是一把雙刃劍，在大規模應用的同時也需要避免惡意使用。API在源頭已經切斷了一系列明顯的惡意應用，包括騷擾、垃圾郵件、激進言論和病毒營銷等，但想要窮盡所有可能的惡意應用是不可能的，除了產品開發者的把控，更需要社區的努力。開發者可以探索控制API返回惡意內容的工具，研究人員需要在語言模型的安全方面進行更加深入的研究（包括對于有害偏見的分析檢測、緩和與阻斷等等）。