難以“馴服”AI？IBM為企業提出了這些建議

2018-11-16 08:37

IBM的研究人員認為，由于概率性編程模式和混亂的數據，目前AI對企業而言難以駕馭，日前，IBM的沃森和阿爾馬登研究中心發布了一篇題目為《刻畫機器學習過程：一個成熟度框架》的論文，提出許多充滿希望的建議，同時也暗示了一個實質性的問題：這家藍色巨人是否能提出“馴服”AI這匹野獸的方法使其適用于企業的軟件生命周期和業務流程呢？

IBM研究人員給出的建議是，需要仔細考慮機器學習的多個階段，包括管理者應該如何為神經網絡模型“設定目標”、如何為神經網絡的輸入構建數據管道（data pipeline）的示例、以及如何不斷迭代和改進AI模型。另外，受管制產業需要特別注意一些地方，比如數據血統：所使用的數據的“合法性”是什么？

AI對企業的挑戰在于機器學習編程和傳統軟件編程之間的本質區別：傳統的軟件應用程序是確定性的，但機器學習模型是概率性的。另外，使用混雜的數據來開發神經網絡，這對企業而言并不合適。然而，截至目前關于機器學習建模的學術文獻并沒有提出如何使機器學習為企業工作的解決方案。

為了使AI達到適用于企業的成熟度，IBM的科學家建議將機器學習和大量有關諸如“應用生命周期管理”的文獻保持一致，并擴展此類術語的含義以適應AI的新特性。IBM提出，一個機器學習的生命周期涵蓋了各個階段，企業必須在持續基礎上不斷為完成某個階段的工作做好準備。

研究人員借鑒了Watts Humphrey在20世紀80年代對軟件能力成熟度模型（Capability Maturity Model，CMM）的定義，CMM是對軟件組織在定義、實施、度量、控制和改善其軟件過程的實踐中各個發展階段的描述，其假設是：只要持續建立有效的軟件工程過程的基礎結構，不斷改進管理的實踐和過程，就可以克服軟件生產中的困難。

這項工作最原始的貢獻是研究人員關于神經網絡應根據一個特定行業的特殊性進行開發的建議，而為了找到AI的業務用例，企業需要定制行業和領域通用的機器學習模型，并針對特殊的情況提供特殊的數據。

顯然，IBM正在試圖解決一個棘手的問題，事實上，機器學習的很多方面并無法與簡潔規范的CMM相協調，尤其是深度學習。比如，IBM建議在企業內部監督下建立一套AI服務數據引導系統（AI Service Data Lead），在工作開始時，用于訓練機器的數據被貼上ground truth（參考標準，即用于有監督訓練的訓練集的分類準確性）的標簽，然而仍然有許多未受監督的機器學習試圖在神經網絡設計中遠離ground truth。

也許最令人望而卻步的前景是，在IBM看來，企業有責任確保神經網絡不存在偏差，而偏差正是令整個AI社區都抓耳撓腮的棘手問題。IBM在論文中表示，負責開發神經網絡的人員需要保證最后建立的模型是公正、透明、沒有偏差的。

最后，盡管IBM的建議看起來頗為自信，但似乎現階段的機器學習尚處在一種“未開化”的狀態，正如論文的結尾所描述的那樣，“企業對采用AI模型猶豫不決的另外一個原因就是，他們發現AI模型就像一個不透明的黑匣子，這點尤其在用深度學習技術對模型進行訓練時更加突出。”