使用人工智能技術不要陷入數據量的泥潭

2018-11-14 10:17

來源：企業網

機器學習算法經常被描述為數據饑餓。但調研機構Gartner公司的Erick Brethenoux最近表示，對于某些人工智能用例來說，企業首席信息官在開始應用時應該考慮數據質量，而不是數量。

在最近的一個網絡研討會上，Brethenoux提出了一個新的研究方案，他斷言：“企業的規模和數據量都不利于企業使用這些人工智能技術。”

這是他提供給開始采用人工智能技術的公司的一個建議。以下將詳細介紹為什么Brethenoux強調某些用例中突出的數據質量而不是數量，以及為什么他認為從業務問題開始是至關重要的原因。他還向已經為人工智能做好準備的客戶提出了五個問題。

清潔數據優于大量數據

Brethenoux在網絡研討會期間給出一個令人驚訝的提示：企業在決定是否使用人工智能技術時，數據量并不是一個很好的經驗法則。他舉了一個小型區域銀行客戶的例子，該客戶使用人工智能不僅實現個性化貸款，而且還開始向小額貸款客戶提供新服務。

他說，“他們擁有的數據量并不大。但是，這些數據的質量必須是無可挑剔的。”

Brethenoux重申了這一點。他說，“企業擁有的數據越多，通常就越能找到有趣的相關性，但沒有必要通過擁有大量的數據才能找到有趣的東西。”如果需要，企業人工智能團隊可以利用來自提供商的外部數據來彌補內部數據不足。

另一方面，低質量數據可能會觸發瘋狂的算法追逐。而加拿大的一家保險公司想要根據保險公司的工作地點來衡量保險公司的風險時，其分析產生了垃圾結果。根據Brethenoux的說法，事實證明，其距離數據分別以英里和公里為標記，使結果出現了偏差。

雖然數據質量很重要，但他表示，企業首席信息官不應該被迫去清理每一項數據，并推遲啟動。

“企業最終要做的就是不斷清理，而且從機器學習或預測分析的角度來看，很多數據可能對企業嘗試做的事情沒有幫助。”他說，“這就是企業堅持從一個用例開始的原因。”

專注于業務問題

為了引入人工智能技術，企業首席信息官應該從業務問題入手，努力尋求解決方案。重點是業務問題。“用例并不是一個好主意，而是一個商業案例。”Brethenoux說。

他建議首席信息官與企業進行溝通，找出問題的癥結所在，然后將問題“范圍縮小”為他們可以在幾周內完成的事情。Brethenoux說，這就是首席信息官們如何弄清楚他們不知道什么，以及他們需要關注什么的方式。

這一建議部分來自于他的觀察，即“以資產為中心的公司”，例如制造業或能源公司，在人工智能技術方面取得了比“以服務為中心的公司”（如營銷公司）更多的成功。

“大多數以資產為中心的組織正在處理以工程為中心的文化，這些文化從用例開始，并返回解決問題所需的數據和技術。”他在網絡研討會上說。Brethenoux表示，在以服務為中心的公司中，這一過程經常發生逆轉：數據專業人員在數據中找到趨勢或相關性，然后尋找問題。

Brethenoux闡述了這一點，并補充說，以服務為中心的企業有時會因缺乏關注而受到影響，而將人工智能技術引入企業時可能會面臨問題。

他說，“當企業開始處理更多的數據和問題時，解決問題的方法并不那么嚴謹。”

提出的五個問題

當客戶告訴Brethenoux想要使用人工智能來解決問題時，他提出了五個問題，以確定人工智能是否是適當的行動方案，以及客戶是否準備沿著人工智能路徑前進。問題如下：

（1）業務用例是什么？ Brethenoux表示，這個過程應該包括描述預期和期望的結果，以及確定如果引入人工智能技術將如何衡量業務價值。

（2）企業具有必要的技能嗎？企業首席信息官可能不需要雇傭大批數據科學家。Brethenoux建議他們從評估內部技能開始，并考慮培訓合格的數據工程師或主題專家。他還建議舉辦“黑客大會”來幫助發掘人才。“或者企業可以采取這些措施：聘請顧問，在短期內幫助企業走出困境，并推動這些努力。”他說。

（3）企業有必要的數據嗎？企業可能不需要他們想象的那么多的數據，但他們需要數據，并且它應該是合理的。當Brethenoux要求一家大型保險公司想要拍攝事故的現場照片，并預測索賠的類型和費用時，他收到了一堆照片，該公司花費兩個月的時間對這些圖像進行數字化、整理和標記。“當企業解決其試圖解決的用例時，需要確保擁有適當的數據。”他說。

（4）企業需要什么樣的技術？業務問題將推動技術決策。 Brethenoux引用了幾種成熟的人工智能技術——從概率推理（如機器學習被確定為最成熟的技術）到基于代理的編程（被認為是最不成熟的技術）。

（5）企業如何組織團隊？一旦企業有了一些概念上的證據，就應該考慮這樣的團隊應該在哪里實施，團隊應該向誰報告，以及如何支持團隊來提高其技能和技術。