Bob Violino Charles
機器學習也可能會出現嚴重錯誤,讓你后悔當初的沖動。
機器學習是如此熱門的一類技術,以至于太多的業務和技術主管們急于知道自己的部門怎樣才能投身其中。如果做得好,機器學習能夠幫助你創建更高效的銷售和營銷活動,改進財務模型,更容易發現欺詐行為,更好地對設備進行預測性維護,等等。
但是機器學習也可能會出現嚴重錯誤,讓你后悔當初的沖動。本文借鑒真實企業在機器學習上的實際經驗,介紹機器學習可能出錯的5種方式。他們公開了自己的經驗教訓,希望能幫助你不再重蹈覆轍。
第1個教訓:錯誤的假設會讓機器學習出現偏差
Projector PSA是一家設計和構建專業服務自動化軟件的美國公司,幫助咨詢公司經營其業務,該公司在試圖使用機器學習來預測人員配置計劃中的差異時,苦澀地吸取了這一教訓。
咨詢公司的員工都是訓練有素的專業顧問,希望能高效地發揮其人才優勢,所以公司經常雇傭項目經理來評估并預測其項目的人員需求。
然后,他們跟蹤顧問在每個項目上花費的時間,按照時間為客戶計費。如果公司采用專業服務自動化工具等單一系統來管理所有活動,則有一些明顯的優點,例如能夠將預測的時間與實際時間進行比較,從而知道不同的項目經理在規劃的準確性方面做得怎么樣。
首席運營官Steve Chong介紹說,Projector PSA已經開始和一家客戶開展了一項研究,該客戶聘用了數百名項目經理。他們建立了模型,在規劃期(方差)不斷增加的情況下,比較了平均實際工作時間與預測工作時間之間的差異。還研究了在這幾個月的過程中,項目經理們預測的一致性(差異性)。
也就是說,如果在一周內預測值太高而下一周預測值太低(高差異性),那么Projector PSA想知道這些因素是否相互抵消,使得平均差異很小,或者方差很低。
Chong說:“開始時認為低方差和低差異好,而高方差和高差異不好。”基于這一前提,Projector PSA讓一種機器學習算法根據這些數據,使用公司項目經理的樣本作為訓練集,把項目經理分成不同的組,例如“囤積者”和“樂觀者”。
然后,公司讓機器學習算法根據所學到的知識對其他的項目經理進行分類。結果發現,機器學習將一些經驗最豐富、訓練最有素的項目經理歸類為最糟糕的違規者——因為他們具有很高的方差和差異性。
Chong說:“事實上,這些項目經理是被公司指派參加那些已經處于困境的項目,希望他們能夠控制好這些項目。”
類似地,最初的機器學習算法對一個項目經理的評價很高,因為她幾乎是零方差和零差異性。而實際上是,她向其部門發送了預測的工作時間,暗示他們會將這些時間報告為其實際的工作時間。Chong指出,這導致了她從來沒有出現超出或者低于預算的情況,而這樣做卻實際上鼓勵了她的團隊以不利于大局的方式去開展工作。
Chong解釋說:“這些錯誤不是由機器學習算法本身造成的,而是由我們最初訓練時所采用的假設造成的。還有一個原因是最初僅依賴于數據,而沒有充分理解數據所代表的現實。”
后來,該公司訓練了其機器學習算法來識別這些新的配置文件,感覺它能更好地反映現實了。
第2個教訓:無監督式機器學習會出現意想不到的偏差
雖然很多任務可以由機器學習來執行,但是在項目開始時沒有考慮到某些情況,導致機器學習結果出錯。巴西金融服務公司Mejor Trato就是這種情況,該公司的人力資源部門的數字化轉型項目采用了機器學習技術。
在該項目中,使用該公司內部開發的機器學習聊天機器人,讓未來的新員工通過實時聊天和電話回答一系列問題。
在初次使用聊天機器人時,出現了兩個關鍵問題。一是發錯了給求職者的個人資料/職業表格。另一個問題是,面試時間與人力資源部門會議時間相沖突,這意味著人力資源部門無法根據需要監督聊天機器人。
首席技術官Cristian Rennella介紹說,在開始的幾個星期里,人力資源部門必須派人監督每次談話,以便在必要時糾正聊天機器人。她說:“我們犯了一個錯誤,以為一切都解決了,而沒有去監督聊天機器人。教訓是,一定至少要有幾個月的時間全時監督聊天機器人。”
由于沒有對聊天機器人進行精確的調整,該公司判定所收集的數據中有大約10%是不正確的。
Rennella介紹說:“機器學習在開始的時候能用于90%的答案,但是剩下的10%應該有人類進行監督以糾正算法。”隨著時間的推移,90%這一比例會增長到高達99%,她說:“但我們不能停止關注可能出現的偏差,以及新出現的情況——當我們開始這個項目時,這些都是出乎意料的。”
第3個教訓:糟糕的數據標簽會損害機器學習結果
俄羅斯的兩家聯營公司Ashmanov Neural Networks和SOVA (Smart Open Virtual Assistant)為其商業客戶開發了基于機器學習的產品。這包括視頻分析、自然語言處理、信號處理和神經網絡。
同時擔任兩家公司首席執行官的Stanislav Ashmanov介紹說,兩家公司在機器學習上遇到的最大問題之一是難以標注的糟糕的數據。Ashmanov說:“幾乎不可能提供高質量的數據標簽。通常,從事數據標記工作的人很草率,因為他們工作起來總是很匆忙。更重要的是,真的是很難讓每個人都以同樣的方式去理解怎樣接替這些任務。”
結果,數據包含了多個標記樣本,例如圖片中錯誤識別的輪廓,這嚴重影響了被訓練的神經網絡的表現。
在短時間內收集大量數據也是很有挑戰性的。Ashmanov說,數據收集可能需要幾個月的時間。而且,從公開可用來源收集的數據,例如在互聯網上找到的數據,并不能總是準確地反映現實。例如,在演播室或者實驗室拍攝的圖像與真實街景或者工廠生產車間得到的快照截然不同。結果,神經網絡的性能會降低。
作為客戶項目的一部分,當公司訓練神經網絡來識別網絡上發布的自拍照中的眼鏡時,便出現了這種出錯的例子。他們從社交媒體上收集了一些照片,并對其進行標記。Ashmanov說,神經網絡的表現很差,因為它把有黑眼圈的人誤認為戴著眼鏡。
另一位客戶提交了一個城市的兩張衛星圖像。任務是找出圖像中的汽車,教會神經網絡去識別它們,并計算它們的近似程度。這個例子的問題是,神經網絡把建筑物屋頂的窗臺識別為汽車,因為它們在外觀上相似——小、矩形,并且大部分顏色是黑的。
Ashmanov說:“這一切都歸結于對邊緣的仔細劃分,創建啟發式方法,以及改進初步數據處理和后處理證據檢查等。”
第4個教訓:有細微差別的分類問題會讓機器學習產生混淆
Casepoint是為法律部門和其他市場提供電子發現技術的一家美國公司,體驗到了機器學習的不完善之處。該公司采用機器學習進行文檔分類和預測分析。通過使用該技術,法律部門能夠顯著減少對文檔進行審查和分類所花費的時間。
公司首席戰略官David Carns說,使用機器學習對文檔進行分類是有效的,但并非完美無缺。該公司發現的一個缺點是過分依賴于機器學習來解決有細微差別的微妙的分類問題。
例如,在法律領域,機器學習文檔分類器經常用于識別能夠符合“生成文檔請求”的文檔。甲方要求提供有關某一主題或者內容的文檔,乙方則使用機器學習文檔分類器幫助篩選文檔庫,找到對應的文檔。
Carns說,這種方法效果非常好,律師們已經開始經常使用這種文件技術輔助審查(TAR)方法。他說,“如此的成功導致了盲目地使用機器學習文檔分類器進行更精細和更細微的分類,例如找到受律師客戶特權保護的文檔。”
盡管很容易使用機器學習來訓練文檔分類器以找到特權文檔的內容,但是文檔是否具有法律特權在很大程度上取決于文檔的受眾、機密性、接收時間以及與法律建議或者訴訟的關系。Carns說,大多數機器學習文檔分類器不能對這些附加的情景線索進行詳細的分類。
Carns說,“這并不意味著機器學習文檔分類器不能幫助對潛在的特權文檔進行下拉選擇和分類。但法律專業人士不應該僅僅依靠機器學習來確定特權。”他說,目前人類律師需要手動審查可能享有特權的文檔,以便就法律特權是否適用作出最終裁決。
第5個教訓:測試/訓練污染會讓機器學習感到困惑
美國自動化公司Indico多年來為客戶提供企業人工智能和深度學習服務,一直困擾該公司最大的一個問題是機器學習測試和訓練數據的污染。
首席技術官Slater Victoroff介紹說,一名客戶創建了模型來確定一條新聞是否會影響其股價。由于很難準確地確定影響時間,因此公司創建了一個模型來預測第二天的影響。
Victoroff說:“他們沒有意識到,自己忽略了確保清潔的測試/訓練分類的數據科學基礎。因此,他們在預測次日影響的任務上表現出接近100%的準確性,而實際上,該模型并不比隨機預測好多少。”
另一個例子來自關注其內部自然語言處理(NLP)系統的客戶。該客戶的某個部門多年來一直在為機器學習模型創建和更新特性,并且基于相同的搜索集來不斷地測試它們。該部門也體驗到了測試/訓練污染的影響。Victoroff說:“只要你看到出現測試錯誤并改變算法以糾正測試錯誤時,你的數據就不再準確了。”
在這個特殊案例中,人們沒能很好地理解問題。在內部,該模型對于某一任務的準確率達到近100%的程度。Victoroff說:“但在實際中,這個系統幾乎不起作用,因為它們無意中污染了自己的結果。任何企業在機器學習領域都會犯的最嚴重的錯誤就是測試/訓練污染問題。”