AI被數據扯了后腿

2020-08-09 08:40:31

第一財經 2020年8期

關鍵詞：系統

亞馬遜的“Go”商店令人眼前一亮。這些不設收銀員的店鋪2018年首次在西雅圖開業，顧客只要亮出手機應用，就可以拿了商品直接走人。該系統使用了大量傳感器，但其魔法主要是由連接到AI系統的攝像頭完成的。AI系統會追蹤商品從架子上被取走的過程。一旦顧客拿著商品離店，賬單就結算完畢，會自動向顧客收費。

在一個擁擠的商店里做到這一點并不容易。系統要能夠應付人員密集的環境：攝像頭可能被其他顧客阻擋而看不到某些人的動作。它必須能識別單個顧客，還有同行的朋友或是全家出動。如果一個孩子把一件商品放進自家購物籃，系統必須意識到應該向Ta的父母收費。而且它必須實時又高度準確地完成這一切。

為指導機器做這些，需要向它們展示大量“訓練數據”：顧客瀏覽貨架上的商品、拿取商品、把商品放回貨架等各種行為的視頻。對于像圖像識別這樣的標準化任務，AI開發人員可以使用公用訓練數據集，每個都包含成千上萬張圖片。但記錄人們逛商店的公用訓練集尚不存在。

有些數據可由亞馬遜自己的員工生成，公司此前讓他們進入測試版店鋪中。但這么做有其局限。人們會用各種各樣的方式從架子上取走一件商品并決定買下它、立即把它放回架子，或稍后再放回去。要在現實世界中真正奏效，系統必須涵蓋盡可能多的可能性。

從理論上講，世界充斥著數據，這是現代AI的命脈。市場研究公司國際數據公司（IDC）估計，2018年全球生成了33ZB的數據，足以填滿7萬億張DVD。但是，專注于AI領域的咨詢公司Cognilytica的凱瑟琳·沃爾克（Kathleen Walch）表示，盡管如此，數據問題仍是所有AI項目中最常見的癥結之一。和亞馬遜Go商店的例子一樣，某個項目需要的數據可能根本就不存在，或者數據可能被鎖在競爭對手的保險庫中。即便相關數據可以被挖出，可能也不適合輸送給計算機。

Cognilytica表示，一個典型AI項目約80%的時間都花在了各種數據整理上。訓練機器學習系統需要大量仔細標注的樣本，而這些標注通常需由人類添加。大型技術公司通常在內部開展這項工作。那些缺少相關資源或技術知識的公司可以借力一個不斷發展的外包產業來完成這個部分。例如，中國公司莫比嗨客雇用了30多萬人來標注源源不斷的人臉照片、街道場景或醫療掃描影像以便后續的機器處理。亞馬遜的另一個部門土耳其機器人（Mechanical Turk）為企業與一個臨時工大軍牽線搭橋，向這些工人支付計件工資來執行重復性任務。

Cognilytica估計，第三方“數據準備”市場在2019年價值超過15億美元，到2024年可能增至35億美元。數據標注業務也差不多：2019年企業在這方面至少支出了17億美元，到2024年可能達到41億美元。Cognilytica的羅恩·施梅爾策（RonSchmelzer）說，掌握某個專業課題并非必要，例如在醫學診斷中，業余數據標注員經訓練后在識別骨折和腫瘤等方面幾乎可以和醫生媲美。但掌握一定的AI研究人員口中的“領域知識”至關重要。

數據本身可能包含陷阱。機器學習系統將輸入與輸出相關聯，但它們只是盲目地執行，并不理解更廣泛的語境。1968年，編程大師高德納（Donald Knuth）警告說，計算機會“完全按你告訴它們的去做，不多也不少”。機器學習中充滿了這句話的例證——機器精確遵循規則的字眼，對其精神卻一無所知。

人工智能部分事件

數據來源：《經濟學人》

2018年，紐約西奈山醫療系統（Mount Sinai）的研究人員發現，一個經訓練通過X光胸片識別肺炎的AI系統，在它受訓的醫院以外的其他醫院使用時能力明顯降低。研究人員發現，機器能夠識別出胸片來自哪家醫院，方法之一是分析片子角上的小塊金屬標記—各家醫院的標記各不相同。

由于訓練集里的一家醫院的肺炎基準發生率遠高于其他醫院，胸片來自哪家醫院這個信息本身就足以大幅提高系統的準確性。研究人員把這種巧妙的伎倆稱為“作弊”，因為在向系統出示陌生醫院的數據時，它就失靈了。

偏見導致了另一種問題。去年，美國國家標準技術研究院（National Institute of Standards andTechnology）測試了近200種人臉識別算法，發現許多算法在識別黑人面部時準確性明顯低于識別白人面部。這個問題可能反映出白人面部在機器的訓練數據中占了多數。IBM去年發表的一項研究發現，3種被廣泛使用的訓練集中，超過80%的人臉都是較淺的膚色。

至少從理論上講，這類缺陷很容易糾正（IBM提供了一個更具代表性的數據集供所有人使用）。其他的偏見來源可能更難消除。2017年，亞馬遜叫停了一個通過簡歷尋找合適人選的招聘項目，因為他們發現該系統對男性申請人有利。事后經檢驗他們發現了一個循環的、自我增強的問題：公司用以前成功被錄取的申請人的簡歷訓練該系統，但技術人員的隊伍里大部分是男性，因此根據歷史數據來訓練的系統會把男性這個特征作為適合度的強預測指標。

普華永道機器學習英國團隊的負責人法布里斯·西亞斯（Fabrice Ciais）說，人類可以嘗試禁止機器做這類推導（亞馬遜正是這么做的）。在許多情況下他們必須這么做：在大多數富裕國家，雇主不能基于性別、年齡或種族等因素雇用人員。但算法可以比它的人類主人更聰明，西亞斯說，它們能用替代變量重構出被禁用的信息。從業余愛好到工作經歷，再到電話號碼中的區號，各種信息都可能暗示申請者很可能是女性、年輕人或少數族裔。

在機器學習項目的各項任務上的平均耗時

數據來源：《經濟學人》

如果現實世界中的數據難題太過艱巨，那么一種選擇是自己創造一些數據。這正是亞馬遜改進Go商店時所用的方法。該公司使用圖形軟件來生成虛擬購物者。這些“人造人”被拿來訓練機器處理許多困難或異常的情景，它們在真實訓練數據中未曾出現，在實際環境中部署系統時卻可能發生。

此舉并非亞馬遜獨樹一幟。無人車公司用高保真模擬現實來做大量訓練，在這種模擬中如果出錯不會造成真正的破壞。芯片制造商英偉達2018年發表的一篇論文描述了一種為無人車快速創建綜合訓練數據的方法，并得出結論稱由此生成的算法效果比僅用真實數據訓練的算法更好。

隱私關切是“合成數據”的另一個吸引力所在。希望在醫學或金融中使用AI的公司必須遵守美國的《健康保險可攜性和責任法案》（HIPAA）或歐盟的《通用數據保護條例》（GDPR）等法律。要對真實數據做恰當的匿名處理可能會很難，而用虛擬人訓練的系統根本不用擔心這個。

西亞斯的同事尤安·卡梅倫（Euan Cameron）說，訣竅在于確保模擬足夠接近現實，使經驗得以推廣。對于像欺詐識別或信用評分這樣能清晰界定的問題，這很簡單。還可以將統計噪聲添加到真實數據中來創建合成數據。這樣，盡管單個交易是虛擬的，但可以保證它們整體上具有與源數據相同的統計特征。但一個問題越復雜，就越難確保從虛擬數據中汲取的經驗能被順暢地用于現實世界。

希望在于所有這些與數據相關的折騰都是一次性的，一旦訓練好，機器學習模型將用數百萬次自動決策來回報這番努力。亞馬遜已經開設了26家Go商店，并提出將相關技術授權給其他零售商。但即使到了這一步也仍需要謹慎。研究公司高德納（Gartner）的斯韋特蘭娜·希克爾勒（Svetlana Sicular）說，許多AI模型都受到“漂移”（drift）的影響，即隨著時間流逝，世界運轉方式的變化意味著它們的決策變得不那么準確。顧客的行為在變化，語言在演變，監管機構也會改變公司能做什么的規定。

有時漂移會在一夜之間發生。“購買單程機票在自動檢測模型中曾是一個很好的預測欺詐的指標。”希克爾勒說，“但新冠肺炎導致封城后，突然有很多人都在買單程票，他們都是清白的。”如今戴口罩已成為常態，一些習慣了識別裸露面部的人臉識別系統碰到了麻煩。自動化物流系統現在需要人員的幫助才能應對卷筒紙、面粉及其他生活必需品的需求激增。世界的可變性意味著機器需要更多訓練，也就是要為它們提供更多數據—這是一個無休止的再培訓循環。卡梅倫警告說：“人工智能不是個一勞永逸的系統。”