格雷戈里·維亞爾 江璟璐 塔尼婭·詹尼利亞 安-弗朗西絲·卡梅倫

北美一家大型醫院為人工智能(AI)賦能系統提高病患護理質量的前景而歡欣鼓舞。然而,當它打算從概念升級到原型構建時,卻發現建立和運行系統所需的數據分散在20個傳統系統中,檢索起來非常復雜。最后,它只好放棄該項目。
高級分析技術和AI有望產生幫助企業保持競爭優勢的洞見。它們在這方面的能力很大程度上取決于能否獲得優質的數據,但有時候,組織偏偏沒有能讓AI發揮作用的數據。
最近,我們研究了組織如何將AI項目從實驗室研發環境轉至生產環境,以及在此過程中它們遇到了哪些問題。為此,我們采訪了六家北美公司的AI主管和信息提供者,這些公司的規模和所處行業各不相同。一個關鍵發現是,盡管許多人在評定數據質量時,主要依據的是其準確度和完整性(參見副欄“什么是優質數據”),但是數據可被機器訪問的程度(數據質量的一個維度)似乎才是將AI從實驗成果轉化為商業應用過程中會遇到的更大挑戰。更重要的是,我們發現數據可訪問性通常僅被當作IT問題來處理。實際上,我們的分析表明這是一個管理問題,而人們對AI數據可訪問性的性質和作用存在誤解,則令這一問題更加嚴重。
數據可訪問性的關鍵不在于數據本身的屬性,而在于是否具備能夠讓機器獲取數據的要素。雖然組織擁有的數據浩如煙海,但數據訪問仍然是一大挑戰,尤其是在AI開發與運行的環境中,這一挑戰因為以下兩個彼此關聯的原因而變得更加艱巨。首先,AI項目通常會牽涉各種利益相關者群體,他們對數據可訪問性的興趣各不相同。其次,典型的AI開發生命周期往往會削弱數據可訪問性的重要性。
大部分數據可訪問性問題的核心是,AI項目會牽涉各種各樣的參與者群體,對于數據可訪問性的性質和作用,他們有不同的興趣、觀點和影響力。例如,業務主管通常會參與流程的啟動和收尾工作,幫助界定AI的用例,并利用最終產品,但他們往往并不會考慮數據的訪問方式。“業務部門的人總是以為自己有AI需要的數據。”一家AI咨詢公司的產品交付副總裁說。“他們想快點開始,然后,當我們掀開蓋子時,”他笑著說,“我們得到了PDF文件、Excel電子表格,接著我們要收集所有這些東西,再用光學字符識別技術來處理。這從來都不是一件容易的事情。”
另一方面,開發、測試并維護模型的數據科學家,還有可能與之合作的科學顧問都會重點關注獲取模型開發所需的數據。與業務部門的利益相關者一樣,他們對數據可訪問性的興趣也不大。
數據工程師負責構建基礎設施,以生成數據,供數據科學家的模型使用。他們會適當關注一下數據的可訪問性。但他們常常認為,從操作系統中提取出來用于原型開發的數據,也可以直接用于生產。這種看法有時并不正確。
數據可訪問性問題對于軟件工程師來說更重要一些。他們負責將AI打包到產品或服務中,這些產品或服務必須能夠在生產環境中獲取數據。雖然IT部門的成員很少被視為AI項目的主要參與者,但他們要為AI所需的技術基礎設施(包括數據)提供支持。他們的工作能幫助組織嚴格遵守保護技術和數據資產的安全政策和治理機制。
上述每一類利益相關者都各自發揮著重要作用。同時,他們對數據可訪問性的看法也受其直接職責所限。例如,一家大型金融機構的AI主管告訴我們,他的團隊需要從操作系統中獲取大量數據。然而,許多操作系統是在主機上運行的,從構建之初,就無法在支持常規操作的同時,再支持此類數據訪問需求。當負責維護操作系統的IT人員聽說他的AI項目要求訪問數據時,很是不情不愿。他告訴我們,有一次,他們這樣回答:“我可不想讓那些剛出校門的技術狂每天都跑過來檢索15TB的數據,那會把整個系統都給搞崩的。”
除了各類利益相關者興趣不同的問題之外,AI項目的典型生命周期也會促使團隊專注于模型的快速迭代開發。于是,關于數據可訪問性的重要對話,尤其是與AI在組織中實施相關的對話,遲遲沒有開展。在此過程中,數據可訪問性的性質發生了改變,它同組織的數據管理結構、機制和技術基礎設施的關系,從彼此獨立轉為相互關聯。隨著AI從一個單純的概念轉變為組織使用的實際產品或服務,關鍵利益相關者在AI開發各個階段的參與情況也隨之發生變化(參見副欄“AI生命周期中的利益相關者和數據”)。我們在之前研究的六個組織中發現,典型的AI生命周期都是分為五個階段。為了弄明白數據可訪問性為何經常被忽視,我們需要逐一分析這幾個階段。
第一階段:構思 構思階段相當于一個過濾器,用于找出AI在組織中的潛在高級業務用例。在這個階段,大多數對話都是在管理人員、商務顧問和科學顧問(有時也是全職學者)之間進行的,其目標是為商業和科學創造一個會談空間,由此催生出來的業務用例應該看起來前景良好、切實可行。在AI咨詢公司,這個關鍵第一步的作用是向客戶科普AI的潛力。不過,這個階段的重點是數據的存在,而不是數據可訪問性。討論的核心話題是業務目標以及應用AI模型解決組織當前的問題。
第二階段:藍圖 出于優先級別、資源限制或缺乏潛在價值等原因,構思階段產生的用例并不能全部被選中在一定時間內實施。藍圖階段會生成一個綜合用例,其中包含一些細節,例如清晰且可衡量的業務目標、列出具體AI技術的行動計劃,以及應當準備好提供給AI的數據要素。在藍圖階段,評估數據可訪問性仍然以數據的存在為唯一指標,因為組織會著眼于流程的下一個階段,即構建工作原型。其背后的假設是,只要數據存在就足夠了,因為這樣團隊就可以繼續向前推進。
第三階段:概念驗證 在概念驗證階段,數據科學家構建一個或多個模型來實施商定的用例。大部分工作的重點是以迭代方式創建、訓練和測試模型,衡量比較它們各自的性能,并檢驗輸入新數據的AI是否達到了預期效果。數據從源系統中被提取出來,由數據工程師進行轉換,使其符合在建模型的格式和精度要求。解決方案最終可能是通過一個裝有用戶界面的應用程序交付,或者緊密集成在組織的業務流程中(比如說,用于修改銀行的信貸申請流程),但在概念驗證階段,這些工作通常還不是重點。同樣,團隊主要關心的是獲取數據來推進他們的短期工作,幾乎不會考慮AI進入生產階段后,數據訪問最終會采取何種形式。
第四階段:最簡可行產品(minimum viable product, MVP) 一旦概念驗證的某個版本表現出足夠的價值,就可以被優化為MVP。此時,數據科學家和數據工程師便功成身退,下一步工作由軟件工程師接手,因為如果AI適于應用,最終就會走出實驗室,被部署在組織的基礎設施中,并與其他生產系統集成。在先前幾個階段,模型開發是大家密切關注的問題,由此產生的一個意外結果是,對生產中數據可訪問性的考慮已退居次要地位。當軟件工程師和IT人員深入討論待交付解決方案的規格和集成時,就可能會從數據可訪問性相關問題中發現,模型使用的某個關鍵功能需要大量計劃外的工作。
第五階段:生產 在最后這個階段,包含AI的改進版MVP被投入生產,現在必須向其輸入直接從生產系統中獲取的數據。數據可能需要從多個系統中提取并進行轉換,從而生成模型所需的輸入項來支持生產中的業務用例。無論這一工作是實時進行還是批量進行(例如,頻繁反復訓練和測試模型),與AI集成相關的真正問題總是會在這一步浮現出來,尤其是涉及組織數據基礎設施的問題。如果自主系統無法按照要求的數量或速度提供、提取并集成數據(比如受傳統系統所限),AI就可能會失去全部的潛在價值。
除了弄清AI開發的不同作用和階段及其對數據可訪問性的影響之外,了解人們對數據性質的一些主要誤解,以及許多組織如何看待數據的性質,也會有所幫助。
誤解一:數據可訪問性是個技術問題 雖然技術問題往往頗為復雜,但只要找到合適的人才和資源,通常都是可以解決的。參與我們研究的人認為,數據可訪問性其實是一個涉及技術的管理問題。在設計AI解決方案之初就必須明確認識到,哪怕是完整、準確、及時的數據,如果無法實現快速方便的檢索,也沒有任何價值。數據存在于大量數據庫和電子表格中的某個位置,未必就意味著它是可以訪問的。有時,之所以出現數據可訪問性問題,是因為數據治理或安全政策限制了訪問。
業務人員和IT人員之間的優先權之爭已經存在了幾十年。如果再把AI團隊的優先級別也加到這對組合中,那么事情很快就會變成一團亂麻。如果僅僅將數據可訪問性視為技術問題,產品和服務或許就會卡在概念驗證階段,直到其他團隊來解決數據可訪問性的難題,最終導致進度延誤、成本增加。還有一種可能是,數據太復雜或檢索成本太高導致數據被遺漏,使產品和服務無法發揮全部潛力。在這兩種情況下,AI都無法兌現承諾,其原因不在于AI模型,而在于數據可訪問性。
誤解二:數據只是運營的副產品 當組織中分析和AI活動與運營分離,人們尚未意識到AI有潛力改進或革新整個組織的流程時,經常會出現這種誤解。于是,雖然運營系統(例如企業資源規劃和客戶關系管理)消費并生產數據,但沒有人了解這些數據對AI的潛在價值。如果分析團隊或AI團隊想要使用運營產生的數據,只能自己去檢索并加以利用,這與傳統數據倉庫團隊做了多年的工作并無太大區別。
在充斥著此類誤解的地方,組織可能坐擁大量數據,卻沒有被AI充分利用。造成這一現象的主要原因是,業務流程產生的數字痕跡往往散布在各個運營系統。如此一來,檢索必要的數據以重建流程全貌就成了難題。簡而言之,數據作為價值創造輸入項的戰略潛力未能得到充分開發。
誤解三:數據可訪問性問題可以等到AI生命周期的后期階段再解決 AI生命周期的五個階段旨在推動AI團隊以敏捷模式工作,尤其是在概念驗證階段和MVP階段。就其本身的性質而言,AI是一種不確定的努力,因此它很適合采用這種方法。團隊必須有能力用模型開展實驗,根據實驗結果來找出解決組織問題的最佳方案。但遺憾的是,這種方式也會促使團隊在前三個階段的大部分時間里,幾乎完全專注于AI工作中的科研部分。參與構思、藍圖和概念驗證階段的利益相關者,同處理數據可訪問性問題的利益相關者不是同一群人。數據工程師主要關心的是創建可供數據科學家構建和訓練模型的平面文件。他們認為,只要能生成此類文件,動用能力所及的一切手段(包括黑客、變通辦法和模擬數據)都是合理的。
若想讓AI賦能的系統為組織增值,就必須將其打包為可以同組織基礎設施集成的產品或服務。集成問題常常是在生命周期的后期階段解決(參見副欄“AI生命周期中的利益相關者和數據”)。于是,軟件工程師和IT人員就成了公布壞消息的人。如果公司不盡早解決數據可訪問性問題,最終往往就會付出始料未及的額外成本。此外,當其他利益相關者(通常是IT人員)的優先次序被意外打亂以解決數據可訪問性問題時,項目可能會停滯下來。在某些情況下,AI項目甚至可能無法在生產中實現。
誤解四:實驗室數據和實際運營數據是一樣的 公司構建AI基礎上的概念驗證已經越來越純熟。然而真正的考驗是,它們能否從概念驗證階段的受控實驗室環境順利過渡到散亂無序的生產環境。人們常常認為,一旦AI通過了MVP階段進入生產階段,就可以復制概念驗證階段的數據檢索流程,幾乎不用付出任何成本。但是別忘了,概念驗證階段的數據來自一些平面數據文件,而這些文件通常是基于歷史數據快照創建,專門用來構建和測試模型的。
在生產階段,AI必須連接到多個即時系統,這些系統會檢索AI工作所需的輸入項,有時以實時方式進行。需要提取的這些數據可能具有相同的特征,但其訪問和檢索方式千差萬別。例如,運營對數據量和速度的要求,或許與反復訓練模型的要求相差甚遠。實際上,我們研究的一些AI咨詢公司會刻意限定自己的業務范圍,僅提供概念驗證開發服務,從而完全避開生產中的數據問題。
如果組織認定實驗室數據和生產數據是一樣的,就會忽視數據可訪問性當中相當多的復雜性。這意味著AI項目或許能快速啟動,但需要付出大量額外的時間和精力才能在生產中運行。
數據可訪問性問題會影響AI在組織中的成功。為了解決這一問題,我們提出三條建議,以幫助組織更好地管理AI的數據可訪問性:讓利益相關者將數據可訪問性理解為業務問題,認識到組織數據對AI的價值,在AI的整個生命周期中始終考慮數據可訪問性。
宣傳數據可訪問性時,首先強調它是業務問題,其次才是技術問題。AI項目的所有利益相關者必須對數據可訪問性形成統一認知,將其視為數據質量的必要組成部分,不僅影響IT,還影響運營,因此在AI的整個生命周期內都要予以關注。利益相關者要將各自掌握的數據可訪問性專業知識集中起來,從而建立“數據可訪問性是業務問題”的共識。

改變我們對數據可訪問性的觀念可能需要一定時間,還要開展前所未有的對話和協作。在我們研究的一家AI咨詢公司中,數據可訪問性已成為員工與客戶之間早期高級別討論的一部分,并被納入AI生命周期的構思階段。在其他一些公司中,利益相關者之間會持續開展對話,從而確保AI團隊的需求與組織資源(如IT人員)協調一致,并長期保持這種協調性。僅僅在戰略層面上將數據可訪問性界定為一個重要業務問題或許是不夠的,組織必須為之付出持續的努力和關注。否則,數據可訪問性問題仍然只是技術問題,積壓在IT人員的待辦事項清單中等待解決——至于最終能否解決,就是個未知數了。
這也意味著組織需要讓AI團隊的成員明白,識別數據可訪問性問題并將其報告給管理層非常重要。從技術層面來解決數據可訪問性問題或許很簡單,但可能要經過漫長的審批流程,而且安全政策可能也會導致數據無法訪問。在這些情況下,技術手段是行不通的,唯一可行的解決方案就是認真地討論一下,看看能否適當放寬安全政策來支持AI團隊的工作,當然,前提是構思階段形成的業務用例能支持這一方案。
任何數據都可作為AI的潛在備選數據。數據可訪問性之重要,不僅僅是對當前的AI業務用例而言。組織面臨的許多問題,都會有各種不同的AI解決方案,這意味著任何數據都有可能成為AI項目的寶貴輸入項。改進整個組織的數據可訪問性,一個關鍵因素就是跳出“數據只是運營的副產品”這一思維框架。換言之,某些數據即使在執行特定流程的有效生命周期結束時,仍可作為AI的輸入項繼續創造價值。在我們研究的一個案例中,供暖、通風和空調系統多年來例行收集的運行日志,如今已成為創建預防性維護模型的輸入項。
在數據驅動的文化中,員工依靠數據來指導自己的決策。這種文化通常關注最終產品,也就是對所提取數據的使用,而不是將數據呈現給員工的流程。業務部門必須明白,他們輸出的數據可能會為AI提供輸入項。例如,傳統上,旅行社會根據客服人員的工作日志來監督他們的生產率,并確保其完成客服電話指標。但是,如果組織能獲取關于客服電話類型和持續時間的既往詳細數據,就可以將其用作AI的輸入項,從而根據員工的專業知識,對排班進行優化和個性化調整。從跨職能的角度認識到數據的雙重作用,明白它既是輸出項(在本案例中,指旅行社客服的通話終止時間),也是輸入項(指客服電話的持續時間,AI用它來優化排班),可能會影響組織對解決方案或供應商的選擇或者系統的配置。
我們研究的最成功的業務用例,都是在建立運營流程時,就考慮到其支持系統最終要為AI提供數據。在一個案例中,一家大型金融機構的AI主管告訴我們,流程再造和系統升級(例如遷移到基于云的服務)是將AI納入現有業務流程的重要條件。達成這一目標的關鍵要素,就是實行有效的治理機制,讓人和機器都能方便地檢索和訪問數據。
在AI項目啟動之初解決數據可訪問性問題。AI生命周期中的迭代式模型開發,并不排斥在AI項目早期考慮數據可訪問性,并引入合適的專業知識。在我們研究的一些案例中,這意味著在藍圖階段讓軟件工程師和IT人員參與進來,從而使嵌入AI的最終產品或服務的高級參數廣為人知,對數據可訪問性的擔憂也能相應地被提出來。更重要的是,這將確保組織在流程后期盡量減少意外的同時,也考慮到今后將AI集成到組織基礎設施中的問題。為此,我們建議管理者將兩項任務明確區分開來:一是獲取數據以構建AI,二是在生產中實現數據可訪問性。在受控實驗室環境中構建AI當然沒有問題,但這并不意味著可以忽視AI未來在生產中的應用。
這種方式的一個重要好處是,部分工作可以同步進行。例如,可以鼓勵數據工程師及早同IT人員展開討論,以制定數據路線圖。到AI生命周期的MVP階段,大部分數據工程管道都會做好接入生產基礎設施的準備。另一種可能的模式是與數據可訪問性、數據工程和各種迭代建模相關的交錯式任務,類似于在數據密集型項目中提出過的那一類任務。在這種模式下,各項活動可以同步推進,同時又容許一定程度的滯后,以便在必要時加以調整。即便在付出上述所有努力后,AI項目仍未突破概念驗證階段或MVP階段,但組織層面數據可訪問性的提高必定會在將來的AI項目中發揮作用。
數據是企業的一項關鍵資產,這種觀點已被企業領導者廣泛接受,同時,他們也普遍期望使用這些數據的AI系統能為企業帶來新的競爭優勢。但決定成敗的往往是實施中的細節。所有利益相關者對數據質量的維度缺乏全面了解,AI項目同運營脫節,自行其是,這些都可能會削弱AI項目的效果或使其徹底失敗。那些從AI中獲益最多的企業明白,為了讓AI走出研發階段,將其集成到運營當中,就不僅要看重數據作為輸出項的價值,還要看重數據作為輸入項的價值,并對數據可訪問性給予應有的重視。