Bob Violino
在IT界,炒作越大誤區就越多,數據分析也不例外。數據分析是當下IT界最熱門的領域之一,它可以帶來顯著的業務效益,但是誤區會妨礙企業順利和及時地交付可能使業務用戶、最終使客戶受益的分析功能。企業在制定或夯實分析策略時,應當提防這12個誤區。
這年頭,實施的每一項技術似乎都要過財務穩健性這道關卡。IT和業務經理們提議啟動項目或部署新工具時,首先面臨的問題之一是“這要花多少錢?”

一些人認為,數據分析本質上很燒錢,因此僅限于預算龐大或內部資源豐富的大企業。不過移動和在線房地產服務提供商Trulia的工程副總裁Deep Varma表示,并非所有的數據分析工作都需要大量投入。
Varma說:“現在市場上有眾多的開源及其他工具可以幫助你開始展示數據分析具有的價值。你要深入了解內部數據存儲和想解決什么樣的問題。有了云計算,試著用分析技術解決業務問題也變得很容易。”
安永咨詢公司的全球分析主管Beatriz SanzSaiz補充道,現代分析技術“基于云系統和大數據架構,它們本身比傳統的數據倉庫系統便宜得多。”
Saiz說:“此外,數據和分析技術通常用來獲得三個結果:提高流程效率、增加收入和積極主動的風險管理。所以總的來說,運用數據和分析技術可以為任何公司帶來大幅節省成本的好處。”
對許多人來說,大數據和分析這兩個概念密不可分。這種想法指的是,企業需要在執行分析之前收集大量數據,以便獲得業務洞察力和改進決策制定等。
當然,大數據分析的好處已得到了公認,擁有資源的公司確實可以利用其存儲的數據作為分析工作的一部分,從而獲得顯著的競爭優勢。但大數據對分析來說必不可少的想法是錯誤的。
人力資源公司Allegis Global Solutions的商業智能執行董事Tim Johnson說:“人們常常努力采集盡可能多的數據;他們一聽到‘大數據就來勁。一個誤區是以為數據越多越好,機器會分門別類。”
然而分析員需要的是具體的數據,而不是更多的數據。Johnson說:“95%的用戶在尋找與其工作相關的信息,支持決策和提高業績。”企業切忌一味獲取更多的數據,而是要明白業務用戶不光關注需要訪問哪些數據,還關注如何展示數據。
Johnson說:“讓員工可以訪問每一個信息(這些信息采用多種格式)會讓人無所適從,實際上阻礙采用。而是應搞清楚對他們來說重要的信息,以及如何以最簡單的格式向他們展示這些信息。”
自動化系統執行的方式不應該有偏差。但技術是人類開發的,所以消除所有偏差幾乎不可能。一些人認為,分析技術和機器學習可以消除人為偏差。
全球技術咨詢公司ThoughtWorks的技術負責人Mike Mason說:“遺憾的是,這根本就不對。算法和分析使用‘訓練數據加以調整,會重現該訓練數據具有的任何特征。”
Mason表示,在一些情況下,這會給分析結果帶來無害的偏差;在其他情況下,會帶來較嚴重的偏差。他說:“就因為‘算法這么說并不意味著答案是合理的或有用的。”
實際上,有了足夠的數據,“有時候算法并不重要。”在Mason提到的IEEE上的一篇文章《數據的不合理有效性》中,谷歌的工程師認為,簡單的統計模型加上超海量數據比含有眾多特征和摘要的“更智能化”模型取得了更好的結果。
Mason說:“在一些情況下,僅僅處理數量更多的數據就能取得最好的結果。”
Johnson表示,人們天生就高度信任統計模型和算法;隨著許多企業紛紛搞分析項目,它們日益依賴復雜的模型來支持決策。
“由于人們不了解模型、算法及其他先進的數據科學實踐,所以信任它們。”Johnson表示,用戶不覺得自己具備可以挑戰模型的知識,于是他們只好信任構建模型的“聰明人”。
“在過去五六十年,我們聽說過人工智能會在20年內取得主導地位,我們會繼續聽到人們這么說。在我們能公然信任機器學習和結果之前,還有好多事情要做。在此之前,我們要讓構建算法和模型的人解釋是如何得出答案的。不是我們不能依賴結果,而是需要透明度,以便我們能夠信任和驗證分析。”
近年來數據科學備受關注,有時讓人犯疑:它到底是什么樣的學科。數據科學基本上是利用算法找出數據中的模式。
數據存儲公司Micron的CIO Trevor Schulze說:“數據科學似乎很神秘,因為這些算法能夠分析人腦理解能力之外的更多變量和更龐大數據集。”
“近年來隨著計算能力和內存增大,我們現在能夠迅速解決僅僅10年前用任何技術都解決不了的問題。數據科學是幾十年來廣為人知的統計推論技術的自然演變的產物。一旦你了解數學,數據科學毫無神秘可言。”
數據科學家是如今所有技術專業人員中最緊俏的。如果企業調整一下工作重心,也許用較少的數據科學家就可以。
Mason說:“許多數據科學家把時間花在了非增值型活動上,比如尋找數據集、把數據放到可以處理它們的地方以及轉換和清理數據。鑒于招聘數據科學家很難,你不希望他們處理那些低價值的任務。”
“優步(Uber)的Michelangelo平臺讓數據科學家可以專注于特征工程、提取和分析,而不是將數據倒來倒去,因而大大提高了生產力。”
如今,無論是趕緊將產品或服務推向市場,還是近乎實時地響應客戶咨詢,迅速完成工作是許多公司在考慮的一大競爭優勢。分析似乎要花很長時間來執行,這有悖于實現速度和靈活性的目標。
Saiz說:“這種類型的項目耗時太長,相當復雜,這個誤區依然存在。到頭來,人才是關鍵。借助適當的技能組合、運用敏捷方法,可以在幾天或幾周后、而不是幾個月后解決重大問題。”
咨詢公司ISG的IT采購和數字咨詢服務主管James Burke表示,由于現在可供使用的技術越來越多,選擇合適的工具組合來部署和集成以便獲得分析團隊預期的結果并非易事。
不過Burke表示,真正困難的部分是“把組織結構和運營模式結合起來,進而把人員、流程和技術等角度所有必需的東西綜合起來。另外,你如何在現有的組織內部或‘附近搞這項工作對企業組織來說是最難的。”
別以為分析工具會完成所有工作也很重要。咨詢公司West Monroe的技術業務高級主管Greg Layok說:“光靠技術根本解決不了任何業務問題。許多企業急著構建數據湖,到頭來深陷泥潭或誰也搞不明白的信息困境。”
Layok表示,技術解決不了分析問題。他說:“先找出業務問題,然后問‘我需要哪些數據來解決該問題?這將幫助你找出貴企業存在的數據缺口。”
咨詢和數據收集公司Delvinia的總裁兼首席創新官Steven Mast表示,在一些企業,數據分析作為一個獨立部門來運作;而在另一些企業,深深地融入到跨職能團隊中。
Mast說:“然而,由于數據在所有業務領域大量涌現,加上變化速度快,部門模式不管用了。隨著企業變得更以客戶為中心,數據驅動的分析專家應該是業務部門的核心,而不是作為你尋求支持的部門來運作。”
如今企業面臨的許多復雜問題都在業務部門內部,而解決這些問題的許多方案都隱藏在數據中。“數據科學家和專家與這些業務部門密切合作,利用龐大數據集和人工智能,將是打造下一代產品、服務和客戶體驗的關鍵。”
分析團隊有眾多受過良好教育的人雖好,但不是成功的必然要求。
Saiz說:“許多公司往往認為,要是沒有博士成員,就無法開展最佳的分析工作。現代分析需要結合一系列技能,需要精通新興技術和開源軟件的人員。擁有不同的技能很重要,包括大數據架構師、數據工程師、數據科學家、數據可視化專家等。”
歷史上新技術的出現顛覆了許多工作和行業,于是有人擔心人工智能將不需要人們執行某些任務。
Schulze說:“人工智能解決方案在解決某些類別的問題方面比人類好得多。“人工智能比人類讀得更快、記得更多,計算復雜的數學關系更準確。然而面對新的情形,人工智能卻無能為力,而這正是人類擅長的地方。”
當然,某些工作已經因人工智能的崛起而消失或式微,但其他工作會隨之而來。他說:“不過,我們人類理解和應對完全無法預料的情形的能力不會被任何目前所知的人工智能技術取代。在可預見的未來,人工智能方面最有效的做法是,用人工智能系統增強人類能力,這類人工智能系統在算法勝過人類的領域執行一些‘繁重任務。雖然許多工作會因人工智能而變化,但人仍將是這個商業生態系統的重要組成部分。”