John Edwards著 ?Charles譯

預(yù)測性分析是一款功能強(qiáng)大的工具,但有一件事情它無法預(yù)測,那就是用戶在部署和使用該技術(shù)時(shí)遇到的問題。本文提供了一些幫助。
W. Edwards Deming是最早將統(tǒng)計(jì)技術(shù)和預(yù)測性分析應(yīng)用于業(yè)務(wù)流程的先驅(qū)人物,他很好地詮釋了這一點(diǎn)。他曾說過:“最大的問題就是人們一開始沒有意識到自己有問題?!?/p>
當(dāng)涉及到預(yù)測性分析時(shí),“最大的問題”在規(guī)劃和早期部署階段往往并不明顯,只有當(dāng)隨著時(shí)間的推移,技術(shù)未能達(dá)到預(yù)期的結(jié)果時(shí)才會(huì)成為問題,引起關(guān)注。
邊緣設(shè)備分析軟件開發(fā)商SWIM.AI的首席技術(shù)官Simon Crosby認(rèn)為,由于糟糕的規(guī)劃和不切實(shí)際的期望,導(dǎo)致出現(xiàn)了很多常見的預(yù)測性分析難題。他解釋道:“預(yù)測性分析不是一個(gè)神奇的魔杖,對著復(fù)雜的系統(tǒng)或者組織揮一揮就能夠自動(dòng)地進(jìn)行改進(jìn)。深入了解企業(yè)所擁有的深度分析,選擇一款工具集,可以讓你能夠快速形成假設(shè),動(dòng)態(tài)地將分析注入到數(shù)據(jù)流中,尋找相關(guān)性或者異常,也可以預(yù)測未來的表現(xiàn)。”
以下是成功的預(yù)測性分析采用者需要避免或者解決常見項(xiàng)目難題的7條建議。
1.建立并執(zhí)行正式的戰(zhàn)略
“即興發(fā)揮”絕對不是預(yù)測性分析的最佳方法,預(yù)測性分析可能是目前日常使用的最先進(jìn)、最復(fù)雜的企業(yè)技術(shù)。風(fēng)險(xiǎn)管理咨詢公司CBIZ的高級經(jīng)理Scott Moody建議:“建立預(yù)測性分析戰(zhàn)略的第一步是確定要完成的目標(biāo)和目的?!崩?,部署是否旨在增加銷售額?它能檢測到欺詐和/或識別風(fēng)險(xiǎn)區(qū)域嗎?他指出:“在制定戰(zhàn)略時(shí),始終牢記最終目標(biāo),將有助于把工作重點(diǎn)放在具體要實(shí)現(xiàn)的戰(zhàn)略目標(biāo)上。”
Culminate戰(zhàn)略集團(tuán)負(fù)責(zé)人Karrie Sullivan建議先進(jìn)行一次盤點(diǎn),將來自各個(gè)業(yè)務(wù)部門的相關(guān)數(shù)據(jù)源匯集起來,以確定企業(yè)預(yù)測性分析準(zhǔn)備工作的總體狀態(tài)。她說:“注意體量、歷史、格式,以及相鄰系統(tǒng)/進(jìn)程的重疊,等等?!?/p>
最后,在關(guān)鍵業(yè)務(wù)領(lǐng)域部署預(yù)測性分析之前,先進(jìn)行一些非正式測試,以了解該技術(shù)怎樣用于預(yù)測實(shí)際的業(yè)務(wù)狀況。在市場營銷或者客戶服務(wù)等往往會(huì)產(chǎn)生大量數(shù)據(jù)的領(lǐng)域開展實(shí)驗(yàn)。Sullivan解釋道:“這一步的目標(biāo)是讓每個(gè)人都能理解預(yù)測性分析能夠干什么?!?/p>
2.保證數(shù)據(jù)質(zhì)量
富有洞察力的預(yù)測性分析需要可靠的數(shù)據(jù)。不準(zhǔn)確的數(shù)據(jù)實(shí)際上導(dǎo)致了錯(cuò)誤或者誤導(dǎo)性的結(jié)果。Moody說:“確保數(shù)據(jù)質(zhì)量的第一步是當(dāng)數(shù)據(jù)輸入系統(tǒng)時(shí),有高效的自動(dòng)輸入控制功能。”
Moody說,當(dāng)數(shù)據(jù)質(zhì)量超出企業(yè)控制范圍時(shí),比如從外部提供者那里獲取數(shù)據(jù),評估數(shù)據(jù)質(zhì)量應(yīng)該是分析過程的第一步。他告誡說:“如果后期才發(fā)現(xiàn)數(shù)據(jù)的質(zhì)量問題,那么在驗(yàn)證和糾正數(shù)據(jù)質(zhì)量問題之前過度深入的分析會(huì)導(dǎo)致大量的返工?!?/p>
不過Crosby也認(rèn)為,如今的企業(yè)不必像過去幾年那樣對數(shù)據(jù)質(zhì)量過份挑剔了?!靶疫\(yùn)的是,目前不再要求數(shù)據(jù)非常清潔,甚至不需要完全理解。我們可以使用學(xué)習(xí)功能來自動(dòng)推斷‘灰色數(shù)據(jù)的情況。”Crosby指出,真正重要的是盡可能多地獲取原始數(shù)據(jù)。“所以,你需要檢測自己的系統(tǒng),收集大量的數(shù)據(jù)。”
3.管理數(shù)據(jù)量
雖然訪問大型數(shù)據(jù)池通常是一件好事,但將大量多余的數(shù)據(jù)輸入到預(yù)測性分析工具中可能會(huì)拖累關(guān)鍵的過程,而且存在著機(jī)密數(shù)據(jù)暴露給犯罪分子的風(fēng)險(xiǎn)。Moody解釋說:“獲取太多的數(shù)據(jù)可能會(huì)給我們帶來難題,不知道怎樣利用正確的數(shù)據(jù)進(jìn)行分析。把數(shù)據(jù)清理好將有助于確保在執(zhí)行預(yù)測性分析時(shí)使用正確的數(shù)據(jù)?!?/p>
Sullivan認(rèn)為,有效而且高效地管理大量數(shù)據(jù)的訣竅在于準(zhǔn)確地理解哪些數(shù)據(jù)集可能是有用的,哪些數(shù)據(jù)集可以被安全地忽略掉。一名熟練的數(shù)據(jù)科學(xué)家最有資格做出這樣的決定。她指出:“數(shù)據(jù)科學(xué)家有時(shí)能夠發(fā)現(xiàn)被大多數(shù)人當(dāng)成干擾的數(shù)據(jù)中的價(jià)值。”
4.尊重?cái)?shù)據(jù)隱私/所有權(quán)
面對越來越多的公眾和政府審查,企業(yè)現(xiàn)在面臨的保護(hù)數(shù)據(jù)隱私和所有權(quán)的難題比之前更為棘手。預(yù)測性分析采用者也不例外。一種推薦的做法是限制文件訪問和僅使用專門用于分析的數(shù)據(jù)。Moody說:“識別個(gè)人的屏蔽字段也是尊重?cái)?shù)據(jù)隱私的有效方式。還有很多不會(huì)去識別數(shù)據(jù)的工具,這減少了對數(shù)據(jù)隱私的擔(dān)憂?!?/p>
避免侵犯隱私最簡單的方法是僅在必要的最短時(shí)間內(nèi)保留數(shù)據(jù)。Crosby解釋道:“快速丟掉那些暫時(shí)性的數(shù)據(jù),但隨時(shí)能夠獲得高價(jià)值的豐富的深度分析結(jié)果,這就避免了原始數(shù)據(jù)隱私問題。”
5.盡可能提高可用性
當(dāng)從一開始就設(shè)計(jì)復(fù)雜模型以便生成易于理解的結(jié)果時(shí),預(yù)測性分析技術(shù)工作的效果會(huì)最好。然而,情況往往并非如此。在現(xiàn)實(shí)中,企業(yè)通常發(fā)現(xiàn)自己要處理的結(jié)果是如此復(fù)雜和難以理解,只有數(shù)據(jù)科學(xué)家才能準(zhǔn)確地解釋它們。而另一種極端情況是,對結(jié)果的解釋非常淺薄和簡單化,以至于對各方幾乎沒有什么價(jià)值。
為能夠最大限度地提高可用性,重要的是在構(gòu)建并部署用戶界面時(shí)要考慮最終用戶的需求。醫(yī)療保健預(yù)測性分析和機(jī)器學(xué)習(xí)公司LeaTaaS的創(chuàng)始人兼首席執(zhí)行官M(fèi)ohan Giridharadas說:“雖然底層模型可能非常復(fù)雜,但用戶界面可以非常簡單?!笨梢钥纯垂雀璧木W(wǎng)頁搜索或者蘋果的iPad來尋找靈感。Giridharadas觀察到,“這些產(chǎn)品的用戶體驗(yàn)幾乎對于任何人都是友好的,但卻隱藏了這些公司產(chǎn)品難以置信的軟件和硬件復(fù)雜度?!?/p>
Adobe分析云的集團(tuán)產(chǎn)品經(jīng)理Ben Gaines指出,預(yù)測性分析是一門迭代科學(xué)。一旦模型啟動(dòng),這一事實(shí)就變得顯而易見了。Gaines解釋說:“你將開始看到模型表現(xiàn)得有多好,能夠調(diào)整和重新校準(zhǔn)它,以獲得更準(zhǔn)確和可操作的深度分析結(jié)果。”例如,預(yù)測性模型可以幫助企業(yè)預(yù)測趨勢,包括設(shè)備間的預(yù)期流量,使用戶能夠預(yù)測每個(gè)頁面的效果,并根據(jù)預(yù)計(jì)收入來設(shè)定預(yù)算和目標(biāo)。他建議:“一旦知道了真正的效果,以及怎樣調(diào)整預(yù)算和目標(biāo),就可以由此精確地調(diào)整模型。重要的是要明白,預(yù)測性分析程序并不能保證完全正確地運(yùn)行——錯(cuò)誤是不可避免的,但它會(huì)幫助企業(yè)更好地理解數(shù)據(jù)和模型?!?/p>
6.控制成本
在線信貸公司Marlette基金的首席決策科學(xué)官Arnold Pravinata指出,在大多數(shù)分析預(yù)算中,數(shù)據(jù)獲取和工資支出是兩個(gè)最大的項(xiàng)目。為了幫助控制數(shù)據(jù)成本,Pravinata建議定期進(jìn)行檢查,看看是否有任何資金被浪費(fèi)在無用或者低效的數(shù)據(jù)上。他說:“對于人力資源成本而言,我們通常需要看好市場走向?!?/p>
隨著數(shù)據(jù)量的增長,存儲(chǔ)成本也會(huì)迅速增加。Sullivan認(rèn)為,保持成本最好的總體方法是集中數(shù)據(jù)并應(yīng)用穩(wěn)固的治理策略。她注意到,“我相信未來幾年我們會(huì)更廣泛深入地討論預(yù)測性分析維護(hù)的自動(dòng)化,但現(xiàn)在我們?nèi)匀幻媾R很多困難?!?/p>
7.選擇合適的工具
預(yù)測性分析市場正在迅速擴(kuò)張,這意味著新的采用者將面對一系列令人眼花繚亂的平臺和工具。很少有企業(yè)擁有能夠在這些領(lǐng)域做出明智選擇的人才。在企業(yè)內(nèi)部建立這樣的技能需要時(shí)間和金錢。因此,大多數(shù)企業(yè)在開發(fā)預(yù)測性分析計(jì)劃時(shí)會(huì)尋求某種形式的外部幫助。在這樣做的時(shí)候,重要的是要密切關(guān)注所推薦的產(chǎn)品和服務(wù),并考慮它們能否適應(yīng)企業(yè)的長期計(jì)劃。Crosby建議:“應(yīng)尋找那些不會(huì)將你限制在特定的分析算法或者學(xué)習(xí)堆棧上的解決方案。因?yàn)樗羞@些都是開源的,靈活的分析平臺應(yīng)該能夠隨著時(shí)間的推移動(dòng)態(tài)升級到更新的、更先進(jìn)的算法。”
原文網(wǎng)址
https://www.cio.com/article/3287937/predictive-analytics/7-tips-for-overcoming-predictive-analytics-challenges.html