◆ 叔 平/ 文
質量時評
“多算勝,少算不勝”
——從百度發布大數據引擎說起
◆ 叔 平/ 文
4月24日,“百度大數據引擎”發布,引發關注。
“大數據引擎”指的是對大規模的數據進行收集、存儲、計算、挖掘和管理的一套系統。包括“開放云、數據工廠、百度大腦”三層核心平臺。
其中,“開放云”相當于存儲記憶的“腦容量”,解決的是數據存儲和計算瓶頸。“數據工廠”相當于人腦中的記憶關聯過程,是用百度提供的“大數據挖掘機”把大數據關聯起來,并從中挖掘出價值,TB級甚至更大的數據的查詢和掃描工作,是其生產任務。“百度大腦”,是做決策的能力,如同人腦,不過目前的智慧還只相當于兩到三歲的孩子。盡管如此,但這可能是世界上最復雜的可以模擬人腦思維的系統。再過十年二十年,百度大腦很有可能比人腦還要聰明。
值得關注的是,“百度大數據引擎”采取邀請和免費模式,把一整套核心能力通過平臺化、接口化的方式對外開放。政府、NGO、制造、醫療、金融、零售、娛樂、教育等傳統領域,將率先與之合作。擁有海量數據的傳統企業,可以利用“百度大數據引擎”,在線使用其提供的種種技術便利,一舉進入大數據、云計算、平臺經濟等移動互聯網技術觸發的新一輪工業革命。
隨著信息化發展進入移動互聯網和大數據時代,企業管理、產品服務設計、乃至商業模式,不僅改造、優化、甚至顛覆。企業競爭力將極大增強,生產效率將不斷提升。正所謂“創新驅動、轉型發展”,是也。
事實上,最早提出“大數據時代到來”的是麥肯錫公司。2011年6月,麥肯錫全球研究院發布了題為《大數據:下一個創新、競爭和生產力的前沿》研究報告。該報告指出:大數據時代已經到來,數據正成為與物質資產和人力資本相提并論的重要生產要素,大數據的使用將成為未來提高競爭力的關鍵要素。
開大數據研究著作先河的《大數據時代》作者維克托·邁爾·舍恩伯格,提出了“大數據時代最大的轉變就是,放棄對因果關系的渴求,取而代之關注相關關系”的觀點。該書指出,大數據的核心就是預測。這正是大數據應用的最迷人之處。
“大數據”的重要性,可以從聯合國“數據脈動”計劃、美國“大數據”戰略、英國“數據權”運動、日本“面向2020年的ICT綜合戰略”、韓國“大數據中心戰略”的提出和實施中窺見。
2012年3月29日奧巴馬政府發布的《大數據研究和發展計劃》明確,要從國家戰略層面收集龐大而復雜的數字資料,并從中獲得知識和洞見,以提升能力。奧巴馬團隊更是身體力行,將大數據分析運用到競選,通過對近兩年搜集、存儲的海量數據進行分析挖掘,尋找和鎖定潛在的己方選民,運用數字化策略定位拉攏中間派選民及籌集選舉資金。在數據挖掘支持下的決策,為奧巴馬的連任立下了汗馬功勞。
“大數據是與自然資源、人力資源一樣重要的戰略資源”,這一點正在全球形成共識。大數據猶如亟待挖掘的金礦,挖掘金子的應用越來越多。本刊上期“質量譯叢”《掌握大數據的組織將超越對手》一文中,便提到了20種應用。包括:抵押價值評估,車輛故障預測,自動識別促銷活動商品,非醫療檢測健康風險識別,診斷輔助,顧客維系,目標營銷,預測廣告定位,電影與圖書推薦,雇員留任,引導針對性教學,妊娠預測,犯罪預測,網絡入侵檢測,垃圾郵件過濾,開放式問題回答,博客內容焦慮檢測等等。
這20種應用,都已經有了經典故事。如“自動識別促銷活動商品”,故事是:一位收到廣告的父親很憤怒地對商場說:“我女兒還在高中,你們現在天天給她寄嬰兒尿布、奶粉的廣告,什么意思?”商場說:“對不起,我們搞錯了!”過了一個星期,這個老爸又回來,說:“對不起,我搞錯了,我女兒已經向我坦白了,她真的懷孕了。”
尿布和啤酒相關的經典故事,也膾炙人口。沃爾瑪通過挖掘顧客消費數據發現,尿布、啤酒,兩者關聯。原來,當家里有小孩后,買尿布的任務多半由新爸爸去完成。新爸爸在買完尿布時,往往會順便買一瓶啤酒犒勞自己。看似“風馬牛不相及”的兩者,不僅相關并存在因果關系。后來沃爾瑪就把啤酒和尿布放在一塊兒,啤酒的銷售量一下子就增加了。
當然,“阿里小微金融”這個顛覆了傳統銀行做法的大數據應用經典故事,最為震撼。阿里金融發放微貸,其實是利用了客戶的兩類數據,一是網上客戶信用數據,二是客戶的行為數據。據此,阿里金融建立起了一個網絡數據模型和一套信用體系。這個網絡模型和信用體系,會給每一個商鋪,每一個店家做信用等級的評分。這個評分,就是阿里金融發放微貸的依據,從500元錢到100萬元不等。從而拋棄了銀行貸款必須抵押、必須擔保的傳統做法。阿里“平臺+金融+數據銀行”的做法,也讓傳統銀行深受啟發,開始重視大數據,重視線上渠道。
于是,你用大數據,我也用大數據,一場以大數據為重要生產要素驅動的革命,即將出現。正如百度CEO李彥宏表示的:“技術創新是一個從量變到質變的過程。并行計算能力不斷提升和云存儲等技術產品成本的不斷降低,使大數據真正走到了技術變革的臨界點。百度開放自己的大數據核心能力,將更好地幫助傳統行業挖掘數據價值,加快傳統行業轉型升級,進而發揮出對整體社會經濟的革命性影響。”
中國的人口和經濟規模決定了中國大數據規模為全球最大,同時也意味著中國大數據的分析方法、解決方案將適用于其他國家。這將為“中國制造”向“中國創造”轉變提供難得的機遇。為此,上海已經率先向社會開放了政府數據資源,上海市經委正在研究籌備大數據局,為中國企業和社會更好地應用大數據創造條件。
顯然,百度大數據引擎的發布,以及上海率先開放政府數據資源,上海市經委研究籌備大數據局等等跡象,是大數據應用走到了技術變革前夜的標志。企業要善加利用,極早將傳統企業轉型為“大數據說話”的智慧企業,提升大數據時代的企業競爭力。在這方面,企業一方面可以與大數據專業公司合作;另一方面本身也須做好幾件事。
首先,要從小數據思維轉變為大數據思維。
1931年,美國安全工程師海因里希通過分析55萬起工傷事故的發生概率,提出了著名的海因里希“事故金字塔”理論,論證了加強日常安全管理、細節管理對消除不安全行為和不安全狀態的重大作用。
在今天看來,55萬起工傷事故的數據,就是個小數據。因為全世界互聯網流量累計達到1EB所需要的時間,2001年需要一年,2004年需要一個月,而現在只需要一天。大數據時代,沒有最大,只有更大。量變會引起質變,于是大數據時代就出現了不可思議的事情:似乎不需要邏輯思考,大數據會直接導出答案,而且更準確。
因此,今天我們可以放寬對概率精度的嚴苛要求,也不要過分追求相互關聯中的因果關系,不如“讓大數據說話”。但我們也須明白,大數據可以驅動精確的預測,但不能代替判斷,也不能代替理論,畢竟,我們要“知其然”,也要“知其所以然”。
其次,建立以大數據為基礎的客戶為中心的經營管理模式。
我們一直在強調,要建立以客戶為中心的經營管理模式。今天看來,沒有線上、線下全方位的客戶大數據,就不可能建立真正的以客戶為中心的經營管理模式。只有從傳統的業務數據拓展到網絡數據,把網絡數據與客戶數據、業務數據結合起來,才有可能真正建立起以客戶為中心的管理模式。只有重視客戶體驗,把線上線下客戶行為的各種數據綜合聯系起來,再把這些聯系還原成一個個活生生的客戶體驗偏好,才能引導我們“精準營銷”,這樣的經營管理模式,才會對客戶提供更好的服務,才會有更高的投資效率,才會有更強的競爭力。
第三,要以高度的社會責任感處理大數據資源。
大數據的挖掘,最大的挑戰莫過于破除復雜性,所謂的“數據除塵”,以找出數據間的關聯。就是說,要在大海里撈“針”,發現規律,這才是一件最重要的事情。此外,數據是流動的,海量的數據每時每刻在增長,如飛機引擎般每時每刻在流出數據,我們需要所謂的流計算,這又是一門專業的挑戰。
不管如何,企業要把基于大數據的質量管理過程建立起來,包括建立PDCA循環互動的質量數據池,配備既懂得數據分析技術,又諳熟企業各項業務,還善于右腦思考的新型復合型人才。
大數據時代,千萬不能忘記的是“禍兮福所倚,福兮禍所伏”這句老話。因為海量的數據有四宗罪:它的質量可能很差;它可能不客觀;它可能存在分析錯誤或誤導性;更糟糕的是,數據可能根本達不到量化它的目的。
噪音大、波動大的大數據時代,更令人擔憂的是它尚未建立起來的行為規范。“退潮時,可以發現誰在裸泳”,這是在過去。現在,“不用退潮,就可以看見誰在裸泳”了。放肆地公開數據信息或刻意地壟斷數據信息,都有著不可推卸的責任。
“多算勝,少算不勝”。《孫子兵法》如此說。這種實事求是的大數據精確管理體系,是未來中國發展實現有質量增長所不可或缺的基礎條件。我們相信,大數據時代,無論挑戰有多么大,中國的機遇一定會更大。