黃星宇
(安徽理工大學計算機科學與工程學院,安徽 淮南232000)
“大數據”是時下最火熱的IT詞匯。要理解大數據這一概念,首先要從“大”字入手,“大”是指數據規模,大數據一般指在10TB規模以上的數據量。大數據同過去的海量數據有所區別,其基本特征可以用4個V來概括:Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實)。
有人把數據比作蘊藏能量的煤礦。煤礦當然是越大越好,但是大數據的關鍵并不在于“大”,而在于“有用”,價值含量、挖掘成本遠比數量重要。大數據不是簡簡單單大量數據的堆砌,大數據的重點是對大數據的分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。所以大數據的分析方法在大數據領域顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。
大數據的采集和感知技術的發展密不可分。以傳感器技術,指紋識別技術,RFID技術,坐標定位技術等為基礎的感知能力的提升同樣是物聯網發展的基石。全世界的工業設備、汽車、電表上安裝著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,從而產生海量的數據信息。很多與感知相關的技術讓我們耳目一新:牙齒傳感器可以實時監控口腔活動及飲食狀況,嬰兒穿戴設備可以利用大數據來更好的養育寶寶,3D筆記本攝像頭可以通過追蹤眼球讀懂用戶情緒等。
大數據分析的使用者不僅有大數據分析專家,還有普通用戶,但他們二者對大數據分析的基本要求是一致的:分析必須是可視化的。因為可視化分析能夠直觀的體現出大數據的特點,同時非常容易被用戶接受,就像看圖說話一樣簡單明了。
大數據分析的理論核心是數據挖掘算法,各種數據挖掘算法基于不同的數據類型和格式科學的呈現出數據本身的特點,也正是因為這些數據挖掘算法才能夠深入數據內部,挖掘出數據潛在的價值。另一方面也是因為有了這些數據挖掘算法的支持才能夠更快的處理大數據,如果一個算法要花好幾年才能得出一個結論,那么大數據的價值也就無從談起了。
大數據分析的應用領域之一就是預測性分析,從大數據中挖掘出特點,科學的建立模型,之后便可以通過模型代入新的數據,從而預測未來的趨勢。
大數據分析離不開數據質量和數據管理,高質量的數據配合高效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果既真實又有價值。
大數據之所以會和云計算聯系到一起,因為實時的大數據分析需要分布式處理框架來向成百上千臺電腦分配工作。云計算提供了基礎的架構平臺,而大數據運行在這個平臺之上。云計算在虛擬化技術,分布式處理技術,海量數據的存儲和管理技術,NoSQL、實時流數據處理、智能分析技術等方面為大數據提供了保障??梢哉f,沒有大數據的信息積淀,云計算的計算能力再強大,也難找到用武之地;而沒有云計算的處理能力,大數據的信息積淀再豐富,也終究只是紙上談兵。
企業家做決策需要數據來支撐。大數據是巨大的杠桿,可以改變公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠用戶、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓用戶群并創造市場。隨著數據逐漸成為企業的一種資產,數據產業會向傳統企業的供應鏈模式發展,最終形成“數據供應鏈”。
需要大數據服務的企業包括:
1)對大量消費者提供產品或服務的企業
2)做小而美模式的中長尾企業
3)在互聯網壓力下必須轉型的傳統企業
大數據處理在醫療行業的應用包含諸多方向,如臨床操作的比較效果研究、臨床決策支持系統、醫療數據透明度、遠程病人監控、對病人檔案的先進分析;定價環節的自動化系統、基于衛生經濟學和療效研究;研發階段的預測建模、提高臨床試驗設計、臨床實驗數據分析、個性化治療、疾病模式的分析;新商業模式的匯總患者臨床記錄和醫療保險數據集、網絡平臺和社區。
有大數據參與的比較效果研究可以提高醫務人員的效率、降低病人的看病成本和身體損害。這主要是在全面分析病人特征數據和療效數據基礎上,對比多種干預措施的有效性,找到針對特定病人的最佳治療途徑。
有大數據參與的遠程病人監控可以減少病人住院時間,實現醫療資源的最優化配置。使用遠程病人監護系統實現預防,不僅可以降低病人出現意外的風險,同時也節約醫療資源,同時創造了社會和經濟價值。
大數據分析師認為,每棟建筑物擁有獨特的屬性,通過分析就能得知一些建筑物其實本身就屬“火”。
判斷一棟建筑物是否屬“火”主要遵循不同的因素:例如貧窮,低收入家庭的房子往往更容易發生火災,而且低收入人群居住密度較高,火災的危害性更大。另外,建筑物的年齡也需要關注。老房子問題更多,因為它們很容易有各種由電線線路引起火災的潛在問題,而且老房子消防設施落后,發生火災后才發現附近根本沒有足夠的水龍頭,危險指數是普通建筑物的兩倍。
諸如此類,大數據分析師將影響房屋起火的因素分為60個。除去危害性較小的小型獨立屋,通過特定算法,為需要檢驗的建筑物單獨進行打分,得出危險指數高低。而整個城市的消防數據,也因系統的檢測和防范得到更新。這樣當消防員每周出勤檢驗時,系統都會列出建筑物的詳細資料和危險指數,決定哪些是優先“照顧”的對象。
如何找出證據顯示因為有了這些大數據分析和防范,從而避免了火災發生?最好的答案還是數據本身,因為最后我們能看到火災數量的下降。
1)大數據可以幫助政府實現市場經濟調控、公共衛生安全防范、災難預警
2)大數據可以幫助城市預防犯罪,實現智慧交通,提升緊急應急能力
3)大數據可以幫助航空公司節省運營成本,幫助電信企業實現售后服務質量提升,幫助保險企業識別騙保行為,幫助電力公司有效識別預警即將發生故障的設備
4)大數據可以幫助電商公司向用戶推薦商品和服務,幫助旅游網站為旅游者提供心儀的旅游路線,幫助二手市場的買賣雙方找到最合適的交易目標,幫助用戶找到最合適的商品購買時期、商家和最優惠價格
5)大數據可以幫助娛樂行業預測歌手,歌曲,電影,電視劇的受歡迎程度
6)大數據可以幫助社交網站提供更準確的好友推薦,為用戶提供更精準的企業招聘信息,向用戶推薦可能喜歡的游戲及適合購買的商品
[1][英]維克托·邁爾-舍恩伯格.大數據時代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012.
[2]余建斌,趙展慧.大數據崛起[J].人民日報,2013-2-22(20).
[3][法]喬治·納漢.“大數據”時代的計算機信息處理技術[J].趙春雷,編,譯.世界科學,2012(2).