何 輝
(福州大學空間中心,福建 福州 350000)
大數據時代對人類的數據駕馭能力提出了新的挑戰與機遇隨著網絡信息化時代的日益普遍,移動互聯、社交網絡、電子商務大大拓展了互聯網的疆界和應用領域。大數據(Big Data)是指那些超過傳統數據庫系統處理能力的數據。它的數據規模和轉輸速度要求很高,或者其結構不適合原本的數據庫系統。為了獲取大數據中的價值,我們必須選擇另一種方式來處理它。對于企業組織來講,大數據的價值體現在兩個方面:分析使用和二次開發。對大數據進行分析能揭示隱藏其中的信息。例如零售業中對門店銷售、地理和社會信息的分析能提升對客戶的理解。對大數據的二次開發則是那些成功的網絡公司的長項。當前,較為統一的認識是大數據有四個基本特征:數據規模大(Volume),數據種類多(Variety),數據要求處理速度快(Velocity),數據價值密度低(Value),即所謂的四V特性:
(1)數據規模大(Volume)。企業面臨著數據量的大規模增長。例如,IDC最近的報告預測稱,到2020年,全球數據量將擴大50倍。目前,大數據的規模尚是一個不斷變化的指標,單一數據集的規模范圍從幾十TB到數PB不等。簡而言之,存儲1PB數據將需要兩萬臺配備50GB硬盤的個人電腦。此外,各種意想不到的來源都能產生數據。
(2)數據種類多(Variety)。一個普遍觀點認為,人們使用互聯網搜索是形成數據多樣性的主要原因,這一看法部分正確。然而,數據多樣性的增加主要是由于新型多結構數據,以及包括網絡日志、社交媒體、互聯網搜索、手機通話記錄及傳感器網絡等數據類型造成。其中,部分傳感器安裝在火車、汽車和飛機上,每個傳感器都增加了數據的多樣性。
(3)處理速度快(Velocity)。高速描述的是數據被創建和移動的速度。在高速網絡時代,通過基于實現軟件性能優化的高速電腦處理器和服務器,創建實時數據流已成為流行趨勢。企業不僅需要了解如何快速創建數據,還必須知道如何快速處理、分析并返回給用戶,以滿足他們的實時需求。根據IMS Research關于數據創建速度的調查,據預測,到2020年全球將擁有220億部互聯網連接設備。
(4)數據價值密度低(Value)。大數據具有多層結構,這意味著大數據會呈現出多變的形式和類型。相較傳統的業務數據,大數據存在不規則和模糊不清的特性,造成很難甚至無法使用傳統的應用軟件進行分析。傳統業務數據隨時間演變已擁有標準的格式,能夠被標準的商務智能軟件識別。
目前,企業面臨的挑戰是處理并從各種形式呈現的復雜數據中挖掘價值大數據的關鍵技術。眾所周知,大數據已經不簡簡單單是數據大的事實了,而最重要的現實是對大數據進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息。那么越來越多的應用涉及到大數據,而這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的復雜性,所以大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基于如此的認識,大數據分析的方法理論有3個方面。
(1)可視化分析。大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對于大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀的呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
(2)數據挖掘算法。大數據分析的理論核心就是數據挖掘算法,各種數據挖掘的算法基于不同的數據類型和格式才能更加科學的呈現出數據本身具備的特點,也正是因為這些被全世界統計學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的算法才能更快速的處理大數據,如果一個算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
(3)數據質量和數據管理。大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。
雖然大數據目前在國內還處于初級階段,但是商業價值已經顯現出來。未來,數據可能成為最大的交易商品。但數據量大并不能算是大數據,大數據的特征是數據量大、數據種類多、非標準化數據的價值最大化。因此,大數據的價值是通過數據共享、交叉復用后獲取最大的數據價值。未來大數據將會如基礎設施一樣,有數據提供方、管理者、監管者,數據的交叉復用將大數據變成一大產業。大數據與學術、大數據與人類的活動,大數據的安全隱私、關鍵應用、系統處理和整個產業的影響。大數據整體態勢上,數據的規模將變得更大,數據資源化、數據的價值凸顯、數據私有化出現和聯盟共享。?大數據的發展會催生許多新興新職業,會產生數據分析師、數據科學家、數據工程師,有非常豐富的數據經驗的人才會成為稀缺人才。隨著大數據的發展,數據共享聯盟將逐漸壯大成為產業的核心一環。一個好的企業應該未雨綢繆,應該現在開始從五個方面著手,為企業的后期數據收集和分析做好準備。
(1)以企業的數據為目標。幾乎每個組織都可能有源源不斷的數據需要收集,無論是社交網絡還是車間傳感器設備,而且每個組織都有大量的數據需要處理,IT人員需要了解自己企業運營過程中都產生了什么數據,以自己的數據為基準,確定數據的范圍。
(2)以業務需求為準則。雖然每個企業都會產生大量數據,而且互不相同、多種多樣的,這就需要企業IT人員在現在開始收集確認什么數據是企業業務需要的,找到最能反映企業業務情況的數據。
(3)重新評估企業基礎設施。大數據需要在服務器和存儲設施中進行收集,并且大多數的企業信息管理體系結構將會發生重要大變化,IT經理則需要準備擴大他們的系統,以解決數據的不斷擴大,IT經理要了解公司現有IT設施的情況,以組建處理大數據的設施為導向,避免一些不必要的設備的購買。
(4)重視大數據技術。大數據是最近幾年才興起的詞語,而并不是所有的IT人員對大數據都非常了解,例如如今的Hadoop,MapReduce,NoSQL等技術都是近年剛興起的技術,企業IT人員要多關注這方面的技術和工具,以確保將來能夠面對大數據的時候做出正確的決定。
(5)培訓企業的員工。大多數企業最缺乏的是人才,而當大數據到臨的時候,企業將會缺少這方面的采集收集分析方面的人才,對于一些公司,特別是那種人比較少的公司,工作人員面臨大數據將是一種挑戰,企業要在平時的時候多對員工進行這方面的培訓,以確保在大數據到來時,員工也能適應相關的工作。