李蕭瑋
摘要
本文以大數據時代為背景,對大數據處理系統與大數據分析技術的發展現狀進行了簡單的綜述,并梳理了大數據計算面臨的問題,通過翻閱大量文獻總結相應的解決方案。
【關鍵詞】大數據 大數據處理系統 技術分析
“大數據(Big Data)”一詞自2008年被提出至今,很多領域以及企業均在投入大量精力對它進行研究并有效利用。在這個信息爆炸的時代,數據已經滲透到各行各業,對于如何有效發掘并使用大數據已成為誰會各界關注的焦點。基于此,很有必要將大數據處理系統作為重點研究對象,并就當今計算系統面臨的挑戰提出相應的解決方案,為提升數據計算效率、增加處理系統有效性提供相應的參考與借鑒。
1 大數據處理系統
大數據處理系統根據大批數據分析適合的模式,制定相對應的策略后制定出科學的應對措施,以實現特定的業務目標。目前,靜態數據的批量處理、在線數據的實時處理和圖數據的綜合處理是人們對大數據處理的主要形式。不同的數據處理形式特征和代表性對應相當的數據處理系統。
1.1 批量數擔處理系統
批量數據處理系統比較適用于先儲存后計算,對于實時處理方面沒有過高要求,但需要較高的數據準確性和完整性。通過大量閱讀大量文章后可發現,數據量龐大、儲存時間長、處理時耗長和數據角度高等是批量數據處理系統的特征,該處理系統普遍適用于相對成熟的大型企業,且主要應用于社交網絡、電子商務、搜索引擎等領域。
2003年,Google公司研發了GFS文件系統,以及2004年研發了MapReduce變成模型,由于這兩款批量數據處理系統的特有魅力引起了各界的很大反響。2006年Nutch項目的Hadoop順應現代IT公司的一致需求實現了HDFS和MapReduce.Hadoop兩種典型的大數據批量處理架構,HDFS和由HDFS負責靜態數據的存儲,并通過MapReduce將計算邏輯分配到各數據節點進行數據計算和價值發現。
1.2 流式數據處理系統
2010年,Google公司針對批量數據處理系統的問題推出了Dremel,將數據處理方式向著實時性邁進了一步。Teitter推出的Storm系統就是典型的流式數據處理系統,該套系統消息傳遞于處理響應速度很快,對數據進行連續計算、查詢后將結果以流量的方式發送給用戶,可確保消息的完整性。另外,Linkedin推出的Kafka的消息隊列為許多流式數據處理系統提供了信息處理模塊。2013年,Linkedin基于此研發了Samza流式數據處理框架。高容錯率、高可靠性和可擴展性等特點使得Samza數據處理系統受到廣泛關注。
2 大數據分析技術
大數據分析技術就是對收集到的大數據進行儲存、分析及可視化操作的技術。大數據的分析以深度學習和知識計算為基礎,以可視化作為數據分析結果呈現的關鍵技術。
2.1 深度學習
深度學習利用層次化對的構架學習出對象在不同層次上的表達,已達到有效的表達和學習圖像、聲音和文本數據等媒體。2009年,微軟研究院的Dahl在語音方面使用DNN深度神經網絡,使得語音處理成為深度學習的第一領域。2012年,Hinton等人使用CNN卷積神經網絡將圖像拾取的錯誤率從26%講到了15%。2013年,Facebook人工智能實驗室的Taigman等人利用神經網絡在人臉識別的技術上取得了很好的效果。
2.2 知識計算
知識計算是國內外學術界研究的一個熱點,從大數據中抽取出有價值的知識,構建成可支持查詢、分析和計算知識庫。在國外存在許多支持知識計算的基礎是構建知識庫。如EVi公司的TureKnowledge知識搜索平臺,美國Data.gov,Wolfrair的知識計算平臺,Facebook推出的搜索服務Graph Search等。在國內,具有代表性的知識平臺有中國科學院的陸汝鈴院士提出的知件(knowware),上海交通大學構建的中文知識圖譜平臺zhishi.me,百度推出了中文知識圖譜搜索,搜狗推出的知立方平臺,復旦大學GDM實驗室推出的中文知識圖譜展示平臺等。
2.3 可視化
2005年,提出了一種可通過交互可視界面分析、決策數據的科學方法,將可視化和數據處理相結合為用戶提供大規模數據解決的方案。2011年,俄羅斯工程師Ruslan Inikeev將幾百個國家十幾萬的數據整合聯系起來,建立了互聯網宇宙。2004年,Vigas提出的歷史流圖(History Flow),利用可視化文檔編輯記錄廣大用戶對公開文檔的修改,使得很容易看出每個人對這篇文檔的貢獻。2007年,Kaser提出的標簽云(Tag Cloud),根據其熱門程度標識字體的大小和顏色,通過頻率高低來標簽標識不同對象,方便用戶按照熱門程度來查找信息。
3 大數據面臨的挑戰與應對之策
3.1 數據的安全與隱私帶來的挑戰
大數據應用的領域愈加廣泛,尤其在互聯網上的數據信息安全更值得注意。比如在網站中需輸入用戶密碼、身份證號、銀行卡號等用戶的個人信息,通過這些數據可以輕易挖掘出用戶的行為習慣和個人信息,如若運用不當遭到不法分子的竊取,將會帶來個人信息、財產等安全性問題。針對這一類問題,2006年,Dwork提出了一種差分隱私方法。2010年,Roy等提出了隱私保護系統Airavat.Lindell等提出了保護隱私的數據挖掘概念,防止數據處理過程中的隱私泄露。
3.2 計算復雜性帶來的挑戰
大數據具有結構多層次,存儲量巨大、速度快等特點,這些特點導致過去的機器在信息檢索及數據采集方面上不能夠有效地進行數據分析和計算。這就要求我們在進行大數據計算中,需對它的可行性、有效性進行評估,這是核心問題,也為大數據的研究工作帶來了挑戰。為了克服這種挑戰,需根據大數據的特性,以數據為中心對計算模式進行改進,去除傳統計算理念的糟粕,通過對大數據理論的深入研究建立起更為規范化的推送式的數據模式,利用大量數據建立起牢固的計算理論基礎。
4 結語
綜上所述可以看出,在這個信息爆炸的時代,各行各業都在跟數據打交道,大數據時代己然來臨,充分了解并認知大數據有著非常重要的意義。通過大量閱讀國內外文獻,本文對近幾年來國內外大數據的處理系統及技術進行了較為全面的總結,并針對存在于大數據研究中的隱私安全性、計算復雜性等挑戰做出了相應的解決方案。
參考文獻
[1]程學旗,靳小龍,王元卓等.大數據系統和分析技術綜述[J].軟件學報,2014,09:1889-1908.
[2]吳卉男.大數-M系統和分析技術綜述[J].信息記錄材料,2016,17(03):2-4.