王新穎
(湖北文理學院數學與計算機科學學院,湖北 襄陽 441053)
基于本體的網絡大數據信息處理
王新穎
(湖北文理學院數學與計算機科學學院,湖北 襄陽 441053)
針對大數據體量巨大、種類多樣、速度極快、價值稀疏的特點,提出了基于本體的網絡大數據信息處理架構。該架構通過歷史大數據對本體模型不斷豐富,在形成面向大數據主題知識庫的基礎上,對網絡大數據進行語義分析,實現價值服務。
大數據;第四范式;本體
隨著云計算、物聯網等技術的快速發展,數據洪流以不可阻擋之勢滾滾而來,我們已經進入大數據(Big Data)時代。數據的角色也不再僅僅是計算機處理的對象那么簡單,它已經演變成為一種基礎性資源,具有巨大的應用價值。目前,大數據已經引起學術界、工業界以及政府機構的高度重視,然而,如何利用好大數據這種基礎性資源,是一個大問題。對大數據而言,以前傳統的計算、數據處理等技術已經不再適用,我們有必要研究新的范式、技術來解決在大數據信息處理中遇到的挑戰。
2.1 數據量大
近年來,數據的規模急劇擴大,數據的計量單位已經從GB發展到了ZB。根據國際數據咨詢(IDC)公司預測,到2020年,全球將擁有35ZB的數據量。物聯網、社交網絡、科學研究、電子商務、移動設備、工業領域等都是網絡大數據的主要來源。在物聯網中,不計其數的傳感器節點時時刻刻采集數據,匯總到服務器等待分析處理。在社交網絡中,上億的用戶不斷發布自己的數據信息。在電子商務領域,用戶的交易數據信息可謂海量,截止2014年3月阿里巴巴數據量已超過100PB,這也使得阿里巴巴成為大數據資源的擁有者,在大數據領域的地位舉足輕重。在工業領域,以鋼鐵工業的軋制過程為例,光學傳感器對表面質量的檢測,每天一道軋線就產生大約1TB檢測數據。隨著工業4.0時代的到來,工業領域大數據的規模將會急劇增加。
2.2 種類多樣
網絡大數據不僅僅包括結構化數據,還包括半結構化和非結構化數據。隨著互聯網的快速發展,非結構化數據快速增長,據估計,到2020年,非結構化數據將占數據總量的80%,這也增大了網絡大數據處理的難度。
2.3 速度極快
大數據主要以流式數據快速增長,速度極快,具有很強的時效性。比如,Facebook每天分享的內容條目超過25億個,每天增加的數據量超過500TB。據阿里大數據平臺顯示,淘寶和天貓兩個子公司每天新增的數據量,就足以讓一個人連續不斷看上28年的電影。
2.4 價值稀疏
數據量在快速增長的同時,隱藏在大數據中的有價值的信息卻并沒有成比例增加。相比傳統的數據集,大數據語義稀疏[1],有價值的信息也更加稀疏,而且,有價值的信息和冗余的垃圾信息混淆在一起,真偽難辨,要從大數據中找出有價值的信息,猶如從一個稻草堆中找金針一樣困難。如何從價值稀疏的大數據中獲取大的價值,是目前迫切需要解決的問題,當然,面對數據量巨大、種類多樣、速度極快的大數據,有必要采用新的模式,新的處理技術。
大數據出現以前,在科學研究的歷史長河中,存在三種范式:科學實驗、模型歸納、模擬仿真。上述三種范式在科學研究中都起到了關鍵的作用,然而,它們在數據密集型的大數據面前卻顯得無能為力。在科學研究界,迫切需要一種新的范式來指導大數據的研究。2007年,已故的圖靈獎得主吉姆·格雷(Jim Gray)在他最后一次演講中描繪了關于數據密集型科研發現的“第四范式(Fourth Paradigm)”愿景[2],為科學研究者研究大數據指出了一條新路。紹洛伊(Szalay)和布萊克利(Blakeley)則描述了吉姆·格雷提出的以數據為中心發展的非正式法則,并在法則的指導下,實現了數據庫處理大規模數據集的案例[3],為后人處理大數據提供了借鑒。
由于早期的數據量比較小,可以方便地移動,因而傳統的數據分析策略往往把數據推向方法。然而,對于大數據而言,由于數據體量巨大,不可能在容忍的時間內移動,傳統的策略不再適用。結合大數據體量巨大的特點,把算法推向數據是一個可行的方法,基于該思想,本文提出了基于本體的網絡大數據信息處理架構,如圖1所示。

圖1 網絡大數據信息處理架構
4.1 本體模型的構建
面向大數據領域,領域問題專家根據自身的專業知識,基于RGPS需求元建模框架[4](角色(R)—目標(G)—過程(P)—服務(S)),設計頂層的本體模型,作為進一步擴展生成主題知識庫的基礎。
4.2 主題知識庫的構建
通過歷史大數據對頂層的本體模型進行細化和豐富,形成面向大數據主題的知識庫。采用的方法包括分類、聚類、聚合等。
(1)分類
分類的目的是構造一個分類模型,從而對大數據進行類別劃分。決策樹是一個重要的分類模型,采用樹形結構,它的構建過程也就是機器學習的過程,最終形成分類器,當然,在整個過程中要防止過擬合的情形。
(2)聚類
聚類的目的是進行分簇,使問題得到必要的簡化。從機器學習的角度來講,聚類就是找出隱含在大數據中的隱含模式,整個過程是一個無監督學習的過程。常見的劃分方法包括K—均值方法和K—中心點方法。
(3)聚合
聚合就是在分類、聚類之后,對本體模型的豐富過程,該過程本質上是一個迭代式的整合過程。本文借鑒文獻[5]的本體構造方法,不斷豐富,形成面向大數據主題的知識庫。
4.3 價值服務
根據得到的面向大數據主題的知識庫,我們可以對網絡大數據進行語義分析,實現價值服務。首先,我們可以感知現實的情況,了解現狀。比如,我們可以通過對網絡中的歷史大數據和在線流式大數據進行綜合分析,掌握現在的CPI (Consumer Price Index物價指數),作為政府實施貨幣政策的一個重要參考指標;也可以實現網絡輿情監控,掌握群眾思想動態,做出正確輿論引導。其次,通過對流式大數據進行時空分析,可以掌握某一數據的變化過程,預測未來的形勢走向,或導致一個事件發生的概率。比如,醫務研究者可以利用Twitter數據預測某一地區何時爆發某種疾病,從而提前向該地區發出預警,防患于未然。
本文介紹了網絡大數據的特點,分析了網絡大數據科學研究第四范式,提出了基于本體的網絡大數據信息處理架構。在今后的工作中,要建立基于網絡大數據信息處理架構的原型系統,實現價值服務,真正做到“感知現在,預測未來”。
[1]Barwick H,The“four Vs”of Big Data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].Http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data.
[2]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-169.
[3]潘教峰,張曉林.第四范式:數據密集型科學發現[M].北京:科學出版社,2012.
[4]Wang J,He K Q,Peng R.RGPS:a unified requirements metamodeling frame for networked software[C].Proceedings of the 3rd InternationalWorkshop on Advancesand ApplicationsofProblem Frames (IWAAPF'08)at 3oth International Conference on Software Engineering (ICSE'08).Leipzig,Germany,2008:29-35.
[5]Segev A,Sheng Q Z.Bootstrapping ontologies for web services[J].Services Computing,IEEE Transactions on,2012,5(1):33-44.
Information Processing for Network Big Data Based on Ontology
Wang Xinying
(School of Mathematics and Computer Science,Hubei University ofArts and Science,Xiangyang 441053,Hubei)
act】Aiming at the big amount of big data with species diversity,high speed and value sparse,this paper proposes information architecture for network big data based on ontology.It enriches the ontology model through the history big data to form subjectoriented knowledge base for big data.This information architecture realizes the value of service through semantic analysis.
big data;fourth paradigm;ontology
TP311
A
1008-6609(2015)03-0047-02
王新穎,男,河南平頂山人,碩士,講師,研究方向:Web服務和云計算。
湖北省高等學校青年教師深入企業行動計劃項目,項目編號:XD2014243。