張前進
面向泛在網絡的知識融合模型設計
張前進
(安徽國防科技職業學院信息工程系,安徽六安237011)
通過闡述泛在網絡環境大數據的特征,分析了知識融合的概念,探討了本體技術、語義網、數據挖掘等知識融合的相關技術.設計了由數據獲取與知識表示、元知識構建、知識融合處理、衍生知識處理、知識服務等模塊組成的知識融合模型,為知識融合在大數據環境下的智能應用研究與實踐提供參考.
泛在網絡;知識融合;元知識
泛在網絡建立在傳統傳感網之上,是無所不包、無所不在、無所不能的網絡[1].目前的研究熱點物聯網是泛在網絡的物聯階段.泛在網絡中包含了“人、機、物”三元世界在網絡空間中相互交互、相互融合產生并通過下一代網絡(Next Generation Network,NGN)進行傳輸的大數據.美國EMC(易安信)公司,在2014年發布的第7份數字宇宙報告中指出,2013年全球數據總量達到了4.4 ZB,2020年將達到44 ZB,7年間數據增長10倍,并且在下一個10年數據以每年40%的速率增長[2].泛在網絡產生的大數據由“物”產生的結構化原始數據、人根據事物感知產生的非結構化數據、機器通過一定規則組織起來的半結構化數據組成.這些海量數據并不是靜止不變的,而是以數據流的形式動態產生并按網絡層次進行傳遞,數據中蘊含著豐富的知識資源.文獻[2]中指出:2013年全球數據經過標記和分析有22%是有用的,預計到2020年這一比例將達到37%.另一方面,知識自身呈現出異質性、多元性和碎片化等特點,知識間缺少必要的關聯性[3].將泛在網絡中蘊含的海量的、碎片化、缺少關聯的有用數據,轉變為統一的知識庫為用戶提供服務是當前智慧制造、智慧城市建設中的研究熱點.筆者從知識融合的概念出發,設計了一個面向泛在網絡的知識融合模型.
1.1知識融合概念
知識融合屬于邊緣學科,是知識科學與信息融合的交叉學科[4].知識融合的概念目前還沒有統一的定義,現在對于知識融合主流的認知與定義主要分為兩類:第一類以基于KRAFT項目研究成果為代表,強調領域內為解決特定問題的知識庫建設,即從分布式異構數據源中搜索和抽取相關知識,并轉換為統一知識模式,構成統一知識庫[5];第二類則強調知識融合的服務屬性,認為在對分布式異構數據源進行抽取、轉換、清洗、集成的過程即為新知識對象產生的過程,同時提供對知識對象的管理服務[6].
知識是建立在人們認知的基礎上對數據的再加工,知識相對原始數據更加便于理解,是建立在信息學基礎之上的,知識融合的過程也是信息運動的過程.知識通過網絡傳遞的過程中,每一層在新的認知規則的驅動下對上一層知識進行融合并產生新的知識,其有用信息數量呈金字塔式的遞減(見圖1).筆者從服務的角度出發,認為知識融合是從分布式異構數據源中通過清洗、匹配、搜索、抽取、集成相關知識,轉換成統一知識庫,然后利用數據挖掘技術獲取隱含的有用知識,同時通過優化知識結構和知識消費產生新知識,并提供知識管理服務.
1.2知識融合相關技術
知識融合的概念最初來自于數據融合,筆者設計的面向泛在網絡的知識融合框架涉及到的相關技術主要有:本體技術、語義網、數據挖掘等.
1.2.1本體技術
本體的概念最初源自哲學存在論,是對客觀世界客觀存在的系統性描述[7].Neches認為:“本體定義了組成主題領域的詞匯表的基本術語及其關系,以及結合這些術語和關系來定義詞匯表外延的規則.”本體概念和技術被引入到特定領域后,用于描述領域知識間的關系,通過本體的語義描述有助于發現蘊含的有用知識.領域知識本體是對領域知識的抽象,其概念明確,通過本體的語義描述能力展現類和屬性,還可以描述本體間錯綜復雜的關系.
1.2.2語義網
語義網是Web 3.0時代的顯著特征之一,也是對未來智能網絡的設想.本體在Web上的應用導致了語義Web的誕生,目的是解決Web上信息共享時的語義問題[8].語義網的核心是:通過為互聯網上的文檔添加能夠被計算機理解的語義“元數據”,將文檔數據進行碎片化處理,最終使得互聯網變為一個大的關系型“數據庫”,人與計算機的信息交流與檢索變得更加有效率和價值.語義網的目的與知識融合不謀而合,都是解決基于異構數據源的信息共享問題.
1.2.3數據挖掘
數據挖掘是基于數據庫理論、機器學習、人工智能的交叉學科,又稱為數據庫中的知識發現.數據挖掘是從海量數據中發現蘊含的,先前未知的有用信息的過程,是一種決策支持過程.從數據融合的角度看,數據挖掘也是基于關系型數據庫對海量的企業數據進行自動化的分析、歸納、融合推理的過程.知識融合是對海量異構數據源進行格式統一,然后為用戶提供有用知識的服務.有用知識的發現過程,即為數據挖掘過程.數據挖掘技術在知識融合中的應用可以更好的為用戶提供個性化服務.特別是當前以個性化服務為顯著特征的智慧城市、智慧制造等研究熱點中的應用.

圖1知識層次結構
泛在網絡中除了有海量傳感器不斷地采集的結構化數據,還有Web和人產生的半結構化和非結構化數據,這些數據具有數據量大、異構、數據更新更快的特征.而這些大數據需要經過存儲、處理、查詢和分析后才能充分用于各類應用[9].大數據面臨存儲成本高昂、挖掘有用信息困難等諸多挑戰.筆者基于云服務、數據挖掘的角度對泛在網絡環境下的知識融合模型進行了設計.
2.1面向泛在網絡的知識融合模型
定義一:基礎知識是通過對客觀存在的事物產生的數據進行加工后產生的能夠為判斷、決策和行動提供依據的一組信息.
定義二:衍生知識是在基礎知識的基礎上引入知識約束而生成的新的知識集合.
面向泛在網絡的知識融合模型按照“數據產生-知識表示與存儲-知識融合處理-衍生知識處理-知識服務-知識表示與存儲”知識演變過程的思路設計.由數據獲取與表示模塊、元知識構建模塊、融合處理模塊、衍生知識處理模塊、知識服務模塊等5個模塊組成(見圖2).
2.2數據獲取與知識表示
數據獲取是知識融合的基石.泛在網絡環境下知識融合的外部數據有數據源眾多、數據源異構的特點,特別是傳感網中不同傳感器硬件產生的數據,導致產生的數據結構不統一,為數據獲取增加了難度.模型設計的數據采集模塊基于采用虛擬化技術構建的設施虛擬化平臺.設施虛擬化平臺實現了資源的虛擬化,一方面簡化了對資源及資源管理的訪問,另一方面屏蔽了底層硬件的兼容性問題.通過設施虛擬化平臺采集到的是原始數據,經過數據轉換接口形成統一的數據結構.
知識表示是在對外部世界觀察和了解的基礎上,用統一的數據結構進行描述的形式.根據知識反映活動的不同,可以將知識分為描述性知識和程序性知識[10].描述性知識是對事實的客觀描述,可以使用數據表示;程序性知識描述的是問題解決的過程屬于操作性知識,可以使用解釋程序描述.通過知識表示形成知識庫然后存儲到云服務器上.
2.3元知識構建
元知識又稱為知識的知識,是控制知識集.本體技術本身具有較好的概念層次結構,對邏輯推理的有效支持,使得基于本體的知識表示能從語義和知識層次上描述信息系統的概念模型,同時有利于知識共享、重用[11].通過基于本體的元知識表示可以構建具有統一結構的元知識集.泛在網絡環境下基于本體技術構建的元知識集存在大量無效數據和無用數據,導致初始元知識集出現數據量過大問題.在知識融合前需要對知識規模進行降階,通過引入語義熵實現對知識的混亂程度進行測度,形成有效元知識集,即通過元知識的有效性測度分析實現知識規模的降階.有效元知識集的構建為進一步知識融合處理打下數據基礎.
2.4融合處理
融合處理模塊中融合算法以元知識構建模塊構建的有效元知識集為數據輸入,按照約定的融合規則進行比較、合并和協調融合運算,產生新的知識對象,完成衍生知識處理模塊的解知識空間的構建.融合算法的選擇是融合處理模塊的關鍵部分.目前國內外常用的融合算法有:D-S證據理論、貝葉斯方法、模糊集理論等,其中:(1)D-S證據理論算法基于證據和可能性推理理論提出,該算法對不確定信息的處理有較好的效果.但以正確和完整的知識庫為前提,該算法不適合海量規模的知識融合.(2)貝葉斯方法通過圖形的方式自然的表達數據間的因果關系,該方法能夠較好的發現數據間的潛在關系,能很好的解決不確定性和不完整性問題.與D-S證據理論一樣該方法也不適合海量數據的規模,在實際應用中通常是兩者結合使用.(3)模糊集理論,在知識融合的初始階段往往需要一些先驗知識,實際的應用中通常是與上述兩種理論混合使用.融合算法的選擇對于融合效果有較大的影響.
2.5衍生知識處理

圖2知識融合模型
衍生知識處理模塊根據知識約束集對解知識空間進行衍生知識處理形成衍生知識庫.其中,知識約束集由用戶需求產生.然后,對衍生知識庫中的知識從兩個流向進行處理,一條根據用戶需求流向用戶服務模塊,向用戶提供知識服務;一條經機器學習后產生新的知識,存儲到本體庫后,作為元知識集的輸入數據.
2.6知識服務
知識融合最終的服務對象就是用戶.知識服務模塊通過用戶服務接口,根據用戶需求從知識庫和衍生知識庫中獲取知識,然后通過數據挖掘技術為用戶提供個性化的知識服務,同時通過用戶服務接口將知識反饋評價結果作為新的知識源存入到知識庫中,實現知識運動的閉環,達到知識再生的目的.
泛在網絡是未來網絡的發展方向.泛在網絡環境下數據規模巨大,且數據異構,為實現更加智能與精準的知識服務增加了難度.筆者設計的知識融合模型,按照“數據獲取與表示→融合處理→知識服務”過程設計了5個模塊,實現了異構數據的統一表示及知識融合,為進一步提高大數據環境下個性化知識服務質量和知識融合在大數據環境下智能應用的研究和應用提供參考.未來將結合具體的應用,開展驗證性研究.
[1]張平,苗杰,胡錚,等.泛在網絡研究綜述[J].北京郵電大學學報,2010,33(5):1-6.
[2]IDC.The Digital Universe of Opportunities:Rich Data and the Increasing Value of the Internet of Things[EB/OL].[2015-05-12]. http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm.
[3]林海倫,王元卓,賈巖濤,等.面向網絡大數據的知識融合方法綜述[J].計算機學報,2016(39):1-26.
[4]唐曉波,魏巍.知識融合:大數據時代知識服務的增長點[J].圖書館學研究,2015(5):9-14.
[5]Preece A D,Hui K Y,Gray W A,et al.Designing for Scalability in a Knowledge Fusion System[J].Knowledge Based Systems,2001(3):173-179.
[6]Gray A,Marti P.Towards a Scalable Architecture for Knowledge Fusion[A].In:Proceedings of International Workshop on Infrastructure for Scalable Multi-Agent System[C].Barcelona,2000:279-292.
[7]Gruber T R.A Translation Approach to Portable Ontology Specifications[J].Knowledge Acquisition,1993,5(2):199-200.
[8]袁新娣.本體及本體在信息系統中的應用[J].科技廣場,2006(7):76-78.
[9]李德仁,姚遠,邵振鋒.智慧城市中的大數據[J].武漢大學學報,2014,39(6):631-640.
[10]張二虎.論陳述性知識與程序性知識的關系[J].太原師范學院學報(社會科學版),2005,4(1):128-129.
[11]徐賜軍,李愛平,劉雪梅.基于本體的知識融合框架[J].計算機輔助設計與圖形學學報,2010,22(7):1230-1236.
On the Design of Knowledge Fusion Model Based on Ubiquitous Network
ZHANG Qian-jin
(Department of Information Engineering,Anhui Vocational College of Defense Technology, Lu'an 237011,Anhui,China)
By expounding the features of the big data that in ubiquitous network environment,it analyses the concept of knowledge fusion,and discusses the relative technologies of knowledge fusion,such as ontology technology,semantic web,data mining and so on.The knowledge fusion model is designed,which is composed of data acquisition and knowledge representation,meta knowledge construction,knowledge fusion processing,derivative knowledge processing,knowledge service and so on,and it provides a theoretical reference for the research and practice of intelligent application of knowledge fusion in big data environment.
ubiquitous network;knowledge fusion;meta-know ledge
TP393.0%
A%%%
1007-5348(2017)03-0021-04
(責任編輯:歐愷)
2016-12-20
2016年安徽省質量工程項目(2016zjjh012);2017年高校自然科學研究重點項目(KJ2017A782);安徽省高等職業教育創新發展行動計劃(2015-2018年)軟件技術骨干專業建設(皖教秘高〔2016〕27號).
張前進(1982-),男,河南商丘人,安徽國防科技職業學院信息工程系講師,碩士;研究方向:計算機應用技術.