孟小峰 杜治娟
(中國人民大學信息學院 北京 100872)(xfmeng@ruc.edu.cn)
大數據融合研究:問題與挑戰
孟小峰 杜治娟
(中國人民大學信息學院 北京 100872)
(xfmeng@ruc.edu.cn)
隨著大規模數據的關聯和交叉,數據特征和現實需求都發生了變化.以大規模、多源異構、跨領域、跨媒體、跨語言、動態演化、普適化為主要特征的數據發揮著更重要的作用,相應的數據存儲、分析和理解也面臨著重大挑戰.當下亟待解決的問題是如何利用數據的關聯、交叉和融合實現大數據的價值最大化.認為解決這一問題的關鍵在于數據的融合,所以提出了大數據融合的概念.首先以Web數據、科學數據和商業數據的融合作為案例分析了大數據融合的需求和必要性,并提出了大數據融合的新任務;然后,總結分析了現有融合技術;最后針對大數據融合問題可能面臨的挑戰和大數據融合帶來的問題進行了分析.
大數據;數據集成;數據融合;知識融合;數據管理
近20年里,數據產生的方式不斷在擴展,數據之間的關系變得千絲萬縷,呈現出大規模數據關聯、交叉和融合的局面[1-2],數據出現了如下新的特征:
1)多元性.當下數據不僅是類型多樣,更重要的是數據內容的“維度”多樣和知識范疇的“粒度”多樣,呈現出一種多元性.它體現了數據與知識之間的立體關系,而非單純數據類型多樣,與演化性成為當下大數據的精髓,是區別于大規模數據、海量數據、或早期“大數據”(量大)的最顯著特征.
2)演化性.是指數據隨時間或解釋的變化而變化的特性,體現了數據的動態性和知識的演化性.比如,實體的某些屬性在不同時間點可能產生變化.這就要求合理建模演化行為,保證數據一致性.它與高速性共同構成了知識的動態演化性,更加貼切地體現出現實數據的本原性,而非單純地強調速度.
3)真實性.主要由實體的同名異義表示和異名同義表示以及關系的變化引起.這種現象普遍存在,它們增加了理解的不確定性.真實性由演化性引起,反過來又為演化性提供了印證,只有知識得到印證才能使演化更新和融合更有意義.
4)普適性.是指在認知范圍內可以達成共識關系的特征,比如,“老師”和“蠟燭”在神經元連接上具有普適性.這種普適性發現源于知識之間隱性關聯的發現,它也比信息本身的增長更有價值.這是將大數據定位到知識層面的一個獨特特征.
這導致大數據集成的對象已經不單是數據,而是數據和知識的復合體,可以稱之為“數據湖”(data lake),其內涵到底是什么呢?偶讀了68年前費孝通《鄉土中國》[3],略有所悟.費老分析總結了中國鄉土社會結構,指出中國社會呈現出所謂的“差序格局”,而西方社會呈現的是“團體格局”.傳統數據庫結構關系單一,呈現狀態猶如“團體格局”,即以單個實體為本位,實體之間的關系好比一捆柴,幾根成一把,幾把成一扎,條理清楚,有共同的模式可循.而當下大數據來源廣泛,關系復雜,遠近親疏各不同,這種關系就好比“差序格局”,以語義主題為本位,每類實體都以自我為中心按照與其他實體的語義關系為主線結成網絡,這個網絡按照關系的語義緊密親疏呈現“差序”狀態,就如同湖面丟下的石子形成的水波紋依中心擴散開去.這種狀態隨著實體間關系的變化而動態演化,并且每個網絡的大小不同,體現的語義關系也不同,蘊含的價值也不同.
數據庫的“團體格局”本質上是先有模式后有數據,因此數據集成可以采用中介模式的方法(全局視圖(global-as-view,GAV),局部視圖(local-as-view,LAV))以自頂向下的方式實現集成.數據湖的“差序格局”是先有數據后有模式,因此需要一種自底向上的方式以一種大數據融合的方法實現集成.大數據融合即建立數據間、信息間、知識片段間多維度、多粒度的關聯關系,實現更多層面的知識交互,從而聚斂出數據湖中一個個維系我們社會的“水波紋”(即語義關聯的緊密程度).
本文首先分析了大數據融合的現實需求并提出大數據融合的問題,探討了現有融合技術的發展現狀,并給出大數據融合的理解,指出了大數據融合面臨的挑戰.
大數據融合是最大程度發揮大數據價值的一種手段,它的實現可以使人類對世界的探索和認識向新的深度和廣度拓展.它不同于傳統的數據集成或知識庫技術,需要大跨度、深層次和綜合性的研究方法.下面我們通過幾個不同領域的案例分析來具體探討這一問題的本質.
1.1 公共安全領域大數據融合案例分析
公共安全領域的數據包括結構化數據和非結構數據.其中結構化數據包括人員信息(比如人員戶籍庫、重點人員庫等)、人員行為軌跡數據(比如飛機、火車出行數據等)、車輛信息(比如車輛購買信息、違章信息等)、電信數據(比如話單)等;非結構化數據包括網頁、卡口圖片、重點區域的視頻監控錄像等.公共安全領域數據的主要應用場景是公安辦案提供線索.這種數據比較復雜,規模也較大,如中國某省會城市一小部分數據構建成圖,其頂點的個數和邊的個數分別達到了十億和百億的規模.
1.1.1 實現原理
目前采取的方案是基于超大規模復雜關聯數據的管理理論建立超大規模的實體關聯圖.圖上的每個頂點代表自然界的一個客觀對象,比如人員、物品、住所等;圖上的邊表示實體之間的關系.如圖1所示.
這種方案總體上可以分為4步實現:1)數據治理.需要把物理上相互隔離的多源異構數據通過數據治理整合到統一的數據平臺,該過程是后面3步的前提和基礎.目前在實際的工程實踐中采用以人工為主的操作模式.2)關系構建.這個過程需要自動地構建實體之間的顯式關系和隱式關系,并存儲在圖數據庫.隱式關系的構建借助規則或機器學習.3)可視化交互分析.系統提供強大的可視化交互分析工具,幫助用戶在超大規模圖上做各種分析和關系推演和比對.4)基于以上3步構建各警種的具體應用.

Fig.1 An example of data fusion in the public safety field.圖1 公共安全領域數據融合實例
1.1.2 現實需求
當下,在工程實際中公共安全領域數據融合系統還需要很大改觀.1)所需的數據割裂地分布在多個數據源中,且數據種類多樣,需要把這些割裂的多源數據自動整合為一個統一的系統.2)目前公共安全領域的系統絕大多數提供的服務屬于事后研判型,但是有些重大案件的破壞性非常大,事后再研判損失太大,急需能夠做到事前預警的大數據技術和系統.3)嫌犯可能會在作案后更改姓名、手機號碼、常駐地等,這樣會造成數據的演化,需要識別這種演化,這對于破案極為重要.4)所需數據規模超大,比如為了找到涉恐人員的蛛絲馬跡,需要對整個互聯網和電信網路進行監控和分析處理,這里需要處理的數據目前工業界無法承受,需要控制融合的規模.
1.2 科學大數據融合案例分析
在科研領域,不僅需要數據本身,更需要與該數據有潛在密切關系的各種數據,并能夠方便地分析這些數據.例如,在查看一個基因數據時,還能循著它去看基因組、蛋白質等相關的其他數據.為了實現這種融合,中國科學院提出了數據融合管理與服務系統,目前包括36個不同數據源的生物學數據,累計匯聚數據超過40TB;并在此基礎上選取了8個數據源的數據進行數據解析、轉換和數據關聯處理,轉換得到的約830萬個數據之間建立起了約1.4億個關聯關系.
1.2.1 實現原理
該系統的實現原理如圖2所示.

Fig.2 Scientific data fusion management and service architecture.圖2 一種科學數據融合管理與服務系統架構
圖2中,集中的數據存儲庫基于分布式文件系統MooseFS、MongoDB數據庫集群和Virtuoso數據庫來構建,分別用于存儲從各數據源下載的非結構化數據、從各數據源下載的結構化數據和解析原始數據后得到的數據、轉換得到的RDF數據和通過語義增強系統新建立的關聯關系數據.這些數據通過數據匯聚模塊的各種下載組件和管理系統進行匯聚.對于下載的數據,定制化開發數據解析工具,完成數據從原始形態到“屬性值”結構化形態的轉變;開發基于配置的數據轉換工具,抽取對發現數據之間的關聯有價值的“屬性值”并經必要的數據合并、拆分、等價變換等處理將抽取的這些數據轉變為一致化的RDF格式;確定數據之間的關聯機制并在此基礎上運用相似度計算、推理、本體映射等關聯發現方法來增加數據之間的語義關聯關系.最后通過服務接口模塊對外提供服務.
1.2.2 現實需求
從上述介紹可以看出該系統更加注重數據的獲取、存儲、表達格式的統一和提供服務接口,數據關聯與深度融合相對較弱.在實現過程中發現該系統的服務穩定性和響應效率較高、對數據分析類應用的支持能力較好.同時也發現了一些問題:1)科學數據的融合僅依靠軟件工程師和計算機科學家很難完成,需要吸引各領域科研人員的廣泛參與和緊密合作.2)隨著所匯聚和加工處理的數據量的增大,現有的數據存儲方案會面臨考驗,特別是在RDF數據存儲方面,業界缺乏具有百億量級RDF數據存儲管理和高服務能力的數據庫系統或較成熟的解決方案.3)目前所設計的數據關聯發現方案還比較粗糙,主要應用了相似度計算方法,還有待深入研究.

Fig.3 The system architecture of ScholarSpace.圖3 ScholarSpace系統架構
1.3 Web數據融合實例分析
在科研領域,經常需要查詢學術信息,比如發表論文、承擔項目、參與學術活動等.這些信息分散在眾多Web數據源中,對高效檢索挑戰很大,亟需一個跨領域、多學科的學術信息集成系統,為學術信息檢索、分析提供方便.為此,ScholarSpace[4]應用而生,它包括25個學科領域的學術信息.目前包含實體1140余萬、三元組1.8億,實體關系66種,支持學者、研究領域、研究課題等多條件的學術信息檢索,并基于文本挖掘和社會網絡分析建立學術關系網絡,支持學者譜系、評審推薦等應用功能.
1.3.1 實現原理
ScholarSpace的實現原理如圖3所示,它的數據源于領域數據庫、現存的知識庫或者Web中的開放信息.首先利用Web數據抽取技術從這些數據源中自動抽取學者、論文、科研項目、專利等實體和關系信息.然后,在此基礎上識別關聯實體和發現實體之間的復雜關系,進而實現數據的融合和關聯.這一過程涉及5種核心技術——海聯關聯數據的存儲技術、實體識別技術、復雜關系發現技術、實體和關系的演化處理技術和跨語言融合技術.其中,海聯關聯數據的存儲庫用于存儲自動收集的學術信息學和推演得到的知識;實體識別技術和復雜關系發現技術用于從數據源抽取并識別實體和關系,復雜關系發現還負責從已經得到的數據中推理間接關系;實體和關系的演化處理技術主要是為了應對實體和關系隨時間變化的情況,比如學者的所在單位發生了變化,或者學者因為升學發表論文的合作者發生了變化等;跨語言融合主要是因為學術無國界,同一學者的信息可以以任何語種出現,這種融合對于完成呈現學者學術信息是必要的.
1.3.2 現實需求
目前,該系統還需要不斷完善.首先,數據源不斷有新的出現、舊的消失,各種數據快速增長,規模越來越大,需要自適應更新策略和增量融合的方法.其次,隨著大規模數據的交叉、關聯和融合實體和關系的演化現象越來越明顯,最難辨別的演化是看似不相似的記錄表示同一實體,或者原本表示同一實體的記錄因某些屬性的改變而變得不太像同一實體的情況,這就需要對實體和關系的演化做細粒度分析建模.第三,學術信息可能是多語言的,例如發表的論文有中英文之分,需要做跨語言的融合.最后,學術信息中也蘊含的許多隱含關系,發現這些隱含關系意義重大,例如,“合作者”關系中可能包含“導師學生”,而“導師學生”關系對專家推薦、學者譜系的構建等具有重要的幫助.
1.4 大數據融合的獨特性與問題
通過上述分析可知,大數據時代數據的極大豐富為人們提供了更大的利用價值,但是數據的海量產生和新的特征也使人們面臨的問題空前復雜化.
1)割裂的多源異構數據.目前需要處理的數據可能來自領域數據庫、知識庫或者Web頁面的開放信息,從來源角度看是多源異構的.而且,這些數據被物理地存放在不同的系統中.這些割裂的多源異構數據造成了各種數據孤島,給大數據分析處理帶來非常大的挑戰,需要把這些割裂的數據整合到統一的系統中.這種情況在3個案例中均有體現.
2)數據規模與數據價值的矛盾.當下,數據越來越豐富,提供了更多有價值的信息,但數據的規模也越來越大,對已有的數據存儲和處理方法提出了挑戰,需要對融合的規模進行控制.就像公共安全領域,如果辦案時有越多的相關數據就越有可能快速破案.但是,目前需要處理的數據規模已經讓工業界無法承受,只能對部分數據進行計算和處理得出結論.
3)跨媒體、跨語言的關聯.需要處理的數據有結構化數據、半結構化數據和非結構數據,這對數據關聯的發現提出了挑戰,尤其是圖片、視頻、音頻數據與文本數據的關聯.這種情況在公共安全領域極為常見,如何自動識別它們之間的關聯是工程實際中亟需的.并且數據可能源于多語種,如學術領域提到的同一作者可以發表中文、英文論文.
4)實體和關系的動態演化.數據是動態變化的,實體和關系也是隨時間不斷演化的,這就增加實體和關系的判別難度,容易造成數據不一致.比如,公共安全領域涉及的嫌犯在作案后更改姓名、學術領域中作者更換了所在單位等都屬于此類情況.因此,需要合理建模演化行為,保證數據一致性.
5)知識的隱含性.從案例中我們也可以發現,除了顯示知識還有隱式知識,隱式關系比顯示知識更重要.比如生物領域中,魚類中的掠食者在食物富集時運動軌跡呈布朗運動,或者學術案例中出現的“合作者”關系可能暗含“師生”關系.這種隱含的關系對知識的理解和數據的融合都有很大幫助.
為了實現大數據的融合,各領域出現了一些融合方法,可以認為普遍采用3V(海量、高速、類型多樣)特征下的集成方式,如圖4所示:

Fig.4 Universal mode of big data fusion.圖4 數據融合的普遍方式
當下這種融合方式普遍認為大數據融合的難點在于大數據的3V特征,它所需要的關鍵支撐技術有模式(本體)對齊技術、實體鏈接技術、沖突解決技術和關系推演.其中,1)模式和本體對齊技術用于應對本體的異構性和數據源的異構性[5-6];2)實體鏈接包含命名實體識別?記錄鏈接和實體關聯2部分,是大數據融合的基礎;3)沖突解決是數據融合的必經之路[7-8],有時也叫做實體消岐;4)關系推演用于發現隱含知識,也可用于知識庫的擴充和補全.
2.1 模式?本體對齊
模式對齊解決2個模式元素之間的一致性問題,主要是利用屬性名稱、類型、值的相似性以及屬性之間的鄰接關系尋找源模式與中介模式的對應關系[9-12].為了應對大數據新特征出現了演化模型[13]、概率模型[14-15]和深度匹配[16]方法.演化模型主要是檢測模式映射的演化,采用盡力而為、模糊回答的方式,在一定程度上解決了數據多樣性和高速性帶來的問題;概率模型將中介模式按語義表示成源屬性的聚類,由此源模式會出現與其有不同程度對應關系的多個候選中介模式,然后根據查詢請求為每個候選中介模式分配一個備選概率來確定最佳映射;深度匹配方法面向概念級,基于潛在的語義匹配,而不僅僅依賴于可見屬性.
本體是針對特定領域中的概念而言的,用來彌合詞匯異構性和語義歧義的間隙,本體對齊主要解決本體不一致問題,需要識別本體演化.本體演化分為原子變化、混合變化和復雜變化[17].原子變化反映單個本體的變化,混合變化修改本體實體的鄰居,復雜變化是前兩者的復合體.有時原子變化也叫基本變化,混合變化和復雜變化統稱為復雜變化[18],這些變化通過日志[19]和本體版本差異[18,20]獲得.一般在概念級[21]和實例級檢測[22],采用圖論方法表示本體變化[19]、引入SetPi運算來建模本體演化過程[23]、采用一致性約束跟蹤本體的全局演化過程實現可溯源[17]、Pellet推理檢測不一致性[24].采用多重相似度度量與本體樹結合實現多策略的本體匹配[25].
2.2 實體鏈接
實體鏈接的關鍵是實體識別,主要是識別相似實體和消除實體歧義,相似指多個命名實體表象可對應到一個真實實體(或稱概念),歧義指一個實體表象可對應到多個真實實體.根據數據類型的不同,實體識別方法分為面向非結構化文本的命名實體識別與消歧、面向結構化數據的記錄鏈接和2種數據類型之間的復雜數據實體關聯方法.
2.2.1 命名實體識別
對于命名實體識別,先后出現了針對單查詢、文檔、短文檔及社會媒體3種類型的識別方法.
命名實體識別最早針對單查詢,且局限于維基百科和新聞文章,利用維基百科文章與圍繞提及的上下文的相似性消除專有名詞的歧義[26],或用統計識別方法識別命名實體并用多種提及聯合消歧[27],如采用實體分類作為上下文相似度向量的一部分.
隨著Web技術的發展,需要從普通文檔中識別實體,最早采用類似文獻[27]的方法,但給出了未知實體的顯式模型來識別未知實體[28].接著采用識別“Wikipedia-like”鏈接方法,在一小部分已存在的維基百科鏈接上建立分類訓練器,并用最頻繁感知基準來度量相似度[29],或采用短語的歧義度作為其被提及的度量指標,并捕捉歧義候選對象之間的語義關聯關系來識別實體[30].在此基礎上出現了采用監督學習先驗相似性,并采取近似算法求解聯合概率分布的最大后驗估計的聯合推理方法[31].對于文檔中提及的全局一致性,一般采用提及的迭代消歧方式解決,考慮實體間的語義相關性,但對領域和語料變化敏感[32].
隨著社會媒體的發展,目前命名實體識別更傾向于社交網絡、短文本,特別是微博平臺[33-35],一般采用字典和啟發式詞組聯合識別[33],或者加入微博的特殊句法(如#,@等)做過濾器[34]聯合推理.也有將各種相似度度量方法綜合學習方法[36],當實體不在知識庫中時采用從已知實體的特征(關鍵字句)隨機抽樣得到的未知實體表示的方法識別實體[37].2.2.2 記錄鏈接
記錄鏈接是從數據集中識別和聚合表示現實世界中同一實體的記錄(也稱實體表象),即對相似度達到一定閾值的記錄做聚類操作(也稱共指識別).相似性一般根據領域知識設定匹配規則度量、也可用機器學習訓練分類器的方法實現[38]、或利用編輯距離或歐氏距離計算[39].作出表象局部相似性判斷后,接下來的工作是對實體進行鄰接性聚類、相關性聚類[40-41]或密度聚類[42-44].其中后2類聚類采用獎勵高內聚、懲罰高相關性保證歧義最小的方法與大數據的“差序”關系相輔相成.但這些方法是非增量式聚類,難以應對大數據的海量性,考慮到大數據的相互關聯對實體匹配的局部決策和全局一致性的影響,以及數據更新可以及時彌補聚類過程中的錯誤聚類,出現了增量記錄鏈接方法,主要從匹配規則的演化[45]和數據的演化[46-47]2個方面為依據探討記錄鏈接的增量問題.
由于大數據的海量性,在相似性計算之前先根據實體的一個或多個屬性值將輸入記錄劃分為多個塊,進行塊內比較,提高鏈接效率[8].分塊技術按分塊函數數量分為單分塊技術[48]和多分塊技術[49],按冗余程度又可分為冗余消極、中立和積極[50-51]3種.通常采用多分塊技術與冗余積極相結合的方法,因為大數據富含冗余信息、實體的屬性多樣,且單分塊技術存在假負現象、僅適用于高質量先驗模式屬性的情況、冗余消極和冗余中立在創建塊時需要先驗知識.但多分塊與冗余積極相結合的方法引發了重復比較、多余比較和不匹配比較,為此,出現了借助MapReduce并行分塊[52]和引入Meta-blocking直接優化分塊[53].Meta-blocking技術首先將信息封裝在塊分配集并構建塊圖,然后將問題轉化為度量圖中邊的權重和圖修剪問題.這種做法獨立于底層的分塊技術,與模式無關,具有通用性.但是,它沒有本質上代替原有的分塊技術,它依賴于底層塊集合的冗余程度,并且分塊圖的構建是通過調整塊構建方法中的相應參數得到的,因此目前需要一種調參少、不依賴于底層塊集合的冗余程度低且模式無關的分塊方法.
2.2.3 復雜數據實體關聯
結構化數據與非結構化數據也存在關聯關系,我們將這兩者的關聯稱為復雜數據實體關聯,它的核心任務是表象消歧.早期研究集中于從文檔中識別與數據庫實體對應的表象,代表性系統是SCORE[54]和EROCS[55],分別采用關鍵字匹配和詞共現原理尋求兩者的對應關系.后來,針對評論信息中的實體與數據庫對象的相關性,提出一種不需要識別評論中實體就能完成匹配的產生式語言模型[56-57].接著針對在線供應商的無結構產品信息與結構化的商品清單信息做鏈接,提出基于語義理解的有監督的學習方法[58].這些方法都無法處理實體演化的情況.當下研究熱點轉為尋找Web文本中命名實體提及與知識庫中命名實體的關聯關系,這種對應關系分為可鏈接和不可鏈接2種,不可鏈接是指知識庫中不存在對應實體的情況,否則為可鏈接[59].可鏈接關系的核心是在知識庫中尋找最優匹配實體,通過產生候選對象并對其排序得到.候選鏈接的產生可以通過圖論的方法[60],借助語義知識[61]、概率模型[62],如果是面向社會媒體,則可以利用用戶興趣等建模鏈接關系[63].候選鏈接的排序按影響因素可以分為與實體的上下文信息無關[64]和與實體的上下文信息有關[65-66]2種.不可鏈接采用設定閾值的方法判定,并最終聚類不可鏈接提及[63,65].
2.3 沖突解決
沖突分為模式沖突、標示符沖突和數據沖突,其中模式沖突由數據源的模式異構引起,比如屬性名、語義等不同的情況,標識沖突主要是指異名同義現象;數據沖突主要是指同一屬性具有多種不同的值.沖突的解決一般是在實體或屬性級別,采用識別函數.目前主要集中在實體級別的真假甄別和演化問題.
真假甄別問題也稱事實(fact)甄別問題,即從所有沖突的值中甄別正確的值(真值),真值可以不止一個,但多個真值間語義上相同[39,67-68].影響真值度量的因素可分為數據源的復制關系[69]和依賴關系[70]以及值的新鮮度和相似度.對于真值的度量一般采用投票的策略[71],并在此基礎上進行獨立性衰減[72],然后根據值的置信度(源的可信性的函數)[73]、值的貝葉斯后驗概率(用數據源的精度和復制概率表示)[72],或者以源的獨立性、組的可靠性、值的真實性為參數設定真值的完全分布函數,并將對數似然值最大化求下界推理得到真值結果.這些方法側重于有效地檢測假數據的正相關性,但不適用于真實數據的正相關或負相關,并且模型依賴于單一真值的假設,然而,某些事實可以有多個真值,如某人可能有多個職業.所以,真值度量因素中又增加了多真值[74],源的正、負相關性[75],值演化性[76]及數據抽取維度[77]等不確定因素.其中,值的演化性用一定時間區間內的數據項的值的一組狀態變遷序列度量.
實體演化是指實體隨時間演化會出現看似不相似的記錄表示同一實體的現象,但已有的方法大多是判別相似記錄是否表示同一實體[67,78],不適合這種情況[79],這是因為實體的屬性值可能隨時間變化.所以,對于隨時間變化的實體,需要細粒度分析變化.最早實體演化建模采用時間衰減模型捕獲實體屬性值在時間跨度范圍內改變的可能性,其中,采用歧義衰減度量相同屬性值變得不一樣的概率,一致性衰減度量不同屬性值變得一樣的概率[80].但只捕獲了屬性值變或不變的概率,為此出現了采用突變模型來學習隨時間推移屬性值再次出現的概率加以改進的方法[81],這種方法考慮了屬性值來回變化的情況和實體內?間的演化,依據全部歷史時間點做決策.
2.4 關系推演
我們希望自動地找到關聯數據中的路徑模式和自然語言中的關系詞匯之間的對應關系.這種對應關系對于理解復雜數據非常重要.這就涉及到關系推演問題.關系推演包括3種情況:已知一個實體和一條關系,推斷另一實體,或者已知2個實體預測它們之間的關系;實體間間接關系的推理;關系的演化度量.
對于前2種情況,大多數采用嵌入表示[82-83]和圖特征模型[84-86]進行關系的推理與預測.嵌入表示即將實體和關系都表示為低維(如d維)向量h或t,并且定義一個評分函數fr(h,t)來確定元組的合理性,主要模型有雙線性模型、多層感知模型和潛在距離模型,這些模型的對比如表1所示.其中RESCAL模型是典型的雙線性模型,E-MLP,ER-MLP和NTN屬于多層感知模型,其余的是潛在距離模型.多層感知模型參數復雜,后4種可以處理復雜關系,KG2E模型將實體和關系表示為高斯分布,其他模型將實體和關系映射為超平面中的點.

Table 1 Embedding Models Comparison表1 嵌入模型比較
圖特征模型被廣泛用于鏈接預測,它認為相似的實體很可能相關,相鄰的節點或者有路徑相連的節點很可能相似.衡量實體相似性的方法分為局部相似、全局相似和準局部相似[95].局部相似性計算只依賴于所涉及實體的直接附近實體,不能模擬大范圍的依賴關系[96];全局相似性考慮了所有路徑上的實體,預測性能比局部相似方法好,但計算更昂貴[97];準局部相似方法通過路徑實體的相似度和有限長度的隨機游走平衡了預測精度和計算復雜度[98].此外,還有其他方法,例如:采用路徑排序算法延伸有限長度的隨機游走來預測多關系知識圖的鏈接[99];從大型知識圖中提取邏輯規則,可以處理知識圖的開放世界假設[100].
嵌入表示和圖特征模型互補[101],前者擅長通過新引入潛在變量建模全局關系模式,并且當元組可以用少量的隱變量解釋時計算效率很高;后者擅長建模局部和準局部圖模式,并且當元組可以由鄰居實體或與其有較短路徑的實體解釋時計算效率很高.因此出現了很多兩者結合的研究方法[101-102].
關系推演的另一個方面是實體關系的演化,它表現為聚類隨時間的變化,這類方法認為首先應該為記錄創建軟聚類,即在作出每個記錄應該屬于哪個聚類的決定之前,一個記錄可以同時屬于多個聚類,然后收集證據在軟聚類的基礎上迭代細化聚類[80].但是現實中缺乏演化證據,為此出現了2階段聚類[103]方法.第1階段假設記錄靜態并基于屬性值相似度分組做實體靜態匹配,為第2階段的演化決策收集證據;第2階段考慮時間維度,從初始分組合并聚類,合并的條件是一個實體從一個聚類中的某個狀態演化到另一個聚類中的某個狀態.這種方法記錄匹配階段不考慮演化情況,聚類決策時采用演化決策,既節省了時間,又不損害匹配精度.
2.5 現存技術的局限性
經過前4小節的技術梳理發現面對大數據融合,現存融合技術還存在如下局限性:
2.5.1 實體鏈接技術存在的局限性
首先,現有的實體鏈接基本是實體識別、沖突解決、共指識別串行化執行,不感知彼此的相互影響.但是,這樣做有3方面的弊端:1)實體識別過程中產生的錯誤會依次向后續過程傳播,這種錯誤不可恢復;2)共指識別和沖突解決的結果不能向前反饋;3)實體識別過程和沖突解決過程可能會產生不一致的輸出.但實際中這三者相互影響,前者為后兩者提供更多的特征,后兩者為前者提供已消歧的鏈接信息輔助聚類.所以有人提出交叉迭代[104]的方法,這種聯合鏈接方法也是目前的一大研究熱點.
其次,共指識別還面臨的一大挑戰是實體關系的演化,已有方法[80]沒有考慮可靠性和更新程度、局部決策對與之關聯表象的影響,并且直接面向動態數據,演化模型依賴于訓練數據集和演化證據的質量,匹配精度高,但時間代價不是大數據能夠承受的.
最后,復雜實體關聯方法在適用范圍、準確率等方面都存在一定的不足,主要挑戰性在于:1)非結構化數據中一般不顯式包含屬性名,其實體屬性也不一定都完全出現在結構化數據中,反之亦然.并且,2類實體之間是需要做近似匹配還是精確匹配也需要區別;2)新實體的發現也是目前的一大難點,關鍵在于相似性判定閾值的確定沒有有效的解決辦法;
3)大數據融合向跨語言融合邁進,所以需要相關實體跨語言、跨文檔的關聯,目前研究成果不多[105-107].其中,未知鏈接的處理對于跨語言、跨文檔的鏈接更加復雜;實體鏈接中存在隱喻情況、一個實體在多個文檔中出現的情況、提及的邊界重疊的情況、嵌套提及、嵌套鏈接的情況,以及實體的相關性,這些情況都是目前亟待解決的問題.
2.5.2 沖突解決技術的局限性
目前,沖突解決的側重點在于知識的真假甄別,但是對于大數據融合還不夠,還存在以下2個問題:
首先,消歧方法依賴于實際參照數據的可用性(如數據標注),參照數據一般源于維基百科,缺乏領域性和針對性,這使得實用性變窄.對于其他領域,如新聞,僅有一小部分標注樣本可用,所以必須采取超越維基百科的消歧策略.
其次,引發沖突的一個關鍵因素是信息的質量[7,67],如數據本身的新鮮度、對特定需求的價值量等,并且對于新鮮度和價值量不同的多真值問題,如何設計質量評估函數是一個挑戰性問題.此外在真假甄別過程中有2個假設:假值服從均勻分布;不匹配即為完全不同,但這個假設在對于現實過于絕對,以至于已有方法不能很好地處理錯誤產生的不確定性.此外,所有沖突解決技術都有一個假定前提,即假定模式對齊和實體識別已完成,并且數據也已經對齊.但這個假設在大數據環境下過于理想化.
2.5.3 關系推演技術存在的局限性
關系推演主要集中在關系的推理和關系的演化建模.關系推理方面目前只考慮了直接關系和多路徑關系的推理,缺乏對關系之間復雜模式的考慮,如自動通過元組(人,離不開,空氣)推斷出元組(魚,離不開,水)這種類比關系.并且關系推演借助于知識表示,目前有嵌入表示和RDF圖2種表示.嵌入表示方法存在復雜關系表示與系統可擴展性不能兼顧的問題[93];采用RDF圖表示時,傳統的圖相似性計算只是考慮到圖結構的相似性,典型的如圖的編輯距離和最小公共子圖等,顯然這種量度不能很好地反映語義上的相似性.有時實體間圖結構的編輯距離比較大,但是它們的語義卻等價,所以采用RDF圖表示時要重點考慮語義關系.無論采用哪種表示形式,都需要考慮推理關系的可信性,自動過濾無意義的推理關系.
此外,演化建模對沖突識別與解決影響很大,雖然現有方法捕獲了實體屬性值的改變,但未考慮屬性值變化的復雜模式,如用屬性的再現概率建模實體演化[81],當一個屬性值在后續時間內不再出現,則所有情況下記錄表示同一實體的可能性相同,但這個說法與實際相悖.如一個講師在2年后成為副教授是可能的,但1年后變為助教的可能性是不存在的,明顯前一種表示同一實體的可能性遠大于后一種,而文獻[81]認為這種概率是相同.這說明,建模變化需要考慮屬性本身的變化模式,如語義相關度等.

Fig.5 The big data fusion architecture.圖5 大數據融合框架
由上述分析可知,大數據價值鏈是一個“離散數據→集成化數據→知識理解→普適機理凝練→解釋客觀現象、回歸自然”這樣一條階梯式循環過程,每一個鏈條是對大數據的一次價值提升.為了實現這一價值,本文提出大數據融合的概念,即它是一種處理大數據的手段,用于從大數據中發現知識,并按照知識的語義邏輯關聯融合形成更接近人類思維的知識,包括數據融合和知識融合2個步驟,如圖5所示.
數據融合負責將多源數據動態提取、整合并且轉化為知識資源,為知識融合奠定基礎.而知識融合負責對知識和知識間的關系進行不同粒度的理解,使知識具有不同層次的可理解性和可領悟性,進而方便解釋客觀現象.數據融合和知識融合不是孤立存在的,知識融合中獲取的知識可以作為數據融合的參考因素輔助數據融合;而數據融合也不僅是為知識融合提供集成化數據,其中的一些方法同樣對知識融合有借鑒作用.此外,還有2個貫穿整個大數據融合過程的操作,即數據溯源和動態演化,它們保證了大數據融合的與時俱進和可理解性.這種融合方式的優勢在于通過雙環互動、啟發動態演化地逐步探索大數據融合問題,并且融合過程的每個步驟都是大數據價值的一次提升過程.
3.1 數據融合
數據融合需要用動態的方式統一不同的數據源,將數據轉化為知識資源.這個過程對用戶透明,缺乏可解釋性和可操作性,并且大數據的海量性和動態演化加大了錯誤恢復的難度,傳統融合方法沒有考慮這一點.因此,必須建立大數據融合的可溯源機制.
另外,大數據的關聯性使得融合步驟之間相互影響,傳統的流水線式融合不再滿足現有融合需求.面對新的融合需求,反饋迭代機制顯得極為重要.
為此,我們給出數據融合的實現步驟:對齊本體、模式,加速融合效率;識別相同實體、鏈接關聯實體;甄別真偽、合并沖突數據,并將處理結果反饋給實體識別階段,提高識別效率;對數據起源,實體識別和沖突解決過程溯源、跟蹤數據的演化.
1)模式?本體對齊.模式?本體對齊是大數據融合的輔助步驟,用于提高融合效率,重點對齊演化引起的不一致性.大數據的高通量性和演化性導致事后補救難度大,所以需要采用“以防為主,防治結合”的策略.此外,還可以變相思維,利用模板[108-109]在捕捉經驗方面的優勢為頻繁錯配的本體建立對齊模板以便重復使用.所以,我們認為本體演化對齊應該分3步完成,即本體的演化管理、不一致性的預防和補救、對齊模板的挖掘.
2)實體識別.實體識別是數據融合的基礎,大數據環境中實體識別有別于傳統實體識別的方面在于:①實體之間的語義關聯性較強,且存在演化性.②實體的屬性特征以及所在的語境信息、沖突實體的解決結果和共指識別結果都可能對實體識別產生影響.所以,識別實體應該是實體識別、沖突解決、共指識別三者迭代優化、逐步求精的過程.③推演出的新知識、發現的深度知識,以及得到的普適機理都有可能對實體識別起到啟發作用,所以,反饋結果極為重要.
3)沖突解決.沖突解決是大數據融合的必要條件,它的第一要務是消歧.大數據的真實性和演化性是引發沖突的導火索,如數據本身的新鮮度和貢獻給特定查詢的價值量等,這就引發了新鮮度和價值量不同的多真值問題,需要評估信息質量,合并不確定性信息.此外,知識融合中推演出的關系也可能對其起到啟發作用,所以要將這種新知識動態地引入沖突解決過程,并保持這種知識的演化.所以,本文給出沖突解決的步驟,即真假甄別、不確定性合并和動態演化.
4)數據溯源.數據溯源是傳統數據融合不具備的,用于建立大數據融合的可回溯機制,追溯融合結果的數據來源以及演化過程,及時發現和更正錯誤.它的關鍵是數據起源的表示以及數據演化的中間過程的跟蹤,其中,中間過程包括實體識別和沖突解決過程.所以,需要建立實體識別溯源機制,用于跟蹤融合結果是由哪些待統一實體所產生;建立沖突解決溯源機制,用于處理融合結果元組中的每個值來自于哪些記錄的哪個屬性值以及通過何種沖突解決方法得來.
3.2 知識融合
知識融合是將數據融合階段獲得的籠統的知識轉化為可領悟知識,面向需求提供知識服務.它需要挖掘隱含知識,尋找潛在知識關聯,進而實現知識的深層次理解,以便更好地解釋數據.為此,我們給出知識融合的實現步驟:對知識進行抽象和建模,為后續知識融合提供方便;通過對表層知識的推理、理解,得出顯式深度知識,如通過多路徑關系推理得到間接知識;通過推理、歸納等方法發現隱式深度知識,如類比關系等;對知識資源、深度知識等剖析、解釋、歸納出普適機理.
1)知識抽象和建模.實體和關系可以有多種不同組合,形成的知識也多種多樣.所以,需要針對實體與關系的自身特點建立知識表示空間.通常將知識建模為RDF圖或者嵌入表示為低維稠密的向量空間.RDF圖既不損失語義關聯又能很好地表示知識,它的一個難點是需要對RDF圖攜帶的3種信息——描述性屬性、語義關系以及兩者兼顧的語義圖結構進行概念描述,這一步對后續深度知識發現特別重要.采用嵌入表示的方法主要是為了緩解數據稀疏,建立統一的語義表示空間,實現知識遷移,它的挑戰性在于缺乏對各語言單位統一的語義表示與分析手段.
2)關系推演.關系推演是一種顯式深度知識發現,包括多路徑關系的推理、新關系的預測和關系的演化建模.多路徑關系推理的難點在于組合語義模型的設計和推理關系的可用性確定.新關系的預測是指根據歷史知識預測2個實體之間可能存在的關聯關系,或者給定一個實體和一種關系,預測與之對應的實體.這種預測的關鍵在于實體和關系的表示.關系的演化建模中關系可以是屬性關系,也可以是語義關系,所以需要對關系變化做細粒度的分析.此外,發現的深度知識對關系推演具有參考價值,所以還需要考慮深度知識發現反饋的結果.
3)深度知識發現.深度知識發現對知識融合非常重要,尤其是隱式深度知識發現,它包含以下3種:①關系型深度知識,包含類比關系、上下位關系、因果關系、正?負相關關系、頻繁?順序共現關系、序列關系等,例如,人離不開空氣與魚離不開水這種類比關系.②數據分布型深度知識,即知識服從某些數據分布,如高斯分布、冪律分布、長尾分布等.例如,當關注數少于105時社交網絡中節點的度分布服從指數為2.267的冪率分布[110].③性質型深度知識,即知識具有某種性質,如局部封閉世界、長城記憶、無標度等,常見的如知識圖譜建模可假設滿足局部封閉世界假設[89].
4)普適機理的剖析和歸納.目前知識融合依然缺乏對知識資源中存在的關系普適化.為此,我們首先要從理性或直覺中建立問題的模型,通過對數據呈現的現象進行概括性描述或者歸納學習得到普適模型,然后將模型與數據結合提供適當的泛化能力,比如,“谷歌大腦”可以通過深度學習無監督地辨別任何貓[111].另一方面,人的智力能透過現象看到本質,只有發現大數據所呈現出的普遍現象背后的普適原理才能對客觀世界產生更大的影響.比如,社會網絡中社群的消失現象,他們背后的普適原理是生物進化論.所以可以將其作為知識建模、深度知識發現和關系推演的一個參考因素,從而提高融合效率.3.3 貫穿要素
數據融合與知識融合是一個相互啟發、協調逐步融合的過程,兩者受一些共同因素的影響,如動態演化性、海量性和高速性.這些因素直接影響融合技術.
1)動態演化.知識的動態演化貫穿整個大數據融合過程,它影響著數據融合、知識融合的各種技術,所以還需要結合其他方法具體考慮.但是,必須做的2個工作是:①對動態變化的跟蹤和知識演化的建模,由于大數據的特殊性,需要考慮變化的復雜模式,如語義關系等,最好能從中挖掘概念模板以應對數據的高速性和海量性;②動態性多數據存儲、索引帶來的挑戰,這也是影響大數據融合的關鍵因素,亟待解決.
2)海量性、高速性.對于海量性和高速性,主要是解決它們帶來的負面影響,對這2個因素的處理直接關系到大數據融合的性能和效率.目前使用最多的方法是利用MapReduce解決,也有優化硬件技術的方法.我們認為,要想從根本上解決海量性和高速性帶來的負面影響還需要采用軟硬件同時優化的策略.
大數據融合是一個多學科、跨領域的研究問題,它的實現還面臨著諸多挑戰.
4.1 融合過程面臨的挑戰性分析
大數據融合具有其特殊性,所以,需要審視融合方式.此外,如何控制融合結果的規模、如何存儲也是亟待解決的問題.
1)融合方式的變革.由上述分析可知,已有的融合方法關注點在于集成多源數據提供統一訪問和集成化知識,它始終圍繞著“大”來定義,缺乏理解、知識結構松散,沒有揭示數據背后的深層意義.但是,大數據融合中知識的隱含性以及知識的理解、分析對融合大有幫助.比如,公共安全領域要想做到預警,就需要對數據進行理解、歸納數據背后的規律.所以,大數據融合需要數據集成與知識理解相互啟發進行,而非單向串行,并且知識理解應該更注重揭示數據背后的深層意義,盡可能地形成機理.即需要變革融合的思維和技術,使其既能像處理傳統數據那樣處理大數據,又能采用碳原子合理組合成為鉆石的方式獲得高品質的知識.
2)融合規模的可控性.大數據融合一方面是為了提供更豐富的數據資源,所以需要盡可能融合相關數據和盡可能尋找數據之間的關聯關系,如知識庫的補全、知識庫的擴充等;另一方面為了提供更有效的知識服務,大數據融合考慮了知識間隱含的關系、特征,以及知識群體產生的普適機理等,這樣,融合的規模會不斷增加,所以大數據的融合必然要考慮融合的規模,并且對融合結果規模的控制是不容忽視的一個環節,它決定著融合結果的可用性.
3)數據的存儲和維護.大數據的融合對數據存儲挑戰性更大.首先,數據產生速度快、流通量大,所以需要考慮知識庫的索引和更新問題,尤其是針對新的知識表示形式的索引方法和隨時間增量更新的策略.其次,大數據融合需要用動態的方式統一不同的數據源.這個過程對用戶透明,缺乏可解釋性和可操作性,并且大數據的海量性和動態演化加大了錯誤恢復的難度.因此,必須建立大數據融合的可溯源機制,且需要與數據存儲配合.
4.2 融合結果帶來的挑戰性分析
大數據融合是為了實現大數據的大價值而提出的,然而,它的出現也不可避免地引發新的問題.
1)大數據融合與隱私保護的矛盾.數據融合使得數據集間的關聯更緊密、關聯關系更清晰,隱私泄露也越容易,這種泄露在用戶發布數據時不可預知.所以需要研究主動降低隱私泄露風險的策略和風險評估模型,用于有效地預測隱私泄露的風險程度,提供風險預警和降低風險的建議策略.其次,數據的融合使更多的數據由于數據之間的關聯性在無形中被公開化,從而無形中泄露了用戶的敏感信息.因此,當下的隱私性體現在不泄露用戶敏感信息的前提下融合數據,這就需要嘗試新的數據發布技術,盡量減少信息損失并且最大程度地保護用戶隱私.此外,大數據融合是一個動態性過程,數據也是與時俱進的,所以,相應的隱私保護策略也應該具有動態性.最后,為了建立大數據融合的可回溯機制,追溯融合結果的數據來源以及演化過程,大數據融合采用了數據溯源技術,這項技術具有兩面性,一方面可以作為依據向用戶解釋造成風險的原因,給出降低風險的建議;另一方面,數據溯源本身也可能帶來隱私泄露問題,還需要有針對數據溯源技術的隱私保護技術.
2)與實際應用對接.大數據融合是為了更好地提供知識服務,其中數據融合提供集成化的知識,知識融合在此基礎上進一步理解,獲得了知識的隱性特征、規律,并對其進行驗證、剖析、歸納出知識間呈現的普適性質、現象,甚至是內在機理.那么如何將獲取的深度知識、普適機理等成本低廉、直觀、快速地應用到現實當中就成為問題.有一個普遍的想法是:如果出現了類似的情境,是否可以利用已有的結論提出假設,然后在相同的環境設置下,調整一個或多個變化因素,觀察事態變化以驗證假設,這一過程的核心在于如何將可控模擬仿真的方法、大數據融合的理論與實際應用相結合,圍繞現實中特定問題,依據大數據融合理論得到的相關歷史知識、經驗,包括規律、性質、機理、現象等,結合特定領域或情境下的知識,通過模擬、仿真的手段,生成相應的可執行方案.這樣做還有一個好處是充分利用領域理論,運用數學、物理等工具,進行理論建模、解析、邏輯演繹、公式推演和證明,用于得出推論,理解模型,仿真和實驗的假設、過程和結果等.所以,可控模擬仿真的方法、大數據融合的理論與實際應用相結合是目前亟待解決的一個問題.
4.3 融合技術面臨的挑戰性分析
大數據融合是一個多學科、跨領域、跨語言的研究問題,所以面臨的挑戰更加復雜.
1)跨領域、跨學科融合問題.大數據融合的對象具有多樣性,它既可以是結構化數據(如表格、列表等)、非結構化數據(如文本、圖片、視頻等)、半結構化的社會媒體數據(如微博、博客等復雜類型數據),也可以是知識,如規律、模型、機理等,它不僅以多種形式共存,還出現在不同領域,出現了多類型、跨領域融合的現象.針對這種跨領域的多形式數據進行知識融合不是簡單的匹配融合,需要充分考慮各種數據形式的特點,同時需要研究它們的差異所在以及如何合理地處理這些差異,這是數據融合面臨的一個挑戰.在知識融合過程中上層機理是相通的,如金融市場呈現出的長期記憶性和社會網絡中注意力流的長期記憶性,它們都呈現出了長期記憶現象,那么,它們在分析、處理方法上就可以相互借鑒.此外,系統科學從全局、整體出發,研究數據的宏觀現象、特征等與數據庫領域的局部、微觀現象的發現形成互補,可以相互借鑒.這種跨學科尋找在知識融合中適合地處理多形式數據的方法.這種借助多種學科的方法使得知識融合更有價值和意義.
2)跨語言、跨媒體融合問題.人類語言的多樣性決定了實體以及實體之間語義關系會出現多個不同語種表示的情況,即出現了跨語言特征,由此人們迫切希望以自己的母語為主要語種構建知識庫或表達實體及其關聯關系以獲得更好的知識服務.此外,探索跨語言的數據關聯有助于提高知識庫的覆蓋率,然而,當下缺乏這種跨語言的大規模知識庫,例如,DBpedia以英文為主,僅提供少量的德語和法語版本,其他小語種就更沒有對應的知識庫了.但是,小語種知識也非常重要.例如,伊朗發生暴動,媒體上發布的相關新聞采用非通用語種,大家很難理解時態的發展,所以,有必要構建跨語言的知識庫,有必要探索跨語言的融合方法.
本文提出了大數據融合的問題,探討了大數據融合的關鍵技術和面臨的挑戰.大數據融合實質是為獲取高品質知識、最大程度地發揮大數據的價值而提出,它的重要性毋庸置疑.但是,作為一個多學科、跨領域的研究問題,傳統的融合方法已經無法適應.面對大數據融合這一類新穎挑戰,不僅需要各領域科研人員的廣泛參與和緊密合作,更迫切需要將研究方法向新的深度和廣度拓展,做到大跨度、深層次融合.
致謝 感謝北京明略軟件系統有限公司馮是聰提供安全領域案例;感謝中國科學院計算機網絡信息中心侯艷飛、韓岳岐、黎建輝提供科學研究領域案例;感謝為本論文提供修改意見的老師和同學!
[1]Suchanek F M,Weikum G.Knowledge bases in the age of big data analytics[J].Proceedings of the VLDB Endowment,2014,7(13):1713 1714
[2]Suchanek F,Weikum G.Knowledge harvesting in the bigdata era[C]??Proc of the 2013ACM SIGMOD Int Conf on Management of Data.New York:ACM,2013:933 938
[3]Fei Xiaotong.Native China[M].Beijing:Peking University Press,1998(費孝通.鄉土中國[M].北京:北京大學出版社,1998)
[4]WAMDM.ScholarSpace[EB?OL].[2015-12-12].http:??cdblp.cn
[5]Shvaiko P,Euzenat J.Ontology matching:State of the art and future challenges[J].IEEE Trans on Knowledge and Data Engineering,2013,25(1):158 176
[6]Zhao L,Ichise R.Ontology integration for linked data[J].Journal on Data Semantics,2014,3(4):237 254
[7]Jan M.Linked data integration[D].Prague,Czechia:Charles University in Prague,2013
[8]Dong X L,Srivastava D.Big data integration[C]??Proc of the 29th IEEE Int Conf on Data Engineering(ICDE).Piscataway,NJ:IEEE,2013:1245 1248
[9]Bellahsene Z,Bonifati A,Rahm E.Schema Matching and Mapping[M].Berlin:Springer,2011
[10]Euzenat J,Shvaiko P.Ontology Matching[M].Berlin:Springer,2007
[11]Rahm E,Bernstein P A.A survey of approaches to automatic schema matching[J].The VLDB Journal,2001,10(4):334 350
[12]Shvaiko P,Euzenat J.A survey of schema-based matching approaches[J].Journal on Data Semantics IV,2005:146 171
[13]Franklin M,Halevy A,Maier D.From databases to dataspaces:A new abstraction for information management[J].ACM Sigmod Record,2005,34(4):27 33
[14]Das Sarma A,Dong X,Halevy A.Bootstrapping pay-asyou-go data integration systems[C]??Proc of the 2008ACM SIGMOD Int Conf on Management of data.New York:ACM,2008:861 874
[15]Dong X,Halevy A Y,Yu C.Data integration with uncertainty[C]??Proc of the 33rd Int Conf on Very Large Data Bases.New York:ACM,2007:687 698
[16]Kulkarni S,Srinivasa S,Khasnabish J N,et al.Sortinghat:A framework for deep matching between classes of entities[C]??Proc of the 30th IEEE Int Conf on Data Engineering Workshops(ICDEW).Pisctaway,NJ:IEEE,2014:90 93
[17]Stojanovic L.Methods and tools for ontology evolution[D].Karlsruhe:Karlsruhe University Dissertation,2004
[18]Klein M C A.Change management for distributed ontologies[D].Amsterdam,The Netherlands:Vrije Universiteit Amsterdam,2004
[19]Javed M,Abgaz Y M,Pahl C.Ontology change management and identification of change patterns[J].Journal on Data Semantics,2013,2(2?3):119 143
[20]Hartung M,Gro A,Rahm E.COnto-Diff:Generation of complex evolution mappings for life science ontologies[J].Journal of Biomedical Informatics,2013,46(1):15 32
[21]Ding L,Shinavier J,Shangguan Z,et al.SameAs networks and beyond:Analyzing deployment status and implications of owl:SameAs in linked data[M]??The Semantic Web-ISWC 2010.Berlin:Springer,2010:145 160
[22]Luong P H,Dieng-Kuntz R.A rule-based approach for semantic annotation evolution[J].Computational Intelligence,2007,23(3):320 338
[23]Liu L,Zhang P,Fan R,et al.Modeling ontology evolution with SetPi[J].Information Sciences,2014,255(1):155 169
[24]Djedidi R,Aufaure M A.ONTO-EVO AL an ontology evolution approach guided by pattern modeling and quality evaluation[C]??Proc of the 6th Int Symp on Foundations of Information and Knowledge Systems(FoIKS 2010).Berlin:Springer,2010:286 305
[25]Kumar S,Singh V.Multi-strategy based matching technique for ontology integration[M]??Computational Intelligence in Data Mining-Volume 3.Berlin:Springer,2015:135 148
[26]Bunescu R C,Pasca M.Using encyclopedic knowledge for named entity disambiguation[C]??Proc of EACL 2006.Cambridge,MA:MIT Press,2006:9 16
[27]Cucerzan S.Large-scale named entity disambiguation based on Wikipedia data[C]??Proc of EMNLP-CoNLL 2007.Cambridge,MA:MIT Press,2007:708 716
[28]Hoffart J,Altun Y,Weikum G.Discovering emerging entities with ambiguous names[C]??Proc of the 23rd Int Conf on World Wide Web.New York:ACM,2014:385 396
[29]Csomai A,Mihalcea R.Linking documents to encyclopedic knowledge[J].Intelligent Systems,2008,23(5):34 41
[30]Milne D,Witten I H.Learning to link with Wikipedia[C]?? Proc of the 17th ACM Conf on Information and Knowledge Management.New York:ACM,2008:509 518
[31]Kulkarni S,Singh A,Ramakrishnan G,et al.Collective annotation of Wikipedia entities in Web text[C]??Proc of the 15th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2009:457 466
[32]Ratinov L,Roth D,Downey D,et al.Local and global algorithms for disambiguation to Wikipedia[C]??Proc of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1.Stroudsburg,PA:Association for Computational Linguistics,2011:1375 1384
[33]Ferragina P,Scaiella U.Fast and accurate annotation of short texts with Wikipedia pages[J].IEEE Software,2012,29(1):70 75
[34]Guo S,Chang M W,Kiciman E.To link or not to link?A study on end-to-end tweet entity linking[C]??Proc of HLTNAACL 2013.Stroudsburg,PA:Association for Computational Linguistics,2013:1020 1030
[35]Basave A E C,Rizzo G,Varga A,et al.Making sense of microposts(#microposts2014)named entity extraction &linking challenge[C]??Proc of the 4th Workshop on Making Sense of Microposts(#Microposts2014).New York:ACM,2014:54 60
[36]Ceccarelli D,Lucchese C,Orlando S,et al.Learning relatedness measures for entity linking[C]??Proc of the 22nd ACM Int Conf on Information &Knowledge Management.New York:ACM,2013:139 148
[37]Jin Y,K c man E,Wang K,et al.Entity linking at the tail:Sparse signals,unknown entities,and phrase models[C]?? Proc of the 7th ACM Int Conf on Web Search and Data Mining.New York:ACM,2014:453 462
[38]Sarawagi S,Bhamidipaty A.Interactive deduplication using active learning[C]??Proc of the 8th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2002:269 278
[39]Elmagarmid A K,Ipeirotis P G,Verykios V S.Duplicate record detection:A survey[J].IEEE Trans on Knowledge and Data Engineering,2007,19(1):1 16
[40]Charikar M,Guruswami V,Wirth A.Clustering with qualitative information[C]??Proc of the 44th Annual IEEE Symp on Foundations of Computer Science.Piscataway,NJ:IEEE,2003:524 533
[41]Bansal N,Blum A,Chawla S.Correlation clustering[J].Machine Learning,2004,56(1?2?3):89 113
[42]Davies D L,Bouldin D W.A cluster separation measure[J].IEEE Trans on Pattern Analysis and Machine Intelligence,1979,1(2):224 227
[43]Ester M,Kriegel H P,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[C]??Proc of KDD 96.New York:ACM,1996:226 231
[44]Rodriguez A,Laio A.Clustering by fast search and find of density peaks[J].Science,2014,344(6191):1492 1496
[45]Whang S E,Garcia-Molina H.Entity resolution with evolving rules[J].Proceedings of the VLDB Endowment,2010,3(1?2):1326 1337
[46]Whang S E,Garcia-Molina H.Incremental entity resolution on rules and data[J].The VLDB Journal,2014,23(1):77 102
[47]Gruenheid A,Dong X L,Srivastava D.Incremental record linkage[J].Proceedings of the VLDB Endowment,2014,7(9):697 708
[48]Bitton D,DeWitt D J.Duplicate record elimination in large data files[J].ACM Trans on Database Systems,1983,8(2):255 265
[49]Hernández M A,Stolfo S J.Real-world data is dirty:Data cleansing and the merge?purge problem[J].Data Mining and Knowledge Discovery,1998,2(1):9 37
[50]McCallum A,Nigam K,Ungar L H.Efficient clustering of high-dimensional data sets with application to reference matching[C]??Proc of the 6th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2000:169 178
[51]Gravano L,Ipeirotis P G,Jagadish H V,et al.Approximate string joins in a database(Almost)for free[C]??Proc of the 27th Int Conf on Very Large Data Bases.New York:ACM,2001:491 500
[52]Kolb L,Thor A,Rahm E.Load balancing for MapReducebased entity resolution[C]??Proc of the 28th Int Conf on Data Engineering(ICDE).Piscataway,NJ:IEEE,2012:618 629
[53]Papadakis G,Koutrika G,Palpanas T,et al.Metablocking:Taking entity resolutionto the next level[J].IEEE Trans on Knowledge and Data Engineering,2014,26(8):1946 1960
[54]Roy P,Mohania M,Bamba B,et al.Towards automatic association of relevant unstructured content with structured query results[C]??Proc of the 14th ACM Int Conf on Information and Knowledge Management.New York:ACM,2005:405 412
[55]Chakaravarthy V T,Gupta H,Roy P,et al.Efficiently linking text documents with relevant structured information[C]??Proc of the 32nd Int Conf on Very Large Data Bases.New York:ACM,2006:667 678
[56]Dalvi N,Kumar R,Pang B,et al.Matching reviews to objects using a language model[C]??Proc of the 2009Conf on Empirical Methods in Natural Language Processing:Volume 2.Stroudsburg,PA:Association for Computational Linguistics,2009:609 618
[57]Dalvi N,Kumar R,Pang B,et al.A translation model for matching reviews to objects[C]??Proc of the 18th ACM Conf on Information and Knowledge Management.New York:ACM,2009:167 176
[58]Kannan A,Givoni I E,Agrawal R,et al.Matching unstructured product offers to structured product specifications[C]??Proc of the 17th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2011:404 412
[59]Hoffart J,Altun Y,Weikum G.Discovering emerging entities with ambiguous names[C]??Proc of the 23rd Int Conf on World Wide Web.New York:ACM,2014:385 396
[60]Han X,Sun L,Zhao J.Collective entity linking in Web text:A graph-based method[C]??Proc of the 34th Int ACM SIGIR Conf on Research and Development in Information Retrieval.New York:ACM,2011:765 774
[61]Shen W,Wang J,Luo P,et al.Linden:Linking named entities with knowledge base via semantic knowledge[C]?? Proc of the 21st Int Conf on World Wide Web.New York:ACM,2012:449 458
[62]Shen W,Han J,Wang J.A probabilistic model for linking named entities in Web text with heterogeneous information networks[C]??Proc of the 2014ACM SIGMOD Int Conf on Management of Data.New York:ACM,2014:1199 1210
[63]Shen W,Wang J,Luo P,et al.Linking named entities in tweets with knowledge base via user interest modeling[C]?? Proc of the 19th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2013:68 76
[64]Shen W,Wang J,Luo P,et al.LIEGE:Link entities in Web lists with knowledge base[C]??Proc of the 18th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2012:1424 1432
[65]Li Y,Wang C,Han F,et al.Mining evidences for named entity disambiguation[C]??Proc of the 19th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2013:1070 1078
[66]Ceccarelli D,Lucchese C,Orlando S,et al.Learning relatedness measures for entity linking[C]??Proc of the 22nd ACM Int Conf on Information &Knowledge Management.New York:ACM,2013:139 148
[67]Dong X L,Naumann F.Data fusion:Resolving data conflicts for integration[J].Proceedings of the VLDB Endowment,2009,2(2):1654 1655
[68]Li X,Dong X L,Lyons K,et al.Truth finding on the deep Web:Is the problem solved?[J].Proceedings of the VLDB Endowment,2012,6(2):97 108
[69]Dong X L,Srivastava D.Large-scale copy detection[C]?? Proc of the 2011ACM SIGMOD Int Conf on Management of Data.New York:ACM,2011:1205 1208
[70]Pasternack J,Roth D.Latent credibility analysis[C]??Proc of the 22nd Int Conf on World Wide Web.2013:1009 1020
[71]Dong X L,Saha B,Srivastava D.Less is more:Selecting sources wisely for integration[J].Proceedings of the VLDB Endowment,2012,6(2):37 48
[72]Dong X L,Berti-Equille L,Srivastava D.Integrating conflicting data:The role of source dependence[J].Proceedings of the VLDB Endowment,2009,2(1):550 561
[73]Yin X,Han J,Yu P S.Truth discovery with multiple conflicting information providers on the Web[J].IEEE Trans on Knowledge and Data Engineering,2008,20(6):796 808
[74]Zhao B,Rubinstein B I P,Gemmell J,et al.A Bayesian approach to discovering truth from conflicting sources for data integration[J].Proceedings of the VLDB Endowment,2012,6(5):550 561
[75]Pochampally R,Das Sarma A,Dong X L,et al.Fusing data with correlations[C]??Proc of the 2014ACM SIGMOD Int Conf on Management of Data.New York:ACM,2014:433 444
[76]Dong X L,Berti-Equille L,Srivastava D.Truth discovery and copying detection in a dynamic world[J].Proceedings of the VLDB Endowment,2009,2(1):562 573
[77]Dong X L,Gabrilovich E,Heitz G,et al.From data fusion to knowledge fusion[J].Proceedings of the VLDB Endowment,2014,7(10):881 892
[78]Getoor L,Machanavajjhala A.Entity resolution:Theory,practice &open challenges[J].Proceedings of the VLDB Endowment,2012,5(12):2018 2019
[79]K pcke H,Thor A,Rahm E.Evaluation of entity resolution approaches on real-world match problems[J].Proceedings of the VLDB Endowment,2010,3(1?2):484 493
[80]Li P,Dong X L,Maurino A,et al.Linking temporal records[J].Frontiers of Computer Science,2012,6(3):293 312
[81]Chiang Y H,Doan A H,Naughton J F.Modeling entity evolution for temporal record matching[C]??Proc of the 2014ACM SIGMOD Int Conf on Management of Data.New York:ACM,2014:1175 1186
[82]Bordes A,Usunier N,Garcia-Duran A,et al.Translating embeddings for modeling multi-relational data[C]?? Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2013:2787 2795
[83]Getoor L,Diehl C P.Link mining:A survey[J].ACM SIGKDD Explorations Newsletter,2005,7(2):3 12
[84]Hong L,Zou L,Lian X,et al.Subgraph matching with set similarity in a large graph database[J].IEEE Trans on Knowledge &Data Engineering,2015,27(9):2507 2521
[85]Wang D,Zou L,Zhao D.Top-k queries on RDF graphs[J].Information Sciences,2015,316:201 217
[86]Zheng W,Zou L,Lian X,et al.Efficient graph similarity search over large graph databases[J].IEEE Trans on Knowledge and Data Engineering,2015,27(4):964 978
[87]Nickel M,Tresp V,Kriegel H P.A three-way model for collective learning on multi-relational data[C]??Proc of the 28th Int Conf on Machine Learning(ICML 2011).New York:ACM,2011:809 816
[88]Socher R,Chen D,Manning C D,et al.Reasoning with neural tensor networks for knowledge base completion[C]??Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2013:926 934
[89]Dong X,Gabrilovich E,Heitz G,et al.Knowledge vault:A Web-scale approach to probabilistic knowledge fusion[C]??Proc of the 20th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining.New York:ACM,2014:601 610
[90]Bordes A,Weston J,Collobert R,et al.Learning structured embeddings of knowledge bases[C]??Proc of the 25th AAAI Conf on Artificial Intelligence.Menlo Park,CA:AAAI Press,2011:301 306
[91]Bordes A,Usunier N,Garcia-Duran A,et al.Translating embeddings for modeling multi-relational data[C]?? Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2013:2787 2795
[92]Lin Y,Liu Z,Sun M,et al.Learning entity and relation embeddings for knowledge graph completion[C]??Proc of AAAI.Menlo Park,CA:AAAI Press,2015:2181 2187
[93]Wang Z,Zhang J,Feng J,et al.Knowledge graph embedding by translating on hyperplanes[C]??Proc of the 28th AAAI Conf on Artificial Intelligence.Menlo Park,CA:AAAI Press,2014:1112 1119
[94]He S,Liu K,Ji G,et al.Learning to represent knowledge graphs with Gaussian embedding[C]??Proc of the 24th ACM Int Conf on Information and Knowledge Management.New York:ACM,2015:623 632
[95]LüL,Zhou T.Link prediction in complex networks:A survey[J].Physica A:Statistical Mechanics and Its Applications,2011,390(6):1150 1170
[96]Barabási A L,Albert R.Emergence of scaling in random networks[J].Science,1999,286(5439):509 512
[97]Leicht E A,Holme P,Newman M E J.Vertex similarity in networks[J].Physical Review E,2006,73(2):026120
[98]Liu W,Lv L.Link prediction based on local random walk[J].Europhysics Letters,2010,89(5):58007
[99]Lao N,Cohen W W.Relational retrieval using a combination of path-constrained random walks[J].Machine Learning,2010,81(1):53 67
[100]Galárraga L,Teflioudi C,Hose K,et al.Fast rule mining in ontological knowledge bases with AMIE+[J].The VLDB Journal,2015,24(6):707 730
[101]Nickel M,Jiang X,Tresp V.Reducing the rank in relational factorization models by including observable patterns[C]??Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:1179 1187
[102]Rendle S.Factorization machines with LIBFM[J].ACM Trans on Intelligent Systems and Technology,2012,3(3):57
[103]Chiang Y H,Doan A H,Naughton J F.Tracking entities in the dynamic world:A fast algorithm for matching temporal records[J].Proceedings of the VLDB Endowment,2014,7(6):469 480
[104]Dutta S,Weikum G.C3EL:A joint model for crossdocument co-reference resolution and entity linking[C]?? Proc of the 2015Conf on Empirical Methods in Natural Language Processing.Cambridge,MA:MIT Press,2015:846 856
[105]Monahan S,Lehmann J,Nyberg T,et al.Cross-lingual cross-document coreference with entity linking[C]??Proc of the Text Analysis Conf.New York:NIST,2011:1 10
[106]Auer S,Bizer C,Kobilarov G,et al.Dbpedia:A Nucleus for a Web of Open Data[M].Berlin:Springer,2007
[107]Zhang T,Liu K,Zhao J.Cross lingual entity linking with bilingual topic model[C]??Proc of the 23rd Int Joint Conf on Artificial Intelligence.Menlo Park,CA:AAAI Press,2013:2218 2224
[108]Clark P.Knowledge Patterns[M]??Knowledge Engineering:Practice and Patterns.Berlin:Springer,2008:1 3
[109]Newell A.The knowledge level[J].Artificial Intelligence,1982,18(1):87 127
[110]Weng J,Lim E P,Jiang J,et al.Twitterrank:Finding topic sensitive influential twitterers[C]??Proc of the 3rd ACM Int Conf on Web Search and Data Mining(WSDM 2010).New York:ACM,2010:261 270
[111]Bengio Y.Learning deep architectures for AI[J].Foundations and Trends?in Machine Learning,2009,2(1):1 127

Meng Xiaofeng,born in 1964.Professor and PhD supervisor at Renmin University of China.Fellow of China Computer Federation.His main research interests include cloud data management,Web data management,flash-based databases,privacy protection etc.

Du Zhijuan,born in 1986.PhD candidate at Renmin University of China.Member of China Computer Federation.Her main research interests include Web data management and cloud data management.
Research on the Big Data Fusion:Issues and Challenges
Meng Xiaofeng and Du Zhijuan
(School of Information,Renmin University of China,Beijing100872)
Data characteristics and realistic demands have changed because of the large-scale data s links and crossover.The data,which has main features of large scale,multi-source heterogeneous,cross domain,cross media,cross language,dynamic evolution and generalization,is playing an important role.And the corresponding data storage,analysis and understanding are also facing a major challenge.The immediate problem to be solved is how to use the data association,cross and integration to achieve the maximization of the value of big data.Our paper believes that the key to solve this problem lies in the integration of data,so we put forward the concept of large data fusion.We use Web data,scientific data and business data fusion as a case to analyze the demand and necessity of data fusion,and propose a new task of large data fusion,but also summarize and analyze the existing fusion technologies.Finally,we analyze the challenges that may be faced in the process of large data fusion and the problems caused by large data fusion.
big data;data integration;data fusion;knowledge fusion;data management
TP391
2015-09-25;
2016-01-12
國家自然科學基金項目(61532010,61379050,91224008);國家“八六三”高技術研究發展計劃基金項目(2013AA013204);教育部
高等學校博士學科點專項科研基金項目(20130004130001);中國人民大學科學研究基金項目(11XNL010)This work was supported by the National Natural Science Foundationof China(61532010,61379050,91224008),the National High Technology Research and Development Program of China(863Program)(2013AA013204),the Research Fund for the Doctoral Program of Higher Education of China(20130004130001),and the Research Funds of Renmin University of China(11XNL010).