999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

碎片化家譜數據的融合技術?

2021-11-09 05:51:58吳信東卜晨陽
軟件學報 2021年9期
關鍵詞:語義融合信息

吳信東,李 嬌,周 鵬,卜晨陽

1(大數據知識工程教育部重點實驗室(合肥工業大學),安徽 合肥 230009)

2(合肥工業大學 計算機與信息學院,安徽 合肥 2 30601)

3(合肥工業大學 大知識科學研究院,安徽 合肥 2 30009)

4(明略科技集團,北京 100 102)

5(安徽大學 計算機科學與技術學院,安徽 合肥 2 30601)

隨著互聯網、云計算等技術的迅猛發展,網絡空間中的數據以不可預計的速度增長,信息社會進入了大數據時代[1].除了大數據的“5V”特征外,數據碎片化已成為大數據處理中不可忽視的問題.如何有效地融合這些碎片化數據,從多源異構的碎片化數據中獲取整個大數據集合的全局數據特征,繼而從海量碎片化數據中提取出有價值的信息,已成為學術界的研究重點和熱點.

在大數據環境下,由于數據的多源異構性,來自不同數據源的碎片化數據往往具有不同的數據結構和形式.碎片化數據融合的首要挑戰就是:如何從這些多源異構的數據中抽取出真正有價值的信息,使用合適的處理機制對碎片化數據進行提取和分析.另外,碎片化數據融合并不只是簡單地將數據“拼湊”在一起,而是通過分析碎片化數據之間的內在聯系,得到新的、完整的數據.此外,經過融合后的數據通常具有復雜的語義關系,為此,我們需要尋找一種標準化的數據表示方式對其進行存儲與表示.故而,碎片化數據融合極具挑戰性[2].本文以碎片化家譜數據融合為例,詳細闡述了數據融合過程中存在的問題和解決方案.

家譜資料的數字化使得網絡中的家譜數據資源不斷增多,是典型的碎片化數據.家譜與正史、地方志并列為我國歷史研究的三大基石之一[3],它不僅記錄族人最基本的世系狀況,還記錄族人的姓氏源流、族規家訓等內容,涉及歷史、人口、經濟等多門學科[4],具有重要的學術價值和史料價值[5].從這些多源分散的家譜數據開始,使用大數據技術及手段對其進行碎片化重組及融合,有利于對家譜中歷史、經濟等復雜信息的研究與分析,深度揭示家譜大數據中尚未發現的或難以處理的問題,增強人民群眾對尋根問祖的需求,增加海外華僑對祖國的認同感,實現大數據技術與人文社會科學研究的“雙贏”[6,7].

現有的專門針對家譜數據的研究較少,且大多數都側重于對家譜數據的存儲研究[8?11],缺少對家譜數據融合及知識挖掘與推理方面的研究.其主要原因在于:一方面,大量的家譜數據屬于傳統數據資源,在大數據時代,這些數據必須與其他數據進行有效整合才能更易于被用戶使用,比如電子化、網絡化等,因此往往需要面對著非常巨大的處理成本和轉換成本[12];另一方面,家譜大數據真正難以對付的挑戰來自于數據類型多樣、數據多源異構的特征和數據的不確定性[13].

針對碎片化大數據的分析和應用,吳信東等人提出了一種大數據知識工程模型BigKE[2],該模型采用一種三層次的知識建模方法:首先,對多源異構數據中的碎片化知識進行建模;然后,使用知識圖譜對碎片化知識進行非線性融合;最后,以用戶需求為導向,提供具有個性化和實時使用價值的知識服務[14].BigKE 考慮到大數據的異構和自治特征,對大數據挖掘形成的知識圖譜提出了個性化服務的導航,更有利于和具體的應用實例結合.

在大數據知識工程BigKE 的技術框架下,吳信東團隊推出了面向所有華人姓氏的家譜系統——華譜系統(華譜系統網址:http://zhonghuapu.com).華譜系統通過對家譜數據進行碎片化知識融合,旨在為用戶提供姓氏的起源、姓氏的變遷、姓氏間關聯等信息.目前,華譜系統中人物數量已超過1587 萬,姓氏數目已超過720,數據源超過500 個.系統數據量還在與日俱增.

在華譜系統中碎片化家譜數據融合過程的基礎上,結合HAO 模型[15],本文提出一個針對碎片化數據的融合框架 FDF-HAO(fragmented da ta fusion framework with human i ntelligence,a rtificial i ntelligence and organizational intelligence).該框架從碎片化數據開始,通過HI(人類智能)、AI(人工智能)和OI(組織智能)三者的交互和協同,實現多源異構的碎片化數據的融合,最后形成一個由實體和各種關系鏈接而成的網狀知識庫,即家譜人物知識圖譜.人類智能指領域專家們所提供的專家知識.人工智能指機器完成的智能工作,如自然語言處理技術、機器學習算法等.組織智能涵蓋了一個組織的全部知識能力[15],在本文中指家譜領域內的領域規范或行業標準.

本文提出的FDF-HAO 融合框架具有以下幾個特點.

(1)通過HI、AI 和OI 三者的交互和協作,為大規模、異構、多源的碎片化數據融合提供智能支持;

(2)通過對家譜數據語義和語法特征的觀察與分析,基于HI 和OI 提供的專家知識和數據標準,在框架內提出了新的針對家譜數據的數據抽取方法;

(3)在HI 的協作下,采用了一個面向家譜人物的無監督實體對齊算法,能夠準確高效地從海量家譜數據中識別出相同人物;

(4)結合OI 制定一套多源異構家譜人物屬性的沖突解決機制,能夠簡單高效地從多個沖突值中選擇真值;

(5)根據家譜數據的特點,在HI 和OI 的智能支持下,設計了一個面向家譜領域的屬性融合算法,能夠從多源、碎片化的數據中凝練出實體的統一的、準確的、有用的描述.

本文第1 節對相關工作進行闡述.第2 節對本文提出的碎片化數據融合框架FDF-HAO 進行詳細描述.第3節舉例驗證本文提出框架的有效性,并對框架中采用的關鍵技術與同類技術進行性能對比分析.第4 節對碎片化數據融合過程中仍存在的挑戰進行闡述,并對其應用前景進行展望.第5 節對全文做總結.

1 相關工作

1.1 數據抽取

數據抽取的主要任務是從大量結構化或非結構化的數據中準確、快速地抽取實體、關系以及實體屬性等結構化信息[16].根據所需抽取信息的種類,數據抽取可分為3 個模塊:實體抽取、關系抽取、屬性抽取.

1.1.1 實體抽取

實體抽取,也稱為命名實體識別(name entity rec ognition,簡稱NER),指識別文本中具有特定意義的實體,主要包括人名、組織機構名、地名等[17].早期對實體抽取的方法主要是基于規則的方法,即人工構建規則,再從文本中尋找匹配這些規則的字符串.例如,Rau[18]采用啟發式算法與人工編寫規則相結合的方法,從財經新聞中自動抽取公司名稱,實現了不錯的效果.但是,人工制定這些規則需要耗費大量時間和精力,而且規則對領域知識的依賴性較高,當領域差別很大時,制定的規則無法重用,可擴展性較差.

后來,隨著機器學習在NLP 領域的興起,人們開始嘗試使用機器學習方法解決實體抽取問題.機器學習方法是指從樣本數據集合中統計出相關特征和參數,以此建立識別模型[19].Lai 等人[20]結合統計原理和條件隨機場模型,對專利中的化學名稱進行識別,在不同數據集上的F值均高于70%.Hwang 等人[21]通過分析學術期刊摘要中同時出現在特定詞語周圍的特定詞語之間的搭配關系,建立了一個實體識別模型.Akkasi 等人[22]利用條件隨機場模型為命名實體識別創建各種基線分類器,然后結合粒子群優化算法和貝葉斯方法對分類器進行選擇和有效組合.實驗表明,該方法選擇的分類器集成性能優于單一的最優分類器,也優于采用其他常用選擇/組合策略形成的兩個語料庫的集成性能.

近年來,基于神經網絡的深度學習技術成為機器學習領域新的熱潮,一些學者開始將深度學習技術應用在NER 問題上,以求進一步提高NER 的效果[23].Peng 等人[24]借鑒LSTM 在自動分詞上得到較好的結果,提出一種LSTM 與CRF 相結合的模型.結果顯示,該方法的F值比之前的方法高了將近5%.Qiu 等人[25]提出了一種基于條件隨機域的殘差擴張卷積神經網絡(RD-CNN-CRF),使模型在計算上具有異步性,大大加快了訓練周期,實現了中文臨床命名實體識別.

1.1.2 關系抽取

實體和實體之間存在著語義關系,當兩個實體出現在同一個句子或同一段落里時,上下文環境就決定了兩個實體間的語義關系,通過關系將實體聯系起來,才能夠形成網狀的知識結構[26].

經典的實體關系抽取方法主要分為有監督、半監督、弱監督和無監督這4 類.有監督的實體關系抽取主要分為基于特征和基于核函數的方法[27].甘麗新等人[28]通過將2 個實體各自的依存句法關系進行組合,獲取依存句法關系組合特征,利用依存句法分析和詞性標注選擇最近句法依賴動詞特征,使用支持向量機實現了實體關系的抽取.但是有監督方法需要大量的標注數據,浪費時間和精力.因此,人們繼而提出了基于半監督、弱監督和無監督的關系抽取方法.陳立瑋等人[29]針對弱監督學習中標注數據不完全可靠的情況,提出基于booststrapping思想的協同訓練方法來對弱監督關系抽取模型進行強化,并且對預測關系時的協同策略進行了詳細分析.Hasegawa 等人[30]提出了一個無監督的關系抽取方法,其核心思想是,根據命名實體之間的上下文詞的相似性對命名實體進行聚類.

隨著近年來深度學習的崛起,學者們逐漸將深度學習應用到關系抽取任務中,主要基礎方法有CNN,RNN,LSTM 等.Leng 等人[31]提出了一種改進的疊加去噪自動編碼器的深度學習模型,用于提取不同命名實體之間的關系.Ji 等人[32]充分利用知識庫的有監督信息,在PCNN 和注意力機制的基礎上實現了關系的抽取.

1.1.3 屬性抽取

屬性抽取是指在無序信息文本中將關注實體的屬性特征進行集中的提取,可以觀察和總結出此實體關于此屬性的價值信息.目前,針對人物屬性的抽取研究逐漸增多,并通過不斷改進研究方法,抽取工作已取得不錯的成果.

屬性抽取當前的研究熱點是對半結構化數據的信息抽取.然而,有大量的實體屬性信息隱藏在非結構化數據中,如何從海量非結構化數據中抽取實體屬性是值得關注的問題.對于非結構化數據的屬性抽取,目前有兩種解決方案:一種是通過自動抽取半結構化數據中的實體屬性,生成訓練語料庫,用于實體屬性標注模型,然后將其應用在非結構化數據的實體屬性抽取中[33];另一種方案是采用數據挖掘的方法直接從文本中挖掘實體屬性與屬性值之間的關系模式,實現對非結構化數據的屬性抽取.實際上,實體屬性值附近一般都存在一些用于限制和界定該屬性值含義的關鍵詞,因此可以利用這些關鍵詞來定位實體屬性值,進行屬性抽取[34].

1.2 數據融合

數據融合主要是指整合表示同一個現實世界對象的多個數據源和知識描述,形成統一的、準確的、有用的描述的過程[35],其過程可分為實體對齊、沖突消解、屬性融合.

1.2.1 實體對齊

在真實語言環境中,經常會遇到同一實體指稱項對應著多個不同實體的情況.例如,“李娜”這個姓名可以對應于作為歌手的李娜,也可以對應于作為網球運動員的李娜.另一種情況同樣存在,即不同實體指稱項對應于同一實體.例如,“孔子”“孔丘”“孔仲尼”等姓名都代表同一個人物“孔子”.因此,實體對齊問題應運而生.實體對齊[36]是判斷相同或不同數據集中的兩個實體是否指向真實世界同一對象的過程.

最初,實體對齊方法主要基于文本相似性函數對實體進行特征匹配.但這種方法僅考慮實體的上下文語義信息,忽略了實體之間存在的“共現”關系.1969年,Fellegi 和Sunter[37]提出一種基于傳統概率模型的實體對齊方法,通過將基于屬性相似性評分的實體匹配問題轉化為分類問題,建立了這個問題的概率模型.這種模型是實體對齊領域的重要方法,迄今為止,仍然有大量的實體對齊方面的工作建立在這種方法之上.

隨著機器學習的興起,很多機器學習方法也逐漸應用到實體對齊領域,并取得了巨大的進展.機器學習方法主要將實體對齊問題看作是二元分類問題,根據是否使用標注數據,可以分為有監督學習和無監督學習兩類.Chen 等人[38]結合兩種監督學習的方法,將多種基礎實體對齊系統和上下文特征映射起來,形成統一的聚類決策模型.

但是在大規模數據的情況下,實體對齊過程中的訓練數據是較難獲取的,往往需要耗費大量的時間和精力去對數據進行標注.Guan 等人[39]提出了一種自學習的實體對齊方法,充分利用了實體屬性中包含的語義信息,迭代查找語義對齊的實體對.

在實體對齊過程中,候選實體對的生成對結果的正確性起著十分重要的作用.通常來說,為了發現所有的候選實體對,需要將一個知識庫中的所有實體與另一個知識庫中的所有實體進行比較,這將導致算法的計算復雜度隨著數據規模二次增長.

1.2.2 沖突消解

檢測出碎片化數據中的相同實體后,我們需要對相同的實體的信息進行融合,將同一實體的所有屬性信息合并成一條完整的實體描述信息.但在融合過程中,不同數據源中同一實體的信息可能會因為錯誤、丟失、數據過期等原因出現沖突的情況[40].因此,我們需要在各數據源提供的值中,選擇與真實世界相一致的值,即數據的真值.這個過程我們稱之為數據沖突消解[41].

數據沖突消解方法層出不窮,現有的數據沖突消解方法大都通過關系擴展的方式實現,并定義了若干沖突消解策略和沖突消解函數[36].但這類方法在適應性和準確性方面分別存在著一定的不足,難以適應大規模數據的沖突消解任務.另外,還有一些沖突消解策略是從多個沖突值中選擇真值.Yin 等人[42]基于一些啟發式規則提出了一個解決數據沖突問題迭代計算的準則,設計出了TruthFinder 算法.但這種方法僅考慮數據源和數據值之間的關系,沒有考慮到數據源之間的依賴關系,這在一定程度上會對最終結果造成不利影響.Lyu 等人[43]提出一種無監督的沖突消解模型,利用數據源-數據源和數據源-數據值之間的關系構造一個異構網絡,并將其嵌入至一個低維空間中,自動地發現數據的真值.

另外,現有沖突消解方法主要是對所有屬性的數據沖突問題采取同等對待的方式.但這些方法并沒有考慮不同屬性的沖突程度可能不同,也沒有考慮不同屬性間的相互影響,這在一定程度上也會導致沖突消解的準確率降低.

1.2.3 屬性融合

在對不同數據源的實體信息進行融合時,我們發現這些數據源的信息中,存在名稱不同含義相同或名稱相同含義不同的屬性.因此,我們需要對實體的屬性進行判斷,把名稱不同但含義相同的屬性進行合并,或者把名稱相同卻含義不同的屬性進行拆分,從而獲得更準確、更豐富的屬性信息.這個過程我們稱之為屬性融合.

現有的屬性融合的方法包括基于相似距離計算的方法、基于統計語言模型的方法和基于詞典匹配的方法等,主要通過建立模型等方式對實體屬性進行相似度計算.2014年,Jakub 等人[44]通過比較數據集的特征和聚集屬性信息來計算兩個屬性的最小距離,再通過KNN 算法實現屬性對齊.該方法能夠在沒有丟失重要信息的前提下實現屬性對齊,能夠預測個人屬性和對齊屬性的距離.

2 碎片化數據融合框架

本節先闡述碎片化數據融合框架的主要結構,然后以華譜系統中碎片化家譜數據融合為例,詳細介紹碎片化數據融合框架中家譜數據在每層的處理過程和解決方案,以驗證本文提出的碎片化數據融合框架的有效性.

2.1 概述

本文提出了一個碎片化數據融合框架FDF-HAO,通過HI、AI 和OI 三者的交互和協同,為多源異構碎片化數據的融合過程提供智能支持.該框架在HAO 智能的技術背景下,以碎片化數據為起點,通過數據獲取、數據抽取、數據規范和數據融合這4 個模塊的處理,最后形成一個由實體和各種關系鏈接而成的網狀知識庫,即知識圖譜.框架圖如圖1所示.碎片化數據融合過程可分為以下4 個部分.

(1)數據獲取層.數據獲取層的主要功能是使用爬蟲技術(AI)從互聯網中獲取不同來源和形式的數據.不同數據源所涉及的數據類型有很多種,如文本文件、表格文件、網頁數據等.因此,數據獲取層中獲取的碎片化數據具有多源、異構的特點;

(2)數據抽取層.為了實現數據的統一存儲,數據抽取層從底層多源異構的碎片化數據中提取出有價值的信息,其關鍵在于結合HI 和OI,采用自然語言處理技術(AI),通過對自然語言的詞法、句法的分析,實現實體、關系、屬性的抽取;

(3)數據規范層.數據規范層的主要功能是:在OI 提供的數據規范標準下,將從數據抽取層中提取的信息標準化、規范化,以避免因語義異構性引起的數據沖突等問題;

(4)數據融合層.數據融合層是碎片化數據融合框架的核心,在HI 和OI 的智能支持下,使用機器學習技術(AI)將數據規范層中標準化后的數據進行實體對齊、沖突解決和屬性融合,形成以關系為有向邊的數據網絡,為后期的高級知識應用和服務提供數據基礎.

Fig.1 FDF-HAO framework圖1 FDF-HAO 框架結構圖

2.2 數據獲取層

首先,在數據獲取層中,主要是從互聯網中采集多源、異構、碎片化的家譜數據.本文使用爬蟲技術(AI),在利用webcollector(https://github.com/CrawlScript/WebCollector)爬蟲框架的基礎上,實現對網絡中家譜數據的獲取.家譜數據源主要為上海圖書館、百度文庫、豆丁網等網站.數據獲取層主要包括以下3 個過程.

(1)確定網頁地址(URL)

通常情況下,傳入爬蟲的是網站的主頁,即用戶最先瀏覽的主頁,而后根據不同的需求在主頁相關的網頁之間進行切換.確定網頁地址有兩種方式:a)通過獲取網站主頁中的超鏈接,確定需要爬取數據的網頁地址;b)尋找網站中各網頁地址的規律,通過代碼自動生成網頁地址.

(2)解析網頁文件

觀察爬取后的數據及其格式,通過程序對數據進行解析,過濾無用數據,提取所需要的信息.

(3)存儲數據

根據爬取數據的格式,為其選擇合適的存儲方式,一般可以存儲為TXT,WORD 等格式的文件.

2.3 數據抽取層

本節首先對家譜數據的文本特點進行總結與分析,然后介紹本文在家譜數據特點的基礎上所設計的家譜數據抽取方法.

2.3.1 家譜數據文本特點

家譜數據的形式主要有表格、文本、網頁這3 種,其中,文本是家譜中較常見的數據類型.而與傳統的文本相比,家譜數據中的文本不管是結構還是語言,都具有其獨特性.

(1)碎片化特征

隨著家譜文獻的數字化,互聯網中的家譜數據逐漸增多,海量的家譜數據堪稱人文社科領域的大數據.由于大數據的特征——海量、多源、異構、碎片化,針對家譜數據的信息抽取任務存在著巨大的挑戰.

(2)結構特點

家譜數據中的文本通常以“世系圖+人物描述”形式記錄人物信息:“世系圖”為樹形結構,記載男性人物親屬關系,該部分可用于人物姓名及關系抽取;“人物描述”為一段記敘性文字,記載該人物屬性信息及其人物關系,該部分是人物信息抽取的關鍵部分.家譜數據的這兩部分結構中的內容可用于交叉驗證人物姓名及關系抽取的正確性.

(3)語言特點

與傳統的文本數據相比,家譜數據使用的語言有其獨有的特點:a)包含大量繁體字及生僻字;b)經常使用一些偏文言文的詞匯和語法,如“妣”“適”等;c)同一份家譜中,人物的描述性信息通常具有相同的模式.

家譜中的人物信息隱藏在文本數據中,計算機很難自動對其進行處理.因此,自然語言處理、數據抽取等技術在家譜數據的挖掘和推理中將發揮重要的作用.同時,家譜數據的碎片化特征、結構特點和語言特點給這些技術在家譜領域內的應用帶來新的機遇和挑戰,其挑戰主要在于家譜的用詞語法和行文風格與開放領域文本或其他領域文本截然不同.因此,已有的自然語言處理工具如分詞、依存句法分析等在家譜數據上都有可能失效.同時,通過充分利用家譜數據的特點,如家譜數據中較強的模式化表達習慣、語言精練準確無歧義等,可以使得處理難度大為降低,并利用結構之間的聯系進行信息歸納和推理.

2.3.2 家譜數據抽取方法

家譜數據多是以自然語言描述的非結構化文本,并且包含大量領域內特有詞匯及語法,與機器語言之間存在巨大鴻溝,導致用計算機直接處理和分析家譜數據的效率較低,也影響了分析結果的質量.通過對家譜數據的觀察,我們發現:家譜數據在行文和布局上具有一定的結構和規律,但不同家譜的行文方式和布局結構又不盡相同.對于具有一定結構的家譜數據來說,采用基于啟發式規則的方法進行數據抽取最為簡單高效.但面對大量不同種類不同結構的家譜數據,如果對每一份家譜均編寫一套相應的規則,將耗費大量的人力物力,在實際應用中,實用性非常低,不具有通用性.因此,本文提出一種基于HAO 模型的通用家譜信息抽取方法,在OI 提供的家譜領域規范的標準下,利用HI 和AI 的協同作用,對家譜數據進行信息抽取.由上一小節中對家譜數據的分析可知,家譜數據中的文本通常以“世系圖+人物描述”形式記錄人物信息.因此,我們分別對“世系圖”及“人物描述”中的信息進行抽取,在經過專家(HI)確認后的“世系圖”數據抽取結果的協助下,對“人物描述”中所包含的人物屬性信息和人物間關系進行抽取.

(1)“世系圖”數據抽取

“世系圖”以樹形結構記載家譜中男性人物的親屬關系.我們可以通過計算機讀取家譜中的“世系圖”部分,從中抽取家譜人物姓名.但是計算機無法自動區分家譜中的“世系圖”和“人物描述”,因此,本文通過與HI 的交互,為計算機提供少量信息,確定家譜中“世系圖”所處范圍.之后,計算機自動抽取“世系圖”中的人物姓名.另外,我們將抽取出的家譜人物姓名作為有監督數據,構建家譜領域人名詞典,以便提高NLP 工具對家譜進行分析處理的精確性.

(2)“人物描述”數據抽取

“人物描述”中蘊含著豐富的人物信息,包括人物姓名、屬性及關系.通過對家譜數據的觀察,我們發現:在“人物描述”中,每個家譜人物的描述信息獨立成一段或多段;并且每份家譜以固定的模式化語句對人物屬性信息和人物間關系進行介紹.

首先,HI 即領域專家們通過對家譜數據的觀察與分析,根據家譜文本描述的前后語義關系,結合對語境的理解,對家譜數據的語言模式進行總結,構建家譜領域全局知識庫,為計算機提供家譜領域外部語義知識.由于家譜語法結構復雜,信息不一,表1 為簡化后的家譜語言模式.其中,N 表示人物姓名,FN 表示父親姓名,P N 表示配偶姓名,SN 表示兒子姓名,XX 為屬性信息.

Table 1 Language schema表1 語言模式

由于不同家譜具有不同的語言模式,本文使用HanLP 漢語語言處理工具[45]提取家譜數據的淺層詞法特征,對家譜數據進行分詞、命名實體識別和詞性標注.但由于家譜的用詞語法和行文風格與開放領域文本不同,為了保證Hanlp 分析結果的準確性,我們需要對家譜中特殊的用詞進行總結,構建家譜領域詞典,為Hanlp 提供家譜領域語義支持.

從表1 中可以看出:人物之間關系和屬性的描述具有一定的規律性,不同種類信息附近通常有固定的、具有語義信息的關鍵詞.因此,在對家譜進行分析處理后,根據分析后的詞語詞性及詞語附近關鍵詞,在全局知識庫提供的語義知識的協助下,判斷當前待處理家譜所對應的語言模式,對家譜進行初步的信息抽取,并自動構建適用于當前家譜的局部規則庫.例如,在關鍵詞“配”“妣”“娶”后的詞性為“人物姓名”的詞語一般為人物配偶姓名,關鍵詞“字”后的詞性為“名詞”的詞語一般為人物屬性“字”的屬性值.

之后,我們根據上一步中構建的局部規則庫,對少部分家譜數據進行抽取,將結果反饋給用戶:若用戶確定當前抽取結果正確,則采用現有局部規則庫;若用戶對抽取結果不滿意,則用戶對數據進行標注,并將標注信息返回至計算機.計算機根據用戶標注信息與原抽取結果的差異,對局部規則庫中的規則進行修正.

另外,由于家譜領域的特殊性,家譜文本中通常蘊含著一些隱性的人物信息.為了確保數據抽取的全面性和準確性,我們根據OI 提供的領域知識,抽取家譜中的隱性信息,對抽取結果進行擴充.例如,利用人物屬性“輩份”添加隱性父子關系:若存在人物集合P={p1,p2,…,pm}的輩份為n,且輩份為n?1 的人物僅有一個,記為人物B,則我們可以認為,人物B為人物集合P的父親.

2.4 數據規范層

數據規范層的主要功能是將數據抽取層中抽取到的信息用一個統一的標準規范化,將這些數據轉換為一種統一的描述,則有利于消除信息的語義異構性.但不同領域通常具有不同的數據規范標準.本文提出在OI 提供的領域數據規范標準的基礎上,制定數據規范原則,具體原則如下.

(1)化“繁”為“簡”原則

對于中文數據,經常會出現繁體字信息.為了數據的統一性,我們需要將所有的繁體字轉換為簡體字進行存儲.目前有許多開源工具類可以進行中文繁簡體的轉換,如ZHConverter(https://github.com/program-in-chinese/zhconverter),OpenCC(https://github.com/BYVoid/OpenCC),OpenCC4j(https://github.com/houbb/opencc4j)等.

(2)標準化原則

對于數據源中存在的表述不一致性問題,我們為不同的數據類型制定一個統一的標準,將數據標準化.人物屬性信息值的數據類型主要有三類:字符串類型、數值類型和時間類型數據.我們分別為這三類數據制定一個標準.

?對于數值類型數據,以阿拉伯數字為統一標準.如果同一人物屬性的兩個事實內容等價,僅是數值表示方式不同,則我們統一選擇以阿拉伯數字表示的數據.假設有兩條來自不同數據源的同一人物的信息:“張三享年七十二歲”和“張三享年72 歲”.采用該條融合規則后,以“72 歲”作為人物“張三”的享年;

?對于字符串類型數據,會存在縮寫詞、簡稱等表示方式,以名稱的全稱為統一標準.名稱的縮寫、簡稱等形式可能與另一名稱的縮寫或簡稱重合,造成歧義.例如,“南大”一詞,可能指代“南京大學”,也可能指代“南昌大學”.因此,為了保證融合結果的清晰明確,在進行融合時,我們選擇名稱的全稱或較為完整的數據;

?對于時間數據,在家譜中時間大多數以字符串型數據存在,如“開皇十八年二月二十二日”“順治乙酉年八月十二日”等.我們需要將這類數據轉換成常見的數據類型,即“yyyy年mm月dd日”.鑒于家譜領域數據的特殊性,我們根據OI 提供的家譜領域數據規范標準,人工構建外部語義知識庫,對特殊屬性值進行規范化.例如:對于上述提及的時間屬性,人工構建古代皇帝年號時間表(見表2)和中國古代紀年表(見表3),計算標準化后的日期.

Table 2 Years of ancient emperors表2 古代皇帝年號時間表

Table 3 Chronology of ancient China表3 中國古代紀年表

2.5 數據融合層

數據融合層是數據融合框架中的核心層,為數據應用層的接口和服務提供數據基礎.數據融合層通過使用機器學習技術(AI),將上一層規范后的數據融合成一個統一、互聯的數據網絡,具體過程可分為以下3 個部分.

(1)實體對齊,找出不同數據源中的相同實體,以便進行下一步的融合;

(2)沖突消解,解決不同數據源中對于同一實體的數據沖突問題;

(3)屬性融合,通過對不同數據源中實體屬性的融合,從多源、碎片化的數據中凝練出實體的統一的準確的描述.

2.5.1 家譜人物對齊

對于海量多源的家譜數據,如果我們對其中的人物做人工標注,將耗費大量的精力.因此,本文使用無監督的方法對家譜中存在的相同人物進行識別.無監督的實體對齊方法的主要思想是,利用相似性等特征將實體聚類到同一類別中[36].

在對大量家譜數據進行研究與分析的基礎上,HI 構建家譜領域內候選實體對生成規則庫,組成候選實體對,之后,利用基于相似性的無監督實體對齊算法(AI)判斷候選實體對中的人物是否相同.實體對齊算法可以分成兩個子模塊:候選實體對生成和候選實體對相似度計算.

(1)候選實體對生成

在該模塊,檢測出兩份家譜中所有可能相同的人物,組成候選實體對.為了提高召回率并且盡可能全面地檢測出人物的候選實體,我們在對家譜數據分析后,總結出在家譜數據中存在相同人物的情況,如下所示.

?兩個人物姓和名完全相同.同名人物為相同人物是家譜數據中最常見的情況;

?兩個人物姓相同,名部分相同.家譜中的人物姓名通常由“姓+輩份+名”組成,但有時人物姓名僅為“姓+名”.例如,“吳自忠”的輩份為“自”,則“吳忠”可能也指代“吳自忠”;

?兩個人物姓相同,一人的名與另一人的字或號完全相同.在一些家譜中,會存在以人物的字或號表示人物的情況.例如,唐朝詩人“李白”字“太白”,因此“李太白”也指代“李白”;

?兩個人物姓不同,名完全相同.隨著時間的推移,“姓氏改易”現象經常發生.皇室賜姓、家族遷徙、人物過繼等情況均會導致姓氏的變化.因此,同一人物在不同時期可能具有不同的姓氏,出現同名不同姓的情況;

?兩個人物相同,則其后代極有可能相同.如果我們已經確定兩份家譜中的人物相同,那么其后代也有很大可能為相同人物.

HI 將上述總結出的家譜數據相同人物的特點轉換成計算機能夠讀取的語言,設計一組簡單有效的候選實體生成規則,使用基于規則的候選實體生成方法為每個待判斷的人物生成一系列候選實體,組成候選實體對.該方法不僅能充分考慮到所有可能性的發生,提供較為全面的候選實體對,保證了結果的召回率,還大大降低了實體對齊的計算復雜度.

(2)候選實體對相似度計算

在這一模塊中,我們采用無監督的基于相似性的實體對齊方法(AI),通過計算候選實體對之間的相似度,判斷候選實體對中的兩個實體是否指代真實世界中的同一個實體.根據對家譜人物數據的語義信息與特征的觀察與分析,我們將候選實體對之間的人物相似度分為語義相似度和關系相似度兩部分.

a)語義相似度

人物的語義信息是判斷人物是否相同的重要依據.語義相似度用來測量人物之間語義信息的相似度.給定兩個待判斷的人物ei和ej,p={p1,p2,…,pn}為人物相同屬性的集合.我們通過兩個人物之間相同屬性的屬性值相似度來計算兩個人物之間的語義相似度,語義相似度計算公式如下:

其中,p={p1,p2,…,pn}表示人物相同屬性的集合;Lpi(ei,ej)表示第i個屬性pi的字符串相似度,計算方法選擇較為常用的Levenshtein 編輯距離[46];ω為每個屬性相似度的權重.這里.我們認為每個屬性的重要程度相同,即每個屬性的權重相同,若屬性的個數為n,則屬性權重為1/n.

b)關系相似度

家譜數據中,每個人物除了具有語義信息以外,人物與人物之間還擁有大量的親屬關系.人物之間關系的相似度,也是判斷人物是否相同的一個重要依據.本文采用基于Jaccard 相關系數[47]的關系相似度計算方法.給定兩個待判斷的人物ei和ej,其關系相似度計算公式如下:

其中,R(ei)代表人物ei的親屬關系,|R(ei)∩R(ej)|表示人物ei和ej相同的人物關系數量,|R(ei)∪R(ej)|表示人物ei和ej所擁有的人物關系數量總和.判斷人物ei和ej的關系是否相同時,為了便于比較,如果人物的對應關系人物的姓名相同,則我們認為人物ei和ej的關系相同.

綜上所述,候選實體對相似度的計算公式如下:

其中,γ和δ分別為語義相似度和關系相似度的權重,用來平衡二者在人物相似度測量中的重要程度.通過對家譜數據的觀察發現:在家譜人物的對齊中,人物的關系相似度比語義相似度更重要,更能反映兩個人物是否為同一個人.舉例來說,如果兩個人物的父親和兒子的姓名均相同,無需考慮人物的屬性,就基本可以判斷這兩個人物為同一個人.并且,家譜數據中人物的屬性信息會存在稀疏性的情況,此時人物的語義相似度對家譜人物的對齊貢獻度較小.因此,考慮家譜數據的實際情況,我們適當增加關系相似度的權重δ.具體的權重設置如下:a)如果家譜數據的屬性稀疏,即屬性的個數小于5,則γ=0.2,δ=0.8;b)如果家譜數據的屬性充足,即屬性的個數大于等于5,則γ=0.4,δ=0.6.本文設置一個閾值S,若相似度分數Sim(ei,ej)大于閾值S,則說明兩個人物相同.

2.5.2 家譜數據沖突消解

針對家譜數據沖突問題,充分考慮到家譜領域特性、分布數據源中的表述不完整性、數據本身可能存在的不一致等,對這些問題進行分析、處理,在OI 對家譜數據真值進行審核和確認后,本文將家譜人物屬性分為兩類——單真值屬性和多真值屬性,并對不同類別的屬性采用不同的沖突消解機制.

(1)單真值屬性

對于單真值屬性,如人物的性別、出生日期、過世日期等,有且僅有一個真值.多數投票規則是指:若某一個值是多數信息源都投票贊成的,則認為這個值有更大的代表性[48].通常來說,對同一實體屬性,出現次數最多的事實往往是準確的:

Ma

(2)多真值屬性

對于多真值屬性,如人物的描述信息,如人物簡介、成就等,沒有標準的正確描述,人物的職業、官職等信息由于時間的推移,會存在多個不同的真值.因此我們認為:如果同一實體屬性ea的事實的內容是相互補充的,則它們合并后具有更高的準確性.為了保證最終融合結果的全面性,采用合并原則,將多數據源的不同描述信息整合后生成一個更為完整的信息:

2.5.3 家譜數據屬性融合

通過對大量家譜數據的研究與分析,我們發現,家譜人物屬性中主要存在以下兩種特殊情況.

a)屬性名稱不同、含義相同.隨著時間的推移,古代人物的一些屬性可能逐漸演變為具有現代特色的屬性,存在“屬性演變”的情況.例如,古代人物的“官職”屬性與現代人物的“職務”屬性名稱不同卻具有相同的含義;

b)屬性名稱相同、含義不同.例如時間屬性,時間屬性有農歷和公歷之分:我國古代傳統歷法為農歷,1912年后開始漸漸使用公歷.因此,家譜記載此年之前的時間通常為農歷,而后的時間通常為公歷.

對于上述情況,現有的單純依靠計算機的屬性融合方法均難以解決.考慮到家譜數據的特殊性,為了保證融合結果的正確性,根據OI 提供的家譜數據格式標準,HI 即領域專家們針對家譜領域內對數據的特性及家譜人物屬性的需求,人工構建屬性語義知識庫,使用一種基于啟發式的方法進行家譜人物屬性融合,具體過程見算法1.

算法1.屬性融合算法.

輸入:屬性集合PRO,屬性拆分規則庫split_rules,等價屬性知識庫equal_rules,人物屬性集合PER_PRO;

輸出:融合后的屬性集合PRO.

本文構建的家譜屬性語義知識庫包括:

(1)屬性拆分規則庫:主要針對屬性名稱相同卻含義不同的屬性.例如:時間屬性有公歷和農歷之分,若屬性值中包含表2 和表3 中“年號”或“古代紀年”中的值,則該時間屬性為農歷時間,在屬性名字前添加“農歷”二字后進行存儲;反之,則為公歷時間并添加“公歷”二字.在數據規范層中,我們已經對農歷時間進行星號標記,因此可以直接為帶有(*)標記屬性值的屬性名稱添加“農歷”二字;

(2)等價屬性知識庫:主要針對屬性名稱不同卻含義相同的屬性.根據專家(HI)提供的領域知識,考慮到“屬性演變”情況,對等價的屬性進行整理并記錄,并為其規定一個標準屬性名稱.例如“官職”?“職務(?)”,“職務”為標準屬性名稱,其等價屬性最終均映射為“職務”屬性.

3 結果展示及對比分析

3.1 結果展示

(1)數據獲取層結果

本文選取4 份家譜數據為例,展示其運行結果.文本是家譜數據中較為常見的數據類型,因此本文選取的家譜示例均為文本格式.在家譜文本數據中,每個人物的描述信息獨立成段,如圖2(a)~圖2(d)所示.由于家譜數據篇幅較長,本文僅截取家譜部分內容以供展示.

Fig.2 Genealogy data圖2 家譜數據示例

(2)數據抽取層結果

獲取家譜數據后,將數據送入數據抽取層,進行信息抽取.為了方便查看,將數據抽取結果以表格形式展示,如表4(a)~表4(d)所示.每一行為一條人物信息,每一列分別為人物的屬性.由表4(a)~表4(d)中可以看出:在數據抽取層中,除一些人物基礎屬性如“姓名”“性別”外,不同家譜中能抽取出的人物屬性不盡相同.例如,表4(c)中人物具有“出生地”屬性,表4(d)中人物具有“字”“號”和“官職”等屬性.

另外,由表4(a)~表4(d)可見:本文提出的基于HAO 模型的通用家譜信息抽取方法,在HI 和OI 的協助下,實現對語義的理解,從而較為有效地對家譜數據中的人物屬性和關系進行抽取,能保證數據抽取結果的正確性.

Table 4 (a)Results of data extraction in Fig.2(a)表4 (a)圖2(a)展示內容的數據抽取結果

Table 4 (b)Results of data extraction in Fig.2(b)表4 (b)圖2(b)展示內容的數據抽取結果

Table 4 (c)Results of data extraction in Fig.2(c)表4 (c)圖2(c)展示內容的數據抽取結果

Table 4 (d)Results of data extraction in Fig.2(d)表4 (d)圖2(d)展示內容的數據抽取結果

(1)數據規范層結果

以表4(d)中“順治乙酉年八月十二日”為例,經過分析可知:“順治”為中國古代皇帝年號,“乙酉年”為中國古代紀年,一甲子(60年)為一個循環.為了將其轉換為標準日期格式,表2 為古代皇帝年號表,表3 為中國古代紀年表.由表2 可知,“順治乙酉年”在1644年~1661年之間.由表3 可知,“順治乙酉年”與1825年的差是60 的整數倍.因此,“順治乙酉年”為1645年,“順治乙酉年八月十二日”應標準化為“1645年8月20日”.對于如“開皇十八年十二月二十二日”這種形式的日期,在年號的基礎上加上相應年份數即可.因此,“開皇十八年十二月二十二日”可轉換為“598年12月22日”.另外,對轉換后的日期進行十字星號標記(?),以便于下一層的數據融合.表4(d)規范化后的結果如表5所示.表4(a)~表4(c)在數據規范層中的輸出結果不變.

由表5 可見,本文提出的數據規范方法能夠簡單有效地將家譜中的人物屬性值轉換為統一的描述,特別是家譜中較難處理的時間類型數據,為下一步家譜數據的融合提供了便利.

Table 5 Results of data specification表5 數據規范結果

(2)數據融合層結果

a)實體對齊

以表4(a)中編號為2 的人物“黃帝”(記為“(a)2”)為例,根據上述提到的候選實體對生成的情況,為該人物在表4(b)~表4(d)中選取候選實體.生成的候選實體對為〈“(a)2”,“(b)2”〉,〈“(a)2”,“(c)2”〉,〈“(b)2”,“(c)2”〉.然后,對每個候選實體對使用第3.4.1 節中的公式(3)進行相似度計算.當γ和δ分別取0.4 和0.6、閾值設為0.5 時,結果如表6所示.最終結果表明,表4(a)中編號為2 的人物“黃帝”與表4(b)、表4(c)中的人物“黃帝”為同一人.

根據家譜內容,我們可以看出:本文所提的實體對齊算法最終識別結果,即表4(a)~表4(c)中的人物“黃帝”均為同一人,是與現實世界一致的.這一結果表明,本文所提的實體對齊算法在實體為家譜人物時的對齊結果是準確有效的.

Table 6 Results of entity alignment表6 實體對齊相似度結果

b)沖突消解

觀察我們識別出的相同人物“黃帝”的屬性信息,發現表(a)中人物“黃帝”的過世日期與表4(b)和表4(c)不同.根據我們制定的沖突消解機制,過世日期為單真值屬性,利用公式(4)得出,“黃帝”的屬性過世日期的真值為“公元前2598年”.由此看出,我們可以根據本文提出的數據沖突機制,簡單高效地解決不同來源的數據中出現的數據沖突問題.

c)屬性融合

根據第3.4.3 節中描述的屬性融合過程,讀取屬性拆分規則庫,對時間屬性“出生日期”“過世日期”進行拆分,拆分結果為“農歷出生日期”“農歷過世日期”“公歷出生日期”和“公歷過世日期”.另外,讀取等價屬性知識庫,我們可知“官職”屬性和“職務”屬性等價,因此將“官職”映射為“職務”.

表7 展示了本文選取的4 份家譜數據的數據融合結果,從結果可以看出:我們能夠將不同來源的碎片化家譜數據中的人物進行融合,凝練出一套的關于家譜人物的統一描述,進而表明本文提出的碎片化數據融合框架FDF-HAO 在技術上的可行性和有效性.最終家譜人物數據的屬性集合除了表7 所展示的屬性外,還包括“曾用名”“世”“輩份”“家庭排行”“住址”等屬性.

Table 7 Results of data fusion表7 數據融合結果

接下表

3.2 結果分析

本小節將碎片化數據融合框架FDF-HAO 中數據抽取層和數據融合層所采用的技術與同類技術的進行對比和分析.

3.2.1 數據抽取層

我們將本文所采用的信息抽取方法與目前較為成熟的開源信息抽取工具DSNFs[49]和Jiagu[50]進行對比.以圖2(b)展示的家譜為例,表8 展示各方法對人物“黃帝”的相關抽取結果.

Table 8 Data extraction results by different methods表8 數據抽取對比結果

由表8 可以看出:我們的方法在家譜數據上能夠準確全面地抽取出人物間關系和人物屬性,DSNFs 僅能抽取部分信息,而Jiagu 未能抽取到人物信息.其原因在于:DSNFs 和Jiagu 均是在依存句法分析的基礎上對實體和關系進行抽取,這類方法受限于中文分詞等NLP 技術的性能,適用于文本句法結構簡單、NLP 技術能對文本進行有效分析和處理的情況下.但家譜數據的用詞語法與我們常用的文本不同,行文風格偏向古文,甚至一些家譜不包含完整的語句.由于家譜數據的文本特點,現有主流信息抽取工具通常很難有效地對家譜文本中不同成分的結構關系進行提取.為此,我們的方法針對家譜數據特點進行設計,通過分析家譜中的淺層詞法特征,在OI 提供的領域知識下,結合專家(HI)對家譜數據的分析,能夠有效地對家譜信息進行抽取.

3.2.2 數據融合層

數據融合層中最為關鍵的一步為家譜人物對齊,下文對家譜人物對齊方法進行對比分析.鑒于家譜人物對齊過程分為兩部分——候選實體對生成和候選實體對對齊,本文將從這兩部分對算法的性能進行對比分析.

(1)候選實體對生成方法

目前,實體對齊算法中,候選實體對生成的方法通常為基于字符串相似度和基于詞典的方法.基于字符串相似度的方法容易產生大量不能對齊的候選實體,導致后續算法的計算復雜度增加.基于詞典的方法需要人工構建詞典,從詞典中尋找所有可能對齊的實體.而構建詞典的過程將耗費大量人力物力.本文通過對家譜數據的分析,制定了一套家譜領域內候選實體對生成規則,采用基于規則的方法為待對齊實體生成候選實體.優點在于:一方面能夠保證候選實體集合中包含可以對齊的實體,即保證了結果的召回率;另一方面,也避免了不能對齊的候選實體數目過多,降低了后續計算的復雜度.

(2)候選實體對對齊方法

在缺乏訓練數據的情況下,除本文使用的基于相似性的實體對齊方法外,還可以采用基于詞嵌入的方法,將實體及其上下文轉換為詞向量進行相似度計算.但詞向量的訓練過程通常需要大規模語料庫或少量種子數據,生成詞向量的好壞依賴于語料庫或種子數據的質量[51,52].這類方法適用于語料庫或標記數據質量較為成熟、訓練出的詞向量效果好、能很好地表示實體語義信息的情況下.而家譜數據領域性較強,缺乏適合的語料庫.在家譜中,判斷兩個人物是否相同的依據就是實體之間的屬性及關系是否相同.本文采用的基于相似性的實體對齊方法,考慮了實體的屬性及實體間關系的相似性,相較于其他實體對齊方法,能夠根據家譜領域特點,簡單高效地計算家譜領域內實體之間的相似性.

4 碎片化數據融合的挑戰和前景

面向多源異構的碎片化家譜數據,本文提出的碎片化數據融合框架能夠對其進行有效融合,但仍存在一些挑戰.

?挑戰1:數據的多模態性

在大數據時代,碎片化數據以文本、圖片、視頻、音頻等不同模態存在.我們在處理這些數據時,需要對其中包含的內容進行識別、提取并存儲.但由于不同模態數據之間的結構差異巨大,沒有統一的數據表示形式和統一的邏輯結構,這使得多模態數據的融合具有一定的挑戰性.另外,互聯網中的多模態數據如圖片、視頻等存在著模糊、有噪聲等情況,因此,多模態數據的信息抽取精度無法得到保證,從而對多模態數據的融合精度造成一定的負面影響.

?挑戰2:數據的不確定性

數據真偽難辨是數據處理及應用的最大挑戰[12].海量多源的碎片化數據,使我們的研究獲得了前所未有的大規模樣本,但也帶來了更多錯誤的、不完整的數據.數據質量良莠不齊,不同來源的數據值可能存在沖突、缺失、描述模糊等情況.為了從海量多源的碎片化數據中準確地找出真實確定的數據,需要利用數據處理方法對數據、數據源等信息進行建模求解.但對于一些數據,即使最好的數據處理方法也難以消除其固有的不可預測性.例如在家譜領域內,一份家譜中的同一人物在不同版本中存在姓名不同的情況.根據家譜內容,我們無法確定造成不同的原因是人物的姓名更改還是書寫時的筆誤,因此該人物的姓名具有無法消除的不確定性.

?挑戰3:數據的單源小體量性

碎片化數據最顯著的特征就是單源小體量性.來自單個數據源的碎片化數據通常內容較短,包含的信息不充足,數據具有較高的稀疏性.因此,在對碎片化數據進行信息抽取和融合時,大多需要借助外部語義知識庫中的語義信息.這種方法雖然能提高算法的精確度,但對外部知識庫依賴度較高.當出現知識庫中不存在的信息時,需要對知識庫進行及時地更新,否則將無法提取新的信息.

?挑戰4:數據的語義異構性

不同數據源的碎片化數據在語義表述上存在一定的差異性,相同含義的詞匯具有不同的表述,我們將之稱為語義異構.數據的語義異構性可能會造成來自不同數據源的碎片化數據無法相互融合,進而導致數據共享、重用無法進行,因此我們必須考慮消除碎片化數據之間的語義異構性.通常來說,我們采用將不同數據源的數據映射到同一套概念體系即本體的方法來解決語義異構.但是本體的構建本身就是一個工作量大的任務.另外,大數據時代中數據的不斷更新也會帶來一些新的概念,這就需要一個合適的機制對本體進行不斷地更新和維護.

碎片化數據融合在多源數據分析和大知識融合領域具有廣泛的研究和利用前景,下面我們分析幾個應用場景.

?應用場景1:同姓家譜的知識擴充以及跨姓家譜的知識挖掘和推理.

碎片化家譜數據融合有利于同姓家譜的合并與擴充.通過對已有的同姓家譜進行關聯計算和合并計算,實現家譜的補齊和擴充,擴展知識網絡.例如,假設存在兩份同姓家譜A和B,經過計算發現二者之間存在關聯:家譜A記錄某家族P從第1 世~第20 世的人物信息,家譜B記錄同一家族P從第10 世~第30 世的人物信息.合并家譜A和B,我們可以得到一份全新的、更為完整的家譜C,記錄家族P從第1 世~第30 世的人物信息.另外,碎片化家譜數據融合也為跨姓家譜的知識挖掘和推理提供了數據支撐.通過對不同姓氏家譜的人物進行對比和分析,尋找跨姓家譜之間的相同人物,以該人物為紐帶,建立家譜之間的關聯,挖掘其中潛藏的姓氏起源、姓氏演變等信息.從家譜數據庫中已有的數據出發,經過計算機推理,建立人物之間的新關聯,從而拓展和豐富知識網絡,推理人物間的愛恨情仇,為用戶解決尋根溯源等問題.

?應用場景2:社交網絡信息分析.

社交網絡用戶數量龐大,微博、推特、豆瓣等常見的社交平臺上每天產生大量的圖片、文字及音頻信息.這些碎片化社交數據中隱藏著許多有用的信息,包括用戶的日常瑣事、興趣愛好、熱點事件的發展過程等等.通過對碎片化社交數據的融合,以用戶為中心,構建用戶社交知識圖譜,預測用戶之間潛在的聯系,為其提供好友推薦、信息推送等個性化社交服務.

5 總結

本文在HI、AI 和OI 三者的交互和協同下,提出了一個碎片化數據融合框架FDF-HAO,并論述了碎片化數據融合框架的層次結構,詳細介紹了每一層的作用、所需要解決的問題和使用的技術.其中,數據獲取層使用爬蟲技術(AI),從互聯網中各數據源獲取碎片化數據,包括文本文件、表格文件、網頁文件等;數據抽取層通過自然語言處理技術(AI),在HI 和OI 的交互和協作下,從這些多源異構的碎片化數據中提取實體、屬性及關系;數據規范層根據OI 提供的領域數據規范標準,負責將數據抽取層中抽取的信息進行規范化和標準化,消除了數據的語義異構性;數據融合層是實現數據融合的核心層,領域專家們(HI)在OI 的協作下構建外部語義知識庫,為數據融合提供智能支持,然后通過實體對齊技術(AI)識別出碎片化數據中的相同實體,再通過沖突消解機制(AI)從沖突數據中尋找數據的真值,最后通過屬性融合(AI)凝練出實體的統一的、準確的、有用的描述,進而完成數據的融合,形成知識庫.

與已有的特定領域知識圖譜構建相似,本文是在現有的知識圖譜構建技術的基礎上,通過對數據的觀察和分析,對技術進行優化和改進.但不同之處在于:本文結合HAO 智能模型,通過HI、AI 和OI 三者的交互和協作,為海量多源異構的碎片化數據融合提供了智能支持,能夠解決一些僅依靠計算機無法解決的問題.另外,本文結合家譜領域特征,將家譜領域知識貫穿于碎片化家譜數據融合的過程中,對各階段結果進行約束和改進,有效地提高了數據融合結果的準確性和全面性.

本文以華譜系統中碎片化家譜數據融合過程為例,詳細介紹所提框架在每層中的具體處理思路和方案,為解決碎片化數據融合問題和中文知識圖譜構建問題提供了一個新思路,即:在現有成熟模型和方法的基礎上,結合HAO 智能模型,為中文知識圖譜構建提供智能支持,以便更好地提高數據的準確性和可用性.另外,本文在框架內各層次中提出的方法也具有一定的通用性,對其他領域的中文知識圖譜構建可能具有一定的借鑒意義.

目前,關于碎片化數據融合的研究尚處于初步階段,仍存在著許多困難和挑戰.本文通過對碎片化數據融合過程進行高度抽象和建模,提出了FDF-HAO 框架,若將該框架遷移到其他領域,需根據領域數據特點調整FDFHAO 框架的各部分具體實現,存在一定的難度.例如在復雜的社交網絡場景中,包含著以用戶為中心的不同維度、不同領域的碎片化社交數據.但是隨著互聯網的不斷發展,網絡平臺更新換代,網絡詞匯層出不窮,網絡信息多元多樣,社交網絡數據在自然語言理解和分析方面上具有很大的挑戰性,這為社交網絡數據的信息抽取和融合增加了一定的難度.同樣,在網頁數據中也包含著大量涉及以人物為中心的人物生平、經歷、傳記、新聞等碎片化數據.然而在不同網絡平臺中,數據的描述方式和內容側重點不同,并且存在著大量的數據不確定性、語義異構性等問題,因此給現有的數據融合研究帶來了很大的挑戰.在后續的研究中,我們將首先繼續優化本文提出的FDF-HAO 框架;接著,研究將該框架分別應用于融合碎片化的社交網絡數據和互聯網中碎片化的網頁數據;最后,以構建整合的人物知識圖譜為目標,將家譜、社交網絡、網頁這3 個維度的碎片化數據進行融合,從親屬關系、社交關系、人物生平等多個維度構建更加完善的人物知識圖譜,從而為用戶提供更好的大知識服務.

猜你喜歡
語義融合信息
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
語言與語義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 成年av福利永久免费观看| 精品国产中文一级毛片在线看| 国产女人在线视频| 四虎永久免费地址在线网站 | 国产爽爽视频| 97视频免费在线观看| 久久精品人人做人人综合试看| 伊人激情久久综合中文字幕| 国产欧美精品午夜在线播放| 午夜一级做a爰片久久毛片| 亚洲中文在线视频| 中文字幕无线码一区| 欧洲精品视频在线观看| 亚洲免费福利视频| 亚洲性影院| 97在线观看视频免费| 日韩毛片免费观看| 在线日韩日本国产亚洲| 亚洲成A人V欧美综合| 欧美a在线视频| 亚洲欧洲日韩综合色天使| 一本久道热中字伊人| 亚洲男人在线| 国产乱视频网站| 精品久久久无码专区中文字幕| 国产精品亚洲一区二区三区在线观看| 亚洲精品福利视频| 久久国产精品无码hdav| 欧美成人一区午夜福利在线| 久久96热在精品国产高清| 国产区人妖精品人妖精品视频| 一区二区三区高清视频国产女人| 91po国产在线精品免费观看| 国产毛片不卡| 亚洲国产精品日韩专区AV| 囯产av无码片毛片一级| 秋霞一区二区三区| 精品人妻AV区| 国产免费看久久久| 国产精品私拍在线爆乳| 国产欧美在线观看视频| 亚洲成人网在线观看| 国产精品亚洲日韩AⅤ在线观看| 毛片大全免费观看| 91成人在线观看视频| 全部免费特黄特色大片视频| 国产成人综合久久| 91青青视频| 久久久久人妻一区精品色奶水| 2019年国产精品自拍不卡| 国产精品久久久久久久伊一| 毛片网站观看| 亚洲国产精品无码久久一线| 国产另类乱子伦精品免费女| 91成人免费观看在线观看| 免费国产高清视频| 亚洲日产2021三区在线| 欧美97欧美综合色伦图| 青草精品视频| 四虎国产永久在线观看| 天天综合网色中文字幕| 日韩中文精品亚洲第三区| 国产99视频在线| 欧美日韩中文国产va另类| 国产精品人莉莉成在线播放| 一级高清毛片免费a级高清毛片| 精品无码一区二区三区电影| 亚洲成人一区二区| 在线免费观看AV| 久久91精品牛牛| 99尹人香蕉国产免费天天拍| 精品成人一区二区三区电影| 国产男女XX00免费观看| 国产一二三区在线| 国产精品九九视频| 亚洲欧美成人在线视频| 久久亚洲国产最新网站| 国产精品成| 国产成人精品日本亚洲77美色| 一区二区理伦视频| 久久精品一品道久久精品| 在线日本国产成人免费的|