雙語影視知識圖譜的構建研究

2016-10-12 08:31:00王巍巍王志剛潘亮銘劉陽張江濤

北京大學學報(自然科學版) 2016年1期

王巍巍王志剛潘亮銘劉陽張江濤

雙語影視知識圖譜的構建研究

王巍巍王志剛?潘亮銘劉陽張江濤

清華大學計算機科學與技術系知識工程實驗室, 北京 100084; ?通信作者, E-mail: wangzigo@gmail.com

提出一種雙語影視知識圖譜(BMKG)的構建流程。通過半自動化的方法構建了雙語影視本體(BMO), 將各個影視數據源對齊到BMO, 以保持異構數據源的語義描述一致性。在知識鏈接方面, 在充分挖掘和利用領域特征的基礎上, 采用基于Word2Vec和TFIDF兩種向量模型的實體相似度計算方法, 使相似度特征增加一倍, 大大提升了模型的鏈接效果。在實體匹配方面, 提出基于相似度傳播算法的實體匹配算法, 并利用影視數據源之間的內在聯系, 克服了跨語言實體之間計算相似度的語言障礙。實驗結果表明, 當閾值取到0.75以上時, 實體匹配的準確率都能達到90%左右。此外, 還建立了影視知識圖譜共享平臺, 并提供開放性的數據訪問和查詢接口。

影視本體; 雙語; 知識圖譜

隨著互聯網和智能設備的普及, 影視已經成為人們娛樂生活中不可或缺的一部分, 而互聯網是人們最重要的影視信息來源之一。人們可以很方便地在優酷土豆、愛奇藝等視頻網站上觀影, 也可以在豆瓣電影、IMDB和百度百科等網站上獲取影視以及評論信息。然而, 有些用戶對影視信息有更深層次的需求, 比如制片公司、廣告商等往往期望了解影視作品在人員、受眾、時間、地域、收視率等不同維度上的統計信息。目前, 大部分影視挖掘算法和相關系統的分析效果通常依賴于背景知識庫的質量, 因此工業界和研究領域均對高質量影視知識庫有著非常迫切的需求。

國際上, 影視本體構建工作進展很快, 開放數據云(linked open data, LOD)上已經出現一批如LinkedMdb、Freebase等著名知識庫, 但大多以英文知識為主。目前, 國內雖然已經出現比較優秀的中文影視網站, 但在影視本體知識庫的構建方面相對落后。相對于英文影視知識而言, 能夠公開獲取的中文影視數據源中, 影視知識的結構化較差, 且描述信息較少, 缺乏一個統一的語義描述標準。所以, 融合優質的中英文影視數據源, 構建統一接口、統一語義的雙語影視本體知識庫, 將會為國內的影視信息的挖掘和利用提供重要的基礎支撐, 同時, 對擴大中文影視知識在國際上的影響力具有重要的意義。

總體來說, 雙語影視知識庫的構建工作會面臨以下幾個方面的挑戰。

1)雙語影視本體構建。當前沒有成熟可用的多語言影視本體, 因此, 需要根據實際需求, 考慮中英文知識平衡性, 重新進行構建。

2)語義信息抽取。從不同的數據源中抽取結構化影視知識, 需要進行數據過濾、去噪、清洗、結構化、語義對齊等一系列復雜的預處理過程。

3)對象型屬性實體鏈接。需要解決關鍵問題: 一是命名實體識別, 即如何從屬性短文本中, 特別是中文文本中進行實體邊界的識別; 二是領域相似度定義問題, 即如何利用影視領域知識, 構建具有足夠區分度的實體相似度計算公式。

4)大規模實體匹配以及跨語言實體匹配。需要解決大規模實體匹配的計算可行性問題以及跨語言匹配時, 克服實體相似度計算中的語言障礙。

基于以上分析, 我們提出一種雙語影視本體知識庫的構建流程, 并對關鍵技術進行研究, 其中包括半自動化的影視本體構建、對象型屬性實體鏈接和基于相似度傳播的實體匹配。為了實現知識共享和可視化, 本文中還構建了雙語影視知識圖譜(Bilingual Movie Knowledge Graph, BMKG)應用平臺, 并開放數據訪問和查詢接口。

BMKG集成并融合了豆瓣電影、百度百科、LinkedMdb和DBpedia等多個中英文影視數據源, 包含七十多萬個影視實體, 一千多萬條三元組數據, 并建立了60萬條到多個開放數據源的外部鏈接。

表1給出知識庫的綜合統計數據。

表1 綜合統計

1 相關工作

自20個世紀90年代起, 語義網相關技術開始蓬勃發展, 本體技術成為研究熱點, 以Dbpedia和WordNet[1]等為代表的一批優秀的本體知識庫開始涌現, 標志著語義網技術走向成熟, 進入到實際應用階段。然而, 由于本體知識庫的構建工作是一項非常復雜、費時費力的系統性工程, 進展相對緩慢, 已經成為本體技術發展的瓶頸之一, 因此研究和構建各種本體知識庫成為當務之急。

國際上, 以 DBpedia為核心的LOD開放數據云中本體知識庫大多以英文知識為主, 尤其是影視領域方面, 英文知識庫的研究工作一直處于領先地位。Hassanzadeh等[2]在2009年發布影視本體知識庫LinkedMdb, 該知識庫是以影視知識為中心的鏈接型知識本體。2010年, 蘇黎世大學的Bouza等在LOD中公布構建的影視本體MO①, 為大多數的影視數據生產者提供了一個一致的語義規范。大規模知識圖譜Freebase也含有豐富的影視知識, 并建立了一套非常優秀的影視概念體系。

我國的本體構建技術研究還處于起步階段。在領域本體構建方面, 雖然已經有了一些成果, 如中文語言本體知識庫HowNet②、醫療領域本體知識庫[3]和多民族語言本體知識庫[4], 但總體來說, 涉及的領域較少, 在規模和質量上遠不能滿足現實應用的需求。尤其在有廣泛應用前景的影視領域方面, 國內還沒出現高質量的知識庫。

本體知識庫大多都采用半自動化方法構建而成, 構建的復雜程度與所用數據源的質量和規模有關。例如, DBpedia是從維基百科網頁數據中抽取多語言的數據[5], 主要側重于知識的結構化, 在進行大規模半結構化數據處理過程中, 需要引入大量的人工操作, 構建過程十分繁瑣復雜。LinkedMdb的知識規模小, 操作對象數據源基本上都是優質的RDF數據源, 并且主要側重于建立異構數據源之間的知識鏈接, 構建過程相對簡單。

BMKG涉及兩種語言的數據源, 中文選用半結構化網頁數據源, 英文選用優質的RDF數據源。因此, 可以借鑒上述兩種知識庫的構建方法, 分別構建中英文影視知識庫。

在構建知識庫的過程中, 為了實現知識融合, 需要對各個異構的知識庫進行大規模的實體匹配。隨著實體匹配方面的國際性競賽(OAEI)不斷舉行, 涌現出越來越多的實體匹配算法。PARIS[6], SIGMA[7]和RiMOM[8]是比較有代表性的算法, 都采用基于圖的相似度傳播(Similarity Flooding[9])思想, 能夠充分利用數據的結構化進行實體匹配。在跨語言實體匹配方面, 基于通用算法, 克服了實體相似度計算中的語言障礙。文獻[10]通過中文維基頁面, 建立英文維基與百度百科之間聯系, 并提出基于因子圖的知識鏈接方法, 取得非常好的效果。

2 雙語影視知識圖譜的構建流程

BMKG構建的基本流程包括5個步驟, 如圖1所示。

1)本體構建: 通過復用現有的知識本體, 半自動化構建雙語影視本體。

2)語義信息抽取: 從數據源中抽取結構化影視知識, 并在語義上對齊到雙語影視本體。

3)對象型屬性實體鏈接: 針對知識庫中對象型屬性值, 進行命名實體識別和實體鏈接工作。

4)實體匹配: 在異構數據源之間進行實體匹配, 實現不同數據源的知識融合。

5)雙語知識圖譜共享平臺: 雙語影視知識庫的可視化應用平臺, 實現數據可視化和查詢功能。

2.1 數據源

BMKG選擇數據源的標準: 影視數據源的規模和質量、數據的獲取難度、數據源是否保持更新。因此, 我們主要從如下數據源抽取影視知識:

1)豆瓣電影是當前最著名的中文影視評論網站之一, 提供最新的影視介紹以及評論信息, 并且提供開放性的數據訪問接口。其數據具有結構化、鏈接豐富、語義一致性好的優點。目前我們獲取了127406個影視作品, 70534個影視人, 但信息內容相對簡單, 同時也缺乏豐富的影視屬性描述。

2)百度百科是當前最大的中文百科全書。近幾年來, 百度百科數據, 尤其是在影視信息方面, 無論規模還是質量都有顯著的改進, 影視信息較為豐富, 可以作為豆瓣影視數據的有效補充。我們抽取了69861個影視實例, 42012個影視人。然而, 由于是基于人工編輯的半結構化文本, 且不同時期編輯的網頁數據質量差異很大, 所以給語義信息抽取工作帶來一定的挑戰。

3)LinkedMdb是一個開放性、高質量的英文影視知識庫, 它從IMDB, Freebase, DBpedia等數據源抽取知識, 包含85620部影視作品、107768位影視人、6148121個三元組、162199個內部鏈接以及541810個外部網頁鏈接。遺憾的是, 該知識庫自2010年2月后不再更新。

4)DBpedia (Wikipedia) Movies是結構化的維基百科RDF數據, 包括10多萬部影視作品、10多萬影視人以及大量鏈接信息, 其數據質量類似百度百科, 是LinkedMdb的有效補充。

5)Freebase是共享的全球性知識圖譜, Film/TV等影視類數據是其重要的組成部分。截至2015年5月, 有超過40萬的影視作品以及數百萬影視相關實體信息。與其他知識庫相比, Freebase提供了更詳細的影視數據, 其概念和屬性也頗為豐富。但是, 2014年之后, Freebase不再提供完整的RDF數據集下載。

2.2 雙語影視本體構建

本體構建是對概念本身以及概念與概念之間關系進行形式化描述, 一般包含本體需求分析、考察可復用本體、建立領域核心概念、建立概念分類層次、定義類和創建屬性以及本體評價和進化6個步驟[11]。針對不同的領域和不同實際需求, 本體構建方法也有所不同。我們研究了當前多語言影視領域本體實際情況, 給出雙語影視本體的構建思路。

2.2.1 復用已有本體, 建立概念結構體系

當前已有許多成熟的影視本體, 如國際上比較權威的MO和Freebase Film。MO采用以影視作品為中心的平行概念結構, 主要定義了作品、人物、體裁和地區等概念, 其中以體裁和地區最為詳細, 具有3~4層的分類層次, 但概念的涵蓋面較小, 語義粒度較大。Freebase Film的概念描述體系較為復雜, 涵蓋影視信息的各個方面, 涉及概念非常多, 語義粒度也較細, 但我們實際上很難獲取到如此詳盡的影視信息。

在概念層次結構上, 上述本體都是以影視作品和影視人為核心的扁平化概念層次結構。我們復用這種概念體系結構, 但在概念粒度的選取上, 采用契合本地數據源的最小粒度方案。以“公司”為例, 根據Freebase Film的分類可以進一步分為制片公司、發行公司兩個類, 但實際上所采用的數據源中僅百度百科有部分“公司”相關數據, 且信息量較少, 無法支持更細粒度的概念分類, 因此放棄使用這兩個子分類。當然, 如果數據能夠有效支持上述兩個分類, 我們會盡量在更細的概念粒度上進行描述。

在核心詞匯的選取上, 我們盡量使用標準影視詞匯集: 英文詞匯方面, 主要從上述本體中進行抽取; 中文詞匯方面, 我們根據考查詞匯在當前大型影視網站的流行度, 選取流行度最高的詞匯集。最后手工對齊中英文的影視詞匯, 構建雙語核心影視詞匯集。

2.2.2 建立多元影視屬性描述結構

在影視數據中, 一些屬性有多元信息的描述需求, 比如演員表屬性要分別描述演員名、演員id及角色等多種信息, 通常的三元組無法同時進行描述, 因此本文引入中間節點(匿名節點)來承接這些多元信息。

有些屬性描述是一個列表, 但有時節點在列表中的順序被認為是重要的, 如演員表通常有多個演員, 但主演應該排在更前面的位置, 因此本文引入有序節點。它是匿名節點的一種, 區別是添加了一個額外的屬性來標記節點的順序。表2是用有序列表來描述演員表屬性的示例。

表2 匿名節點實例

說明: bmkg_blanknode:10是匿名節點id, 描述的是影片“中國合伙人”中的主演黃曉明的信息, 加粗的一行表明其排在演員表的第1位。

根據觀察, 絕大部分影視數據(例如演員屬性)的內容文本的編輯順序基本上表現了實體的重要性, 因此本文節點的順序主要依據字符串或表格中實體出現的先后順序進行確定。

現階段的雙語影視本體, 共建立了23個概念和91個屬性, 由于篇幅原因, 本研究所構建的雙語影視本體將在影視共享網站平臺①上給出。

2.3 影視結構化知識抽取

影視結構化知識抽取是從各異構數據源抽取影視知識, 并對各種格式的數據進行分析, 統一語義、統一結構的過程, 大致包括如下5個模塊。

1)網頁解析。該模塊主要是網頁模式的分析以及網頁中表格信息的抽取。其中, 采用基于樹編輯距離的自適應學習方法[12], 可以有效提升表格抽取的效率, 有效抽取大部分模式的表格數據。

2)影視信息抽取。主要任務是從百科類數據源中篩選出影視信息。影視詞匯的詞頻和共現率都很高, 基于關鍵字過濾的方法能有效地抽取大部分影視數據。此外, 利用文獻[13]提出的基于智能結構化感知的實體抽取技術, 能夠充分感知數據中結構化知識, 進一步地迭代抽取所需類別實體。

3)屬性對齊。該過程的主要任務是統一異構數源中屬性描述詞匯。雙語影視本體的概念和屬性很少, 對屬性進行頻度統計, 發現屬性描述信息是一個長尾分布, 常用的屬性名非常少, 因此, 可以花費非常小的代價, 人為構建同義詞映射表實現屬性對齊, 確保不同數據源語義對齊方面的正確性。

4)屬性值處理。對屬性值中的長文本進行初始分割, 主要任務是識別文本中的詞匯語義邊界(如標點符號、空格、超鏈接、不同語言單詞的交界等), 將文本分割為更小粒度的文本塊, 以減少后續命名實體識別的難度。

5)實體類別識別。公開的影視數據集依賴于群體編輯, 存在多種不同的概念層次結構, 且概念語義粒度不一致, 上下位關系紊亂, 甚至會產生歧義。該步驟的目的是通過基于文本規則的方法, 初步確定實體類別, 例如, 百科頁面中“劉德華”可以通過職業屬性判斷他屬于演員、制片人等類別。在后續大規模實體匹配基礎上, 通過知識互補以及相應的推理機制, 進一步完善實體的類別信息。

經過上述5個步驟后, 源數據轉化為結構化JSON格式數據。

2.4 對象型屬性實體鏈接

對象型屬性即取值范圍, 指定類型實體的屬性。如演員表屬性, 其值是演員實體列表。命名實體通常指人名、機構名、地名以及其他所有以名稱為標識的實體。對象型屬性實體鏈接工作的任務是將對象型屬性值中未標注的命名實體識別出來, 并建立其到相應實體的知識鏈接。

2.4.1 屬性值命名實體識別

命名實體識別過程通常包括兩部分: 確定實體類別實和體邊界識別。對于前者, 根據屬性取值范圍已經基本上確定了實體類別。對于后者, 英文的命名實體之間幾乎都有明顯的標識, 比較容易識別, 因此本研究主要針對中文命名實體邊界的識別。

結構化好的數據源(如豆瓣), 其對象型屬性值中命名實體已經基本上標注出來。半結構化數據源(如百度百科), 許多命名實體并沒有進行標注, 屬性值大多以文本形式存在, 主要有3種情況: 1)含有超鏈接信息的文本, 即文本中將實體信息以超鏈接形式出現; 2)有明顯語義標記的文本, 命名實體之間用一致的標點符號分隔, 且沒有歧義; 3)沒有明顯語義邊界的長文本, 命名實體之間沒有分隔符, 或使用如空格、“-”等有歧義的分隔符。對于前兩種情況, 在語義信息抽取的屬性值處理過程已經處理過, 因此我們主要對第3種情形進行處理。

我們選用ansj②作為中文分詞工具。ansj是基于條件隨機場和Google語義模型的開源工具, 在分詞正確率以及分詞速率方面有非常好的表現。中文分詞工具通常也帶有命名實體識別功能, 但一般僅能識別人名、地名、機構名等通用類別的實體, 且對合成詞的識別效果不好。我們通過詞典來改進命名實體識別的效果。一方面, 結合我們收集和整理的大規模通用細胞詞庫, 能夠大大提高分詞的正確率, 并增大分詞的粒度。另一方面, 在分詞序列的基礎上, 利用影視領域詞表進行最大詞塊匹配, 能夠充分識別已登錄的合成詞, 提升命名實體識別的效果。

2.4.2 實體鏈接

實體鏈接的核心是計算命名實體和候選實體的相似度。選擇相似度最大的候選實體作為鏈接的目標實體[14], 選擇合適的文本語義特征來計算實體相似度是實體鏈接的關鍵性問題。文獻[15]是在維基百科數據集上的知識鏈接補全工作, 采用文檔中豐富的出入鏈信息作為基本元素來計算文檔相似度, 在此基礎上, 通過加權的7個文本語義特征來計算實體的語義相似度。

本文借鑒上述加權思想, 并根據實際情況做一些改進: 一是百度百科的鏈接質量不高, 基于出入鏈的文檔相似度計算方法不再適合, 需要重新定義; 二是考慮到影視領域特征, 重新提煉文本特征計算實體相似度。

定義1 文檔相似度。我們采用基于向量空間文檔相似度的計算方法, 將文檔表示為兩種向量形式: 一種是TF-IDF向量, 標記為t;另一種是Word2Vec向量, 標記為w。w是通過整個百度百科語料庫學習得出Word2Vec[16]詞向量, 然后計算文檔中詞向量的平均值而得到。給定百度百科中兩個實體文檔, 根據不同的文檔向量表示方式, 文檔相似度定義如下:

其中,t(),t(),w(),w()分別為實體和的TF-IDF和Word2Vec向量。

定義2 語義相似度。假設是一個實體集合, 實體與之間的語義相似度定義為

定義3 實體相似度。文檔對應的實體記為, 詞匯全集記為text,是屬性中某一命名實體,的屬性名領域詞集記為attr_name(), 屬性值領域詞集為attr_value(), 影視領域詞匯全集為domain, 相應的向量分別記為attr_name(),attr_value()和domain, 正文和屬性框的出鏈實體集合分別為article和infobox, 頁面入鏈集合為all,是的候選實體。如表3所示, 定義7個特征相似度, 有兩種文檔向量形式, 計算可得到14個特征相似度。實體相似度定義如下:

其中, 特征權重值可以通過logistic線性回歸模型進行學習。采用十折校驗法進行評測, 當僅用TF-IDF向量計算7個特征時, 模型正確率為82.1%, 僅用Word2Vec向量時為78.2%, 使用全部特征時, 正確率提高到88.2%。

表3 特征相似度

通過建立相似度閾值、關鍵詞過濾、時間過濾等規則, 對模型結果進行修正, 進一步提高結果的正確性。采用基于隨機采樣的人工評測法進行估算, 鏈接的平均正確率在95%以上。

2.5 大規模實體匹配

為了實現不同語言異構影視數據源的知識復用和融合, 我們結合影視領域的實際情況, 研究基于SF的實體匹配算法, 在中英文數據源之間進行大規模實體匹配工作。

2.5.1 基于Similarity Flooding的實體匹配算法

近年來出現的比較優秀的大規模實體匹配算法大都借鑒了SF算法[9]的核心思想, 并且在各自的應用場景中取得不錯的效果。如圖2所示, SF算法以兩個圖作為輸入, 輸出對應結點的映射。SF算法的主要思想是將兩個元素相似性的部分傳播給其在圖中各自的鄰居, 這種傳播方式類似于IP廣播。

文獻[9]中, SF是在小規模的異構本體schema數據集上實現的。根據相似度傳播圖的構建方法, 圖規模會隨節點數量呈幾何倍數增長。從表4的統計數據可以看出, 影視作品和影視人之和皆在10萬以上, 按照原有算法, 相似度傳播圖將達到100億的規模, 計算量非常可觀, 所以必須減小圖的規模, 算法才具有可行性。

表4 實體統計表

在實際構圖過程中, 預先對實體對進行剪枝, 具體步驟: 1)排除不同類別的實體對; 2)排除不同上映年份的影視作品實體對和不同出生年份的影視人物實體對; 3)計算候選實體對的相似度, 剔除相似度低于一定閾值的實體對。剪枝之后, 相似度傳播圖中的節點數量下降到300萬左右, 大大減少了算法的計算量。

除選擇合適的匹配框架外, 如何提煉數據中合適的內容特征和結構特征來計算實體之間的相似度, 使相似度能夠具有足夠大的區分度, 也是實體匹配任務的關鍵性問題。

2.5.2 實體相似度

實體的相似度主要考慮兩個問題: 實體主題詞相似度(代表實體的標題信息)和屬性相似度(代表實體的結構化信息)。

1)實體主題詞相似度。

實體的主題詞, 又稱為實體標題詞、標簽詞, 是表達實體的核心詞匯。除標題詞外, 影視實體通常還有一些別名, 例如, 影片“中國合伙人”的主題詞和別名如表5所示。

表5 影片主題詞示例

歸并實體別名、同義詞匯構成主題詞集, 以詞集之間的相似度代替標題詞相似度, 能夠顯著提高實體匹配的召回率。主題詞相似度定義如下:

2)屬性相似度。

不同類別屬性的相似度公式也不一樣, 通常有以下幾種情況。

① 二值型:

②字符串型:

③數值型:

④列表型: 如演員表、代表作品等屬性, 其屬性值通常是由多個實體組成的列表, 相似度定義為

3)實體相似度。

綜上所述, 我們定義實體相似度為

2.5.3 跨語言實體匹配

對于相同語言的知識庫(如豆瓣和百度百科), 可以直接采用基于SF的匹配算法。對于跨語言實體匹配而言, 關鍵在于建立不同語言實體之間的聯系, 克服相似度計算的語言障礙。文獻[10]以中文維基為橋梁, 基于維基百科頁面中的多語言等價鏈接信息以及頁面出入鏈信息計算相似度, 繞過了不同語言文本之間相似度的計算。

與文獻[10]相同, 通過影視數據源中普遍存在的IMDB鏈接, 可以得到大量的等價實體。IMDB鏈接具有全球唯一性, 具有相同IMDB鏈接的實體是等價的, 統計數據如表6所示。不同之處在于, 我們所匹配的知識庫是異構的, 頁面的內部鏈接不具有共指性, 不能采用基于頁面出入鏈的方法來計算相似度。但是, 豆瓣和百度百科提供了大量的英文別名信息, 如表7所示。雙語詞對的平均覆蓋率在60%以上, 基于這些信息構建大規模雙語映射詞典, 可以將部分命名實體映射為統一語言的文本。

表6 IMDB鏈接統計

表7 雙語詞對統計表

事實上, 在影視領域中, 由于知識結構簡單一致、信息量豐富。要判斷兩個實體是否相似, 只需要使用實例的一部分信息即可。如判斷兩部電影是否相似, 只要匹配影片名、年份、演員、導演、編劇、制片人等信息中的3~4個, 其正確率都在95%以上。鑒于這種領域特點, 即便只有六成多命名實體對覆蓋率, 基于部分文本相似度計算公式也有非常大的區分度。另外, 我們還從其他(如Wikipedia, Freebase等)知識庫中抽取更多的雙語詞對來提升映射詞典的覆蓋率, 盡量避免由詞典覆蓋率不足帶來的相似度矩陣稀疏性問題。利用這種部分映射的方法, 解決了跨語言實體相似度計算問題后, 其他步驟與同語言實體匹配相同。

我們在上述4個知識庫之間進行實體匹配, 首先是同種語言數據源的實體匹配, 然后根據匹配的實體進行數據源合并, 最后將合并后的中英文數據源進行實體匹配。考慮實際數據情況, 實驗僅對知識庫中主要實體進行匹配, 統計數據如表4所示。

在以上4個異構數據源之間, 我們進行3次不同的實體匹配: 1)百度百科與豆瓣電影之間的中文實體匹配; 2)LinkedMdb和DBpedia之間的英文實體匹配; 3)在前面兩步基礎上, 合并中英文數據集之間的跨語言實體匹配。

為了分析SF傳播算法的性能, 分別使用傳播前后的實體相似度作為標準, 考察不同閾值下的實體匹配結果。由于數據規模較大, 且難以確定標準的數據集, 所以采用隨機抽樣的人工評估方法。匹配結果如表8所示。

表8 實體匹配結果

從表8可以發現以下幾點。

1)閾值對結果的正確率和正確匹配的數量影響很大。當閾值為0.9時, 正確率很好, 但是匹配數很少; 當閾值取0.6時, 匹配數量大幅增加, 而正確率卻下降很快。

2)使用SF傳播算法后, 匹配的正確率有了顯著的提升。這是因為傳播算法能夠有效地降低錯誤匹配實例的相似度。例如, 電影實體銀行與The Champion間的相似度高達0.8255, 這是因為二者均為卓別林于1915年導演的電影, 進行3次SF算法迭代后, 相似度降低到0.6564。

3)SF傳播算法的召回率有所降低。由于相似度傳播圖的稀疏性(即節點的平均入度較小, 導致部分節點的相似度無法得到充分傳播), 會降低部分正確匹配實體對的相似度, 使召回率有所降低。

另外, 隨著迭代次數的增多, 引入錯誤的影響會隨著相似度的傳播而不斷放大。因此, 選擇合適的迭代次數, 對結果影響也比較大。

3 雙語影視知識圖譜共享平臺

知識圖譜是利用信息可視化技術構建的一種知識之間的關系網絡圖。我們建立了知識圖譜共享平臺, 目的是為了在概念、屬性、實例等多個維度對BMKG進行展示, 并將實體之間的相互鏈接關系以可視化的形式表現出來。網站基于Apache開源框架進行開發, 并采用Virtuoso作為數據庫服務器, 主要提供三方面的功能: 1)雙語影視本體的基本信息, 提供知識Schema和知識庫的統計信息; 2)數據查詢接口, 包括SPARQL終端查詢接口、分類索引查詢接口以及復合查詢接口; 3)知識網絡的可視化, 將實體之間鏈接關系以可視化的方式展現出來。

4 結論

本文提出一種融合多個異構數據源的雙語影視知識圖譜的構建流程, 并對整個過程中所遇到主要問題和挑戰以及解決方法加以描述, 旨在構建語義一致、結構一致的中英文雙語影視本體知識庫。

首先, 我們構建了雙語影視本體BMO, 為中英文影視知識的提供一個規范性的描述框架, 并通過5個影視結構化抽取過程, 統一了各個數據源語義描述。在實體鏈接問題上, 我們總結了多種屬性相似度的計算方法, 并基于兩種不同向量模型來表示文檔向量, 使實體的相似度特征增加一倍, 顯著提升了實體鏈接的效果。在大規模實體匹配方面, 我們利用簡單的相似度傳播模型進行大規模的實體匹配, 實驗結果表明, 對于結構化較好的影視知識, 使用傳統的相似度傳播算法模型, 能夠取得非常好的效果。另外, 我們利用數據源中存在的影視中英文別名關系, 構建不同語言同義詞之間的映射對, 克服了計算實體之間相似度上的語言障礙, 實現了跨語言實體匹配。當然, 由于所采用數據源的限制, BMKG能夠建立的影視知識屬性和概念還比較少, 影視知識的描述也不夠豐富, 這在一定程度上影響了實體鏈接和實體匹配的效果。大規模實體鏈接和實體匹配技術都是非常具有挑戰性的工作, 如何充分利用知識庫中的知識, 改進模型的效果, 是未來需要研究的課題。

事實上, 構建本體知識庫是一項長期性的、系統性的復雜工作, 需要不斷改進和完善。BMKG有待改進的地方還很多, 比如尋求質量更好的中英文影視知識源來擴展知識庫; 建立更多種類的鏈接關系(例如人物的合作者關系、影視系列關系等), 解決不同數據源之間知識沖突; 建立知識庫的自動更新機制; 增加影視評論知識等等。本體知識庫的構建沒有一個通用的構建流程, 本文提出的方法對需要融合多個數據源的領域本體知識庫的構建以及在限定領域中進行大規模實體鏈接和實體匹配具有一定借鑒意義。

總體來說, BMKG是融合了4個異構優質的影視數據源的高質量RDF影視本體知識庫, 填補了國內在中文影視本體知識庫方面的空白。該知識庫為影視信息的挖掘和利用提供重要的語料基礎, 同時, 對擴大中文影視信息的國際化影響也具有重要意義。

[1]Miller G A. WordNet: a lexical database for English. Communications of the ACM, 1995, 38(11): 39–41

[2]Hassanzadeh O, Consens M. Linked movie data base // Proceedings of the 2nd Workshop on Linked Data on the Web (LDOW2009). Madrid, 2009: 1–5

[3]宣騰. 區域醫療本體知識庫構建及其語義應用[D]. 成都: 電子科技大學, 2013

[4]趙小兵, 邱莉榕, 趙鐵軍, 等. 多民族語言本體知識庫構建技術. 中文信息學報, 2011, 25(4): 71–74

[5]Lehmann J, Robert I, Max J, et al. Dbpedia—a large-scale, multilingual knowledge base extracted from Wikipedia. Semantic Web Journal, 2014, 5: 1–29

[6]Suchanek, Fabian M, Serge A, et al. Paris: probabilistic alignment of relations, instances, and schema. Proceedings of the VLDB Endowment, 2011, 5(3): 157–168

[7]Lacoste J S, Palla K, Davies A, et al. Sigma: simple greedy matching for aligning large knowledge bases // Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Chicago, 2013: 572–580

[8]Li Juanzi, Jie Tang, Yi Li, et al. Rimom: a dynamic multistrategy ontology alignment framework. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(8): 1218–1232

[9]Melnik S, Hector G M, Erhard R. Similarity flooding: a versatile graph matching algorithm and its application to schema matching // Proceedings of 18th International Conference on Data Engineering. San Jose, 2002: 117–128

[10]Wang Zhichun, Li Juanzi, Wang Zhigang, et al. Cross-lingual knowledge linking across wiki knowledge bases // Proceeding of the 21st International Confe-rence on World Wide Web. New York, 2012: 459–468

[11]張文秀, 朱慶華. 領域本體的構建方法研究. 圖書與情報, 2011(1): 16–20

[12]劉穎. 基于Web結構的表格信息抽取研究[D]. 合肥: 合肥工業大學, 2012

[13]曾道建, 來斯惟, 張元哲, 等. 面向非結構化文本的開放式實體屬性抽取. 江西師范大學學報: 自然科學版, 2013, 37(3): 279–283

[14]趙軍, 劉康, 周光有, 等. 開放式文本信息抽取. 中文信息學報, 2011, 25(6): 98–110

[15]Xu Mengling, Wang Zhichun, Bie Rongfang, et al. Discovering missing semantic relations between entities in Wikipedia // The Semantic Web—ISWC 2013. Berlin, 2013: 673–686

[16]Mikolov T, Kai C, Greg C, et al. Efficient estimation of word representations in vector space [J/OL]. (2013-09-07)[2015–05-04]. http://arxiv.org/pdf/1301. 3781.pdf

Research on the Construction of Bilingual Movie Knowledge Graph

WANG Weiwei,WANG Zhigang?,PAN Liangming, LIU Yang, ZHANG Jiangtao

Knowledge Engineering Group, Department of Computer Science and Technology, Tsinghua University, Beijing 100084; ?Corresponding author, E-mail: wangzigo@gmail.com

This paper proposes a method to construct Bilingual Movie Knowledge Graph (BMKG). The authors first builds Bilingual Movie Ontology (BMO) through a semi-automatic way, and aligns each data source with it in order to ensure semantic consistency of heterogeneous data sources. For entity linking, the proposed method makes best use of the field characteristics and calculate entity similarity based on both Word2Vec and TFIDF models, which greatly improve entity linking. For entity matching, a similarity flooding based algorithm is proposed, which utilizes the intrinsic links between the movie data sources, addressing the problem of similarity computation between cross-lingual entities. The experiment results show that the entity matching precision is over 90% when the threshold is above 0.75. In addition, a movie knowledge graph sharing platform is also built to provide open data access and query interface.

movie ontology; bilingual; knowledge graph

10.13209/j.0479-8023.2016.022

TP391

2015-06-06;

2015-08-17; 網絡出版日期: 2015-09-29

國家重點基礎研究發展計劃(2014CB340504)、國家自然科學基金委員會與法國國家科研署雙邊合作協議(61261130588)、清華大學自主科研項目(20131089256)、國家科技支撐計劃(2014BAK04B00)和THU-NUS下一代搜索聯合研究中心項目資助

①http://www.movieontology.org/

② http://www.keenage.com/

① http://166.111.68.66:10080/KegMovieKB/KegMovie_Index.html

② https://github.com/ansjsun/ansj_seg/