封皓君, 段 立, 張碧瑩, 劉海潮,2
(1. 海軍工程大學電子工程學院, 湖北 武漢 430033; 2. 中國人民解放軍91202部隊, 遼寧 葫蘆島 125004)
實體鏈接和知識推理是自然語言處理(natural language processing, NLP)領域的兩類問題。實體鏈接旨在完成指稱與實體的一一映射,是計算機識別并理解文本信息的重要支撐。由于自然語言的歧義性,計算機處理該問題仍顯得復雜。基于深度學習的模型利用了海量文本中寬泛先驗知識,取得了較大成效,但礙于其共性缺陷,導致可解釋性與魯棒性不佳,甚至產生負面作用,推廣實用能力仍顯不足。近年來,主流的鏈接方法通常采用知識圖譜作為領域經驗以獲取候選實體附近的關聯信息,進而與文本特征進行比較,篩選出對應的實體。該方法仍受限于圖譜關系稀疏、無法依賴碎片化信息完成自我升級的缺陷,繼續提升空間有限。知識推理則是獲得新知識的過程,在圖譜當中表現為三元組補全以及對錯例的修正。常規方法大多依賴于已有經驗或規則去推測三元組關系,難以獲得新類型的知識,導致更新效率低下。兩者雖同為研究熱點,卻往往被分開研究,難以實現共同進步。
以某軍事圖譜為例,共有241 183個實體實例,但只包含11種關系類,且圖中節點相連的邊的平均個數僅為2.096,不能很好地概括顯示軍事領域模型。即使是全領域知識圖譜YAGO,通過抽樣也證實其并不完善,仍存在大約5%的錯誤三元組。因此,實體鏈接問題最終可以轉化為知識推理問題,需要將碎片化、新類型的知識用于圖譜補全,才能進一步提升鏈接準確性與實用性。
同時,一個優秀的實體鏈接模型不僅應該準確地獲得指稱與實體之間的對應關系、挖掘文本中的信息,同時還應輔以知識推理等方法,為改善知識圖譜施加動力;經推理后更加完備的知識圖譜也需要為眾多文本分析任務提供更準確的先驗知識,從而更好地完成這些任務,這是一個雙向的正反饋過程。例如“殲-15在16艦上順利完成起降”一句中,鏈接模型可將“16艦”與“殲-15”分別與實體對應,同時還可以分析出兩者間存在“搭載”關系,從而反向補全圖譜。在另一句“首架J-15原型機在遼寧號航空母艦上進行著艦測試”中,通過關系可推理出“殲-15”與“J-15”應表示同一實體,通過類比命名規則等推理方式后還可以將“殲-11B”與“J-11B”指稱相對應,從而完善后續鏈接過程。
過去將實體鏈接和知識推理割裂研究的思路往往忽略了知識圖譜在兩者之間的紐帶作用,碎片化文本經鏈接后獲得的新知識無法體系化地反饋到圖譜當中,推理更新后的圖譜也無法為實體鏈接任務賦能。從知識驅動的第一代人工智能到數據驅動的第二代人工智能,再到結合兩者全面反映人類思想行為的第三代人工智能,知識&數據的雙輪驅動解決問題成為未來人工智能解決方案的主流趨勢,這為動態化、智能化、體系化解決實體鏈接與知識推理問題提供了一種思路。基于上述動機,本文提出一種基于雙向循環進化的實體鏈接和知識推理框架(bidirectional cyclic evolutionary framework of entity linking knowledge reasoning, BCEL-KR),該框架具有自我迭代、智能升級優點,在實際應用過程中,還可基于碎片化文本信息,在原有成果基礎上實現知識的快速增量更新,提升實體鏈接效能。
BCEL-KR框架的靈感來源于人類閱讀學習過程,基本過程如圖1所示。

圖1 模擬閱讀學習的進化過程Fig.1 Evolutionary process of simulated reading learning
該過程一般可總結為:① 閱讀文本內容;② 喚醒先驗知識;③ 通過先驗知識理解文章并獲得新知識;④ 確認知識并進一步完成推理;⑤ 將產生的知識存入腦中。計算機分別對應于以下步驟:① 輸入文本;② 調用知識圖譜;③ 信息抽取;④ 知識推理;⑤ 完善圖譜。整個過程是循環迭代的,進行若干次學習后,計算機應基本掌握文本中知識信息,從而更好地進行下一步學習。因此,框架以實體鏈接與知識推理任務作為切入點設計兩個基本模塊:一是正向進化模塊,該作用定義為知識圖譜賦能下的實體鏈接;二是反向進化模塊,定義為信息抽取賦能下的知識推理。同時,整體框架設計還應滿足擬人化、智能化以及“人在回路”范式的特性需求,以提供可循環、交互式的雙向促進作用。整個框架總體描述如圖2所示,以下對各模塊分別進行說明。

圖2 BCE2L-KR概念框架Fig.2 BCE2L-KR conceptual framework
正向進化作用定義為知識圖譜賦能下的實體鏈接,是模擬人獲得既定指稱含義的過程。需要著重解決的問題在于更高效的圖譜賦能方式同時提升鏈接問題可解釋性。該模塊最終應消除實體歧義,產生正確且相關的知識信息。
通盤考慮上下文指稱的相關性是提升鏈接效率與可解釋性的有效途徑之一,參考鄰近的指稱之間可能存在聯系的假設。即通過文本關系圖與知識圖譜中子圖的匹配完成命名實體消歧(named entity disambiguation, NED)任務,如圖3所示。以“蘋果的創始人喬布斯永遠都是一面特立獨行的旗幟,哪怕是現任CEO庫克也無法與其比肩”一句為例,讓計算機在“蘋果”的候選實體“蘋果(薔薇科蘋果屬果實)”“蘋果(公司)”中找出正確對應,還需要參考文本中的“喬布斯”“庫克”等指稱。首先從文本中分析出關系圖,再與各候選實體在知識圖譜中的子圖進行匹配,選擇最佳的匹配結果作為對應關系。
該過程是一種知識圖譜賦能下的協同鏈接方法,通過添加匹配策略考慮上下文之間實體一致性。由于考慮了關聯關系,因此比其他鏈接方法更加有效,需要考慮的是不同匹配策略的效率問題。據此,專家學者提出了一系列有啟發意義的鏈接方法。比較有代表性的是Wang等提出的WebEL模型,該模型通過指稱-實體圖進行局部相似度計算并打分,并與節點的嵌入分數相結合得到最終得分實現鏈接過程。Xie等為了最大化利用知識圖譜信息,通過構建實體關聯圖作為消歧依據,提出一種基于圖模型的動態實體消歧算法。Feng等將文本關系圖與知識圖譜的子圖分別進行嵌入表示,通過實體間嵌入表示的相似程度作為匹配原則,最終較好地完成了鏈接任務。憑借著關聯關系的較好展現,基于知識圖譜的實體鏈接技術會成為接下來的研究方向之一,愈高效的鏈接方案愈能促進正向進化效能,從而豐富框架內核,偽代碼如算法1所示。

圖3 基于知識圖譜的實體鏈接過程Fig.3 Entity linking process based on knowledge graph

算法1 正向進化模塊:知識圖譜賦能下的實體鏈接輸入 文本T,指稱M知識圖譜G(E,R)知識圖譜中的子圖結構SubG(E,R)文本關系圖TG(M,R)鏈接模型Link(SubG,TG)輸出 指稱實體對應關系(M→E)碎片化知識三元組
反向進化作用定義為信息抽取賦能下的知識推理,該過程力圖在碎片知識加持下,模擬人的推理過程,最終獲得更多相關三元組。為了后文的敘述方便,將該模塊可能涉及到的知識信息分成3類:
(1) 專家知識:是一種新產生的、來源于文本的知識,需要人工確認并添加,表現為獨立的三元組形式,例如從某特定文本中抽取的、現有推理過程中未涵蓋的三元組;
(2) 經驗知識:這類知識是圖譜中預先包含的,表現為其中頻繁出現的某種模式,可作為計算機的“經驗”或“概念”信息,例如某部電影的導演類實體和演員類實體之間存在的“合作”關系;
(3) 專業知識:某個領域當中存在的公理知識,有時需要領域專家確認,表現為圖譜一定范圍內的頻繁模式,例如美軍飛機命名規則、武器裝備分類等。
類比歸納-演繹推理過程,以事實文本中的三元組信息(專家知識)為驅動,將知識圖譜看作計算機對現實世界的“認知”并從中獲得有效模式(經驗知識),經推理獲得某領域內的相關信息(專業知識)。每輪投喂不同文本作為刺激信號,為各類型知識產生賦能,最終實現知識圖譜的完善與糾錯。不同類型的知識分別代表推理各階段涉及的三元組信息,無需覆蓋整個圖譜,某個獨立三元組在不同的推理過程中也可能屬于不同知識類型。需要著重解決的問題在于提升經驗與知識的挖掘能力以及更高效的推理技術。
專家知識的生成需要切實有效的知識抽取技術,包括命名實體識別、術語抽取、關系抽取、事件抽取、共指消解等多個子任務,正向進化過程同樣為該步賦能。傳統基于模板或觸發詞的抽取方法可移植性差,基于監督學習的方法數據標注成本高,隨著研究逐步深入,基于深度學習的抽取方法成為主流,其能夠自動提取文本特征,減少對NLP工具的依賴,從而有效解決“信息過載”問題。
經驗知識的生成需要從既定圖譜中歸納有效模式,數據挖掘技術為我們提供一種解決思路,然而傳統挖掘算法卻不能很好地對圖譜建模。近些年,隨著圖神經網絡技術的飛速發展,圖卷積神經網絡、圖注意力網絡等概念應運而生,憑借圖數據結構上的快速識別能力等優點,逐漸成為主流方案。解決該問題行之有效的措施是設計一種兼具可解釋性的圖神經網絡,有側重地挖掘圖中實體及其相關實體之間的關聯特征,從而快速獲得經驗信息,為推理打下基礎。
面向知識圖譜的知識推理技術是反向進化模塊的重要內核之一,是產生專業知識的關鍵。傳統基于圖結構或子圖路徑的推理方法有較好的解釋性,模擬了人類逐步推理過程,但礙于圖譜規模,存在復雜度高、計算量大等問題。基于表示學習或神經網絡的推理方法具備計算層面的優勢,但解釋性不足,同時往往聚焦于單個層面的信息,不能全局考慮語義、路徑等多種影響因素,泛化能力有待提升。為彌補單一類別推理方法的不足,需要利用多種方法建模,即混合推理方法。為了兼顧計算能力與可解釋性,需要設計一款基于路徑和神經網絡表示學習的推理方法,提升圖譜質量。
同時,現有的知識推理方法仍難以生成新的實體或關系類。該過程還力圖最大化完善知識圖譜,因此在推理技術中謀求加入元學習等新技術,旨在最大化挖掘文本信息并有效回溯到知識圖譜當中,為各類下游任務提供更準確的知識背景,提升智能化水平。
以某篇軍事文本為例,反向進化模塊步驟如圖4所示,首先需要從文本信息中抽取專家知識三元組,再融合圖譜中的經驗信息實現軍事領域專業知識的推理,偽代碼算法2所示。

圖4 基于文本分析的知識推理過程Fig.4 Knowledge reasoning process based on text analysis

算法2 反向進化模塊:知識抽取賦能下的知識推理輸入 一次補全后的知識圖譜G′專家知識
一次正向與一次反向進化可構成一次循環,經歷各一次實體鏈接與知識推理。為了使該框架不斷迭代升級,應多次循環兩個過程。但盲目循環并不一定帶來正面效果,在實體鏈接中,仍有一定的錯誤概率;在知識推理當中,并不是每條規則都符合客觀事實,有時需要人與計算機結合。此時供給人判斷的是經計算機提取后的規則,這與需要人工標注效率是不一樣的,人參與方式更為友好,因為計算機基于頻繁模式挖掘來主動總結規則,人只需要對結果賦能。“人在回路”范式為我們提供了一種設計思路。
“人在回路”也稱為人機閉環系統,通過人和計算機的協同有效解決二者天然缺陷,逐漸成為機器學習等領域可行的成長模式之一。該范式在框架中體現為人對規則的審核機制,設置若干斷點供給人進行處理,幫助計算機對未確認的規則加以判斷。一種體現方式是加入獎懲機制,給予正確規則Reward=1,錯誤規則Reward=0,最大化每次推理的期望累計獎勵,即
=Reward+Reward+…+Reward
(1)
式中:記為第次推理的得分函數,即期望累計,歸一化可表示為第次推理的規則正確率:

(2)
可通過監督學習等思想使每次推理正確率最大化,盡可能避免錯誤規則的產生。隨著強化學習等理論研究逐步深入,可以考慮融合新技術優化循環機制,勢必使整個框架更加高效。
根據上述概念框架,擬從兩個模塊、循環機制以及整體功能角度進行分析論證,設計以下4項實驗。
(1) 正向進化需驗證知識圖譜對實體鏈接的賦能作用。模擬多輪循環中計算機的學習能力,驗證不同更新程度下的知識圖譜在實體鏈接方案中的效率提升。
(2) 反向進化需驗證知識抽取與知識推理技術對圖譜完善的賦能作用。通過從文本中抽取出的三元組結合知識推理方法最大化完善知識圖譜,比較三元組的生成效率與質量。
(3) 循環機制需驗證人在循環機制中的賦能作用,分別在有人和無人監督的情況下進行多輪循環,比較知識生成質量。
(4) 整體功能的驗證需要在上述模塊驗證基礎上,模擬真實環境實現多輪、完整的學習過程,并分別與獨立實體鏈接和知識推理模型進行比較,驗證整體框架賦能效果與時效性指標。
本文使用NLPCC14中文微博實體鏈接數據集,包含1 152個待鏈接指稱以及相對應的上下文,每篇文本包含1~8個指稱不等。背景圖譜使用CN-DBpedia,是復旦大學知識工場實驗室研發并維護的大規模通用領域結構化百科。鏈接模型如文獻[12]所示,參數設置不作改變。精確率、召回率及其調和平均數1-score的計算如下:

(3)
式中:表示某實體鏈接方法的鏈接集合;表示正確的鏈接集合;與的交集表示通過該實體鏈接方法正確的鏈接集合。
為模擬經推理后更完善的圖譜對實體鏈接的賦能作用,本文采用兩個時間段的圖譜進行實驗。同時,為了增加對照組,分多次添加相關領域三元組完善知識圖譜,實驗結果如圖5所示。

圖5 正向進化模塊驗證結果Fig.5 Verification of forward evolution module
結果表明,隨著圖譜不斷完善,每項指標皆有一定程度提升,可見更完善的知識圖譜確實對實體鏈接有促進作用。考慮該程度下提升難度將愈來愈大,其受制因素仍是圖譜質量與模型效率,可以考慮從其他方面繼續提升。
區別于傳統基于文本信息結構化補全圖譜的方式,反向進化模塊添加了知識抽取賦能下的知識推理步驟,旨在更好地提升計算機的自我學習能力。從新浪、騰訊等門戶網站爬取若干篇文章,涉及軍事、民生、體育等領域,利用斯坦福大學開發的開源知識抽取系統DeepDive抽取三元組并進行對照實驗。空白對照組設置為圖譜本身,A組設置為不加入知識推理步驟的圖譜補全,生成的三元組僅依賴投喂的文本信息;B組設置為加入知識推理步驟的圖譜完善,采用基于路徑規則的知識推理方法,比較知識產生效率(推理出的三元組個數)與質量(推理出的三元組正確率)的差別。分別投喂3組不同領域(軍事、民生、體育)文本各15篇,實驗結果如圖6所示。

圖6 反向進化模塊驗證結果Fig.6 Verification of reverse evolution module
其中縱軸的長度表示產生的三元組總數,軸內百分比表示正確或錯誤三元組所占比例。由此可見,A組在知識產生效率方面以及質量方面均不如B組。B組三元組產生效率平均比A組提升1.24倍,原因在于反向進化模塊中加入的知識推理技術模擬了人類“舉一反三”的推理過程,因此可以產生更多三元組。同時,由于面向知識圖譜的推理技術逐步完善,B組在平均正確率上仍有5.13%的提升。隨著計算機推理技術的發展,可將更優質的推理技術加入該模塊,進一步提升推理效率與質量。
A組設置為基于自動循環的學習方式,B組設置為基于“人在回路”的學習方式。基于自動循環的方式不依賴人工干預,每輪產生的知識與規則無論對錯全盤加入到下一輪循環當中;基于“人在回路”的學習方式則選擇每輪推理出的正確知識與規則加入到下一輪循環中。知識圖譜仍使用CN-DBpedia,在軍事領域下進行驗證。將反向進化模塊中的15篇軍事文本加入該框架并進行5輪循環(每輪循環輸入3篇),通過人工標注的方式比較每輪循環中正確與錯誤三元組在產生的所有三元組中占據的比例,結果如圖7所示。

圖7 兩種循環方式實驗結果Fig.7 Experimental results of two circular manners
由圖7結果可知,兩種循環的學習機制每輪都會產生一定的錯誤知識,但經過人工確認的方式使得多輪循環下平均推理正確率提升1.74%,且推理出的正確知識占比愈來愈高,該效果在自動循環的學習機制下表現并不明顯,原因在于每一輪循環都要依賴前一輪循環的知識圖譜作為先驗知識,愈發準確的先驗知識無疑會對各類任務產生促進作用,這也很好地解釋了人在未來各項智能化設計中的作用。
將反向進化模塊的3組各15篇文本分別作為框架循環的輸入信息,依次投喂每組各3篇文本,實現該框架5輪完整運行過程。在每輪循環中分別計算相應實體鏈接、知識推理任務的評價指標,并記錄循環運行時間。對照組設置為相同輸入下的5輪單次實體鏈接與知識推理過程,每輪輸入文本不會影響下一輪循環,實體鏈接、知識推理實驗相關設置與前文相同,各評價指標如圖8所示。其中實體鏈接采用5輪循環與的調和1-score均值,知識推理采用正確三元組平均所占比例與每輪三元組的平均產生個數。同時,為了驗證該框架時間效率,記錄完整執行5輪循環(不含人機交互判斷所花費的時間)與獨立實體鏈接+知識推理模型的運行時間之和,結果如圖9所示。

圖8 實體鏈接、知識推理評價結果Fig.8 Evolution results of entity linking and knowledge reasoning

圖9 運行時間結果Fig.9 Results of run-time
圖8表明,在該框架下,知識推理與實體鏈接都達到了比獨立模型更優的效果。其中,實體鏈接平均1-score值平均提升0.17%,知識推理中正確三元組占比平均提升1.88%,三元組產生數量平均增加5.4個。同時,由圖9可知,每輪循環的運行時間略高于實體鏈接與知識推理模型運行時間之和,總體耗時相當,略高出的部分主要源于反向進化中的迭代推理過程。從框架整體來看,即使反向進化產生了更多相關三元組,其對整體運行時間影響并不明顯,符合一般預期,證明了該框架的合理性與有效性。
為了順應知識&數據雙輪驅動的第三代人工智能設想,本文提出一種BCEL-KR。該框架類比人閱讀學習行為,設計兩個方向的進化過程。正向進化過程的核心是基于知識圖譜的實體鏈接技術,利用更新后的圖譜進行文本分析研究,以克服鏈接過程中歧義性等缺陷;反向進化作用主要利用圖神經網絡等技術,從碎片化文本信息中推理出潛在知識模式,再利用知識推理等技術完善圖譜,完成擬人化的推理過程。整個框架經人為干預的若干次迭代后,賦予計算機更強的自我學習能力,提升框架智能化水平。經可行性分析驗證,完善的知識圖譜對實體鏈接具有促進作用,且圖譜覆蓋的知識越準確,實體鏈接效果越好。同理,更精確的知識抽取技術可以更有效地獲取文本信息,輔以知識推理技術可更好地完善圖譜,經多次循環后可有效減少知識“盲區”。總的來說,該框架通過擬人化的學習過程,實現了知識循環迭代升級,同時該框架還具有開放性與拓展性,在正向與反向進化過程中有若干模型可供選擇,更完善的圖譜也可用于其他下游任務。隨著實體鏈接與知識推理等技術的不斷提升,該框架仍存在可改進之處:① 正向過程中,更新優秀的實體鏈接方案,在先驗圖譜&模型雙重賦能下提升鏈接效率;② 反向過程中,添加多模態知識獲取機制、融合多種新技術加強對人類推理行為的模擬等;③ 在實際使用過程中,通過眾包方式讓系統完成自我迭代等。