熊常春 辜賢杰 張林


【摘要】知識圖譜在人工智能領域扮演了重要角色,在智能搜索、千人千面推薦、機器人助手等智能信息服務中創造了巨大價值。構建知識圖譜不可或缺的工作是關系抽取,同時隨著基于深度學習的預訓練、圖神經網絡、遠程監督等研究與實踐的開展,關系抽取工作碩果累累。本論文總結了近幾年來基于深度學習的關系抽取研究進展的同時,并就未來關系抽取研究與工業實踐工作存在的機遇與挑戰進行了梳理。
【關鍵詞】關系抽取? 深度學習? 聯合學習? 遠程監督? 預訓練
引言:在知識圖譜領域,Google做了很多開創性的工作,其概念最早來自于該公司2012年一篇博文,在這之前的語義網、鏈接數據的概念已經流行,其初衷是讓搜索引擎能洞察用戶語義信息,提高信息搜索質量和網絡服務體驗。知識圖譜在學術上來說可以解釋為是一種語義網絡或本體論,即我們口頭常說的多關系圖。目前一大批知識圖譜系統如KnowItAll、YAGO、DBpedia、Freebase、Probase、Microsoft Concept Graph和OpenKG等相繼建設起來。知識圖譜可以用RDF格式對事物、關系進行形式化描述,目前在智能搜索系統、個性化推薦應用和目標導向型、閑聊型的智能助手系統等領域得到廣泛使用。
知識圖譜工程工作量相對來說比較大,內容涉及比較多,其中知識抽取主要包括實體識別、關系抽取和事件抽取?!瓣P系抽取[2]就是找出文本中的實體,同時區別實體間的語義關系”。即從待處理的文本中抽取<實體,關系,實體>集合。
傳統的實體關系抽取方法主要有基于特征向量、核函數和神經網絡模型等多種基于模板、監督或無監督的方式方法,隨著研究和實踐的深入,當前預訓練模型在垂直和開放領域都取得不錯的效果。由于篇幅所限本文主要探討基于深度學習的關系抽取關鍵技術即:流水線、聯合學習、遠程監督和預訓練等。
本文首先以知識圖譜框架體系為基礎,以關系抽取核心技術為重點,詳細闡述流水線學習、聯合學習、遠程監督、預訓練模型的相關研究。其次介紹了關系抽取在金融、醫療、機器人助手等領域的相關應用,最后討論了關系抽取技術研究和工業實踐所面臨的機遇和挑戰。
一、知識圖譜框架體系
知識圖譜(體系架構如示意圖1)一般是從結構化、非結構化等授權數據、公開數據或者第三方數據中來,通過圖映射、D2R轉換、包裝器和知識抽取等多種方法獲取數據。經過知識獲?。ㄈ鐚嶓w識別、概念提取、關系抽取、新詞發現)、知識融合(實體對齊、消歧、分類、規范化)、知識存儲(如圖數據庫Neo4j)、知識計算(知識表示、知識推理)以及后期的可視化等環節來為推薦、搜索、推理等應用服務。
搭建工業級知識圖譜的方式多樣,大多數都采用自底向上的方式進行建設。最底層是各種數據源,包括人、事、物和機器的相關數據;中間層是通過信息抽取技術形成知識圖譜,最上層是語義搜索、輔助推薦及智能助手等應用。
二、關系抽取的核心技術
隨著深度學習的發展,關系抽取相關綜述論文熱度不減,呈現百花齊放的態勢,關系抽取模型有流水線和聯合學習的監督模型,以及后來的遠程監督、預訓練模型等。
在有監督的關系抽取技術中,卷積神經網絡CNN首先被引進來,隨后注意力機制Attention以及 Attention+Bi-LSTM等神經網絡模型先后被借鑒。在這過程中有很多開創先河的研究者譬如Zeng D、Katiyar A等人。后期還有一些學者把增強學習也引用到關系抽取任務中,不過案例較少。
最近用于處理圖數據結構的神經網絡結模型GNN越來越引起研究者注意,在各個領域包括社交網絡、推薦系統以及生命制藥等領域都有不同的發展。圖神經網絡一般分為:圖卷積網絡、圖注意力網絡、圖自編碼器、圖生成網絡和圖時空網絡。鑒于一般深度學習模型只提取實體之間的關系,2019年Zhu Hao等人利用圖神經網絡GNN實現關系抽取,由于GNN在復雜圖結構建模方面的超強能力,在關系推理、鏈路預測方面取得了非常好的效果,架構如圖2。
同時遠程監督學習方法也被借鑒到實體關系抽取中來,遠程監督就是將已有的知識庫“映射”到可以獲取的自有非結構化數據中,從而生成大量的訓練數據,進而為工業知識圖譜打磨出一個效果不錯的關系抽取器。學者們提出PCNN與多示例學習的融合方法、PCNN與注意力機制的融合方法、Ji GL等人提出在PCNN和 Attention的基礎上添加實體的描述信息方法等取得重大進展,這些模型總體說來不但高效、而且成本低。
自2018年10月,Google公布BERT預訓練模型后,關系抽取取得劃時代的進步。
(一)流水線(Pipeline)學習
流水線方法中一般是基于RNN、CNN和LSTM模型。其中CNN模、CNN模型+ Attention注意力機制、LSTM 模型+最短依存路徑(SDP)、和LSTM+CNN結合等幾種模型表現較好。
Zeng 等人第一次借鑒卷積神經網絡模型CNN思路來構建關系抽取任務,盡管設定的卷積核大小是固定的,能夠抽取到的特征相對來說也比較少,但是其F1值達到當時的最高值82.7,是早期的CNN實現關系抽取的經典方法。Thien Huu Nguyen等人把關系抽取、關系分類當做兩個主要任務,在Zeng等前人卷積神經網絡基礎上且有別于使用多粒度卷積核進行特征抽取,效果提升了0.1%。Santos Cicero Nogueira dos在Zeng等人基礎上創新性的優化損失函數為Ranking loss函數,F1值達到84.1,其在結構上沒有什么區別,都是CNN+全連接。其主要創新點在:①模型為句子的每種關系學習一個向量表示:②訓練過程中每個句子對應一個正、負例;而且正例分數要盡量高,其他類別分數盡量低,其函數為:
L=log(1+exp(γ(m+sθ(x)y+))+log(1+exp(γ(m-+ sθ(x)c- )
為解決Santos解決方案的缺點——模型結構缺陷,Zhou P等人利用Attention注意力機制以及Bi-LSTM ,雖然F1值84.0,但是操作方便簡單,為后續研究解放了思路。Cai R等人跳出CNN、RNN研究框架的限制,提出了一種 BRCNN 網絡模型即:雙通道LSTM +最短依賴路徑SDP模型,該論文的亮點比較突出,雙向進行了融合,F1值達到歷史最高86.3。
(二)聯合學習(Joint Learning)
聯合學習模型主要解決以前模型存在三種問題:①錯誤傳播會累積,②子任務間關系依賴被忽視;③而且容易產生冗余實體。綜合來看,根據其研究模型的建模對象不同有參數共享和序列標注兩類聯合學習方法:①參數共享就好比一個4*4*3的卷積核,這個卷積核內48個參數被整張圖共享,而不會因為圖像內位置不同而改變卷積核系數;就關系抽取參數共享模型,解碼層目前探索出 Bi-LSTM、依賴樹和注意力機制等幾種變化來解決上述錯誤傳播等問題;②序列標注有很多種方法,就關系抽取模型主要用了一種端到端模型的新標注策略,目的是解決實體冗余問題。
M Miwa提出端到端實體關系聯合抽取開山巨作模型,首次將神經網絡模型運用到實體關系聯合抽取任務中,為后來很多研究工作者提供了參考和借鑒。隨后Zheng Suncong等人利用共享神經網絡來進行聯合學習。根據Miwa和Zheng等人的實踐,充分說明使用共享參數聯合學習比流水線學習方法有一定的優勢(F1值約提高1%),這促使該方法成為當時通用的研究與實踐方法。Zheng Suncong等人又提出不同的端到端模型,該方法優美的將實體、關系聯合抽取工作看作序列標注任務,創新性的采用新標注策略,能讓人眼前一亮的直接展示結果,成果當然顯著,后來該篇論文不負眾望的被評為2017年ACL最佳論文。
(三)遠程監督學習
遠程監督關系抽取技術使用外部知識庫作為監督源,基于一個小型標注好的語料庫,自動對現有語料庫進行標注,這樣可以節省人工標注成本,為研究或工業界的數據收集開啟了新紀元。
Mike Mintz等人第一個將遠程監督模型引用到關系抽取工作中。Zeng等人使用神經網絡+遠程監督模型(如圖3),該論文成為當時的扛鼎之作,其主要奉獻是:1)使用PCNN解決標注問題即:主動學習文本特征,并有效提取實體對關鍵信息;2)使用多層實例解決錯誤標簽問題。
Yankai Lin等人用注意力機制Attention來選取對關系提取有影響的句子,刷新了歷史最好記錄。后來Ji GL等人使用APCNN模型,具有兩大優勢:①使用句子層注意力模型,同時像PCNN一樣,在一個包里選擇多個有效實例;②使用傳統CNN抽取實體特征,為預測關系提供描述信息。清華大學、復旦大學針對篇章級別、開放領域做了大量富有成效的研究。
(四)預訓練模型
2018年10月,Google發布了預訓練模型BERT在自然語言處理任務中的實驗結果,取代了特別有影響的殘差網絡效果,標志著NLP工作取得劃時代的進步。研究發現從word2vec到ELMo到BERT,是NLP把具體任務的工作逐漸上移到預訓練產生詞向量的過程。BERT模型出現后,預訓練詞向量級別變成句子級別,方便下游NLP應用調用。BERT采納Masked Language Model(MLM)模型,解決“自己看到自己問題”,最終能生成雙向的語言表征。
2003年Mikolov T等人首次向世人展示了影響深遠的word2vec模型,該模型采用無監督的訓練方法以得到詞嵌入,當時取得巨大成功。后期谷歌、微軟等公司或學者提出基于語言模型的預訓練方法。Matthew Peters等人提出了ELMo模型來取得深層的上下文表示。Alec Radford 等人提出了將LSTM更改成單向Transformer生成預訓練模型 GPT,后來Logan Iv R L等人將語言模型和知識圖譜嵌入結合使用,Bosselut A等人將 GPT2 語言模型與種子知識圖譜相結合,不但可以生成新的種子圖,而且學習到其結構和關系。Devlin等人提出了具有劃時代意義的雙向預訓練模型BERT(ELMo、GPT和BERT架構比較如圖四),采用Transformer雙向編碼器提取更為有效的信息;Soares L B等人提出一種通用目的關系抽取器,一種在零樣本和小樣本任務中效果比較突出的關系模型——像 BERT預訓練,提取非常通用的關系。微軟研究者提出MASS模型,解決了BERT預訓練過程Encoder-Decoder的相互脫離問題。同時清華大學的ERNIE、哈工大訊飛聯合實驗室在多個中文數據集上取得了當時最好水平。當然還有北京大學和騰訊聯合研究的基于垂直領域關系抽取模型也收獲不少,讀者還可以參考國內清華大學劉知遠團隊論文以及中科院計算機所、復旦大學、西湖大學等NLP相關杰作。針對BERT比較耗時問題,You Y等人提出了LAMB優化器,屬于通用的神經網絡優化器,無需大量調試超參數,可以應用的網絡也較多,最終該算法提速驚人,BERT訓練從81.4小時縮短到76分。
三、典型應用
經過關系抽取,能使互聯網的信息服務更貼近人類思想,更能滿足人類所搜所要。充分運用關系抽取構建的知識圖譜,不但可以讓人類擁有開放的知識庫,而且還能找到一把開啟各個智慧行業的鑰匙。當前關系抽取運用在搜索、推薦和推理案例多而且價值巨大,其中今日頭條、谷歌Google Search等搜索、推薦技術服務于廣大人民大眾,創造了不可估量的價值;在垂直行業如在金融、醫療、電商和機器人助手等均有不少案例。平安科技基于BERT預訓練的方法攻克的法律關系抽取模型,能從法律文書、合同等文本中實現關系抽取,從而獲得如人物與擔保、質押、股權的機構關系。同樣在醫療健康領域,中國中醫科學院構建了6個中醫藥知識圖譜資源集,把各個醫學概念的語義關系,各個應用系統的知識等鏈接起來,為人民大眾提供智能化的醫療健康服務;中國科學院自動化研究所類腦智能研究中心通過文獻自動分析與挖掘,構建了腦科學領域的腦結構與各種認知功能、腦疾病之間的關聯關系。另隨處可見外機器人助手出現在移動大廳、醫院大堂或大型游樂場,為人們提供智能客服或閑聊服務。
四、關系抽取面臨的挑戰
知識圖譜的構建不光涉及人工智能具體技術,而且觸摸到人類的思維運作原理。在當前行業數據之間差異性、數據分布不均性的情況下,要做好這項任務是極具挑戰的。我們可以嘗試從模型可解釋性這點上來優化和建模,可以找尋“通用特征”(如常用知識庫)來豐富其他特征。
(一)降噪問題
噪音問題的研究到目前為止涌現出很多新思路,譬如基于圖譜的去噪方法就有空間域濾波、基于變換域濾波、偏微分方程、小波域濾波、全變分圖像去噪和形態學噪聲濾除器等;噪聲的研究范圍和深度也在不不斷擴展,譬如有圖像去噪、音頻去噪、文本去噪等。噪聲問題是建立數據集的最大挑戰,特別是在海量非結構化數據方面存在準確率過低,成本過大的問題。在研究實踐時需要把噪音樣例過濾掉,目前吸引了大批的學者。
(二)數據問題
自然語言處理領域主要有低資源、復雜樣本和數據質量等主要問題。同時還有數據隱私問題:即使匿名情況下,也可以根據關系特征搜索出個人或企業不愿意公開的相關信息。這些問題將是未來一段時間內研究的熱點。
(三)可解釋性問題
可解釋性屬于深度學習需要攻克的高地,需要打通機器感知和認知,這將是關系抽取乃至整個人工智能領域的主要研究方向之一。隨著深度學習的研究和實踐,深度學習的可解釋性在不斷突破,特別是在智能助手系統、閱讀理解中取得一定成績。Keras的作者認為:深度學習有可能把自然語言、數學方程等與已經比較發達的符號處理系統融合。如果把深度學習的智能高效化優勢;把符號處理系統已經在垂直行業積累的專家知識、方法和思想;把知識圖譜、推理和上下文融合起來,最終以智能大腦的形式為人類美好生活服務,那么未來可期。
參考文獻:
[1]AMIT S.Introducing the knowledge graph[R].America:Official Blog of Google, 2012.
[2]肖仰華等著.知識圖譜-概念與技術 [Z].網站,2020-03-20.
[3]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術綜述[J].電子科技大學學報,2016,45(4):589-606.
[4]Jacob Devlin,Ming-Wei Chang,Kenton Lee,and Kristina Toutanova.2018.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.arXiv preprint arXiv:1810.04805.
[5]Zeng D,Liu K,Lai S,Zhou G,Zhao J.Relation? classification? via convolutional? deep? neural network. In: Proc.of the 25th Intl Conf.on Computational Linguistics: Technical Papers (COLING 2014).2014.2335 2344.
[6]S.Zheng,F.Wang,H.Bao,Y.Hao,P.Zhou,B.Xu,Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme,ACL.(2017).
[7]Zeng D,Liu K,Chen Y, Zhao J.Distant supervision for relation extraction via piecewise convolutional neural networks.In:Proc.of the Conf.on Empirical Methods in Natural Language Processing.2015.1753 1762.
[8]Zhu H, Lin Y,Liu Z,et al.Graph Neural Networks with Generated Parameters for Relation Extraction[J].2019.
[9]Zhang Z,Han X,Liu Z,Jiang X,Sun M and Liu Q.2019.ERNIE:Enhanced language representation with informative entities.arXiv preprint arXiv:1905.07129.
[10]Yuan Yao,Deming Ye,Peng Li,Xu Han,Yankai Lin,Zhenghao Liu,Zhiyuan Liu,Lixin Huang,Jie Zhou,Maosong Sun.DocRED:A Large-Scale Document-Level Relation Extraction Dataset.The 57th Annual Meeting of the Association for Computational Linguistics(ACL 2019).