劉燁宸,李華昱
(中國石油大學(華東) 計算機科學與技術學院,青島 266580)
知識圖譜的概念要追溯到上世紀六十年代提出的一種知識表示形式-語義網絡(semantic network),它由相互連接的節點和邊組成,節點表示概念或對象,邊表示節點與節點之間的關系.在表現形式上,語義網絡和知識圖譜相似,但語義網絡側重于描述概念與概念之間的關系,知識圖譜側重于描述實體與實體之間的關系[1].除了語義網絡之外,語義網(semantic web)和鏈接數據(linked data)也為知識圖譜的誕生提供了支撐.
知識圖譜分為通用知識圖譜與領域知識圖譜兩類.這兩種知識圖譜主要存在覆蓋范圍和使用方式上的差異.通用知識圖譜面向通用領域,主要包含了大量的現實世界中的常識性知識,覆蓋面廣.領域知識圖譜又稱為行業知識圖譜或垂直知識圖譜,是面向某一特定領域的,是由該領域的專業數據構成的行業知識庫,因其基于行業數據構建,有著嚴格而豐富的數據模式,所以對該領域知識的深度、知識準確性有著更高的要求.
本文通過介紹領域知識圖譜的定義與架構,首先對領域知識圖譜有個基本了解.然后以醫學知識圖譜的構建為例介紹信息抽取、知識融合和知識加工3 個核心技術.最后列舉了幾大熱門領域知識圖譜的現狀并對知識圖譜的應用做出說明.
要說明什么是領域知識圖譜,首先應該闡述什么是知識圖譜.其實,工業界和學術界都沒有對于知識圖譜給出一個嚴格的定義.本文在這里借用“Exploiting Linked Data and Knowledge Graphs in Large Organisations”[2]這本書對知識圖譜的定義:“A knowledge graph consists of a set of interconnected typed entities and their attributes.”,即知識圖譜是由一些相互連接的實體以及它們的屬性構成的.知識圖譜是由一條條知識組成,而知識需要有其表達形式,目前主流的知識表達形式有兩種:W3W 制定的資源描述框架(Resource Description Framework,RDF)和網絡本體語言(Web Ontology Language,OWL).本質上,知識圖譜是一種揭露實體之間關系的語義網絡.但是又不同于上世紀五六十年代產生的語義網絡,它之所以成為了新興技術,其中的關鍵就是知識規模.知識圖譜是大數據時代催生的,其規模之大決定了其效用之大.當前已經建成了多個大規模知識圖譜:DBpedia,YAGO,XLORE,Freebase,Google KG 等.表1統計了部分知識圖譜的數據規模.

表1 部分知識圖譜規模統計
領域知識圖譜(domain-specific knowledge graph)作為知識圖譜的一個分支,它把知識的覆蓋范圍和使用方式都聚焦于某一特定領域,因此其對該領域知識的深度和精度都有很高的要求.通用知識圖譜則更注重廣度,強調融合更多的實體,其精確度不夠高,且受概念范圍的影響,很難借助本體庫對公理、規則以及約束條件的支持能力規范其實體、屬性、實體間的關系等[3].領域知識圖譜具有許多不同的數據模式以適應不同的業務場景和使用人員
表2總結了領域知識圖譜和通用知識圖譜在知識表示、知識獲取和知識應用3 個方面的區別.

表2 通用知識圖譜和領域知識圖譜比較[4]
知識表示的3 個維度中比較重要的一個維度是知識粒度,知識粒度反映了基本知識單元的大小.不同領域中粒度大小往往是不相同的,也難以形成一個統一標準.在傳統的知識搜索領域中,知識粒度往往是文檔級別,這也就表現為搜索結果是一堆文檔的羅列.而在引入知識圖譜后的搜索結果可以直接給出答案的名詞以及答案的相近關系,這也就是知識表示粒度細化到單個實體乃至是實體的某個屬性的表現(如圖1).一般來說,知識表示的細膩程度與表達能力成正比,與獲取難度成反比.領域知識圖譜往往要求更細的知識粒度,這也就造成了知識獲取的困難.所以領域知識圖譜的構建更加花費資源[4].

圖1 知識圖譜以文檔中的實體作為知識單元
從知識獲取層面看,領域知識圖譜對知識質量要求更加苛刻,這是因為領域內的應用容錯率更低.比如教育領域,某一知識點的錯誤還可能導致與其關聯知識產生偏差.對質量要求苛刻自然也就需要更多的專家參與,這也是領域知識圖譜準確度的保障.但重度專家參與并不意味著完全由專家建設,充分發揮專家在該領域的專業性,自動化建設與人力補充才是構建領域知識圖譜的正確思路.
由于領域知識圖譜知識覆蓋范圍較小,知識深度更深,所以知識點更加密集,這就導致領域知識圖譜的推理鏈條更長.領域知識圖譜往往是為了某一專業領域而構建的,其應用復雜度自然更復雜一些.
領域知識圖譜的架構分兩種:一種是領域知識圖譜自身的邏輯結構;另一種是領域知識圖譜的構建技術(體系)架構,如圖2所示.
從邏輯上看,知識圖譜分為數據層和模式層.在數據層中,知識以事實為單位進行存儲.事實通常以三元組的形式進行存儲在圖數據庫中.像Neo4J、ArangoDB、OrientDB 都是當前主流的圖數據庫.模式層制定了數據層應該遵守的約束規范.通常采用本體庫來管理知識圖譜的模式層,借助本體庫對公理、規則和約束條件的支持能力來規范實體、關系以及實體的類型和屬性等對象間的聯系[5].知識圖譜的技術(體系)架構是指其構建模式結構,通常有自底向上構建和自頂向下兩種構建方式.自底向上的構建方式是直接進行數據抽取,將所得實體、關系、屬性等經審核后整合到知識庫中.自頂向下的構建方式先定義頂層關系本體,再將實體整合到頂層本體中.通用知識圖譜為了融合更多的實體,大多采用自底向上的方式構建[6].領域知識圖譜面向特定領域,對知識的質量和準確度要求苛刻,因此要求領域知識圖譜具有完備的本體層模式,通常采用自頂向下和自底向上相結合的構建方式[6].

圖2 領域知識圖譜體系架構
隨著研究熱度越來越高,各類領域知識圖譜迅速建設起來,不但涉及領域范圍廣,而且領域細分更加復雜.比如醫學知識圖譜就可以細化為生物醫學領域知識圖譜、中醫學科領域知識圖譜、中文疾病知識圖譜乃至乳腺腫瘤知識圖譜、基于甲狀腺知識圖譜等.雖然說領域知識圖譜的構建總體遵循上文闡述的體系架構,但是具體到各行業總會產生差異.所以無法空泛地講領域知識圖譜的構建.接下來,本文將選取當前比較熱門的醫學領域為例,闡述領域知識圖譜的構建技術.
醫學領域知識圖譜是由多種信息處理技術共同構建而成.通過醫學信息抽取技術,可以從包含醫學數據的數據源中提取出實體、實體間的關系和實體的屬性等要素.通過醫學知識融合技術,可以使信息抽取中提取的事實歧義性更小、冗余度更低、錯誤更低.但事實本身不等于知識,要想最終獲取結構化、網絡化的知識體系,還要進行知識加工.
知識表示是醫學知識圖譜構建之前確定下來的一組約定,以便將知識以符號的形式存儲.知識表示的選擇影響著醫學知識圖譜這個系統在信息抽取、存儲以及應用的效率[7].知識表示方法有3 類.
(1)基于符號邏輯的知識表示.該方法是早期醫療知識庫使用的知識表示方法,常見的邏輯方法有時間、概率、答案集編程、時間抽象等.在文獻[8]中,van der Heijden 等提出基于時態邏輯的知識表示方法來規范化具有生理背景知識的臨床指南.在文獻[9]中,Merhej 等提出了一種基于答案集編程(ASP)方法,該方法在處理復雜搜索問題時取得了較好的成效,不僅可以用于檢測不同治療方法的沖突,還可以檢測治療方法間的相互作用.但是基于符號邏輯的知識表示很難使用機器生成推理規則,僅僅在數據規模較小的時期使用較廣,現在面對規模龐大的醫學知識庫建設、面對具有挑戰性的臨床患者數據和基因組數據時,僅作為輔助形式存在[7].
(2)使用語義網的知識表示.這種方法當前認可度比較高,使用也很廣泛.文獻[10]就使用語義網絡技術從計算機可解釋的準則中評估護理行為并檢測個性化過程中的潛在矛盾,而文獻[11]則使用語義網絡技術通過醫療行為和治療數據的層次結構進行推理以檢測主要的替代干預措施.在文獻[12]中,作者使用UMLS 尤其是其語義網絡來檢測臨床指南中的模式.使用語義網的知識表示主要包括用于可擴展標記語言XML、描述Web 資源的資源描述框架RDF 和本體語義描述語言WOL.RDF 假定任何復雜的語義都可以通過若干個三元組的組合來表達.RDF作為一個統一且無歧義的語義定義方式,能夠促進語義網不同知識的相互鏈接,克服了XML 必須需要足夠詳細的XML 解釋文檔才能解釋語義的困難.當前在工業界大規模應用的是基于RDF 三元組的表示方法.
(3)表示學習.RDF 方法雖然得到了大規模應用,但是由于知識圖譜中節點個數影響著推理的效率和難度,所以RDF 方法在應用于醫學領域時會出現計算效率低等問題.表示學習可以將醫學研究對象的語義信息表示為稠密低維的實數值向量.通過在低維空間中計算和推理,能有效解決數據稀疏的問題,適應了大數據環境下知識計算效率問題,更容易解決不同源的異質信息融合問題.醫學知識圖譜按照計算方式不同可以分為距離平移模型(translational distance model)和語義匹配模型(semantic matching model)[6].其中距離平移模型通過設計距離評估函數判斷知識的合理性,平移模型的代表是Bordes 提出的TransE 模型.語義匹配模型包括單層神經網絡模型(Single Layer Model,SLM)、隱因子模型(Latent Factor Model,LFM)、神經張量模型(Neural Tensor Model,NTM)、矩陣分解模型(Matrix Factorization,MF)等[6].這方面的研究有:Henriksson 等[13]證明基于電子病歷中的臨床事件的深度學習表示法可以對更高性能的預測模型進行后續訓練.可見表示學習在知識表示方面效果不錯.
醫學信息抽取主要是通過人工或者自動方式從非結構化或者半結構化的數據中提取醫學知識單元[7].人工抽取可以通過基于訪談或焦點小組的工具輔助方法或定性方法來獲取知識.目前臨床醫學知識庫、ICD-10和上文提到的SNOMED-CT 知識庫都是采用這種方法抽取構建的.自動抽取借助可以使用機器學習(ML)或基于案例的推理(CBR)技術從醫學信息源中自動提取出醫學知識單元以構建知識庫.采用這種方式構建的醫學知識庫有一體化醫學語言系統 UMLS.隨著機器學習和深度學習技術的發展,醫學知識自動抽取的效率越來越高,但不利于自動化抽取的數據,人工抽取也是必不可少的.接下來本文將從實體抽取、關系抽取和屬性抽取3 個方面介紹自動抽取技術.
3.2.1 實體抽取
實體抽取又稱為命名實體識別(named entity recognition),旨在從醫學信息源中識別出特定的醫學實體.實體抽取是醫學信息抽取中至關重要的一環.醫學實體抽取主要有3 種方法.
(1)基于醫學規則和醫學詞典的方法
早期醫學實體抽取研究的主要方向是從醫學信息文本中識別出疾病、癥狀、治療、專家這些關鍵的實體信息,為后續實體關系抽取奠定基礎.Friedman 等[14]開發了一種通用的自然語言處理器來識別敘事報告中的臨床信息并將其映射為包含臨床術語的結構化表示形式.基于醫學規則和醫學詞典的實體抽取方法需要大量的人醫學專家編寫提取規則.但是這些規則往往依賴于具體語言和文本風格,這就造成了系統的可移植性不好,限制了其使用,現在這種方法逐漸被另外兩種方法取代[3].但在文獻[15]中,提出了一種將令牌級詞典功能整合到神經模型中以進行命名實體識別的方法,使基于詞典的實體抽取方法得到發展.
(2)基于機器學習與統計學算法結合的方法
機器學習誕生后,研究者嘗試通過使用機器學習中的監督算法結合一些醫學規則從醫學數據源中提取實體.這種方法取得了不錯的效果,其中最具代表性的是2010年美國國家集成生物與臨床信息學研究中心(I2B2)給出的電子病歷命名實體語料標注.除此之外,文獻[16]中提到Azalia 使用樸素貝葉斯分類器的命名實體識別,對圣訓的印度尼西亞語翻譯中的名稱索引.使用機器學習從帶有命名實體的手動注釋的語料庫中學習.但是,手動注釋語料庫非常昂貴且費力.文獻[17]中提出了一種無需任何人工注釋即可用于訓練臨床NER 系統的新穎方法.它僅需要原始文本語料庫和諸如UMLS之類的資源,即可提供命名實體及其語義類型的列表.使用這兩個資源,將自動獲取注釋以訓練機器學習方法.該方法在i2b2 2010 和SemEval 2014 的NER 共享任務數據集上進行了評估.其精度可以與過去使用人工注釋進行訓練的許多監督系統相媲美.
(3)基于深度學習的方法
深度學習方法是當前使用很廣泛的實體抽取方法,該方法的思路是從目標數據集中將有相似上下文特征的實體進行聚類操作.這個方法的缺陷是需要使用大量的標準語料進行模型訓練,當給定的實體實例較少時將面臨困難.在智能醫療領域,在這個問題上取得比較好的突破的是哥倫比亞大學的Zhang CW 和騰訊的Li YL[18].他們在2018年引入了一種生成式的視角來研究關系醫學實體對發現問題,旨在在最小化數據需求的同時,擴大高質量而又新穎的結構化新醫學知識的規模.基于此提出了(CRVAE)模型,通過利用已標注的實體三元組在自然語言表述上的特點,將醫學實體和關系輸入編碼器,通過訓練模型,對每一種醫療關系的不同實體對進行編碼,再通過解碼器進行共同訓練,重建實體對,最后得到未被標注的實體三元組.這種方法即使在僅有少量外部資源的情況下也能有不錯的判別效果.Zhang 等的實驗表明:該方法能夠在降低外部資源的條件下,以92.91%的支持度生成屬于某個特定醫療關系的實體三元組,其結果產生了61.93%的新樣本,準確率也達到了77.17%.要正確地識別實體,形態分析(MA)是必不可少的步驟.文獻[19]提出了同時執行MA 和NER 的集成神經網絡模型,重新設計了MA 和NER 的執行順序,該模型優于獨立的MA 模型和獨立的NER 模型,可以有效緩解流水線架構中經常發生的錯誤傳播問題.
3.2.2 關系抽取
RDF 知識表示方式中包含(實體,關系,實體)格式的三元組,其中的關系就有關系抽取產生.醫學關系抽取就是從醫學數據中抽取兩實體關系以實現實體間語義聯結.早期的醫學關系抽取方法類似于“實體抽取中基于醫學規則和醫學詞典的方法”,通過人工構造規則和模板進行關系抽取.現階段醫學領域關系抽取方法有3 種.
(1)基于機器學習的方法
基于機器學習的方法是通過解決分類問題實現關系抽取,常用的分類方法有基于特征和基于核兩種.
基于特征的方法是從文本中生成句法和語義等特征向量,分類器接受向量并判斷實體對之間關系.基于核的方法是根據某種結構(比如序列、樹、圖、依存關系路徑等)來表示實體關系,通過函數來計算對象相似度,并稱這種函數為核.
基于特征分類的方法抽取效果較好、速度很快,但是選擇合適的特征的會耗費許多時間和精力,而選取特征的好壞關系著關系抽取的質量.基于核的分類方法特征選取很靈活,但關系抽取速度慢,不適合大數據集的關系抽取.
(2)基于深度學習的方法
基于深度學習的關系抽取方法是目前醫學關系抽取主要的方法.常見的深度學習模型有卷積神經
網絡(CNN)和遞歸神經網絡(RNN).卷積神經網絡依靠卷積核獲取局部特征,適用于短句子實體關系抽取;遞歸神經網絡善于學習長期依賴特征,適合處理長句子,文獻[20]中提出了一種結構塊驅動的卷積神經學習的新型輕量級關系提取方法,通過在兩個數據集SemEval2010 和KBP37 上的實驗,證明了該方法的顯著優勢.
(3)基于機器學習和深度學習相結合的方法
近年來,為了充分發揮機器學習和深度學習的優勢,醫學專家們將兩種關系抽取方法結合起來,以實現更高效的關系抽取.李智恒等設計的從化學文獻中抽取化學物質致病關系的系統-CDRExtractor,就是將基于特征的分類方法和基于核的分類方法結合起來進行CID 關系抽取.該系統在BioCreative V CDR 測評任務CID 子任務提供的測試集上達到了67.72% 的F 值[21].Zhang Y 等[22]提出了一種混合模型,采用RNN和CNN 相結合的方式,實現檢測和提取生物醫學關系,實驗結果表明,RNNs 和CNNs 在生物醫學關系提取中的優勢是互補的.針對處理長句子和句子中的多個實體時當前模型出現問題較多的情況,文獻[23]中使用具有分段注意力和實體描述的循環神經網絡,有效的克服了上述兩個問題,并將F1 分數提高約3%.
屬性抽取的主要任務是獲取(實體,屬性,屬性值)類型三元組中的屬性和屬性值.對于醫學實體,藥品的規格、劑量、用法用量等都可以看作藥品實體的屬性.通過屬性抽取建立完整的實體描述.由于實體的屬性可以看成是實體和屬性值之間的一種名稱性關系,因此可以將實體屬性的抽取問題轉換為關系抽取問題.比如張元博在文獻[24]中探索到屬性及其屬性值存在共同特征,采用基于特征的機器學習方法來實現醫學實體的屬性提取.
醫學知識融合的目的是將醫學信息抽取中獲得的不同來源、不同結構、不同表示方式的數據進行整合,最終將這些異構醫學數據實現在同一框架下的規范表示[7],如圖3所示.知識融合分為共指消解和實體消歧.

圖3 不同數據轉化為三元組示意圖
3.3.1 共指消解
共指消解的主要目的是當多個名稱對應同一實體的時候,將這些名稱對應到正確的規范化的實體上,也就是解決異名同物問題.比如撲熱息痛片又名泰諾林、必理通等,它們都指的是學名為對乙酰氨基酚的藥物.在信息抽取完后產生了這些別名,這時候就需要共指消解技術把它們關聯到對乙酰氨基酚實體上.共指消解問題可以通過把其看作聚類問題來求解.該方法以規范化的實體為中心,通過實體聚類實現規范實體與它的別名實體的匹配[25].這方面的研究有:在文獻[26]中,提出了一種獲取健康消費者術語并將其與標準醫學術語保持一致的方法.2015年,在文獻[27]中提出了結合奇異值分解和多分類器針對共指消解問題的新方法,該方法可以獲得72.1 的平均準確率.
3.3.2 實體消歧
實體消歧是專門用于解決異構數據的實體產生歧義問題的技術,也就是針對同名異物問題.比如止吐藥dogmatilum(舒必利,止吐靈)叫“舒寧”,而抗焦慮藥oxazepam(N-去甲羥基安定)也叫“舒寧”,這種問題不加以解決會造成嚴重的后果.實體消歧的主要思想是聚類,基本過程如圖4所示.關鍵在于評估實體和指標的相似度,度量實體對象與指稱項之間相似度的常用的方法有4 種:空間向量模型(實體的上下文),語義模型(實體的上下文語義),社會網絡模型(利用關聯實體的關系構建指標網絡),百科知識模型(網站超鏈接)[25].

圖4 實體消歧的基本方法過程
近年來,實體消歧技術也與深度學習相結合.比如在文獻[28]中,將實體消歧定義為分類任務,開發了一種新的基于LSTM 的體系結構,結果表明與其他方法(例如文獻[29]的HAC)相比,基于RNN 對句子含義進行編碼更適合于實體消歧的任務.
水是基礎性自然資源和戰略性經濟資源。水利是國民經濟和社會發展的重要基礎設施和基礎產業。在新的發展階段,如何更好地發揮水利行業的支撐和保障作用,是擺在我們面前重大而緊迫的課題。
3.3.3 知識合并
知識合并的主要任務是把結構化的知識或者第三方知識庫的知識整合到知識圖譜中.結構化的知識符合知識規范,實用度高.第三方知識庫也能為知識圖譜構建提供可靠的知識來源,像WebMD、“好醫生”智能醫學數據庫、家庭醫生在線等都可以看作是第三方醫學知識庫,其中包含高質量、規范化的醫學知識.
本文參考Mendes 等對LOD 進行知識合并的方法[30],把合并第三方知識庫的流程歸類為:獲取知識;概念匹配;實體匹配;知識評估.其中概念匹配和實體匹配都是對第三方數據庫中獲得知識的概念和實體進行歸一化處理,知識評估是對新獲得知識一致性和準確性的檢測[25].
將原有的關系數據庫轉化為知識圖譜的知識表示也是知識合并的重要任務.在圖數據庫未使用之前,使用比較普遍的都是關系型數據庫.W3C 的RDB2RDF小組制定了direct mapping 和R2RML 兩個標準,用于將關系型數據庫的數據轉換為RDF 格式的數據.Direct mapping 采用直接映射的方式,實現表→類、列→屬性、行→實例、單元格值→屬性值的映射.Direct mapping不能將數據庫的數據映射到我們自己定義的本體上,R2RML 通過自主編輯和設置映射規則解決了這個問題.從RDB 到RDF 的常用轉化工具有D2RQ、SquirrelRDF、OpenLink Virtuoso 等.
醫學知識加工的目的是把信息抽取和知識融合中獲得的知識加工成高質量的知識.知識加工包括本體構建、質量評估和知識推理3 部分[25].
3.4.1 醫學本體構建
醫學本體是對于醫學領域之中醫學概念及其相互之間關系的形式化表達.醫學本體可以通過人工方法構建也可以通過數據驅動自動構建.人工方法構建的本體很適應目前大數據的形式,所以本文著重介紹下自動化的本體構建技術.
自動化構建本體的方法主要包括中心擴展法、由局部到全體、直接抽取文檔構建本體等方法[31].本文將不同的本體構建方法匯總在表3.

表3 不同的本體構建方法比較[31]
就醫學知識圖譜的本體構建來看,目前存在一些問題:①醫學領域本體的構建需要醫學專家的參與,并沒有實現真正的自動化,還是以半自動化為主;②醫學領域本體自動化構建具體實現較少,大多數研究還是理論研究;③語言分析軟件較少,不能滿足現在大規模醫學圖譜構建的需求.目前來看本體構建技術的發展和知識圖譜的發展熱度不匹配,本體構建也應該盡快實現理論到實踐的轉換,以適應構建大規模知識圖譜的需求.
3.4.2 質量評估
質量評估的主要目的是量化知識的可信度,舍棄置信度低的知識才能保證知識圖譜中知識的質量[32].為了促進知識選擇,應該使用系統來自動(或半自動化)用于特定目的的最佳知識的選擇.這需要基于一組特定標準來評估本體質量的方法.這些標準必須是可量化的,以便系統而不是人來完成它.文獻[33]研究提出并開發了一種基于符號學的分層本體度量標準套件,它可以為有效屬性提供總體得分的度量,可以結合使用手動計算和自動化來計算指標,盡管只有某些指標可以完全自動化的方式計算.該文章中提到,此套件已正式確定并在由模塊組成的排名系統中實現.
3.4.3 醫學知識推理
知識推理是根據已有知識庫,采用相關算法,實現對知識圖譜的探索和挖掘.在醫學知識圖譜中,知識推理要有搜集數據、診斷疾病、提供治療方法的功能.而在醫學方面,病情往往因人而異,對于具體疾病的診斷往往是依靠醫生的從醫經驗,所以醫學知識推理的構建難度還是很高的.
傳統的知識推理方法包括基于描述邏輯的推理、基于規則的推理、基于分布式的知識推理等,各方法的比較見表4.

表4 推理方法的比較[34]
這些方式很難滿足醫學大數據下的快速推理和對于增量知識和規則的快速加載,所以現在應用更為廣泛的是結合人工智能技術的知識推理模型,常見的有人工神經網絡模型(artificial neural netword model)、遺傳算法(genetic algorithm)和反向傳播網絡模型(back propagation)等.文獻[35]中就提出了一種表示本體,以將文獻抽象數據表征為4 個知識元素(背景,目標,解決方案和發現).案例研究表明,所提出的本體模型可以用來表示嵌入在文獻摘要中的知識,并且可以通過NLP 模型自動提取本體元素.所提出的框架可以增強文獻計量分析,以從文獻中探索更多知識,實現知識推理的功能.
無論是傳統的知識推理方法還是人工智能技術的推理方法都是以知識圖譜作為數據源進行推理,而圖挖掘計算則是基于圖論的相關算法,把知識圖譜看作圖,把醫學實體看作節點,實體間的關系看作邊,實現對圖譜的探索和挖掘,更有利于解決大規模的圖數據分析問題[36].基于此,Jagvaral 于2019年提出具有注意機制的CNN-BiLSTM 方法用于知識圖譜基于路徑的推理[37].論文中提到,他們研發的路徑編碼器從大型圖形的路徑中提取特征更有效,更是說明了應用多步推理在基于路徑的推理中可能會有用.此項研究只使用一種類型來表示實體,而大多數知識圖譜中的實體具有多種類型,因此,多種類型合并到路徑編碼中的路徑推理推理還有待研究.
以上為比較具體的領域知識圖譜構建流程,雖然領域知識圖譜應用比較廣,但目前還尚未實現自動構建,而在2018年,清華大學知識工程實驗室發表一篇名為“一種準確而高效的領域知識圖譜構建方法”的文章[38],介紹了一種快速構建較高質量的領域知識圖譜的方法,為領域知識圖譜構建提供另一種思路,該方法稱為“四步法”:①領域本體構建;②眾包半自動語義標注;③外源數據補全;④信息抽取.在領域知識圖譜構建過程中,權衡效率和準確率,平衡自動化和人工構建,以高效地構建圖譜,這是當前面臨的一個很大問題.
圖5是以心律失常為關鍵詞繪制的醫學領域知識圖譜,它展現了知識圖譜力導向布局圖的視圖形式.

圖5 醫療領域知識圖譜舉例
知識圖譜的繪制工具可分為兩大類:通用軟件,如SPSS、Ucinet、PajekWordsmithTools 和GIS 等.另一類是專門用于知識圖譜繪制的軟件,也有許多類型,有些是針對某些特定領域,有些是個人未公開的.表5對知識圖譜繪制工具做一個匯總.

表5 知識圖譜繪制工具[32]
隨著近幾年知識圖譜技術的發展,知識圖譜研究與落地發生了一些轉向.其中一個重要變化就是領域知識圖譜的建設成為主流.知識圖譜技術與各行業的深度融合已經成為一個重要趨勢[4].
接下來,本文對搜索、醫療、電商、社交、教育這幾個熱門領域規模比較大的知識圖譜進行匯總,見表6.

表6 熱門領域知識圖譜匯總
醫療領域是當前建設很火熱的領域,僅是對中文醫學知識圖譜的相關檢索就達200 多條,大到中文疾病知識圖譜,小到甲狀腺知識圖譜,醫療領域知識圖譜的理論實踐化是有原因的:(1)醫療信息化浪潮.步入信息化社會以來,醫療信息化的發展從未停歇過,從最初的醫院信息系統開始,電子病歷、臨床智慧醫療等技術層出不窮.(2)龐大的醫學數據.除醫院提供的病例信息,基因學研究,蛋白組學也給醫療領域貢獻了大量的數據.(3)人工智能出現后,為體量龐大的醫學數據處理提供方向.知識圖譜正是作為大數據到人工智能的理想橋梁.整合異構數據,建立語義關系,最重要的是知識推理,醫療知識圖譜在智慧醫療的建設中起到越來越重要的作用,通過知識問答,知識推理將更好的為社會服務.所以醫療知識圖譜發展迅速.與之相似,教育領域同樣具有數據量大,面臨信息化建設等優點,相信教育知識圖譜也將會得到越來越多的關注.
知識圖譜作為近十年內新興的概念,其可以將各種信息和數據整合為知識,為各研究領域提供可視化分析,各類大規模知識圖譜在智能搜索、智能問答、智能推薦、情報分析等方面發揮了重要作用.
4.2.1 智能搜索
基于知識圖譜的智能搜索可以直接給出知識卡片而不是給出相關的鏈接序列.在知識圖譜的幫助下,搜索引擎可以將搜索關鍵詞映射到知識圖譜中匹配度較高的一個或一組概念上,最后以知識卡片的形式展現給用戶.知識卡片可以以3 種形式展示知識[3]:①對于單一關鍵詞的搜索,返還用戶查詢的實體的結構化摘要.比如搜索姚明,將給出姚明的身份介紹以及主要關系介紹;②對于問題類的搜索,知識卡片直接給出答案.比如搜索“姚明的身高是多少?”,搜索結構將是顯示226.0 cm 的知識卡片;③對于模糊類的查詢,將給出相關網頁列表.例如搜索“姚明最近的活動有哪些?”,搜索結果是包含姚明活動的新聞網頁.
4.2.2 智能問答
Gowild 狗尾草的AI 虛擬生命“琥珀虛顏”和蘋果的智能語音助手Siri 都是知識圖譜應用于智能問答方面的實例.智能問答是信息檢索系統的一種高級形式,能夠用自然語言為用戶提供問題的解答或者實現人機交流.目前,語音助手研發十分火熱,比如百度自然語言部開發的小度機器人,阿里巴巴人工智能實驗室研發的天貓精靈,亞馬遜Alexa 語音服務等都是為智能問答更加智能、準確做出地探究.
4.2.3 智能推薦
電商、教育、社交等行業都需要借助大數據行為分析進行用戶畫像,以指導廣告投放和提高用戶體驗.相較于原先對關聯性較差的數據進行用戶行為分析,知識圖譜一個天然的優勢就是更突出數據之間的關系,這樣就能根據知識關聯關系獲得更加精確的用戶畫像,有助于精準營銷、精細化運營.除了用戶畫像,智能推薦還要依靠商品之間的關聯提供使用建議、搭配等.
4.2.4 情報分析
江蘇大學劉桂峰利用CiteSpace 軟件信息可視化方法,對1990-2010年間來自Web of Science (SCIE)數據庫的太赫茲技術領域研究的文獻數據進行統計和可視化分析,揭示出該領域的領軍人物、知識基礎和研究前沿等信息[43].趙蓉英等[44]利用CiteSpace Ⅱ的爆發詞探測方法繪制知識圖譜,并繪制爆發詞隨時間演化的學科前沿發展趨勢圖,進而發現學科前沿.胡澤文等在文獻[28]中借助通過CiteSpace Ⅱ界定了改革開放來情報學的3 個發展階段.CiteSpace 是一款應用于科學文獻中識別并顯示科學發展新趨勢和新動態的軟件,通過它繪制知識圖譜,能夠發現經典文獻、研究熱點和研究前沿.可見知識圖譜用于情報分析方面有很大的發展潛力.
除此之外,知識圖譜應用于醫學、教育等領域,對于建設智能醫療、智慧教育起著支撐作用.
知識圖譜從最初作為輔助Google 搜索的技術被提出,到現在很多行業都在建設自己的知識圖譜,它的價值正在被慢慢挖掘出來.知識圖譜不是知識的終點,但是它確實能解決很多學科領域的瓶頸問題,成為智能化建設的基石.
結合醫學知識圖譜的構建和發展,本文認為信息抽取技術仍是當前的研究熱點,最理想的信息抽取方式是結合實體抽取、關系抽取和屬性抽取三者的聯合抽取,但該技術還沒有典型代表.而知識推理作為知識圖譜最大的亮點和功能,將其技術發展成熟還需要付出很大地努力.在人工智能還有很大發展潛力的今天,借助人工智能技術實現知識推理有很大的發展前景.知識推理不僅是智能問答、智能推薦等應用的關鍵技術,更是智能化建設的基石.
對于領域知識圖譜的發展方向,本文傾向于領域劃分更精細,領域交互更頻繁的發展方向.類比于醫學領域中各種疾病的知識圖譜,也許教育領域會出現各種學科知識圖譜,因為越精細,專業性越強,知識越準確.這也是越來越多的人主張建立企業知識圖譜的原因.此外,各領域的知識圖譜不該是獨立存在的,領域知識圖譜之間有交互,才能真正地構成知識網.
知識圖譜仍在發展初期,筆者僅希望通過本文的寫作,能拋磚引玉,吸引更多人了解這門技術并投入到相關的研究中來.