鄭增亮,蔡曉瓊,蘇前敏,黃繼漢
(1 上海工程技術大學 電子電氣工程學院,上海 201620;2 上海中醫藥大學 藥物臨床研究中心,上海 201203)
隨著移動互聯網、物聯網、云計算等技術的不斷發展,數據的類型和規模以前所未有的速度增長,社會各個領域都步入大數據時代[1]。在醫學領域,伴隨著醫學信息化系統的發展,積累了規模可觀的醫學大數據,但這些數據并沒有發揮應有的價值,如何從巨量復雜的數據中快速提取最有價值的信息,是制約當前醫學大數據分析的關鍵問題[2]。近年來,知識圖譜在工業界和學術界都得到了廣泛的應用,成為最有效的知識集成方法之一[3]。知識圖譜作為一種新型的知識表示形式,可以對錯綜復雜的文本數據進行有效的加工、處理、整合,轉化為簡單、清晰的三元組,最后聚合大量的知識,從而實現知識的快速響應和推理。
一個完整的知識圖譜的構建需要經歷知識建模、知識存儲、知識抽取、知識融合、知識計算和知識應用等階段[4]。近年來,Freebase 和DBpedia 這樣的大型知識圖譜在眾多下游應用中發揮了重要作用,引發了學術界和工業界的廣泛關注。
為了更全面分析知識圖譜在醫學領域的研究現狀和趨勢、對比研究熱點,本文通過檢索CNKI 和Web Of Science 中2012~2021 年與知識圖譜在醫學領域研究主題相關的核心期刊為數據來源,導入CiteSpace 軟件進行文獻計量可視化分析,旨在為中國的知識圖譜在醫學領域的研究提供參考建議。
中國知網(CNKI)是目前世界上最大的連續動態更新的學術期刊全文數據庫,因此對CNKI 數據庫的學術期刊進行檢索。2012 年5 月17 日,Google 正式提出了知識圖譜(Knowledge Graph)的概念,其初衷是為了優化搜索引擎返回的結果,增強用戶搜索質量及體驗,2013 年以后開始在學術界和業界普及[5]。故本文高級檢索條件設置為:主題=知識圖譜,檢索時間設置為:2012~2021 年,來源類別設置為:北大核心期刊、CSSCI 期刊及CSCD 期刊,根據檢索結果,繼續在檢索結果中檢索,設置主題=“醫學”or 主題=“醫療”or 主題=“疾病”,總計220 條數據。
以科學引文數據庫Web of Science(WoS)核心合集為數據源,基本檢索條件1 設置為:“主題=Knowledge Graph;文獻類型=Article,Review;語種=English;自定義年份:2012-01-01 到2021-12-31”;基本檢索條件2 設置為:“主題=Knowledge Map?”,其余檢索條件同條件1;基本檢索條件3 設置為:“主題=Medical?”,其它條件同條件1。條件1 檢索到數據6 019 條,條件2 檢索到數據25 439條,條件3 檢索到數據493 292 條。根據條件1、2、3檢索的結果進行高級檢索,高級檢索條件4:(#1)OR(#2);高級檢索條件5:(#3)AND #4。高級檢索條件4 檢索到數據30 784 條,高級檢索條件5 檢索到數據1 251 條。由于選擇了精確匹配且在檢索條件中限定了文獻類型,而WoS 數據庫入庫時也對文獻類型進行了篩選分類,故檢索獲得的1 251 篇文獻全部納入本研究。
本文以中國知網(CNKI)和Web of Science 數據庫核心合集收錄的相關文獻為研究對象,對國內外“知識圖譜在醫學領域研究”相關文獻進行分析探究;利用文獻分析工具CiteSpace 對國內外該領域的研究現狀和研究熱點進行可視化分析;最后,綜合對比國內外該領域研究現狀和研究熱點,提出相關建議。
截止2021 年11 月6 日,從CNKI 核心期刊庫檢索出相關的文獻220 條,國內醫學領域應用知識圖譜的研究較少,從Web of Science 核心期刊數據庫檢索出相關文獻1 251 篇,相對于國內的研究,國外在該領域的研究投入較多。
CNKI 檢索出該領域研究的學術論文220 篇,從時間序列上來看,2012~2021 年,國內知識圖譜在醫學領域研究整體發文量呈增長趨勢如圖1 所示。2012~2014 年該領域發文量增長緩慢,原因為國內知識圖譜在醫學領域研究處于起步階段;2014 年以后,該領域發文量增長速度較快;2020 年達53 篇,增長率高達70.9% 學科領域的發文量在一定程度上可以反映該學科的發展程度和研究水平,該數據表明國內知識圖譜在醫學領域正處于較快發展階段,知識圖譜研究已引起了相關研究者的關注。

圖1 發文量隨時間變化趨勢Fig.1 Trends in the number of articles published over time
對作者和研究機構進行分析,有助于整體把握中國知識圖譜在醫學領域開展研究的作者和機構分布態勢。利用Citespace 軟件進行可視化分析,獲得該領域研究者的合作關系如圖2 所示,節點半徑越大表示相應發文量越多。

圖2 國內作者合作關系圖Fig.2 Domestic author partnership chart
對論文發表的作者進行統計分析見表1。表中列出了知識圖譜在醫學領域研究發表論文數量前10位的作者。普萊斯定律能夠有效評價學者研究成果的影響力,定律指出相同主題中論文數量的一半是由具有較高生產力的作者群體所寫,并且作者集合的數量約等于所有作者總數的平方根,計算公式(1):

表1 國內作者發文量統計Tab.1 Statistics on the number of articles published by domestic authors
式中Npmax 表示發文量。
按取整原則,發文量在2 篇或2 篇以上的論文作者為核心作者。
利用Citespace 進行可視化分析,獲得機構合作關系圖如圖3 所示,圖中節點半徑越大表示該機構與其他機構合作次數越多、發文量越多。由圖3 可知,中國知識圖譜在醫學領域的研究主要集中在高校和研究所,且主要集中于信息情報工程學院和醫學院,其中鄭州大學信息工程學院和鵬城實驗室發文量最多,說明這兩所研究機構對知識圖譜在醫學領域的研究比較重視,而且合作密切,在該領域科研力量強大;其次是中國中醫科學院中醫臨床基礎醫學研究所、華中科技大學同濟醫學院醫藥衛生管理學院、華南理工大學工商管理學院等。

圖3 機構合作關系圖譜Fig.3 Institution cooperation map
研究熱點和研究前沿常來源于新的科學發現或學科進展,是科學研究中最先進、最有發展潛力的研究主題或研究領域[6]。關鍵詞詞頻共現可揭示文獻所屬領域研究主題的熱點分布并揭示其內在聯系和演進規律[7]。利用Citespace 繪制關鍵詞詞頻共現時序圖如圖4 所示,進而展現知識圖譜在醫學領域研究熱點和趨勢。時序圖節點的大小代表出現頻次,頻次較多的關鍵詞或名詞短語在一定程度上代表該領域的研究熱點[8]。關鍵詞時序圖中關鍵詞表示該關鍵詞首次出現的時間,字體或節點大小客觀反映知識圖譜在醫學領域研究持續的熱度,節點越大說明該方向研究持續的熱度越久。

圖4 國內研究關鍵詞時序圖Fig.4 Timeline of domestic research keywords
圖4 從左向右時間從2012 年依次遞增,最大的節點是“知識圖譜”,表明“知識圖譜”熱度在2012 年一直持續;其次是“研究熱點”,“可視化”,“共詞分析”方面的熱度比較持久;在“大數據”、“人工智能”詞條出現后,“實體抽取”、“實體關系”和“實體識別”等關鍵詞集中涌現,深度學習也應用于醫學領域的知識圖譜研究,說明隨著前沿技術的應用,醫學領域知識圖譜的研究有了更深層次的發展;近年來知識圖譜開始應用于“醫養結合”、“臨終關懷”、“養老院”等相關的養老服務,說明養老方向是近年國內醫學知識圖譜研究的一個趨勢。
Web of Science 數據庫中檢索出知識圖譜在醫學領域研究方面的文獻1 251 篇。從時間序列上來看,2012-2021 年,國外知識圖譜在醫學領域的研究的發文量整體呈增長趨勢,每年的發文量總體大于國內的發文量,在2020 年增長最快,增長率為48.45%。總體表明,國外知識圖譜在醫學領域的研究正處于不斷發展的階段。
對國外高產作者進行統計,見表2。依據普萊斯定律,發文量在2 篇或2 篇以上的論文作者為核心作者,共計77 位,共發表論文162 篇,占所有論文總數的12.95%,表明領域內合作度較小,作者發文都集中在自己的小圈子。可見國外在該領域研究的高產作者帶頭作用還未形成,且排名前十的作者中中國學者占據了6 位,表明國內知識圖譜在醫學領域的研究處于國際前沿。

表2 國外作者發文量統計Tab.2 Statistics on the number of articles published by foreign authors
利用Citespace 進行可視化分析,獲得國外該領域研究者的合作關系圖以及國外機構合作關系圖,如圖5、圖6 所示。由圖5 可知,國外作者間的合作度比較低,傾向于在自己的圈子中開展研究;由圖6可知,國外知識圖譜在醫學領域的研究機構主要集中在高校,加拿大多倫多大學(University of Toronto)發文量最多,其次依次是加拿大的麥克馬斯特大學(McMaster University)、美國的約翰斯·霍普金斯大學(Johns Hopkins University)、加拿大的麥吉爾大學(McGill University)等。在發文量前十的國外機構中,加拿大的高校占據四席,且排名前二的都是隸屬于加拿大的機構,表明加拿大高校在該領域的研究投入較多,在國際處于領先地位。
利用CiteSpace 構建關鍵詞共現時序圖,構建的關鍵詞共現時序圖包括339 個節點,1 786 條連線如圖7 所示。可以看到knowledge(知識)、system(系統)、Care(護理)、model(模型)、management(管理)、education(教育)、medical education(醫學教育)、disease(疾病)、classification(分類)、impact(影響)10 個熱點詞匯,顯示當前國外在該領域的研究主題比較廣。與國內的發展趨勢相近,在2019 年以后,出現了大數據、人工智能、預測等詞匯,表明當前國外的知識圖譜在醫學領域的研究延伸到了技術應用的深層次領域。

圖7 國外研究關鍵詞共現時序圖Fig.7 Foreign research keyword co-occurrence time series chart
一篇文獻的研究主題、研究方法等集中體現在關鍵詞上,因此對一學科研究熱點的探析可通過統計關鍵詞的方法來進行研究,在CiteSpace 可視化圖譜中,突變詞是指在較短時間內出現較多或使用頻次增長率明顯提高的詞,可以反映出該領域的前沿動態[9]。關鍵詞突現度可以反映一段時間內影響力較大的研究領域[10]。利用CiteSpace 繪制關鍵詞突顯圖來綜合分析該領域的研究熱點如圖8 所示。

圖8 關鍵詞突顯Fig.8 Keyword highlight
由圖8 可知,在研究內容方面,在知識圖譜概念提出的前期,該領域“可視化”、“體系機構”、“學習”、“統計”等詞出現較多,表明知識圖譜研究初期,知識圖譜在醫學領域的研究大部分工作是利用知識圖譜進行醫學數據的統計。近幾年,國內該領域逐漸出現“命名實體”、“抽取”、“分類”、“圖數據庫”等名詞,可見隨著科學技術的發展,醫學領域的知識圖譜正逐步構建起來。縱觀國外知識圖譜在醫學領域的研究,從圖概念、醫學教育到藥物的研發、病人的干預模式,而國內的研究則主要集中在統計和數據挖掘分析,值得注意的是中國知識圖譜在養老服務中的研究比較深入。
在研究深度方面,該領域的研究初期,國內外的研究熱點主要集中在“統計”、“圖概念”、“學習教育”領域的研究。隨著時間推移,國外學者研究的主要方向在于知識圖譜在“疾病”、“藥物”、“干預方式”等領域的研究,國內主要注重于“大數據”、“數據挖掘”、“養老服務”領域的研究。最近研究的趨勢都傾向于“人工智能|”,“實體抽取”,“深度學習”等領域,表明知識圖譜在醫學領域的研究步入更深層次的階段。
在研究方向方面,國內知識圖譜在醫學領域研究關鍵詞出現頻次最高的為研究熱點可視化(26次)、文獻計量(13 次)、深度學習(10 次)、研究前沿(6 次)、人工智能(6 次)、實體關系(5 次)、大數據(4 次);國外關鍵詞出現頻次最高的為“system(系統)”(70 次)、“care(護理)”(59 次)、“model(模型)”(55 次)、“management(管 理)”(54 次)、“education(教育)”(42 次)、“medical education(醫學教 育)”(39 次)、“disease(疾 病)”(39 次)、“classification(分類)”(38 次),說明國內的研究側重于利用知識圖譜相關技術進行醫學領域知識的分析,并將前沿的技術應用到知識圖譜中,而國外的研究側重于把知識圖譜應用到具體相關的應用,使其發揮實際作用,即國內知識圖譜在醫學領域的研究側重于學術理論研究,國外研究側重于實際應用。
本研究借助文獻計量學方法和Citespace 軟件,對2012~2021 年CNKI 和Web of Science 核心數據庫中收錄的、以“知識圖譜在醫學領域研究” 為主題的研究文獻,從發表時間、作者機構及前沿熱點視角進行統計分析,探討國內外學者對于知識圖譜在醫學領域研究異同點,得出以下結論。
從時間序列上看,知識圖譜在醫學領域的研究已引起國內外學者的廣泛關注,該領域的發文量正隨著時間推移,呈現不斷增長的趨勢,并且國內外在該方面的研究逐漸步入更深層次的技術領域,新的方法技術正不斷應用到醫學領域的知識圖譜中,包括“人工智能”、“大數據技術”、“深度學習”,最近幾年“實體抽取”、“實體融合”、“圖數據庫”等關鍵詞不斷涌出,表明醫學領域的知識圖譜正在逐步被構建。隨著人工智能、大數據技術、機器學習和知識圖譜逐步融合,構建完善的醫學領域知識圖譜,必定在醫學輔助決策、輔助診斷、智慧醫療等方面發揮積極作用。
從該領域作者發文量和作者所屬機構的合作情況來看,該領域還未形成具有帶頭作用的機構或團體,在該領域的研究合作度較低,知識圖譜在醫學領域還有廣闊的發展空間,各機構間加強合作,擴展自己的合作圈是在該領域快速取得成果的有效途徑。領域發文最多的前10 作者中,國內的作者占據一多半,足以展現出中國知識圖譜在醫學領域的研究處于國際領先水平,中國許多優秀的學者傾向于把研究成果優先發表于國外的核心期刊中。在研究機構中,加拿大高校在該領域的研究投入較多,在該領域的科研實力較強。
國內外知識圖譜在醫學領域方面的研究側重點不同,國內學者在該領域的研究處于世界領先地位,未來利用大數據、人工智能、深度學習技術推進醫學領域知識圖譜的構建當前知識圖譜在醫學領域的研究趨勢。國內學者加強合作,積極探索理論和應用相結合的方式方法,進一步深化研究,必然推動中國醫學領域的全面發展。