白如江*,趙夢夢,張玉潔,董坤
山東理工大學,信息管理研究院,山東 淄博 255000
《中華人民共和國國民經濟和社會發展第十四個五年規劃和2035年遠景目標綱要》中指出要構建國家科研論文和科技信息高端交流平臺,這也是加強國家戰略科技力量的重要舉措之一。毋庸置疑,在大智物移云時代,數據已成為社會發展的核心戰略資源,如何從海量信息數據中精準挖掘有價值的信息,并轉化為解決國民經濟社會發展中遇到問題的知識情報決策支持,越來越成為社會各界關注的焦點。
科技文獻作為重要的知識載體,凝聚著全人類的智慧,科技文獻挖掘已被廣泛應用于把握科技發展脈絡、探測科技研究前沿、洞悉科技競合態勢、識別“卡脖子”技術難題及評價學術影響力等眾多領域。然而,隨著科技文獻數量的爆發式增長,真正有用的知識被嵌入和隱藏在大量無關的自然語言表述中,如何高效并且精準地定位、理解和利用這些有用信息,形成“數據+知識+技術+應用”四輪驅動的科技情報服務,成為當前科技文獻挖掘面臨的挑戰。為系統把握當前科技文獻挖掘的研究進展,前瞻科技文獻挖掘未來發展趨勢,本文將梳理科技文獻挖掘的歷史發展脈絡,科技文獻挖掘的數據源情況,科技文獻挖掘平臺工具情況以及科技文獻挖掘的關鍵技術,并在此基礎上對科技文獻挖掘未來發展做出展望。
科技文獻挖掘可以分為廣義和狹義兩種理解。廣義來看,文獻檢索是文獻挖掘的數據基礎,文獻計量、文本挖掘是文獻挖掘的技術手段,知識發現是文獻挖掘的主要目的,可視化是文獻挖掘的一種展示形式,都可認為是科技文獻挖掘活動。狹義理解指針對科技文獻全文本內容利用文本挖掘、自然語言處理等計算機技術自動進行信息抽取、理解、融合等,從而實現知識發現。本文將聚焦狹義理解,兼顧廣義理解展開論述。
在廣義理解上,科技文獻挖掘可以追溯到1945年美國學者維納·布什(Vannevar Bush)在《大西洋月刊》上發表的《誠如所思》(As We May Think)。該文章提出了一種用于文獻自動檢索挖掘的機器設想Memex,這一思想也開啟了利用計算機技術進行科技文獻挖掘的歷史[1]。1954年,美國海軍兵器中心把文獻號和少量檢索詞輸入計算機,建立了世界上第一個計算機文獻檢索系統[2]。1958年,盧恩等人利用計算機編制了上下文關鍵詞索引(KWIC), 這是人們在實現索引編制工作自動化方面最早的嘗試[3];1961年,美國化學文摘社在此基礎上成功研制了化學題錄[4]。1963年,Garfield 提出了科學引文索引(Science Citation Index, SCI),開啟了利用文獻計量方法進行科技文獻挖掘的新時代[5]。此后,學者們圍繞期刊影響因子、文獻被引頻次等進行了科技文獻挖掘,提出了“共被引分析”、“共被引相似度”、“共被引輕度”、“文獻耦合分析”等思想以及科學地圖的概念,并開發了HistCite、VxInsight 等科技文獻可視化工具。1965年,Price 提出了利用科技文獻共被引分析方法識別科學研究前沿的思想[6]。1985年,芝加哥大學Swanson 教授提出了利用非相關文獻知識發現的方法進行文獻分析和挖掘[7]。到了20 世紀90年代,隨著計算機技術的發展,科技文獻挖掘逐步深入到科技文獻文本內容進行分析。1992年,美國海軍研究總署(ONR)的Kostoff 博士提出了數據庫內容結構分析方法,從科技文本內容出發,通過共現窗口分析科技文獻內部詞語的共現關系,進而發現科技文獻的主題熱點等[8]。1995年以后,隨著互聯網商業化,各類科技文獻網絡數據庫也如雨后春筍般蓬勃發展起來,各類數據庫的建立為科技文獻挖掘提供了堅實的數據保障。
進入21 世紀以來,科技文獻挖掘研究一方面在數據源端不斷提升數據的質量,另一方面借助飛速發展的計算機信息處理技術更加深入到文本內容挖掘科技文獻蘊含的寶貴知識,特別是統計機器學習和深度學習的方法,例如:LDA 主題模型[9]、word2vec、循環神經網絡、卷積神經網絡[10]等。通過LDA 主題模型可以有效識別科技文獻中的研究主題,利用循環神經網絡可以對科技文獻內容進行命名實體識別,自動標注科技文獻中蘊含的新理論、新方法、新材料、新工具等。在此期間涌現出了一大批具有代表性的科研成果,比如:佐治亞理工學院Alan Poter 教授致力于利用專利等科技文獻將文本挖掘技術用于技術預測與評估[11];印第安納州立大學布盧明頓分校的Katy B?rner 教授開發了Sci2工具用于科技文獻文本內容挖掘,并出版了《Atlas of Science—Visualizing What We Know》圖書介紹科學地圖;美國Drexel 大學陳超美教授開發了CiteSpace,成為文獻計量學和文獻挖掘的重要工具,并廣泛使用[12];荷蘭萊頓大學Ludo Waltman 教授開發了科學知識圖譜繪制軟件VOSviewer,可以處理大規模的文獻數據,具有極強圖形展示能力[13];中國科學院文獻情報中心開發了SciAIEngine,以科技文獻大數據為數據源,實現了科技文獻摘要語句識別、自動科技文獻分類、科技文獻關鍵詞、命名實體、概念定義句自動識別等功能[14]。此外,中國科學院成都分院張志強、胡正銀等開發了干細胞領域知識發現大數據平臺,清華大學唐杰團隊開發了科技情報大數據挖掘與服務系統平臺Aminer 等[15],這些工具與平臺極大地豐富了科技文獻挖掘方式,降低了科技文獻挖掘的技術門檻,為科研工作者提供了極大的便利。
在科技文獻挖掘的應用場景上,中國科研團隊更加注重面向國家重大戰略需求展開重大科技文獻挖掘研究項目,比如:中國科學院科技戰略咨詢研究院冷伏海團隊自2015年起編制《研究前沿》系列報告[16],從科技文獻中洞悉科學研究前沿,2020年發布《技術聚焦》[17],利用專利文獻識別當前技術焦點,為我國科技領域前沿準確把握和未來發展趨勢預測做出了重要貢獻。中國工程院致力于工程技術前沿挖掘[18-19],為科研工作者研究前沿與技術解讀提供參考范本。
隨著學科交叉融合發展,科技文獻挖掘與計算社會科學、科學學等領域相互交織,并逐漸向各個子領域下沉。例如,2009年,David Lazer 等15 名來自不同學科領域的學者在Science 發表《Computational Social Science》[20],提出“計算社會科學”,其中提及利用技術與數據來更新科學研究的范式。2018年,Fortunato 等14 名學者在Science 發表《Science of science》[21]提出“科學學”研究,致力于利用科學研究的大數據來發現具有普遍性或者跨領域性的科學規律,為科技政策評估、學術創新研究提供更大的驅動力。
總體而言,科技文獻挖掘的發展過程伴隨著文獻計量、信息檢索、知識發現等領域的發展,這些概念之間既有聯系又有區別。文獻計量和信息檢索等方法有效地推動了科技文獻挖掘的發展,這些方法也極大地增強了基于科技文獻的知識發現能力。
工欲善其事,必先利其器,科技文獻挖掘離不開科學高效的工具。本文系統總結分析了目前在支持科技文獻引文分析、著者耦合分析、社會網絡分析、科技文獻文本內容挖掘方面的重要工具,并對不同工具在支持文獻數據源、挖掘維度、可視化功能等維度進行了比較分析,解決了科技文獻挖掘“用什么工具挖”的問題。
引文分析工具主要是對文獻中的參考文獻進行挖掘和分析,運用直接引文分析、共被引分析、耦合分析等方法進行分析,挖掘高被引論文、高影響力論文、高質量論文。目前使用頻率比較高的主要有HistCite[22]、CitNetExplorer[23]、Citespace[12]、VOSviewer[24]、SCI2等, 見表1。

表1 科技文獻網絡分析挖掘工具Table 1 Network mining tools for S&T literature
通過科技文獻內容挖掘工具可以深入到科技文獻文本內容進行挖掘分析,比如文獻的標題、摘要、關鍵詞甚至是全文,運用詞頻分析、共詞分析、主題分析等方法對科技文獻進行分析,挖掘蘊含在文獻中的研究主題、研究前沿、關鍵技術、新思想、新材料、新方法等內容。目前,主要的開 源工具 有KNIME[25]、RapidMiner[26]、ORANGE[27]、 PubMedMiner 等,商業挖掘工具有IBM SPSS Modeler、Tableau 等,如圖2 所示。

圖2 科技文獻文本內容挖掘工具Fig.2 The content mining tools of S&T literature mining
KNIME 平臺最初由康斯坦茨大學的工程師團隊開發,旨在成為一個協作和研發平臺,能夠運行各種數據項目。用于科技文獻挖掘的文本預處理、決策樹分類器、KNN 分類器、K-means 聚類、LDA 主題模型等眾多模型、算法都能夠運行在該平臺上。此外,KNIME 還能夠集成文本、數據庫、圖像等多種類型數據,同時支持R 語言和Python 語言腳本擴展,提供更加美觀的可視化產品。
RapidMiner 是一個世界領先的數據挖掘工具,采用JAVA 語言開發,其特點是拖拽建模,自帶1500 多個函數,無需編程,簡單易用。通過Rapid-Miner 工具可以實現科技文獻內容挖掘的大部分功能需求。
ORANGE 是面向初學者的數據挖掘和可視化的強大的工具箱,不需要編程或深入的數學知識,只需要可視化的操作就可以完成文獻數據的挖掘和知識可視化。ORANGE 最早起源于1997年的WebLab會議上,它包含大量數據科學和機器學習的常見算法,同時提供Python 擴展庫和腳本功能,快速實現自己想要的定制化功能。
此外,Gephi[28]、Pajek[29]等社會網絡分析工具,能夠在文獻內容挖掘工具基礎上進行文獻共詞分析、作者貢獻分析等。
科技文獻挖掘系統平臺是科技文獻挖掘的數據源基礎,也是解決科技文獻挖掘“從哪里挖”的問題。隨著大數據時代的到來,科技成果的快速涌現導致科技文獻數量激增,與此同時,不同學科研究領域之間相互滲透、交叉,單一數據源越來越無法滿足研究需求,如何在科技文獻洪流保障其數據源的完整性、可靠性、全面性成為科技文獻挖掘的新挑戰。
科技文獻檢索平臺是科技文獻挖掘系統平臺獲取可信科技文獻數據源的重要手段,科技文獻挖掘系統平臺通過對獲取到的科技文獻的外部特征、文本內容等進行關聯呈現、細粒度分析等深入挖掘,發現隱含、新穎且富有價值的科技知識,滿足科研人員的不同層次知識需求。
科技文獻挖掘系統平臺的數據來源主要包含科技論文數據、專利數據、各個國家地區研究機構的基金資助項目數據、科技規劃文本數據等文獻類型。隨著計算機技術、數字圖書館技術的發展,在科技文獻元數據標準制定、數據互操作、資源共享上逐步規范,數據質量不斷提升。特別是隨著大數據、人工智能時代的到來,科技文獻的細粒度標引,并集成各類挖掘工具,融合不同數據源的平臺逐步成為趨勢。比如:Dimensions[30]、LENS[31]、Europe PMC[32]、AMiner[15]等,見表2。

表2 科技文獻數據與挖掘分析平臺Table 2 S&T literature data and mining analysis platform
科技文獻挖掘始終依靠計算機技術的發展而不斷持續推進,挖掘技術始終是解決科技文獻挖掘“怎么挖”的法寶。當前,科技文獻挖掘的關鍵技術主要包括基于文獻計量方法、基于文獻內容的挖掘方法,以及融合智能推理的方法等,各方法下的具體技術見表3。不同方法對科技文獻挖掘具有不同作用,有些方法需要融合使用。

表3 科技文獻挖掘關鍵技術Table 3 Key technologies of S&T literature mining
早期,計算機處理技術和硬件處理能力還不夠強大,科技文獻挖掘主要集中于文獻外部特征信息,例如影響因子(Impact Factor)[33]、被引頻次(cited frequency)、h 指數(h-index)[34]等。研究者多用數學與統計方法,定量地描述知識載體[35-36],以文獻計量學為代表的科技文獻挖掘研究發展迅速。
F.T.Cole 和N.B.Eales 在1917年首次提出利用文獻計量的方法研究科學研究論文,探討了文獻統計方法及其意義。之后,E.W.Hulme 利用文獻統計方法研究科技進步要素,著重通過專利數據來研究國家科學技術發展情況[37]。20 世紀中期,在大量研究基礎上總結了學術文獻演化較為一般化的規律特征,其中最具代表性的是“三大定律”:洛特卡定律[38]、 齊普夫定律[39]、布拉德定律。1963年Garfield 提出 的科學引文索引(Science Citation Index, SCI)[5]為科技文獻的度量、評價提供了重要參考,此后,許多學者圍繞影響因子、被引頻次等指標展開研究,主要涉及定量統計方法的創新及在各個學科領域的具體運用。1973年,Henry Small 發表論文介紹了一種新的研究方法——“共被引分析”[40],將基于文獻挖掘的科學結構研究和研究前沿探索帶入了一個新的時期。隨著出版形式的變化和web2.0 的出現,出現了替代計量學(Altmetrics)的分析方法,Costas等比較了替代計量學與引文分析等指標之間的差 異[41],作者表示替代計量反映的文章價值與引文工具有所不同,能夠作為引文分析的補充工具,發揮其應有價值,二者并不存在相互矛盾關系。
基于計量思想的科技文獻挖掘方法多依靠文獻外在計量指標來人工構建規則,能夠簡單、快速地統計知識變化規律,在特定場景下能夠發揮巨大作用。但是,其存在的問題同樣不容忽視:
首先,計量方法難以深入到文獻內部,難以準確地剖析結構化的知識體系。其次,隨著學科交叉現象日漸深化,單一計量指標發揮的能力捉襟見肘,尤其面對多學科融合的交叉研究時,難以反映細粒度、精準化的表征內容。再次,隨著計算機技術、自然語言處理技術的進步,計量指標缺乏與文獻全文內容挖掘的融合。
因此,單純基于計量指標難以深入挖掘文獻內容特征,隨著自然語言處理技術逐漸成熟,“計量+內容挖掘”方法逐漸成為主流的文獻挖掘方法。
科技文獻中包含豐富的新思想、新理論、新方法、新材料、新工具等知識,以及眾多的概念、定理、圖表,還包括學者、機構和各類資助體系。因此,針對科技文獻全文本的知識發現方法成為近年來最為主流的研究范式。
在挖掘技術方法上主要有簡單規則、統計機器學習和各類深度學習的方法。在科技文獻內容挖掘的應用場景上有知識主題發現、學術創新評價、篇章結構識別、學科交叉融合等。
3.2.1 簡單規則方法
簡單規則的文獻內容挖掘與計量思想的方法類似,都是通過手工構建特征來匹配文本或挖掘關鍵要素。常見的方法例如詞頻統計、人工編碼特征、社會網絡分析、布爾檢索和統計規則等。
(1)基于詞頻分析的挖掘方法
詞頻分析是最為簡單、直接的文本挖掘方式,即通過統計文中出現的詞的頻率來發現高頻詞,以此來表示不同的詞的重要程度。詞頻統計思想在科技文獻挖掘中產生了很深的影響,例如,基于詞頻統計演化出了基于0/1 的二進制文本編碼方法[42]和基于計數的文本編碼方法[43],這些方法為后續的文本表征和向量化奠定了非常重要的基礎。
(2)基于句子表示的挖掘方法
詞的統計分析只能反映文獻的局部特征,由詞向句子挖掘的過渡能夠體現出更加全面的內容表達。基于句子的表達是運用統計方法將單個詞組成有意義的序列,再通過頻率或概率計算得到句子的向量表達,其中BOW[44]和N-gram[45]是兩個具有代表性的句子表示方法。例如,有文章通過N-grams 方法實現阿拉伯文本內容搜索挖掘[46]并達到良好效果。
(3)基于社會網絡分析的挖掘方法
作者合作網絡[47]、共詞網絡[48]等社會網絡分析方法能夠有效揭示關鍵詞、學術合作、主題關聯的演化發展情況[49]。例如:共詞網絡可以通過文獻中詞匯的共現狀況來反映文章之間的關聯程度,從而分析學科之間的研究相似程度、學科交叉熱點等。Su 等發文揭示了基于共現關鍵詞映射的知識結構識別和技術前瞻發現的研究[50],作者分別構建了一個三維的偏標網絡和一個關鍵詞共現網絡,以及二維的知識網絡,從而發現知識結構的變化,采集不同的學術觀點。大連理工大學陳悅、王賢文等分別提出被引頻次的影響因素研究[51]和專利共被引聚類分析的研究[52],分別探討了專利、論文等文獻成果的引用網絡關系和被引的內在機理。
值得注意的是,基于社會網絡分析的方法除了分析引文信息外,更是逐漸向全文本內容的計量分析拓展。例如,Liu 等人在2013年提出全文引文分析(Full-text Citation Analysis)的方法,作者通過有監督的主題建模和網絡分析方法從全文文獻中發現主題并對創新指標排序,以此衡量學術論文的創新程度[53]。章成志等通過分析165 篇相關文獻,調研了學術文獻的全文本內容評價,作者得出結論認為未來的計量方案和學術評價將會向內容特征轉移并深化至語義和語用層面[54]。胡志剛[55]、白如江[56]等學者同樣認為未來的學術評價和文獻挖掘將融入于全文內容的計量評價分析。
此外,由于社會網絡分析大都來源于圖論的相關理論,因此借助圖論算法能夠實現多樣化的文獻分析。例如,2019年,美國西北大學王大順團隊在Nature 發文分析了科學研究的引文網絡,并采用回歸分析方法揭示了團隊規模與一些指標之間的聯 系[57],作者提出“小團隊提出創新,大團隊繼承創新”的研究,他們在分析了大量論文、專利、代碼后,發現小型研究團隊善于提出問題,而大規模團隊更擅長解決這些問題,科研政策應當鼓勵不同規模的研究團隊,支持多樣性的科學研究,以促進學術生態平衡發展。此外,該團隊在科學學[21]、科學影響力評價[58]等方面展開一系列研究。其他的算法諸如網絡的度、中心性、最短路徑、拓撲結構與社會網絡、知識網絡的結合,能夠簡單有效地衡量知識創造、組織、傳播的過程[59-62]。
3.2.2 統計機器學習方法
統計機器學習是利用計算機構建概率統計模型并運用模型對數據進行挖掘、預測與分析的一種方法。統計學習主要分為監督學習(supervised learning)、無監督學習(unsupervised learning)和強化學習(reinforcement learning)等。統計機器學習方法伴隨著計算機算力的提升和科技文獻數量的增長,推進了科技文獻挖掘的知識發現發展,LDA、TD*IDF 等重要算法一直延續至今,產生了深遠影響。
(1)關鍵詞挖掘方法
TF-IDF[63]是一種基于關鍵詞統計分析的算法,融合了詞頻和逆文檔頻率,強調關鍵詞對于單篇文獻的普遍性和對于整個語料庫的特殊性,解決了單一詞頻統計所導致的無意義詞過多的問題。TextRank 算法[64]繼承了PageRank 的基本思想,運用同樣的理念,將單個詞視為網頁中的節點,單詞之間的連通視為網頁之間的跳轉,通過高階馬爾可夫過程不斷調整滑動窗口,計算詞的共現概率。由于PageRank 的通用性較高,所以TextRank 同樣能應用于文獻自動摘要任務中[65]。
除了TF-IDF 和TextRank 兩種經典的算法,許多學者在科技文獻關鍵詞抽取方面提出了許多創新技術方法:例如,章成志等提出一種基于條件隨機場(Conditional random fields,CRF)的文獻關鍵詞抽取算法[66],并驗證了其有效性。陸偉等提出從學術文獻的標題中抽取結構功能,作者以The Journal of the Association for Information Science and Technology (JASIST) 2000年-2012年間的300 篇文獻為數據源,同樣運用CRF 抽取其中的關鍵詞;該團隊后續又提出從學術文獻的全文內容中抽取關鍵詞[67],將支持向量機(Support Vector Machine, SVM)[68]引入到關鍵詞抽取算法中。
(2)基于語言模型的挖掘方法
語言模型是文獻內容挖掘的重要技術方法,語言模型是根據語言客觀事實而進行的語言抽象數學建模,主要有統計語言模型(比如:n-gram model),神經網絡語言模型(比如:NNLM(Neural Network Language Model)、RNNLM 等)。在語言模型中,最著名的莫過于Mikolov 等人于2013年提出的Word2Vec。Word2Vec 設計了一種簡單神經網絡,輸入文本內容,通過計算文本序列概率,將每個詞映射到N 維的向量空間中得到詞向量,其中神經網絡層包括CBOW 和Skip-gram 兩種結構,CBOW 即通過詞的上下文信息預測當前詞,Skip-gram 是已知某個詞的情況下預測周圍詞。
Word2Vec 由于其無監督式的訓練方法和簡單有效的實現方式得到了廣泛應用。許多研究者應用該模型于文本挖掘和知識發現。例如,Tshitoyan 等人2019年在Nature 發文,基于詞向量技術從材料科學的文獻中挖掘了潛在知識[69],作者借助于Word2Vec模型特性,從三百多萬篇包含材料科學、物理學、化學的文獻中進行建模、表征,從而發現未來能夠被重新使用或具有潛在價值的新材料。Science、PNAS 等期刊發文章表示,有研究將男性與女性之間的個性差異、職業差異映射到詞向量中,通過計算二者的距離來衡量性格、性別、民族之間的差異化影響,為定量化地研究社會科學實驗提供了重要參考尺度[70-71]。
Word2Vec 的提出啟發了許多重要的語言模型。Barkan 等人提出Item2Vec[72],創新性地把詞的向量化遷移到其他領域,作者提出可以將單個的物品、文獻、作者、機構等均視為一個item,同樣采取Skip-gram 訓練方式,應用于協同過濾的推薦系統算法,取得了良好效果,這一模型的提出意味著具備先后關系的集合能夠被視為序列化的向量表示對象。也有研究者將時序關系拓展到更復雜的圖結構,為非關系型的網絡提供了更巧妙的向量化表征方式。DeepWalk[73]率先提出通過隨機游走(Random Walk)[74]的方式,從網絡的任意節點出發生成序列,為圖的采樣策略提供了重要啟發;Grover 等人提出Node2Vec[75],在DeepWalk 的基礎上增加了深度優先游走(Depth-first Sampling, DFS)和廣度優先游走(Breadth-first Sampling, BFS)兩種策略。
隨著基于統計機器學習的語言模型的完善,其應用場景也從計算機領域擴展到更廣闊的社會學、民族學、經濟學、醫學、圖書情報等跨學科研究中,并與其他方法結合,在文獻挖掘、知識發現方面做了許多具有價值的研究。有研究通過收集大規模期刊、文獻數據,挖掘了期刊的發文狀況,對比了“軟科學”與“硬科學”的文章特征,揭示了知識的創造和組織過程[76]。有研究基于Node2Vec 模型,分析了期刊群落反映在科學計量分析中的有效性,提出了期刊規范化指標,并指出未來值得注意的指標參數[77]。W.Boyack 等提出構筑科學研究的“地圖”,作者通過多種相似度計算方法,將自然科學和社會科學的一百余萬篇文獻映射到“科學地圖”上[78],該方法能夠直觀地反映文獻、學科的演化發展、增長衰落的過程,為后續研究提供了重要參考價值。崔雷、錢慶等學者致力于醫學文獻挖掘,在藥物作用發現[79]、醫學數據庫管理[80]、醫藥知識發現[81]等方面提出許多見解。
(3)主題模型
主題模型是文獻挖掘的另一重要工具,在統計機器學習的基礎上發展出諸如LSA[82]、LDA[9]、STM[83]、LDA2Vec[84]等不同模型方法。主題模型包含兩個重要假設,即每篇文獻中包含若干主題,每個主題下又包含若干文獻,基于這兩個假設,主題模型的核心思想是將文獻拆分為句子,將句子拆分為單個的詞,為每個詞分配到適當的主題下[85]。例如詞袋模型LDA 就是通過計算共軛先驗概率,將每篇文獻的主題以概率分布的形式給出。
主題模型常用于科技文獻中的知識主題發現、主題演化分析,反映知識的興起發展、遷移衰落等動態變化過程。早在上個世紀開始,主題發現就已經被學者研究[86-87],之后隨著各種文本挖掘技術、可視化手段的進步,知識主題挖掘方法從簡單的聚類分析發展到話題檢測[88]、主題演化[89]和知識可視化[90]等方面。
除了主題模型本身,知識主題發現往往交織著數據挖掘算法、文獻計量指標、學科領域特性等多個方面,從不同的側面挖掘科學研究的知識流動、擴散、演化狀況[91-92]。例如,Zhou 等人結合文獻內容特征和引文特征來研究科學研究的話題演化過 程[93],作者提出了一種新穎的基于引用-內容的LDA 話題發現模型,證明了在文獻知識發現方面的有效性。
在國內,許多學者將知識主題發現拓展到更廣泛的科技情報分析、知識組織、前沿識別等領域。胡正銀等系統地總結了專利文獻挖掘的研究進展[94], 歸納了專利挖掘的通用流程和典型應用場景,提出未來應當注重專利文本深層次的語義信息識別和技術演化趨勢識別;作者還在個性化語義TRIZ 構建[95]、 學科演化路徑[96]方面提出許多見解。此外,朱東華、汪雪峰、李欣、徐碩等學者在專利文獻挖掘方面深耕多年,致力于科技文獻的主題分析、前沿識別、戰略研究,提出了許多頗具參考價值的研究成果[97-101]。
3.2.3 深度學習方法
深度學習方法直接推動了人工智能的又一次浪潮,基于深度學習的文獻挖掘一個最大的特征就是開始利用大規模數據來發現知識特征,這也能最大程度上發揮算法、算力、數據相結合的效力,并且隨著學科交叉融合趨勢越來越明顯,深度學習驅動的文獻挖掘正在漸漸向各個子領域下沉。
經典的深度學習模型諸如卷積神經網絡(Convolutional Neural Networks, CNN)[10]、循環神經網絡(Re- current Neural Network, RNN)、長短期記憶網絡(Long Short-Term Memory, LSTM)[102]是文獻挖掘中應用最 為廣泛的模型。之后的Attention、Transformer 等[103]在此基礎上提高了模型的專注力,從平均分配權重改變為對局部重點的關注,提高了模型適應性和準確性。這些模型方法無論是知識主題發現、文獻篇章識別還是學科交叉研究,均在一定程度上運用到了相關知識。例如,有研究從PubMed 文獻中利用深度學習方法抽取作者名稱,并提出了解決作者歧義的方案[104]; 有研究設計不同算法來抽取能夠表征文獻主旨的關鍵詞和影響力指數[105-106];亦有研究從大規??茖W文獻中抽取實體名稱、實體屬性,并取得了良好效果[107]。陸偉等曾提出識別學術文獻的結構功能[108], 該團隊分別從標題[108]、內容[109]、段落[110]等不同粒度識別學術文獻的內在結構;并運用Attention機制[111]、BERT 預訓練模型[112]等深度學習技術實現文獻圖表識別[113]、關鍵詞用戶行為選擇[114]、 學術查詢意圖分類[115]。
近幾年來,隨著訓練語料的增加,針對大規模預訓練模型的研究也逐漸豐富,BERT[116]及其變形體[117]、ERNIE[118-119]、GPT-3[120]等包含超級參數的大模型正在更新文本挖掘的研究范式,傳統的從“0”開始訓練的方式正在被“Fine-tune”取代,越來越多的研究傾向于基于預訓練模型來微調數據。例如,有研究提出研究預印本文獻的出版狀況[121],作者以arXiv 上的計算機學科為例,應用BERT 模型來映射文獻的出版情況,從而發現預印本這一形式對學術研究產生的影響。
深度學習的方法還彌補了傳統社會網絡分析方法對大規模數據處理的不足,運用各種圖神經網絡(Graph netural natwork, GNN)[123]研究學術文獻中的引文、共現等情況,這種深層次模型結構結合大規模文獻數據的方法能夠全面、有效地反映學科變化、知識流動狀況。例如,有研究基于NLP 和GNN 方法研究了科學學中語義與關系空間的映射[124],對比了不同圖神經網絡對文獻數據的映射關系,結果表明GNNs 的方法能夠有效編碼科學知識的實體關系和社區演化情況。亦有研究設計了一種融合BERT和圖卷積神經網絡(Graph Convolutional Network, GCN)[125]的上下文感知的引文推薦模型[126]并取得了良好效果。
綜上所述,基于內容的文獻挖掘方法從簡單規則到統計機器學習再到深度學習模型,技術的發展也伴隨著知識發現方法論的不斷完善。其中,文獻挖掘與文獻計量學、計算機科學、NLP 技術、科學學研究、學術評價等不同研究領域交織在一起,學科交叉和融合逐漸深化,每一種技術方法都有其對應的優勢和不足,在具體運用時需要考慮具體情況和實際需求進行整合使用。
科技文獻全文本內容挖掘能夠獲取更細粒度的知識,但是當躍向更高階的認知關系時,其發揮的效力有限,尤其在信息泛濫的時代,從海量、多源、異構的數據中獲取有用的情報信息顯得尤為重要。因此,如何自動地從大規模科技文獻中感知到有用、有效的情報,如何能夠實現知識的自動推理、溯因是未來重要的發展方向,這其中涉及到知識圖譜、因果推斷、因果涌現等因果智能方向。
首先,大規模知識圖譜能夠為知識推理提供可能。知識圖譜的發展將稀疏的知識碎片連接到語義化的知識網絡,從單一的領域知識關聯成為全局化的學術體系,這種語義化的關聯為科技文獻挖掘提供了更智能的工具,諸如谷歌知識圖譜(Google Knowledge Graph)[127]、微軟學術圖譜(Microsoft Academic Graph,MAG)[128]、Open Academic Graph[129]、AceKG[130]、SciKGraph[131]等大規模知識庫或知識圖譜方法能夠將信息轉換為及時的情報、知識。
此外,因果智能理論為知識的推理、溯因提供推斷引擎。文獻和知識挖掘由感知向認知的發展過程離不開對因果關系的剖析,因果理論能夠揭示事物發展的本質聯系[132],能夠實現關聯、干預、反事實推理等[133],尤其在醫學[134]、社會科學、經濟 學[135]、計算機科學[136]的發展已經得到廣泛關注。
因果涌現[137]對復雜系統的宏觀狀態做出細粒度、規律性的解釋,這種解釋同樣適用于知識的產生、沉睡、爆發、消亡等生命周期,未來如何借助相關理論挖掘科技文獻的涌現規律,揭示知識系統運動的因果規律,是值得關注的重要話題。
因果推斷的實驗方法、融合機器學習的因果觀測方法同樣是文獻挖掘、知識發現一個值得重視的方面。許多研究者已經著手開始這一方面的研究,例如,著名機器學習學者Bengio 提出因果表示學習[138], 作者期望通過引入因果推斷理論提高深度學習的魯棒性和可解釋性。有學者研究了機構知識庫對知識創造的因果關系,作者使用經典的隨機對照試驗方法研究了開放知識庫(如維基百科)對學術研究產生的影響,他們認為這些通俗的讀物不僅能夠反映科學文獻的研究現狀,更能塑造學術研究,使其向更有益的方向發展。此外,許多研究者應用因果推斷方法致力于科研業績[139]、學術生涯[140]、專利標準[141]、用戶畫像[142]等不同方面的研究。
因此,未來應當注重應用知識圖譜技術、因果推斷方法、因果涌現理論來挖掘科技文獻中的隱藏觀點、潛在原因、因果表達結構等深層次的知識信息。
本文對科技文獻挖掘的發展歷史脈絡進行了梳理,對科技文獻挖掘的主要工具、系統平臺和關鍵技術進行了全面分析,具體分析了科技文獻從哪里挖、用什么挖、怎么挖的問題。圖3 詳細說明了科技文獻挖掘的總體情況。

圖3 科技文獻挖掘總體概覽Fig.3 General overview of S&T literature mining
展望未來,科技文獻挖掘的發展趨勢主要有以下幾個方面:
(1)科技文獻挖掘將更加注重多源數據的有機融合當前科技文獻數量龐大,并且具有多源異構的特點,不同類型的數據源、不同結構數據源蘊含著不同的科學價值,例如專利文獻側重于技術知識,而科技論文側重于科學知識。隨著學科交叉的深度融合,像計算機科學、數學、自動化科學等關聯性很強的領域,將局部學科領域的知識進行融合、消岐、對齊,轉化為全局化的可被利用的知識是成為科技文獻挖掘在數據源建設方面的主要任務之一。多源數據融合一方面是數據內容的深度融合,另一方面是元數據和細粒度知識點的融合,通過多源數據的有機融合能夠更加有效地支撐科技文獻挖掘的發展。今后,提升多源異構數據的解構、映射、重組與視覺呈現效果和效率,并且盡可能使融合分析結果可以隨數據源的變化而自動重組、調整和更新將是重要的方向。
(2)數據源的可信性研究將逐步深入
科技文獻挖掘只有依靠可信準確的數據源才能獲得有效的結論,當前科技文獻數據庫中存在大量無效信息和不相關的隱性因素,因此,需要對這些數量龐大、質量良莠不齊的數據源進行知識價值稠密度、時效性、完整性、準確性、可靠性的有效評估。不然,極其容易造成數據挖掘領域內“垃圾進系統,垃圾出系統”的現象。
此外,科技文獻挖掘將更加與學術評價相結合,突出評估科技文獻的創新價值和內容價值,針對不同質量的文獻數據,提供不同程度的挖掘思路。例如,對于創新性高、內容豐富的數據,需要著重挖掘深層次的內涵;對于行文思路晦澀、專業化強的文獻,需要結合專業人員與專業背景進行交叉合作。
科技文獻可信性研究還要注重對其知識價值稠密度進行評價,以最大限度地降低數據利用成本。未來將會產出更多數據可信性評價模型與方法,例如基于復雜系統的數據可信性評價及面向動態數據的可信性評價等,并且自動化的數據可信性驗證模型也將不斷被開發。
(3)以因果推斷為代表的智能化語義挖掘技術將不斷被應用
科技文獻挖掘由感知向認知的發展過程離不開對因果關系的剖析,以隨機對照試驗、準實驗設計、傾向得分匹配法、斷點回歸等為代表的因果智能推理方法為基于科技文獻的知識推理與溯因提供了強大的引擎。未來,以因果推斷為代表的智能化語義挖掘技術將在科技文獻挖掘中廣泛應用,特別是將機器學習、自然語言處理與因果推斷理論相結合,以提高復雜模型的可解釋性和推理能力,從而更好地探索和挖掘科技文獻中蘊藏的深層知識。
(4)多維度、細?;目萍嘉墨I語義組織方式將不斷被探索
科技文獻數據區別于日常的通用語料數據,前者是研究人員的創新思想體現,無論是語言風格還是行文結構,都更加專業化、晦澀化。另外,學術文獻包含諸多專業知識、學者、研究機構、參考文獻,這些信息在文獻挖掘時都是不能忽略的,如何設計有效方法、模型,選擇恰當的技術來挖掘有效的知識情報,是具有挑戰性的問題。
未來將會有更多多維度、細?;恼Z義組織方法和模型產生,并且主要應用于科技文獻知識抽取、本體構建、知識圖譜構建等過程,從而更加全方位、立體化地挖掘和展現科技文獻中蘊含的語義知識。
(5)科技文獻挖掘的應用場景將更加豐富
未來科技文獻挖掘將更加注重解決國家重大戰略需求,在構建國家科研論文和科技信息高端交流平臺方面深入研究,在助力國家科技戰略力量增強方面也將不斷探索。科技論文挖掘在以下方面將凸顯其社會價值和理論貢獻:一是在深化新時代教育評價改革方面,將深入研究如何破除“五唯”,識別出高質量、高價值的科研成果;二是面對國外科技封鎖和“卡脖子”技術,如何盡早準確地識別出潛在科技前沿、顛覆性技術以及產業關鍵核心技術為政府決策提供準確的數據支持,前瞻擘畫布局科研方向;三是創新科技文獻挖掘基本理論范式,數據、算法、應用并重,逐步突破引文分析束縛,更加注重挖掘科技成果實際貢獻;四是科技文獻挖掘將服務于社會民生發展的各個方面,例如網絡輿情監測與預警、中西醫用藥規律研究、智慧圖書館、數字人文等。
科技文獻挖掘將在挖掘工具、系統平臺、關鍵技術以及應用場景方面全面推進發展,進而解決國民經濟社會發展中遇到的與之相關的重大問題。
利益沖突聲明
所有作者聲明不存在利益沖突關系。