科學文獻中的知識實體抽取與評價研究綜述

2023-12-18 11:07:53劉春麗陳爽

現代情報 2023年12期

關鍵詞：綜述

劉春麗　陳爽

關鍵詞：知識實體；實體抽取；實體評價；科學文獻；實體計量學；綜述

ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１００８－０８２１．２０２３．１２．０１３

〔中圖分類號〕Ｇ２５４〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２０２３）１２－０１４３－２１

科學文獻是凝結眾多科研工作者智慧和汗水的結晶，也是科研工作者獲取知識的重要資源［１］。豐富的文獻資源為研究人員進行數據驅動的知識發現提供了大量的機會［２］。隨著人工智能的快速發展，自然語言處理技術不斷進步，學者們已經從最初聚焦于科學文獻外部特征的研究逐步轉向內容層面，開展更細粒度的研究，并深入到對其中蘊含的知識實體進行挖掘、利用和評價，以實現從文獻書目層面到內容層面的知識組織與知識管理［３］。科學研究中的知識實體的進步、改進和應用對促進不同學科發展起著至關重要的作用［４］。知識實體的抽取與評價對信息檢索、文本挖掘、信息推薦、自然語言處理、數字圖書館研究、科學決策等有較大的應用價值。

為了更全面地了解知識實體相關研究，本文進行了中外文的文獻調研。首先，分別在ＷｅｂｏｆＳｃｉ?ｅｎｃｅ核心合集數據庫、谷歌學術和ＣＮＫＩ、萬方、維普數據庫中檢索相關論文。中文檢索策略是將實體、算法、軟件、數據集、知識元、術語等表示研究對象的名詞，學術論文、學術文獻和科學文獻等表示研究領域的名詞，以及表示抽取、評價、計量、評估等名詞進行組配檢索；英文檢索策略是將“ｅｎｔｉｔｙ”“ｅｎｔｉｔｉｅｓ”“ｔｅｘｔ”“ｎａｍｅ”“ｓｅｎｔｅｎｃｅ”“ｔｅｒｍ”“ｋｎｏｗｌｅｄｇｅｅｌｅｍｅｎｔ”“ｋｎｏｗｌｅｄｇｅｕｎｉｔ”“Ｆｉｎｅ－ｇｒａｉｎｅｄｋｎｏｗｌｅｄｇｅ”“ｋｎｏｗｌｅｄｇｅｇｒａｐｈ” 等表示研究對象的名詞，和“ｓｃｉｅｎｔｉｆｉｃｄｏｃｕｍｅｎｔ”“ｓｃｉｅｎｔｉｆｉｃｌｉｔｅｒａｔｕｒｅ”“ａｃａｄｅｍｉｃｌｉｔｅｒａｔｕｒｅ”“ａｃａｄｅｍｉｃｐａｐｅｒｓ” 等表示研究領域的名詞，以及“ｒｅｃｏｇｎｉｔｉｏｎ”“ｅｘｔｒａｃｔ”“ｔｅｘｔｍｉｎｉｎｇ”“ｄａｔａｍｉｎｉｎｇ”“ｍｅｔｒｉｃｓ” “ｉｎｄｉｃａｔｏｒ”“ｅｎ?ｔｉｔｙｍｅｔｒｉｃｓ” “ｅｖａｌｕａｔｉｏｎ”“ｉｍｐａｃｔ” 等詞進行組配檢索，得到中英文文獻超過兩千篇。通過瀏覽每篇論文的標題、摘要，甚至全文，再進一步人工篩選更密切相關的外文文獻約７７９篇，中文文獻約２８９篇。此外，也通過專家咨詢、檢索密切相關文獻的參考文獻，核心作者與相關會議名稱等檢索方式補充。

總體來看，中外文相關文獻呈現逐年遞增的趨勢。２０世紀９０年代發表的密切相關論文較少；２０００—２０１０年，科學文獻的文本挖掘、知識元（關鍵詞、主題詞等元數據）、知識單元（篇章、句子、短語等）的挖掘或知識抽取逐漸興起；２０１０年以后，知識實體的抽取、實體評價及實體計量等概念與方法逐漸繁榮。早期的知識實體抽取與評價主要來自生物醫學領域，如ＢｒｕｉｊｎＢＤ等［５］于２００２年發表在ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＭｅｄｉｃａｌＩｎｆｏｒｍａｔｉｃｓ的一篇論文中總結了從Ｍｅｄｌｉｎｅ摘要或全文文章中提取各種分子生物學發現的文本挖掘技術，包括文本分類、命名實體標記、事實提取和論文集合分析；ＤｉｎｇＹ等［６］于２０１３年提出實體計量學，并以二甲雙胍為例，構建藥物相關實體引文網絡，利用緊密中心度和中介中心性等指標評價生物實體的重要性。

２０２０年以來，隨著機器學習、自然語言處理等技術的發展，以及相關國際學術會議、工作組會議的召開，知識實體研究進入了嶄新的發展時期。近年來，有少量學者發表相關中文綜述文章。如李廣建等［７］聚焦于基于深度學習的知識單元抽??；沈雪瑩等［３］專注于知識單元的抽取與應用；溫雯等［８］梳理了知識實體類型的抽取與標注；盧超等［９］從引文內容計量和全文內容計量兩大方面綜述了學術文獻的全文計量，著重指出今后應重視語義特征分析的深化。在英文綜述文獻中，ＷａｎｇＹＺ等［１０］對方法實體的抽取、評價和應用現況進行了闡述和分析；此外，ＺｈａｎｇＣＺ等［１１－１４］先后撰寫了知識實體抽取、評價與應用方面的簡要綜述，如在第４屆科學文獻中知識實體抽取與評價（ＥＥＫＥ２０２３）和第３屆ＡＩ＋信息計量學（ＡＬＬ２０１３）聯合工作組會議網站上發布的會議宗旨中指出“要將信息計量學與人工智能技術相結合，具有分析非結構化可擴展數據和數據流、理解不確定語義以及開發健壯和可重復模型的能力［１１］ ”。在２０２３年，ＡｓｌｉｂＪｏｕｒｎａｌｏｆＩｎ?ｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔ的ＥＥＫＥ２０２１工作組會議特刊發表客座編輯社論文章，簡要介紹知識實體及其關系的抽取、注釋工具及知識實體圖譜的構建、知識實體的應用等［１２］。

隨著自然語言處理技術的發展，知識實體的抽取已經從深度學習更新到ＢＥＲＴ和ＣｈａｔＧＰＴ，而且知識實體的評價方法也在文獻計量和替代計量基礎上取得了更深入、更多元的進步。因此，需要在前人建立的理論基礎上，對最新的知識實體抽取與評價發展現況進行系統梳理與分析。本文著眼于科學文獻中的知識實體，在范圍上覆蓋更廣的實體類型。不僅較為詳盡地梳理實體抽取方法，還著重總結了最新的大語言模型在實體抽取方面的應用。此外，對知識實體抽取的數據集的總結、相關學術會議內容與主題的比較也是本研究的特色之處。在知識實體的評價方面，除知識實體的提及頻率和替代計量外，還梳理出提及頻率的影響因素、實體共現網絡與實體引文網絡、基于實體的同行評議、基于知識實體的論文新穎性和臨床轉化進展評價等最新的研究進展。

１什么是科學文獻中的知識實體

什么是科學文獻中的知識實體（Ｋｎｏｗｌｅｄｇｅｅｎｔｉ?ｔｙ，ＫＥｓ）？大致可以從廣義與狹義兩個層面進行定義，一是廣義上的知識實體，即綜合了所有學科領域具有普遍意義的實體。學者們對什么是知識實體各抒己見，如溫雯等［８］將知識實體定義為：區別于一般的實體的、具有專業領域特性、能概括表達文獻中核心知識點的術語；ＺｈａｎｇＣＺ等［４］認為，知識實體是指作者提及或引用的知識，反映了各種解決問題場景中的豐富資源；ＸｉａｏＣ等［１５］定義知識實體為特定學科中相對獨立和完整的知識模塊；ＤｉｎｇＹ等［６］指出，知識實體作為科學文獻中知識單位的載體，包括諸如關鍵詞、主題、學科類別、數據集、關鍵方法、關鍵理論和領域實體（如生物實體：基因、藥物和疾病）。安世虎等［１６］將保存可用的知識表達，但沒有先天知識處理能力的知識事物稱為知識實體。李廣建等［７］將科技文獻中以詞或短語為載體、相對獨立完整的知識模塊稱為知識實體或“詞粒度知識單元”，并指出其具有細粒度、專業性強的特點。二是狹義上的知識實體，即領域知識實體（表１展示了知識實體在不同領域中所指代的具體內容或定義）。如生物醫藥領域中的病毒實體、疾病實體、細胞實體、化學成分實體、藥物實體、生物分子實體［１７－１９］；計算機領域的軟件知識實體、算法知識實體和方法實體等［２０－２３］。此時，知識實體的具體指代因其應用的學科領域、作者研究目的差異而不同。

雖然各個學者對各學科領域知識實體的定義表述不一，但究其本質仍有共同之處。本研究中對領域知識實體的定義是各學科領域內的專業術語或融合了領域知識的實體。

２科學文獻中知識實體的抽取

２.１知識實體的抽取方法研究

知識實體抽取可以作為命名實體識別（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ）的子任務，是開展自然語言處理相關研究的先行步驟，高效、準確地抽取知識實體更有利于后續研究的順利開展。隨著人工智能技術的不斷發展，主流的知識實體抽取方法已經由早期基于人工標注、基于規則等依賴人工的方法逐漸演變成更加側重于自動化的抽取方法，如基于傳統的機器學習、深度學習、預訓練語言模型或者多種模型混合的方法，這使得知識實體抽取效率大大提升，實體抽取的準確性也在部分領域有了顯著的改善。如在醫學領域，從文本中提取癥狀、診斷意見和藥物信息。在材料科學領域，識別無機材料性能、聚合物、納米材料以及合成路線等實體。在生態環境領域，識別生態治理技術領域知識實體及生態環境領域知識實體［４２］。

２.１.１基于人工標注的方法

基于人工標注的知識實體抽取方法一般是通過預先定義的知識體系，聘請專家對學術論文進行標注，多用于構建領域數據集或語料庫［４３］。如ＨｅＪＸ等［４４］基于人工標注的方法，從２１篇人文社科博士論文致謝文本中抽取了致謝實體，構建了致謝實體的細粒度分類體系，為今后利用機器學習等方法抽取和分析提供了致謝實體語料庫。

人工標注的優勢在于其具備一定的靈活性，這是其他方法較難比擬的；不足則在于人工的精力往往是有限的，很難在短時間內實現大量數據集的有效標注。人工標注的方法雖然略顯笨重并且耗時耗力，但至今仍然未被淘汰，主要原因是由于此方法在部分領域如古籍、古詩詞等復雜領域的標注靈活性，并且人工標注的高質量數據集也是其他知識實體抽取研究的基礎，其他方法通過與人工標注方法的有效結合可以大大提升知識實體的抽取準確性和抽取效率。

２.１.２基于規則的方法

基于規則的知識實體抽取主要依靠人工定制的規則開展，這些規則的定制依賴于具體的知識庫和詞典，規則制定人員通過選取統計信息、關鍵字、指示詞等具體特征的方式制定規則模板［４５］。如化柏林［４６］采用基于規則的方法對中文學術文獻的情報學方法理論術語進行抽取研究。ＢｈａｔｉａＳ等［４７］使用基于規則的方法識別學術論文中的算法，并構建了算法搜索系統。鄒洋杰等［４８］采用基于規則的方法從情報學與計算機科學文獻中抽取方法實體；許華等［４９］基于語言規則對病癥菌實體進行抽取。ＤｉｎｇＹ等［６］以治療糖尿病的藥物二甲雙胍為例，采用字典匹配的方法抽取二甲雙胍相關文獻中的基因、疾病和藥物實體，用于構建實體—實體引文網絡。ＷａｎｇＳ等［５０］設計了一種詞干匹配方法來查找出現在引文句子和相應參考文獻中的名詞短語，以探索從參考文獻到施引論文的知識傳播。

通過規則匹配抽取知識實體的優勢在于可以精準有效地抽取大量知識實體，對比人工標注效率有了很大的提升；但也會存在一些規則無法涵蓋所有知識實體的特點，因而產生實體抽取遺漏，而且基于規則的方法具有鮮明的領域特點，難以遷移至其他數據集或其他領域進行知識實體抽取。

２.１.３基于傳統機器學習的方法

基于傳統的機器學習方法一般將實體抽取看作分類任務或序列標注任務［４５，５１］。具體過程為：將實體通過一定粒度的分詞后進行特征提取，結合詞法和句法特征轉換成特征向量，然后采用某些算法、模型，如隱馬爾可夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）、最大熵模型（ＭａｘｉｍｕｍＥｎｔｒｏｐｙＭｏｄｅｌｓ）、條件隨機場（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ，ＣＲＦ）、決策樹模型（ＤｅｃｉｓｉｏｎＴｒｅｅｓ）等機器學習模型，比較特征向量之間的相似度，然后進行標注。此種方法已經在實體抽取任務中取得一定成效，緩解人工成本過高的同時提高了模型的泛化性，但抽取精度有賴于訓練數據的標注質量，且不適用于大規模數據集［５２－５４］。

基于ＣＲＦ的機器學習模型開展的知識實體抽取研究較多，涉及領域也較為廣泛，包括計算機領域［５５］、生物醫學領域［５６］、旅游領域［４５］等。由于ＣＲＦ模型復雜度較高、訓練代價較大，因此常與深度學習模型結合，聯合實現實體抽取任務［５７］。

２.１.４基于深度學習的方法

基于深度學習方法在文本挖掘領域具有較好的性能，包括運用在文本分類、信息抽取、關系抽取等任務中，并逐漸占據實體抽取技術的主導地位，與傳統的機器學習相比，深度學習采用深度神經網絡模型實現對知識實體的自動抽取，自動學習語義依賴關系，有助于自動發現隱藏的特征，使得泛化能力得到了提升，并且有效降低了大量的人工成本［５８－５９］。仲雨樂等［２５］也在研究中指出，深度學習模型在問題、方法實體識別的任務上取得了比傳統機器學習更好的性能。

應用較多的模型包括深度神經網絡模型（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ，ＤＮＮ）、卷積神經網絡（Ｃｏｎｖｏｌｕｔｉｏｎ?ａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）、基于詞向量的雙向長短時記憶神經網絡模型（Ｂｉ－ｄｉｒｅｃｔｉｏｎａｌＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ，ＢｉＬＳＴＭ）、圖神經網絡（ＧｒａｐｈＮｅｕｒａｌＮｅｔ?ｗｏｒｋ，ＧＮＮ）和注意力機制等［６０］。其中，ＢｉＬＳＴＭＣＲＦ已成為基于深度學習的命名實體識別方法中的主要模型［６１－６２］，在此基礎之上有學者提出Ｂｅｒｔ－ＢｉＬＳＴＭ－ＣＲＦ［６３－６５］、ＢｉＬＳＴＭ－ＣＮＮｓ－ＣＲＦ［５１］、引入注意力機制的Ａｔｔ－ＢｉＬＳＴＭ－ＣＲＦ模型［６６－６７］、ＡＬ?ＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型［６８］等混合模型，分別在中文景點實體、中文位置實體、術語實體、電子病歷、農業文本中實體等的抽取有較為出色的表現。如ＨｏｕＬ等［５３］應用了引入注意力機制的ＢｉＬＳＴＭＣＮＮ－ＣＲＦ模型對文獻中的算法和數據集進行抽取，其中注意力機制可以捕獲標記和上下文信息之間的長距離依賴關系，通過選擇性地對一些重要信息給予更多的關注，并賦予它們較高的權重，以聚焦于句子的關鍵部分，從而大大提升了模型的性能；韓娜等［６８］采用ＡＬＢＥＲＴ－ＢｉＬＳＴＭ－ＣＲＦ模型完成句子級事件的重要元素的抽取，結果表明，該模型與其他同類型模型相比，準確率和Ｆ１值均有所提升；章成志等［６９］采用基于字向量的、結合條件隨機場的雙向長短時記憶網絡聯合訓練模型對研究方法實體識別進行識別，模型表現性能較佳。

基于深度學習的方法抽取學術文獻中的知識實體受到廣泛關注，也具有較大的發展潛力。此外，通過結合預訓練模型、遷移學習、圖神經網絡、遠程監督學習或引入注意力機制所提出的混合模型也有效提升了深度學習模型在知識實體抽取任務中的效果［２５］。

２.１.５基于大規模預訓練語言模型

大規模預訓練語言模型，簡稱“大語言模型（ＬａｒｇｅＬａｎｇｕａｇｅＭｏｄｅｌ，ＬＬＭ）”，是一種從預訓練語言模型擴展的人工智能模型，旨在理解和生成人類語言。ＢＥＲＴ與ＣｈａｔＧＰＴ均是基于Ｔｒａｎｓｆｏｒｍｅｒ架構的大語言模型。通過在大規模語料庫上進行無監督訓練，大語言模型在多個自然語言處理任務上取得了重要突破，甚至在語義理解、常識推理和對話生成等任務上超越了人類平均水平［７０］。

ＤｅｖｌｉｎＪ等［７１］于２０１９年提出雙向預訓練語言模型ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）是未來知識實體抽取的主流模型［５２］。該模型通過在大規模無監督語料上進行預訓練，學習通用的語言表示，然后將這些學習到的表示用于各種下游任務，在自然語言處理領域中的多個任務上得到了很好的應用。也由此衍生出針對特定領域的預訓練的語言模型，如通過在生物醫學領域、醫療語料庫的大規模文獻數據上進行預訓練得到的ＢｉｏＢＥＲＴ［７２］和ＳＭｅｄＢＥＲＴ［７３］，拓展了ＢＥＲＴ在生物醫學語料庫上的應用，可以用于生物醫學文本的實體抽取和關系抽取任務；ＨｕａｎｇＫ等［７４］通過在臨床醫學文獻和醫療記錄上進行預訓練而得到的ＣｌｉｎｉｃａｌＢＥＲＴ，考慮了臨床術語、疾病名稱等特定于臨床醫學的詞匯，并能夠更好地處理與醫療相關的文本任務。ＢｅｌｔａｇｙＩ等［７５］通過在大量科學文獻數據上進行預訓練得到用于科學文獻領域的預訓練語言模型ＳｃｉＢＥＲＴ，它利用無監督預訓練并顯著提高了ＢＥＲＴ模型在科學ＮＬＰ任務中的性能。

由于大規模的預訓練語言模型，如ＣｈａｔＧＰＴ和ＧＰＴ－４在各個行業和領域的廣泛應用而獲得了廣泛的普及，一些學者對ＣｈａｔＧＰＴ和ＧＰＴ－４在實體抽取中的性能進行了測試和評價。如ＨｕＹ等［７６］測試ＣｈａｔＧＰＴ在臨床實體識別中的應用；Ｇｏｎｚáｌｅｚ－ＧａｌｌａｒｄｏＣＥ等［７７］在歷史文獻中運用ＣｈａｔＧＰＴ識別實體；ＲｅｈａｎａＨ等［７８］則評估基于ＧＰＴ和ＢＥＲＴ模型在生物醫學文本中識別蛋白—蛋白交互方面的性能。人們發現，大語言模型在命名實體識別（ＮＥＲ）任務上的表現相對較低，這是因為ＮＥＲ是一種序列標注任務，而大語言模型是一種文本生成模型，兩者之間存在差距。為了解決這個問題，ＷａｎｇＳＨ等［７９］提出了一種名為ＧＰＴ－ＮＥＲ的方法，通過將序列標注任務轉化為生成任務，使大型語言模型能夠更好地適應ＮＥＲ任務。實驗結果顯示，在資源稀缺和少樣本情況下，即訓練數據非常有限時，ＧＰＴ－ＮＥＲ表現出更強的能力，明顯優于有監督模型。另外，張穎怡等［８０］設計了一種基于ＣｈａｔＧＰＴ的學術論文實體識別方法，并從性能、價格和時間３個角度進行可用性分析。研究結果表明，在不同學科領域下，當人工標注數據集規模較小或缺少人工標注數據集時，可以直接將ＣｈａｔＧＰＴ視為實體識別工具。但實體識別結果需要進行錯誤分析與過濾等后續處理。此外，大語言模型在訓練時使用的語料庫可能存在樣本偏差，導致在實體抽取任務中無法很好地處理特定領域或特定類型的實體。這可能需要額外的數據處理和領域適應方法來解決，并且訓練和部署大語言模型通常需要的成本較高。

總的來講，大規模預訓練語言模型通過在大規模語料庫上進行無監督訓練，能夠學習到豐富的語言知識和上下文理解能力。這使得它在實體抽取任務中能夠更好地理解文本中的語義和上下文信息；在進行微調時，可以通過少量的標注數據進行學習，甚至在零樣本設置下也能取得一定的性能。這對于實體抽取任務中的資源稀缺或少樣本情況下非常有用。而且大語言模型在實體抽取任務中具有上下文理解能力強、零樣本學習和可遷移性等優點。但它也存在樣本偏差和計算資源需求高的缺點。在實際應用中，需要權衡這些優缺點，并根據具體任務和資源限制來選擇合適的模型和方法。

表２中展示了知識實體抽取方法的優缺點比較。可以看出，在知識實體的抽取技術中，基于人工注釋和基于規則的方法在抽取效率方面處于劣勢，難以涵蓋所有語言場景，應用起來耗時費力［５３］，但其優勢在于可以通過實體標記，構建領域高質量語料庫、字典等，輔助機器學習算法對知識實體高效、準確地抽??；傳統機器學習方法的出現有效地提升了知識實體的抽取效率，但不足則在于其過度依賴人工標記的高質量文本提取特征；深度學習方法克服了傳統機器學習的局限性，減少了對預處理的依賴性，實現了對隱匿特征的自動提取，并且在知識實體抽取任務中表現較為出色。但深度學習實現對知識實體抽取準確率的基礎在于對大量的高質量標注數據的學習。而現實情況是，在具體抽取知識實體的過程中的標注數據往往是少量的；采用基于大語言模型的方法也可以減輕對標注數據集的依賴，從無標簽的非結構化數據中自主學習知識，具有上下文理解能力強和可遷移性等優點。然而，它也存在樣本偏差和計算資源需求高的缺點。在實際應用中，需要權衡這些優缺點，并根據具體任務和資源限制來選擇合適的模型與方法。

針對以上知識實體抽取技術存在的問題，本文認為，其一，著力開展領域標注數據集的構建、模型訓練；其二，訓練出適用于多領域的實體抽取模型或增強已有模型的普適性；其三，在具體的知識實體抽取任務中，應根據待抽取實體的特點，選擇合適的模型。如李賀等［８１］在簡帛醫藥知識組織的研究中針對不同的數據集選擇了不同的模型抽取知識實體，對于《足臂十一脈灸經》和《陰陽十一脈灸經》的文本，采用構建的詞典進行分詞，并提取經絡實體；對于《病方》和《五十二病方》采用條件隨機場模型（ＣＲＦ）進行實體識別。也有學者根據數據集的語言特點選擇或提出合適的模型，如張芳叢等［８２］為了更好地處理中文醫學文本，提出基于ＲｏＢＥＲＴａ－ＷＷＭ－ＢｉＬＳＴＭ－ＣＲＦ的中文電子病歷命名實體識別模型，在ＢＥＲＴ識別詞語義基礎上獲取詞的信息，采用中文全詞遮掩技術和動態掩碼機制，在大量無標簽文本的長序列訓練中，模型可以生成含詞匯的語義信息，有效改善中文文本識別中一詞多義、詞識別不全等問題。ＫｏｎｇＨ等［８３］開發了ＫｏｒＳｃｉＢＥＲＴ－ＭＥ－Ｊ和ＫｏｒＳｃｉＢＥＲＴ－ＭＥ－Ｊ＋Ｃ模型以提高韓國論文的元數據提取性能。實驗結果表明ＫｏｒＳｃｉＢＥＲＴ－ＭＥ－Ｊ表現出最高的性能，Ｆ１分數為９９.３６％，同時在自動提取各種格式的韓國學術論文的元數據方面表現穩健。

此外，也可以結合弱監督、無監督算法或遷移學習、強化學習等方法提高訓練數據的質量，減少模型對大規模訓練語料庫的依賴或降低獲取大規模訓練語料庫的成本［１０］。如在知識實體抽取任務中，遷移學習可以將標注好的數據或模型在某個領域、任務中學習到的知識、模式應用于其他領域、任務中去，以此提升模型的泛化能力。即遷移學習在利用高資源數據集的同時，增強了模型對低資源、特定任務文本數據集的概括能力［８４］。王紅斌等［８５］提出一種基于樣本的遷移學習算法—ＴＬＮＥＲ－Ａｄａ?Ｂｏｏｓｔ，通過自動調整目標訓練樣本和輔助訓練樣本的權重，擴充目標訓練樣本的規模，以此提高訓練語料質量，實驗結果表明，在相對較低的人工標注語料成本上，遷移學習算法獲得較好的實體抽取效果。ＢｏｌａｎｄＫ［８６］指出，在實體抽取任務中，大量帶有注釋的數據是十分重要的，并且很難獲取，因此，提出了使用弱監督方法和遠程監督來創建銀標簽，以利用遷移學習訓練監督式軟件提取方法。研究表明，即使僅結合少量弱監督方法，也可以創建一個銀標準語料庫，作為遷移學習的有用基礎。ＳｈａｏＷ等［８７］提出了一種基于句子模式和句子ＰＯＳ序列的無監督方法。這種方法可以在不學習標記數據的情況下提取術語，只需要一些初始句型來冷啟動。然后它可以在未標記的數據上學習新的模式和ＰＯＳ序列，并使用它們來提取新的術語。ＺｈａＨ等［８８］也基于弱監督的方法從文本中抽取算法實體，用于構建算法路線圖。ＬｉｕＱＫ等［８９］在抽取數據集實體時，對于長尾數據集實體（即在數據集中出現頻率較低的實體）的抽取采用了遠程監督方法和兩種數據增強方法來獲取數據。然后，使用ＢＥＲＴＢｉＬＳＴＭ－ＣＲＦ模型來預測長尾數據集實體。以上研究均在知識實體抽取任務中取得了較好的結果。

２.２知識實體抽取的數據集

知識實體抽取流程較為固定，對于主流模型來說，高質量的標注數據集頗為重要。針對已有研究來看，現有領域數據集多集中于醫學、新聞、計算機科學、教育等領域。為推進各學科共同發展，可以拓展領域數據集到其他領域；此外，有報告［９０］指出，目前只有一小部分語種出現在基礎模型中，而世界上有６０００多種語言，對于一些少數語言或資源匱乏的語言，由于缺乏大規模的標注數據，許多自然語言處理任務無法得到充分的發展和研究。表３列舉了生物醫學領域可以用于知識實體抽取任務的標注數據集。

２.３知識實體抽取的軟件與工具

目前，已經開發眾多軟件或工具旨在自動化開展知識實體抽取任務。如ＴｏｎｇＹ等［９２］開發了ＶｉＭ?ＲＴ，用于自動識別病毒變異。ＳｏｎｇＭ等［９３］設計了ＰＫＤＥ４Ｊ——一個綜合的文本挖掘系統，它集成了基于字典的實體提取和規則，還可以插入自然語言處理組件的各種組合，以及添加詞典和豐富的規則集以識別準確的實體和關系。不僅適用于生物醫學領域，也適用于其他領域。ＹｕＬ等［９４］構建了一個信息抽取和知識挖掘的智能平臺，ＩＥＫＭＭＤ。該平臺包含兩項創新技術：首先，結合了神經網絡和主動學習的短語級科學實體抽取模型，可以有效降低模型對大規模語料庫的依賴；其次，提供了基于翻譯的關系預測模型，通過優化損失函數來改進關系嵌入。此外，該平臺集成了先進的實體識別模型（ｓｐａＣｙ．ＮＥＲ）和關鍵詞提取模型（ＲＡＫＥ）。它為細粒度和多維度的知識提供豐富的服務，包括問題發現、方法識別、關系表示和熱點檢測。在人工智能、納米技術和基因工程３個不同的領域進行了實驗，實體抽取的平均準確率分別為０.９１、０.５２和０.７６。表４列舉了可以用于知識實體抽取的工具或軟件。

２.４知識實體抽取相關會議

近年來，科學文獻中的知識實體抽取得到了廣泛的關注，相關會議也紛紛召開，如“科學文獻中知識實體抽取與評價研討會（ＷｏｒｋｓｈｏｐｏｎＥｘｔｒａｃ?ｔｉｏｎａｎｄＥｖａｌｕａｔｉｏｎｏｆＫｎｏｗｌｅｄｇｅＥｎｔｉｔｉｅｓｆｒｏｍＳｃｉｅｎ?ｔｉｆｉｃＤｏｃｕｍｅｎｔｓ，ＥＥＫＥ）”“科學文本自然語言處理研討會（ＷｏｒｋｓｈｏｐｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇｆｏｒＳｃｉｅｎｔｉｆｉｃＴｅｘｔ，ＳｃｉＮＬＰ）” 等旨在探索如何從科學文本中精準、高效地抽取知識實體。此外，如“人工智能與信息計量學研討會（ＷｏｒｋｓｈｏｐｏｎＡＩ＋ｉｎｆｏｒ?ｍｅｔｒｉｃｓ，ＡＩＩ）” 和“文獻計量學增強的數字圖書館信息檢索和自然語言處理研討會（Ｂｉｂｌｉｏｍｅｔｒｉｃ－ｅｎ?ｈａｎｃｅｄＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌａｎｄＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇｆｏｒＤｉｇｉｔａｌＬｉｂｒａｒｉｅｓ，ＢＩＲＮＤＬ）” 等會議的主題所示，自然語言處理技術及人工智能方法在科學文獻中知識實體抽取和表示中的應用也增強和賦能了文獻計量學、信息計量學、信息檢索與信息處理、科學文獻處理和數字圖書館領域的發展。

表５列舉了知識抽取的相關會議。這些會議中均涉及利用自然語言處理技術研究科學文獻中知識實體抽取與評價方面的主題，但各個會議有自己的側重點。其中，ＪＣＤＬ、ＥＥＫＥ和ＡＩＩ會議在２０２３年聯合舉辦。ＥＥＫＥ專注于科學文獻中知識實體的抽取與評價，從２０２０年開始至今連續舉辦４屆；ＡＩＩ會議強調自然語言處理技術在信息計量學中的應用，從２０２１年舉辦至今；ＪＣＤＬ是由ＡＣＭ和ＩＥＥＥ專業協會聯合組織的數字圖書館會議，從２００１年首次舉辦，至今已舉辦２３屆。ＳＤＰ則側重于自然語言處理（ＮＬＰ）等技術在學術文獻處理（ＳＤＰ）中的應用，從２０２０年舉辦至今。有些會議在近年已經停辦。如ＢＩＲＮＤＬ關注自然語言處理技術、信息檢索和文獻計量學在數字圖書館中的應用，從２０１６年開始，每年舉辦１次，連續共舉辦４年；ＷＯＳＰ則重視自然語言處理技術在科學出版物基礎設施、文本挖掘及影響力評價方面的應用，從２０１２—２０２０年共舉辦了８次；ＳｃｉＮＬＰ研討會主要關注自然語言處理技術在科學文本中知識抽取與表示方面的應用，分別在２０２０年和２０２１年各舉辦１次；ＣＬＢｉｂ關注科學論文中文本和語義挖掘技術在文獻計量學中的應用，僅在２０１５年和２０１７年各舉辦１次會議。

３科學文獻中的知識實體的評價研究

隨著文本挖掘技術的成熟及全文文獻資源的增多，知識實體抽取的范圍從文獻標題、摘要逐漸擴展到全文，這使得基于知識實體的全文計量成為可能［９９］。我國文獻計量學的著名學者邱均平曾指出，文獻計量不能停留在文獻的篇、章、冊為單位的文獻單元的計量上，而應該深入至文獻內容對知識單元和文獻的相關信息進行計量研究［１００－１０１］。對知識單元的認知能夠使人們清楚地認識到學術論文評價的基礎元素，這有利于把握評價主題、不失方向。姜春林等［１０２］認為，對學術論文評價的實質是對論文中知識單元的識別、計量和評價。ＤｉｎｇＹ等［６］也提出一種使用實體“來測度影響力、知識使用和知識轉移以促進知識發現” 的策略，即實體計量學（Ｅｎｔｉｔｙｍｅｔｒｉｃｓ）。作為一種表征知識單元影響的新方法，實體計量學還被用于知識發現［１０３］，如藥物再利用的量化［１０４］，與其他文獻計量網絡的比較［１０４］，以自我為中心的生物實體分析［１０５］和作者個人資料分析［１０６］，以及隱含的實體關系識別［１０７］。通過梳理相關研究發現，基于知識實體的評價主要包括對知識實體的評價和基于知識實體的論文影響力評價兩個方面。目前，大多數研究是利用文獻計量指標分析知識實體的影響力，通常包括實體在學術論文中被提及、被引用的頻率和網絡中心性等指標［１０８］。

３.１知識實體的提及頻率、替代計量及影響因素

知識實體在不同研究中的提及頻率往往被認為是評價其重要性的基本指標，被更多研究提及的實體被認為更受關注。如ＬｉＫ等［１０９］的研究探討了Ｒ及其軟件包和功能是如何在ＰＬｏＳ中被提及和引用的，并評價了其在科學出版物中的影響。ＷａｎｇＹＺ等［１１０－１１１］在研究中，以提及某算法的文章數作為指標，分析算法的影響力。如以自然語言處理（ＮＬＰ）領域為例，采用基于規則的方法抽取文獻中的方法實體，利用提及方法實體的文章數評價實體影響，發現ＮＬＰ領域論文中影響力最高的Ｔｏｐ１０種算法，分類算法在高影響力算法中占比最大，并指出算法影響力的演變反映了該領域研究任務和主題的變化。ＬｉＸ等［２］從生物醫學實體（疾病、藥物和基因）及其演化的角度理解藥物再利用，基于某生物醫學實體的所有出版物的百分比量化個體生物醫學實體的學術重要性，開發了人氣指數（Ｐ１）、前景指數（Ｐ２）、威望指數（Ｐ３）指標，此外，還基于提及某實體的文章的不同作者數的占比提出了反映生物醫學實體的研究強度協作指數（ＣＩ），用于檢測藥物研究各個階段生物醫學實體的潛在模式，并調查驅動藥物再利用的因素。ＨｅＪ等［１１２］選擇了１４種科學制圖工具實體，并通過應用這些工具實體的文章數來分析工具實體的影響力。ＰａｎＸＬ等［１１３］通過抽取圖書館與情報科學領域研究論文中的學術軟件實體，統計使用不同軟件的論文數、軟件的被提及數量以及軟件被引用的數量，以評估軟件對ＬＩＳ研究的影響。

在提及頻率的基礎上，學者們還提出一些其他指標，從不同的方面分析知識實體的影響。章成志等［２４］以自然語言處理領域為例，基于學術會議論文的全文本內容，人工標注知識實體并進行頻次統計，利用Ａｐｒｉｏｒｉ算法生成知識實體對，基于頻次篩選出高頻知識實體對，用非參數檢驗卡方值評價知識實體間關聯的強弱。ＬｉＸＬ等［１１４］提出了評估方法實體的影響的兩個指標：一是論文數量：對于每個實體，統計提及相應實體的論文數量，提及實體的論文越多，代表該實體的影響力越大。另一個是年齡分布：通過下載鏈接獲取提及實體的論文的發表時間，以分析方法實體的影響力隨時間的變化。ＰａｎＸＬ等［１０８］從２０１４年發表在ＰＬｏＳＯＮＥ上的論文中提取軟件實體，通過統計每個軟件實體的提及次數和引用次數來衡量軟件實體的科學影響力。鄒洋杰等［４８］采用基于規則的方法從情報學與計算機科學文獻中抽取方法實體，通過統計兩個領域中方法實體出現的頻次評價方法實體的影響力，探析兩個學科領域研究方法的交流態勢，對比分析了兩學科領域的高頻研究方法、已交流的研究方法、存在交流潛力的研究方法。和嘉昕等［１１５］爬取中國社會科學領域２１個學科的博士學位論文，共計６萬余篇致謝文本，抽取致謝實體，發現不同類型致謝實體的提及頻次存在差異；在不同學科論文中，致謝實體類型的多樣性分布也呈現一定差異。

除了文獻計量學指標外，一些替代計量學指標也被用來評估實體的影響力，可以是實體的投票頻率、下載頻率和訪問頻率，這些指標對實體的影響力和重要性評價提供了不同的視角［１０］。如ＩＣＤＭ（ＴｈｅＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ）的組織者在２００６年通過專家的投票的方法來評估算法的影響力［１１６］。據王玉琢和章成志的研究報道，“ＳｔａｃｋＯｖｅｒｆｌｏｗ根據ＩＴ領域從業者的投票來評估ＩＴ技術和數據庫的影響力。ＴＩＯＢＥ綜合考慮程序員投票數、課程數和供應商數來計算不同編程語言的流行度和影響力”［１０］。ＺｈａｏＲＹ等［１１７］的研究利用開源項目Ｄｅｐｓｙ統計Ｐｙｔｈｏｎ第三方包的下載量、引用量、復用量，從３個方面對Ｐｙｔｈｏｎ的一些第三方包的影響力進行分析和評價。ＡｍｒｏｌｌａｈｉＡ等［１１８］和ＺｈａｏＹＨ等［１１９］的研究回顧了開放源碼軟件成功領域的相關工作，通過匯總相關研究指出，可以用軟件下載量、開發者數量、項目等級、開發人員對項目中錯誤的修復能力作為軟件成功的衡量標準。

盧超等［９］指出，對于知識實體的評價，不應局限于對其頻次、位置等語法層面的分析，而應將語法特征與語義特征結合起來進行深入研究。知識實體的評價應不僅僅局限于數量指標，而更應深入文本內容，揭示知識實體的功能、情感及引用動機。一些研究［１２１－１２２］關注科學文獻對軟件的提及情況，并指出實體的引用標準也會對實體影響力產生一定的影響。如大量的軟件在論文中被提及，而提及的方式未能體現對軟件的正確引用會削弱其影響力。有學者認為，軟件被非正式引用的原因是軟件引用標準的多樣化，作者沒有遵循規范［１０９，１２３］。ＷａｎｇＹＺ等［１０］在研究中指出，軟件的標準引用對于準確評估其影響力十分重要，原因在于如果在計算對實體的引用時只考慮標準引用，那么實體的影響力就會被削弱。ＮａｎｇｉａＵ等［１２０］的研究中分析了２０１６年１月１日—３月３１日發表在《Ｎａｔｕｒｅ》上的所有論文，以了解它們對軟件的提及情況。Ｍａｔ?ｔｈｅｗＳＭ等［１２４］討論了學者們在研究文獻中如何識別和引用數據集、軟件包、計算模型等知識實體，并表明衡量學術文獻的影響時應結合其中知識實體的應用情況。ＬｉＫ等［１０９］提出了一種基于軟件名稱字典的軟件識別算法。通過提?。校蹋希?發表的論文中提到Ｒ軟件包的句子，他們分析了軟件包的共同提及網絡，發現具有相似學科和功能的軟件包更有可能同時被提及。ＹａｎｇＢ等［１２５］分析了文章與軟件之間的關系，結果表明，高質量期刊發表的文章傾向于使用更新的軟件，國際文章比中國文章更早使用新軟件。ＴａｎＦ等［１２６］提出了一個分析醫學領域實體與實體之間關系的框架，將生物醫藥實體與政府資金聯系起來，從科研經費的角度，將實體計量學的思想應用于生物醫學領域，進行初步的研究趨勢探索和知識發現，分析政府資助對醫學領域科研促進的作用，幫助政府更加合理地管理科研經費。

３.２實體共現網絡與實體擴散／引文網絡

有學者對同一篇論文中不同實體的共現現象，構建實體間共現網絡，利用網絡指標測度實體的重要性，進而對知識實體的學術影響力進行評價。如ＹｕＱ等［１２７］對ＣＯＶＩＤ－１９文獻構建了一個實體—實體共現網絡，并利用網絡指標對提取的實體進行分析，評估實體在網絡中的重要度。為此，作者應用了幾個已建立的指標，包括受歡迎程度、潛力指數和協作指數，以及ＰａｇｅＲａｎｋ、接近中心性、中介中心性、特征值中心性和平均度，發現ＡＣＥ－２和ｃ反應蛋白是兩個非常重要的基因，洛匹那韋和利托那韋是兩種非常重要的化學物質。ＬｉａｎｇＸＭ等［１２８］使用Ｇｒａｐｈ２ｖｅｃ和Ｋｎｏｗｌｅｄｇｅ２ｖｅｃ表示生物醫學實體及其在異構網絡中的關系，并采用級聯學習模型來尋找藥物、基因、疾病和治療之間的潛在相互作用。

微觀實體是驅動知識擴散的主要內因，通過實體間的引用關系可以從更細粒度上分析知識實體的擴散。前人多以篇章、作者或主題等作為知識擴散的主要載體，較少關注來自文獻全文本內容的微觀實體之間的引用關系［９３］。安欣等［１２９］借助ＢｉＬＳＴＭＣＲＦ構建了微觀實體抽取模型，從分子生物學１０００篇全文本數據中抽取理論概念類、工具技術類、數據信息類和特定領域類知識實體，通過實體間引用關系構建實體擴散網絡揭示知識實體在宏觀和微觀層面的擴散模式。ＷａｎｇＳ等［５０］通過應用詞干匹配方法，從ｅＨｅａｌｔｈ論文的引文中提取了施引文獻及其參考文獻之間共享的相關知識短語（ＡｓｓｏｃｉａｔｅｄＫｎｏｗｌｅｄｇｅＰｈｒａｓｅｓ，ＡＫＰ），提出了一種考慮領域知識功能的分類模式，以對已識別的ＡＫＰ進行分類，分析了每種知識類型的來源學科，應用定量指標和共現分析來揭示不同知識類型的整合模式，提出了一種新的方法來探索跨學科領域知識整合的內容特征。ＤｉｎｇＹ等［６］通過抽取二甲雙胍相關文獻中的基因、疾病和藥物實體，構建實體—實體引文網絡。計算網絡特征并將生物實體的中心性等級與比較毒物基因組學數據庫（ＣｏｍｐａｒａｔｉｖｅＴｏｘｉｃｏｇｅｎｏｍ?ｉｃｓＤａｔａｂａｓｅ，ＣＴＤ）的結果進行比較，揭示了實體計量學方法在檢測絕大多數實體間交互作用方面的實用性。ＮａｍＤ等［１３０］采用基于字典的方法（ＰＫＤＥ４Ｊ）抽取引文句子中的藥物、疾病、化合物、蛋白質和治療方法５類實體，從直接引用和間接引用兩個視角構建實體網絡，進而衡量知識實體的影響。徐庶睿等［１３１］提出，結合術語和引文內容探測學科交叉度的研究方法并進行實證分析。選取術語為知識載體，通過統計學科論文在引文內容中引用這些術語的詞語量和頻次，從而確定學科間的知識交叉情況。

３.３基于知識實體的同行評議

自然語言處理技術的發展使知識元抽取成為可能。同行評議實際上是對學術論文中知識元的評價，可以將其概括為問題知識元、過程知識元和結論知識元，對其創新性、規范性、科學性和價值性進行評價。綜合上述分析，索傳軍等［１３２］提出一種基于論文知識元的同行評議研究思路。在學術同行的篩選中，納入非科學家同行（如資深從業人員），同時不再用以往簡單的主題匹配模式。首先，通過對學術論文進行數據化，抽取關鍵知識元，依據知識元的內容確定評審同行；其次，在同行的研究內容匹配中，深入分析專家特長，如按照專家發表論文的貢獻內容確定其研究專長等，進而確定論文知識元的評審專家；最后，結合專家認知圖示和參照論文集，進行學術論文的分析、比較、判斷，得出評價結果。

３.４基于知識實體的論文新穎性評價

參照李晶等［１３３］基于知識單元對論文新穎性的評價研究，將其延伸至知識實體層面，即新穎性可以細分為新穎知識實體、新穎知識實體組合兩方面，其中，新穎的知識實體是與已有知識實體相對應的概念。而通過新穎知識實體組合測度新穎性，是包括問題與方法組合、參考文獻與技術領域分類代碼組合、參考文獻與產出內容組合、知識實體組合。如ＳａｖｏｖＰ等［１３４］根據論文的潛在主題分布預測了未來的突破。一篇論文涉及的未來研究主題越多（而以前的主題越少），該論文就越有創新性。通過測量專利之間的文本相似性，ＫｅｌｌｙＢ等［１３５］確定了與前人有距離、與后續發明接近的重要創新，而最重要的專利被認為是具有突破性創新的。

ＷａｎｇＺ等［１３６］提出，基于正態云的期望曲線重疊的相似性云算法來測量知識實體間的相似度，以此評估實體及提及相應實體文章的創新性，并表明在同一研究領域下，知識實體間相似度越高，創新程度越低。ＪａｃｏｂＧＦ等［１３７］通過從摘要中提取的化學相關實體構建化學知識網絡，發現文獻中提及的新的化學物質或化學關系評價其創新性，并將引入新的化學物質和化學關系的研究稱為創新研究，對于深入研究已知的化學物質和化學關系的研究稱為傳統研究。ＷａｎｇＸ等［１３８］將摘要中帶有線索詞（如“新見解”和“第一次”）的判斷句作為突破的表達，設計了深度學習模型來識別科學突破，揭示文章的創新性。

而基于新穎知識實體組合評價論文的新穎性是指以“組合的異質性” 為切入點，關注參考文獻維度［１３９－１４２］或關鍵詞［１４３］的非典型性組合，即不常見的組合。自此出現了一系列關注“組合” 的指標，衡量一篇論文對現有知識進行不尋常組合的能力程度，包括關鍵詞［１４３］、參考文獻所發表的期刊［１４０］等。也有研究［１４４］通過測度新出現的實體組合或實體對的比例，以此評估論文的新穎性。如ＬｉｕＭ等［１４５］抽?。玻埃玻?年１２月及之前發表的ＣＯＲＤ－１９相關論文標題和摘要中的基因、疾病等生物醫療領域知識實體并配對，使用ＢｉｏＢＥＲＴ模型衡量論文中實體對間的余弦距離，并定義頻率分布排在前１０％的實體對為新穎的實體組合，通過計算論文中新穎的實體組合數與所有可能的實體組合數之比作為論文的新穎性分數。ＷａｎｇＳＹ等［１４６］以摘要數據為基礎，自動提取論文實體及實體組合，以未出現在其參考文獻中的新知識單元和知識單元組合比例代表論文的創新性，該值越高說明論文的創新性越強。

通過論文的引用模式來衡量論文對現有知識的顛覆或替代程度是評價論文顛覆性的傳統方法。舉例來說，如果一篇論文經常和它的參考文獻一起被引用，那么它就可以被視為鞏固了現有的知識，而如果對它的引用不承認它的知識先輩，那么這篇論文就可以被視為顛覆性創新［１４７－１４８］。與那些基于參考文獻的引用關系對論文的顛覆性測度方法不同，ＷａｎｇＳ等［１４９］以更細粒度的知識實體為研究單位，通過實體間的引用情況評價論文的顛覆性，提出基于知識實體的顛覆性指數。

３.５基于知識實體的論文臨床轉化進展評價

ＬｉＸ等［１５０］首先利用超過３０００萬篇ＰｕｂＭｅｄ文章訓練了生物醫學實體和文檔的語義表示模型（Ｂｉｏｅｎｔｉｔｙ２ｖｅｃ和Ｂｉｏ－ｄｏｃ２ｖｅｃ）。在此基礎上，提出了一種新的度量方法——轉化進展（ＴｒａｎｓｌａｔｉｏｎａｌＰｒｏ?ｇｒｅｓｓｉｏｎ，ＴＰ），用于追蹤生物醫學文章在轉化連續性上的進展。其提出的測量方法可以幫助決策者實時監測具有高轉化潛力的生物醫學研究，并做出更好的決策。此外，該方法還可以應用于其他領域，如物理學或計算機科學，以評估科學發現的應用價值，并進行改進。

綜上，準確且全面地抽取出論文中的知識實體是開展實體計量評價的前提，而且對知識實體的語義分析也是必不可少的環節。只有明晰了作者對實體的應用意圖，才能在定量分析實體的提及、引用的頻率等指標時得出正確的結論，也有利于深度剖析知識實體之間的關聯。同時，當基于實體間引用關系構建實體—實體引文網絡開展研究時，有學者［１５１］提出了兩點建議：第一，用于構建引文網絡的實體應該從全文中獲取，而非標題和摘要；第二，構建引用網絡時論文—實體引用網絡會比實體—實體引用網絡更能準確地體現引用關系。

４存在問題與未來展望

４.１存在問題

在知識實體的抽取方法方面：首先，當前的研究主要集中在文本數據的實體抽取上，而對于如圖像、音頻、視頻等多模態數據中的實體抽取研究相對較少。聯合抽取科學文獻中的文本與多模態數據中的實體可以更加全面地反映文獻中的知識并且實現對文獻內容的充分利用。然而，由于缺乏高質量的標注數據集、高質量的模型構建，使得基于多模態數據的知識實體抽取極具挑戰；其次，當前的研究主要集中在單一語言的實體抽取上，對于跨語言實體抽取的研究相對較少。跨語言實體抽?。郏保担玻?的目標是提升低資源自然語言的實體識別效果。不能理解為“單語言實體抽取” 與“機器翻譯” 兩者的簡單組合。從研究現狀來看，跨語言實體抽取面臨著語言差異、語義差異等挑戰，需要開發跨語言的模型和方法來解決這些問題；第三，實體抽取算法通常需要大量的標注數據進行訓練和評估，但目前缺乏大規模、高質量的領域特定標注數據集。

在知識實體的評價方面：首先，對于抽取得到的實體，研究者雖然嘗試使用一些文獻計量指標和替代計量指標，如提及頻率、中介中心性、下載量等，來評價知識實體的學術影響力、受歡迎程度和重要性。但目前來看，現有知識實體的評價指標較為簡單、粗糙，在多樣性、系統性與標準化方面還有很大提升空間，而且評價指標的可靠性、有效性往往未經充分驗證。由于對知識實體評價的相關研究剛剛起步不久，還未建立標準化的評價指標體系，研究者在構建指標時往往根據自身研究需求和實際情況出發，導致評價結果的可比性和一致性較差；其次，隨著學術全文本數據集的日益增長與文本挖掘分析方法的快速發展，從語詞層面、語句層面和語篇層面展開的，基于知識實體的全文計量正在悄然興起，已有學者基于知識實體構建了新穎性、顛覆性、臨床轉化進展等指標評估論文的影響力，但如何科學利用這些指標真正地評價研究論文的影響力還面臨著一定的困難［１５３］；第三，在知識實體的評價指標之間、基于知識實體的論文評價指標之間的相關關系仍缺乏研究，以便進一步對評價指標分類檢驗；最后，無論是知識實體的評價，還是基于知識實體的科學文獻評價，均受一些特征或因素的影響，但這個視角的實證還十分缺乏。

４.２未來展望

鑒于上述分析的現有研究存在問題，今后隨著科學文獻中知識實體抽取與評價的進一步發展，未來研究可從以下幾方面深化調整。

在知識實體的抽取方面，努力開發簡單、準確、靈活、有泛化能力且低成本的知識實體抽取方法，降低對大量標注數據的依賴，可著手進行以下的策略調整： ①多模態實體抽取。研究如何將多模態數據進行融合和聯合建模，以實現更全面和準確的實體抽取?？梢蕴剿鞫嗄B特征的提取和融合方法，設計適應多模態數據的實體抽取模型，并構建多模態實體抽取的標注數據集； ②跨語言實體抽取。研究跨語言實體抽取的方法和模型，解決語言差異和語義差異帶來的挑戰。可以探索跨語言的特征表示方法、遷移學習和多語言知識圖譜等技術，提高跨語言實體抽取的性能和效果； ③領域高質量標注數據集構建。加大對領域特定標注數據集的構建力度，提高標注數據的質量和覆蓋范圍。可以利用半監督學習、主動學習等方法，降低標注數據的成本，并結合領域專家的知識和經驗進行標注數據的驗證和修正。

在知識實體的評價方面，可重點從以下視角深入探索： ①重視知識實體評價指標的多樣化。不僅要酌情將傳統文獻計量學、信息計量學、科學計量學、替代計量學的評價指標移植到知識實體上，而且更應根據知識實體的特征開發特異性的評價指標；②增加對知識實體評價指標的可靠性、有效性方面的性能檢驗的實證研究，進一步還可考慮對指標的可獲取度、擴展性、標準化等方面進行系統評價；③進一步研究知識實體評價指標之間、基于知識實體的論文評價指標之間的相關關系，及其可能受知識實體特征、科學文獻特征，甚至引用動機、時間、空間、領域、政策環境等的影響； ④對于某些主觀性較強、不易量化的評價目的，也需要借助專家評估或同行評議等質性評價方法，以保證評價結果的全面性和準確性。在解決具體領域問題的知識實體評價應用方面可通過因果推斷方法發現“因果關系”，提升評價指標對研究結果的解釋力； ⑤在保證評價指標在細粒度、準確性、有效性、可靠性上相對傳統評價指標的絕對優勢前提下，構建基于知識實體的論文影響力評價指標體系，從本質上提升科技評價質量，為科技評價改革注入新的活力與生機。

５結論

在大數據和人工智能時代，隨著自然語言處理技術的飛速發展，科學文獻中知識實體的識別與抽取方法也取得了巨大飛躍。未來相關工作將面向多模態、跨語言的知識實體抽取、領域高質量標注數據集的構建。與此相輔相成的是，以自然語言處理技術為代表的ＡＩ人工智能，將進一步賦能“五計學”，使文獻計量學、信息計量學、科學計量學、替代計量學與知識計量學煥發新的生機，可以預見的是，智能計量將引領未來科技評價的新賽道、新應用和新方向。