劉興幫,陸 偉,孟 睿(1. 武漢大學信息資源研究中心,武漢 430072; 2. 信息檢索與知識挖掘研究所,武漢 430072)
?
基于多標簽分類的引文全局功能識別研究*
劉興幫1,2,陸偉1,2,孟睿1,2
(1. 武漢大學信息資源研究中心,武漢 430072; 2. 信息檢索與知識挖掘研究所,武漢 430072)
引文功能是科研工作者引用一篇文獻的動機。其中,相比較于只考慮引文前后文語句的引文局部功能,引文全局功能關注的是參考文獻在全文范圍內的信息,是被引文獻在施引文獻中價值的綜合體現,其自動識別研究對于引文推薦、引文索引、語義化引文網絡構建等學術文本挖掘研究具有重要意義。文章根據“參考文獻在施引文獻中存在一處或多處具體引用”這一特點,將引文全局功能識別研究轉化為多標簽分類問題,并構建引文全局功能數據集,在此數據集之上進行引文全局功能自動識別實驗,取得較好的效果。
引文全局功能;多標簽分類;學術文本挖掘;引文分析
引文功能描述了科研人員引用他人科研成果的目的和動機[1]。引文功能識別是學術文本挖掘(如重要引文識別、引文網絡構建和科研成果評價指標構建等)的基礎性工作之一,在文獻計量、研究主題演化分析、科研趨勢預測等多個領域具有重大應用價值。近年來,隨著文獻數量的快速增長以及文本技術的發展,引文功能的識別逐漸由傳統的人工識別轉向基于機器學習、數據挖掘等技術的自動識別。
根據引文作用范圍的不同,引文功能的自動識別可以分為引文局部功能識別(local classification)和引文全局功能識別(global classification)[2]。……