陳海華,黃永,張炯,陸偉,2
?
基于引文上下文的學術文本自動摘要技術研究*
陳海華1,黃永1,張炯1,陸偉1,2
(1.武漢大學信息管理學院,武漢 430072;2.武漢大學信息檢索與知識挖掘研究所,武漢 430072)
學術文本自動摘要是指對于給定學術文獻,自動地抽取其核心內容,以提高用戶撰寫和閱讀文獻的效率。目前基于文本詞頻對句子重要性排序的自動摘要技術,無法從語義層面揭示學術文本的核心內容。本文在已有研究的基礎上,引入引文上下文內容特征,并通過構建支持向量回歸模型,綜合考慮自動摘要系統中的各個特征對句子權重的影響,重新對句子重要性進行排序。基于WE-ROUGE的評測表明,相比于傳統基于詞頻統計和圖模型的方法,本文提出的算法能夠有效提升自動摘要的準確度。
文本自動摘要;引文上下文;支持向量回歸;詞向量
信息技術的發展促進了科學交流,導致科學產出極快增長。May的統計結果表明,學術公開出版物的平均年增長率為3.7%[1],在一些熱門領域,這個數字更為驚人[2]。如何在海量學術文獻中快速而準確地獲取信息成為研究熱點,隨之產生的自動摘要、文獻推薦等信息過濾技術受到人們廣泛關注。
學術文本自動摘要技術,一方面提高了用戶檢索和閱讀文獻的效率,另一方面提高了用戶撰寫學術文獻的效率。其核心思想是對于給定文本或主題相近的文檔集,計算機自動生成涵蓋文本或文檔集核心內容的摘要[3]。文本自動摘要技術主要分為基于全文內容抽取的自動摘要和基于全文內容理解的自動摘要,但由于自然語言理解與生成技術還有待發展,目前研究主要集中在基于全文內容抽取的自動摘要[4]。……