挖掘專利知識實現關鍵詞自動抽取

2016-08-31 03:49:37陳憶群周如旗朱蔚恒李夢婷

計算機研究與發展 2016年8期

關鍵詞：信息檢索

陳憶群　周如旗　朱蔚恒　李夢婷　印　鑒

1(中山大學計算機科學系　廣州　510275)2(廣東第二師范學院計算機科學系　廣州　510303)3(暨南大學信息科學技術學院　廣州　510632)4　　　(珠海魅族科技有限公司　廣東珠海　519085)

挖掘專利知識實現關鍵詞自動抽取

陳憶群1,2周如旗2朱蔚恒3李夢婷4印鑒1

1(中山大學計算機科學系廣州510275)2(廣東第二師范學院計算機科學系廣州510303)3(暨南大學信息科學技術學院廣州510632)4(珠海魅族科技有限公司廣東珠海519085)

(chenyiqun@gdei.edu.cn)

是人們快速判斷是否要詳細閱讀文件內容的重要線索，關鍵詞自動抽取在信息檢索、自然語言處理等研究領域均有重要應用.設計了一種新的關鍵詞自動抽取方法，使計算機能夠像人類專家一樣，利用知識庫對目標文本進行學習和理解，最終自動抽取出關鍵詞.專利數據因其數據量龐大、內容豐富、表達準確、專業權威而被選中作為知識庫來源.詳細討論了專利數據的特性，挖掘不同專利間的知識關聯，針對某一知識領域構造背景知識庫，在此基礎上進行目標文本的關鍵詞自動抽取.與目標文本相關的專利文集中每個專利的專利發明人、權利人、專利引用和分類信息都被用于在不同的專利文檔之間發現關聯性，利用關聯信息擴充背景知識庫，獲得目標文檔在各個相關知識領域的背景知識庫.基于背景知識庫設計了詞知識特征值，以反映詞在目標文本背景知識中的重要程度.最后，把關鍵詞抽取問題轉化為分類問題，利用支持向量機(support vector machine, SVM)抽取出目標文本的關鍵詞.在專利數據集和開放數據集的實驗結果證明明顯優于現有算法.

背景知識；關鍵詞抽取；專利數據；支持向量機；信息檢索

關鍵詞是快速獲取文檔主題的重要方式，廣泛應用于新聞報道、科技論文等領域，以方便人們高效地管理和檢索文檔.在大數據時代，每時每刻都有大量信息產生，采用傳統的人工方式標注關鍵詞已不再可行.社會迫切需要自動為文檔標注關鍵詞的技術，因此，關鍵詞自動抽取已成為自然語言處理和信息檢索的研究熱點和重點.

傳統的關鍵詞人工標注方法依靠人類專家所具備的背景知識，理解目標文本，最終標注出目標文本的關鍵詞.現有的關鍵詞抽取算法多關注于目標文本的數據特征，依靠統計信息進行分析，從中抽取出關鍵詞.但目標文本的信息量有限，其數據特征信息(如詞頻、結構等)尚不能完整表征目標文本的語義內涵和外延.本文針對關鍵詞抽取問題，為目標文本建立相應的背景知識庫，使計算機能夠像人類專家一樣，根據背景知識去“理解”目標文本，自動抽取出關鍵詞.

人類專家的知識來源于學習與經驗積累，其背景知識包括常識、專業知識及相關領域知識等.在接觸新的知識范疇時，人類專家能通過查閱相關文獻資料，結合自身的背景知識進行有針對性地學習，以便理解并掌握新知識內容.為了使計算機能夠像人類一樣針對目標文本進行“學習”和“理解”，需要為計算機提供相應的背景知識庫，提供相關文獻資料以便計算機查閱、學習.首先，相關文獻資料內容必須正確且具有權威性，保證計算機學到的知識是準確、可靠的;其次，計算機需要從海量信息中獲取知識，因此相關文獻資料必須數量龐大、內容豐富.隨著科學技術的快速發展，世界各國的專利文獻數量呈不斷上升的趨勢.專利文獻作為科學技術進步與創新的主要載體，不僅內容豐富、用語標準、闡述清晰、覆蓋全面，而且具有相當的權威性，可以很好地充當背景知識的來源，輔助計算機“學習”和“理解”目標文本.美國專利商標局所出版的專利數據集(US patent)[1]以格式良好的XML文件方式存儲著專利的大量信息，包括專利標題、專利號、專利發明人、專利權利人、專利摘要、專利闡述、專利聲明、專利引用、專利分類信息等.海量的專利數據集是一個巨大的知識寶藏.因此，本文選用專利數據集作為相關文獻資料充當背景知識來源.

目前國內外尚未有其他研究者利用專利數據集作為外部知識來源構造背景知識庫服務于關鍵詞抽取.本文分析、利用專利數據集的數據特征，挖掘專利數據集中隱含的知識關聯和鏈接關系，建立專利數據集構成的知識庫內容.針對目標文本在專利數據中發起關聯查詢，以構造目標文本相應的背景知識庫，包括相關知識庫、工作知識庫、相關領域知識庫、先驗知識庫和同類知識庫，并針對不同的背景知識庫定義了新的關鍵詞知識特征值，設計了基于專利知識庫的特征值計算公式.新的知識特征值能夠有效反映詞語在目標文本背景知識中的重要程度，從而反映其在目標文本中的重要程度，最終利用特征值將關鍵詞自動抽取轉化為分類問題，有效地解決關鍵詞抽取問題.

1　相關工作

1.1關鍵詞自動抽取算法

根據關鍵詞自動抽取算法的基本思想可將關鍵詞自動抽取算法分為:基于統計特征的關鍵詞自動抽取、基于主題模型的關鍵詞自動抽取和基于詞圖模型的關鍵詞自動抽取算法.

基于統計特征的關鍵詞自動抽取算法關注目標文本的詞匯基本特征(詞頻、詞的位置、詞性和詞語長度等)，是一種簡單易行的常用方法.如擴展的KP-Miner[2]算法首先基于詞頻和位置標記出候選關鍵詞，使用基于帶權重的TF-IDF(term frequency-inverse document frequency)算法計算候選關鍵詞的權重，并設計了1個增強因子用于組合關鍵詞組，最后進一步提煉使最后的關鍵詞列表綜合考慮長關鍵詞和短關鍵詞的分布：某個關鍵詞如果出現在另一個組合關鍵詞中，則此關鍵詞的權重被降低.此類方法容易忽略重要的低頻詞語和文檔內部的主題分布語義特征.

基于主題模型的關鍵詞自動抽取算法以基于LDA(latent Dirichlet allocation)的關鍵詞自動抽取算法應用最為廣泛[3-5].LDA是一種無監督機器學習技術[6]，通過大量已知的“詞語-文檔”矩陣和一系列訓練，推理出隱藏在內部的“文檔-主題”分布和“主題-詞語”分布，出現在目標文本主要主題中的詞語更有可能被識別為關鍵詞.主題模型通過對數據進行訓練而得到，關鍵詞抽取的效果與訓練數據的主題分布關系密切，因此抽取結果對訓練數據集的依賴較大.

基于詞圖模型的關鍵詞自動抽取算法以TextRank[7]為代表，通過把文本分割成若干組成單元并建立圖模型，將目標文本的每一個句子詞視為1個節點，句子詞之間的相似度作為節點之間的邊值，利用投票機制對目標文本中的重要節點進行排序.算法認為1個詞的重要性由鏈向它的其他詞的重要性來決定.此類算法僅利用單篇文檔本身的信息即可實現關鍵詞自動抽取，因其簡潔有效而得到了廣泛應用.但是，此類算法只利用了文本內部的信息進行關鍵詞自動抽取，沒有考慮到文本的背景知識.因此，研究者引入各種知識幫助關鍵詞排序，如考慮文檔近鄰[8-9]、與文檔摘要互相增強補充[10-11]、考慮文檔標題的作用[12]等.

此外，近年來涌現大量借助外部數據進行關鍵詞自動抽取的研究工作.研究者提出的引入文檔以外的外部數據以輔助關鍵詞自動抽取的算法主要分為2類：1)利用標簽(tags)數據.Web2.0網站向用戶提供了為感興趣的對象自由標注標簽的功能，這些標簽便于用戶分享、管理、收藏和檢索對象，具有表征意義，因此標簽作為一種外部知識可引入到關鍵詞自動抽取中，如Tag-TextRank[13]算法.該方法在TextRank基礎上，通過將目標文檔的每個標簽引入相關文檔來估計詞項圖的邊權重并計算得到詞項的重要度，最后將不同標簽下的詞項權重計算結果進行融合.2)引入外部知識的算法主要是利用維基百科(Wikipedia)豐富的百科詞條.將每個維基百科詞條看作是一個獨立的概念(concept)，1個詞的語義信息可以用維基百科概念上的分布來表示.其中，在某個概念上的權重可以用這個詞在該概念詞條中的TF-IDF值來表示，這樣就可以通過比較2個詞的概念向量來度量他們的相似度.Wikify[14]將目標文本的重點概念指向維基百科中的相關頁面，通過鏈接結構得到了關鍵詞的新特征.由此也發展了一些擴展算法，如利用維基百科的結構來構建一個詞語之間的語義圖以抽取關鍵詞[15].文獻[16]不僅考慮了詞匯的本身特性，同時引入詞匯間的3種關系值，這3種關系值分別來源于文檔層、語料庫層(與目標文本類似的文檔)以及知識層(維基百科)的詞匯間相似度計算結果.Maui[17]系統在KEA[18]的基礎上擴展了3個基于維基百科的特征值，包括：1)維基百科詞條.1個詞作為維基百科詞條的可能性.2)語義關聯.從維基百科計算的詞匯語義值.3)鏈接值.鏈向維基百科頁面的鏈接數.文獻[19]利用維基百科內部鏈接、外部鏈接以及目錄信息等計算目標文本的特征值，以實現關鍵詞自動抽取的算法.文獻[20]提出利用維基百科的文檔標題以及目錄圖來為給定某領域的短文檔集找出關鍵詞(這些詞不一定出現在文檔集中)的方法.研究者對如何利用維基百科做了充分的討論，并利用維基百科提高關鍵詞抽取質量.

從內容上看，標簽數據依賴于網站維護，用戶人工標注的方式具有一定的參考價值，但在表達準確性、用詞的專業性和權威性方面不能得到有效保證.維基百科數據量大、內容豐富，每天都有來自世界各地的許多參與者進行數百萬次的編輯，其數據也對社會產生較大影響，許多研究生的論文和某些媒體甚至會引述維基百科的內容，維基百科的內容得到了廣泛認可.但其內容基本上都是由普通用戶所撰寫，其大部分頁面都可以由任何人修改，雖然內容經過管理者審查，但顯然其科學權威性和準確性無法與專利文件相媲美.專利文獻的每一份材料都是經過科學考察檢驗的精確描述.用專利數據集作為外部知識來源具有數據龐大、用語科學準確和權威性強等優勢，能夠為計算機提供內容精準有保障的正確知識.海量的專利數據集是一個巨大的尚未被開發的知識寶藏，因此，本文選用專利數據集作為背景知識來源.

目前國內外尚未有其他研究者利用專利數據集作為外部知識來源構造背景知識庫服務于關鍵詞抽取.從內容組織及結構特性方面考慮，標簽數據和維基百科數據內容與專利數據內容組織各不相同，具有較大的差異性.基于標簽數據和基于維基百科數據的利用外部數據進行關鍵詞抽取的方法對利用專利數據作為背景知識來源可以起到一定的啟發作用，但不能沿用作為專利數據的利用方法.因此，本文設計了利用專利數據作為背景知識來源的方法，通過分析專利數據的數據特征，挖掘專利數據中隱含的知識關系，建立了帶索引的專利數據集，利用專利數據集為目標文本構造背景知識庫.針對關鍵詞自動抽取問題，定義了候選詞的5個新知識特征值，對目標文本中的每個詞計算其知識特征值和統計特征值，應用于關鍵詞分類器的訓練和關鍵詞抽取中.

1.2專利數據研究

格式良好、內容豐富、數量龐大的專利數據集已在信息檢索及自然語言處理方面引起研究興趣.目前圍繞專利數據集開展的工作主要是針對專利文獻的翻譯、檢索和自動分類研究.如CLEF-IP會議[21]提出針對文本的專利在先搜索(prior art candidate search)、專利分類以及基于圖形的分類和檢索等工作任務；PatentMT[22]會議專注于專利文獻自動翻譯等工作.

專利數據集包含豐富的信息，如專利文獻中的發明人、權利人、專利標題、專利摘要、詳細描述、專利引用、專利類別信息等，這些豐富的資料可以作為背景知識庫幫助理解目標文本.圖1展示US patent數據集中專利號為S-08621694-B2的專利文獻信息(因篇幅所限，只展示部分信息，整個專利文檔共651行).

Fig. 1　Example of patent file from US patent.圖1　US patent中的專利文獻文檔示例

專利文件以XML格式存儲，專利標題存儲在〈invention-title〉標簽中，〈abstract〉標簽存儲專利摘要，〈description〉標簽內容存儲專利描述，包括專利申明(claim)等.

專利發明人信息存儲在〈applicants〉標簽中，1個專利可能不止1個發明人，因此通過sequence屬性表明發明人排序情況，如第1位為001.發明人信息包括發明人姓名、通信地址等詳細內容.

專利權利人信息存儲在〈assignees〉標簽中，當權利人為公司時，公司名存儲在〈orgname〉中，當權利人為獨立個人時，存儲在〈first-name〉〈last-name〉標簽中.

每份專利文件在撰寫過程中可能引用現有的專利文件；在提交專利申請時，專利文件內容經過審查，包括檢查其內容與之前已發布的專利是否存在重復.〈references-cited〉包括了在該專利審查過程中引用到的所有專利文件，從〈country〉標簽和〈doc-number〉標簽內容可以組合出引用的專利文件號.

每份專利文件都列出了本專利的分類信息.其專利分類有國際分類號、美國分類號等，本文從〈classification-ipcr〉標簽獲取每個專利的國際分類號作為分類信息依據.1份專利文件可能同屬多個分類號.

龐大的專利數據中隱藏著隱含的知識關聯，每一份專利文件不應該是一個信息孤島，而應該是龐大的專利數據網中的一個節點.如何為專利文件建立鏈接，將眾多專利文件組成一個背景知識網，使得從1個知識點就可以找到相關聯的其他知識點，這是本文重點考慮的問題.通過分析發現，在專利數據中有4個隱含的鏈接關系.1)專利發明人鏈接.在不同的專利文件，如果發明人姓名、通信地址信息完全一致，則認可是同一位發明人.對專利數據集中具有相同發明人的專利文件建立關聯鏈接以便發現關聯信息.2)專利權利人鏈接.在不同的專利文件中，如果專利權利人組織的姓名組織名和通信地址完全一致，則認可是同一權利人組織，本文方法為具有相同權利人組織的專利文件建立了關聯鏈接.3)引用鏈接.一份專利的撰寫和審核過程中，需要引用已有的專利文件，這種引用關系體現了知識的發展和關聯，因此，對專利文件間的引用關系建立了關聯鏈接.4)類別鏈接.每份專利都有自己的分類號，可能同時屬于多種類別，這種類別屬性也體現了知識領域跨度信息.因此，為同一個分類號下所有專利建立鏈接關系.顯然，這些鏈接關系將能成為專利數據集的知識索引，通過建立這4種鏈接關系，可以將孤立的專利文件組織成為一個龐大的知識網，為相關語義信息檢索提供強有力的支持.

2　挖掘專利知識庫實現關鍵詞自動抽取

為表述清楚，本文提出如下定義：

1) 目標文本.待抽取關鍵詞的文本信息.

2) 背景數據集.用于產生背景知識庫的數據集，本文采用US patent數據集作為背景數據集.

3) 背景知識庫.針對目標文本，在背景數據集中搜索相關內容，構造背景知識庫.每個目標文本都有自己不同層次的背景知識庫.

4) 查詢詞.從目標文本中獲得的代表目標文本主要內容及方向的詞.

本文設計的基于專利知識的關鍵詞自動抽取算法如算法1所示.

算法1. 基于專利知識的關鍵詞自動抽取算法.

輸入：目標文本;

輸出：目標文本的關鍵詞.

步驟1.產生查詢詞：對目標文本使用改進的TextRank算法，獲取目標文本的查詢詞.

步驟2.構造背景知識庫：利用查詢詞在專利數據集中檢索，將相關度較高的專利文件集構成相關文集.對相關文集合中的每一份專利文件，抽取其專利發明人、權利人、專利引用和分類信息，建立與相關文件的關聯關系，抽取專利文件的標題和摘要構造不同的背景知識庫，包括相關知識庫PAI、工作知識庫IF、相關領域知識庫AS、先驗知識庫CI、同類知識庫CL(詳細算法見算法2).

步驟3.利用背景知識庫，計算詞的知識特征值及其他文本特征值.

步驟4.把關鍵詞自動抽取轉化為詞的分類問題，利用詞特征值和訓練數據集訓練分類器，使用分類器對目標文本詞匯進行分類，將屬于關鍵詞類別的詞作為算法結果輸出.

步驟5.對判斷為關鍵詞的詞列表進行檢查，將在原文中相鄰的詞組合成復合詞作為關鍵詞.

本文方法首先對專利數據集進行數據預處理.專利數據集中每個專利文件以XML文件格式獨立存放，不具備鏈接關系.1名專利發明人可能具有多個發明專利，這幾個發明專利因共同的發明人而具有了鏈接關系.1名專利權利人可能擁有多項專利權利，這些專利也因共同的權利人而產生鏈接關系.1個專利對其他專利的引用也產生了鏈接關系.同一個分類屬下的不同專利之間也有鏈接關系.

因此，對專利數據中的專利發明人、專利權利人、引用及類別關系，系統為其分別構建鏈接關系，建立索引，形成帶索引的背景數據集，以便于提高后續工作中的相關知識庫的構造效率.

對每一份目標文本，系統先為其找出查詢詞，利用查詢詞在背景數據集中進行檢索，找出關聯度較高的相關專利文件構成背景數據集.進一步利用背景數據集中的專利發明人鏈接、專利權利人鏈接、引用鏈接及類別鏈接，為目標文本構造背景知識庫包括相關知識庫、工作知識庫、相關領域知識庫、先驗知識庫、同類知識庫.利用背景知識庫為目標文本的每個詞計算詞知識特征值，再結合其他文本特征值得到目標文本中每個詞的10個特征值，這10個特征值綜合目標文本的背景知識庫內容，反映了該詞匯的語義特征和在目標文本中的重要程度.最后，將關鍵詞抽取轉化為分類問題，10個詞特征值服務于支持向量機的訓練和關鍵詞抽取工作.基于專利知識的關鍵詞自動抽取過程如圖2所示：

Fig. 2　The framework of our approach.圖2　系統流程

2.1產生查詢詞

為了從專利數據集中獲取相關的背景知識，本文將從專利數據中檢索出與目標文本相關的專利文件作為背景知識來源，用于構造背景知識庫.為檢索出相關文件，需確定查詢詞.用查詢詞檢索出的相關文件如果和目標文本相關度不高，則背景知識庫與目標文本的相關度不高，對理解目標文本幫助不大，甚至容易產生誤導.因此，查詢詞具有重要意義，需代表目標文本的主要內容和方向.本文使用改進的基于詞圖模型的關鍵詞自動抽取算法來構造查詢詞.

本文構造查詢詞的算法與經典的詞圖模型TextRank算法主要不同之處在于相似度衡量方法.在TextRank中，句子間的相似度由2個句子中單詞的重疊度(overlap)衡量.本文定義了句子間相似度新的衡量方法.

對2個句子C和D，將句子C中包含的詞(記為Ci)與句子D中包含的詞(記為Dj)進行兩兩對比，計算語義相似度來得到句子C和D之間的相似度，記為sem_sim(C,D).

(1)

其中，ci為詞Ci與句子D中每個詞之間相似度的最大值(見式(2)).同理，dj為詞Dj與句子C中每個詞之間相似度的最大值(見式(3)).

ci=max(s(Ci,D1),s(Ci,D2),…,s(Ci,Dn)),

(2)

di=max(s(Dj,C1),s(Dj,C2),…,s(Dj,Cn)),

(3)

其中，s(Ci，Dj)表示詞Ci和詞Dj間的語義相似度.通過先利用QTAG[23]判斷詞Ci和詞Dj的詞性，再利用wordNet[24]提供的語義工具Similarity，可以獲取詞Ci和詞Dj在指定詞性下的語義相似度，從而得到s(Ci，Dj)的值.

前期工作實驗證實，從語義角度衡量句子間的相似度比從詞的拼寫重合度來衡量句子相似度更加準確，從而能更好的選出目標文本中的查詢詞[25].

2.2構造背景知識庫

查詢詞代表目標文本的主要內容和主題方向.本文利用這些查詢詞，在專利數據集中搜索與目標文本相關度較高的專利文件.這些專利文件內容與目標文本緊密相關，將有利于幫助理解目標文本的語義信息，作為目標文本的相關知識，稱為相關知識庫.

從人類知識的角度，一位計算機科學工作人員擁有的專業背景知識顯然與文學工作人員不同，很多在計算機科學領域視為常識的內容顯然文學工作者并不具備，而2位工作人員日常相關工作涉及的內容也各不相同.因此，為了讓計算機像人類一樣，能夠獲得專業領域的專業知識、工作上常接觸的知識、相近領域的相關知識、先驗知識、同類領域中的知識等內容，本文挖掘專利數據集中隱含的知識關聯.專利發明人、權利人一般會專注密切相關的業務領域.通常，專利發明人所發明的不同專利不會跨越多個不同領域，本文將發明人的所有發明專利中的知識歸納為工作知識；專利權利人所處理的專利領域通常跨度也不會太大，一般具有輔助或合作關系，因此，將專利權利人所代理的專利知識歸類為相關領域知識；而專利的引用信息表示該專利說明中引用的其他專利，是該專利的先驗知識.與該專利具有同一分類號的專利文件則討論了該專利文件的同類領域知識，與該專利屬于同類知識.因此，以上內容包含了目標文本的相關背景知識，有利于掌握目標文本對應的領域知識，幫助理解目標文本.本文將使用以上知識關聯，抽取相關專利文集信息構造背景知識庫.本文設計的背景知識庫構造方法如算法2所述.

算法2. 背景知識庫構造算法.

輸入：目標文本的查詢詞;

輸出：目標文本的背景知識庫.

步驟1.用查詢詞在專利數據集中進行關鍵詞檢索，將相關度較高專利文件組成相關文集，記為PAI，稱為相關知識庫.PAI中的第r份文件記為pr，其查詢相關度記為z(pr).

步驟2.對每個專利文件pr抽取專利發明人信息，并通過背景數據集搜索得到每位發明人的發明專利文件集合，將每位發明人的相關文件集合并作去重處理，得到文件pr的發明人相關文集，記為IF(pr)，稱IF為工作知識庫.

步驟3.對每個專利文件pr提取專利權利人信息，并通過背景數據集得到權利人的其他專利文件集合，最后將該專利的每位權利人的相關文集合并作去重處理，得到文件pr的專利權利人相關文集，記為AS(pr)，稱AS為相關領域知識庫.

步驟4.對每個專利文件pr提取專利引用信息.將每個引用的專利號在背景數據集中進行搜索，最終得到文件pr的引用專利文集，記為CI(pr)，稱CI為先驗知識庫.

步驟5.對每個專利文件pr提取專利國際分類號信息，檢索與此專利具有同一分類號的專利文件，組成同類文集，記為CL(pr)，稱CL為同類知識庫.

步驟6.對以上5個知識庫，抽取庫中全部專利文件的標題和摘要去掉停用詞后的單詞來構建知識庫內容分別為LTPAI(pr)，LTIF(pr)，LTAS(pr)，LTCI(pr)，LTCL(pr)構成了整個背景知識庫.

注意在算法2中，通過檢索出與目標文本緊密相關的專利文件構成相關知識庫，進一步抽取每個相關專利的發明人、權利人、引用專利和專利分類號信息，檢索出屬于該專利發明人的其他專利文件集構成工作知識庫，屬于該專利的每位專利權利人的其他專利文件構成相關領域知識庫，將該專利引用的其他前沿專利文件構成先驗知識庫，將具有該專利相同分類號的其他專利文件構成同類知識庫，這些知識庫內容都是圍繞與目標文本內容緊密相關的專利而構成的，都有利于幫助理解目標文本，因此可用來構成目標文本的背景知識庫.由于每一份專利文件的標題和摘要都盡量簡明扼要地描述專利內容，標題和摘要中含有的詞匯具有重要表征意義.因此，將專利文件標題和摘要抽取出來作為背景知識庫的內容，使得背景知識庫包括了幫助理解目標文本內容的關鍵詞匯.

2.3特征值的計算

本文對目標文本中的每個詞, 計算其在背景知識庫中的重要程度，稱為知識特征值.在背景知識庫的構造過程中，本文利用針對目標文本產生的查詢詞在專利數據集中檢索出與目標文本密切相關的專利文件，從中提取專利的發明人、權利人、專利引用和同類專利相關信息，抽取專利的標題和摘要構成了目標文本的各種背景知識庫.相關知識庫PAI與通過挖掘PAI中專利文件隱含的信息而得到的工作知識庫IF、相關領域知識庫AS、先驗知識庫CI、同類知識庫CL的相關性各不同，重要程度也各不相同，不能等同視之.因此，針對不同的知識庫，本文分別設計了知識特征值計算公式，計算目標文件中每個詞匯在不同知識庫中詞匯的相似度.目標文本中的詞與知識庫的詞語義相似度越高，則其特征取值越高，說明它在此知識庫中越重要.

本文對目標文本中每個詞xi計算10個特征值.其中，前5種知識特征值是利用各種背景知識庫進行計算的結果，其他文本特征值在目標文本內部進行計算，結合各個特征值進行分類器的訓練和使用，輔助關鍵詞的判斷.

1) 相關知識特征值

針對相關知識庫PAI，取出PAI中每份專利文件pr，計算統計出目標文本中每個詞xi的相關知識特征值fPAI：

(4)

其中，PAI是用查詢詞從專利數據中檢索得到的相關文件集，pr是PAI中的每個專利文件，LTPAI(pr)是目標文本的相關知識庫內容，即pr的標題和摘要去除停用詞后的詞匯總；|LTPAI(pr)|是LTPAI(pr)包含的詞語總數；k是LTPAI(pr)中的每個詞；σ1(xi,k)是詞xi和k的語義相似度，在確定詞性后使用WordNet計算(計算方法見2.1節介紹).z(pr)是每個相關文件pr的查詢相關度，作為權重，調節語義相似度值.在本文實驗中利用開源搜索引擎使用查詢詞，檢索專利數據集中的相關文件.搜索引擎對返回的搜索結果文件列表中的每個文件pr，都會給出該文件與查詢詞的相關度值，作為z(pr)的值.

知識特征值fPAI計算詞xi與相關知識庫LTPAI(pr)的知識關聯度，詞xi與相關知識庫中的詞語義相似度越高，則其特征取值越高.LTPAI是與目標文本緊密相關的專利文集構成的相關知識庫，基于統計學理論：在同一個訓練集中頻繁共同出現的詞語會在同一個領域的其他文檔中共同出現.因此，目標文本的關鍵詞、關鍵詞的同義詞、近義詞在相關知識庫中必然有著與其他非關鍵詞不同的出現頻率和特征，關鍵詞的fPAI值將與非關鍵詞有不同的特征，這反映了一種特征，可用于輔助關鍵詞判斷.

2) 工作知識特征值

(5)

式(5)計算目標文本中每個詞xi與工作知識庫LTIF(pr)的知識關聯度fIF.其中，LTIF(pr)是目標文本的工作知識庫內容，即pr的所有發明人的其他發明專利的標題和摘要去除停用詞后的詞匯總；k是LTIF(pr)中的每個詞；σ1(xi,k)是詞語xi和k的語義相似度.|LTIF(pr)|是工作知識庫LTIF(pr)中的詞個數.注意一個專利文件pr有1個或多個發明人，每個發明人至少有1個發明專利pr或多個發明專利，工作知識庫LTIF(pr)中記錄的是每個發明人的所有發明文件合并去重后的結果.從而工作知識庫LTIF(pr)的內容會比PAI更多，提供了對PAI的補充信息.通過式(5)，可以得到目標文本中每個詞xi的工作知識特征值，代表其在工作知識庫中的語義關聯度，作為一種特征值輔助進行關鍵詞判斷.

3) 相關領域知識特征值

(6)

同理，式(6)中的各個變量與式(5)計算方法相同.其中，LTIF(pr)是目標文本的相關領域知識庫內容，|LTAS(pr)|是相關領域知識庫LTAS(pr)中的詞個數.計算目標文本中每個詞xi與相關領域知識庫LTAS(pr)的知識關聯度fAS.對相關文集中的每份專利文件pr，通過找出此專利的專利權利人的其他專利文件，取得文件標題和摘要來獲取其相關領域知識，結合專利pr的相關度，計算xi與相關領域知識庫中每個詞的語義相關度，統計得到其知識關聯度.與相關領域知識庫中的詞語義近似度越高的詞其知識關聯度fAS值越高.

4) 先驗知識特征值

(7)

fCI計算目標文本中每個詞xi與先驗知識庫LTCI(pr)的知識關聯度,見式(7).同理，|LTCI(pr)|是先驗知識庫LTCI(pr)中的詞個數.對相關文集中的每份專利文件pr，通過找出此專利的引用專利文件，取其文件標題和摘要的詞來組成先驗知識庫，結合專利pr的相關度，計算xi與先驗知識庫中每個詞的語義相關度，統計得到其知識關聯度.與先驗知識庫中的詞語義近似度越高的詞其知識關聯度fCI值越高.

5) 同類知識特征值

(8)

同理，可以使用同類知識庫LTCL(pr)計算目標文本中每一個詞xi在同類知識庫CL的知識關聯度fCL.根據統計學理論，關鍵詞在同類知識庫中的知識關聯度將與非關鍵詞有所不同，因此，這些知識特征值可以協助進行關鍵詞分類判斷.

6) TF-IDF

TF-IDF是信息檢索領域中的一種統計方法，用以評估一個詞語對于文本集合中某個特定文本的重要程度，其值為TFIDF.計算公式[26]如下：

(9)

(10)

TFIDF=tf×idf.

(11)

7) 詞的平均位置WAP(word average position)[26]

對于特定位置上的一個詞語，計算詞語的位置：

(12)

每個詞語在文本中可能出現不止一次，對該詞語每次所出現的位置求均值，以獲得詞語的平均位置，見式(13).

(13)

8) 特殊名字(specific name,SN)

記錄某詞語是否指代了特殊的人名或地名.若有指代，則SN為1，否則為0.

9) 單詞長度(word length,WL).

10) 單詞是否出現在總結性句子中(con-clusion sentence,CS)

若詞語所在的句子包含了總結性的單詞或短語(如“in summary”,“in conclusion”,“finally”等)，其總結特征CS則為l，否則為0.

2.4樣本訓練及關鍵詞抽取

在計算詞特征值之后，本文應用機器學習方法來抽取關鍵詞，分成2個步驟：樣本訓練及抽取.本文將關鍵詞的抽取視為分類問題，假設待處理的目標文本中共有n個詞，這些詞分成2類：關鍵詞和非關鍵詞.對每個詞計算以上10個維度的特征值，當前每個詞的類標號尚未確定(若為關鍵詞，則類標號為1；否則類標號為0)，見表1所示.從詞語多個維度上的特征屬性映射到關鍵詞類別(是關鍵詞非關鍵詞)，利用分類模型對全部詞語進行分類，即完成對關鍵詞的抽取.

Table 1　Keyword with 10 Features Value表1　帶有10個維度特征的關鍵詞

建立在統計學理論和結構風險最小化原則基礎上提出的支持向量機(support vector machine, SVM)能夠根據有限的樣本信息在模型的復雜性(即對特定訓練樣本的學習精度)和學習能力(即無錯誤地識別任意樣本的能力)之間尋求最佳折衷，以期獲得最好的推廣能力(或稱泛化能力).顯然，支持向量機與其他學習機相比，具有良好的推廣能力，在處理非線性識別和小樣本學習方面具有良好的特性，可以很好地應用基于多特征的分類，適用于本文工作.本文應用LibSVM[27]開源模式識別軟件包進行實驗實現.采用支持向量機分類器對文本進行關鍵詞抽取時，分類器的核函數和參數設置對分類效果有很大影響.其中對分類器性能影響最大的參數為支持向量機核函數參數γ及支持向量機分類懲罰因子C.在支持向量機的實際應用中，最為常用的參數調優方法為“網格法”，即對每個參數設置多個值，對每個參數對(γ,C)均進行1次分類，進而選取分類效果最好的參數對作為實際分類中的參數值.我們在前期工作(見文獻[25])詳細討論了支持向量機在關鍵詞自動抽取工作中的使用情況，經過論證實驗，設置分類懲罰因子C=256，采用了LibSVM提供的徑向基核函數并設置γ=16能獲得較好效果：

(14)

樣本訓練過程如下：樣本數據包括文本集和每個文本對應的關鍵詞列表.每份文本作為1份目標文本，其中包含的非停用詞及其10個特征值，以及該詞是否為關鍵詞將成為1份訓練數據.對目標文本的每個非停用詞wi，按照上文所述算法1和算法2，計算在專利數據背景知識庫中的知識特征值及其他文本特征值共10個特征值(見表1所示)，結合10個特征值和是否為關鍵詞標記(0表示非關鍵詞，1表示關鍵詞)來訓練分類器.

得到分類器后，利用分類器可實現對目標文本的關鍵詞抽取.首先對目標文本中的每個非停用詞按上文所述方法計算其10個特征值，應用分類器對這些詞進行分類.將歸到關鍵詞類的詞進行進一步的檢查工作：當2個被標記為關鍵詞的詞在目標文本中相鄰時，則這2個候選關鍵詞被合成為1個關鍵詞.例如，“grid”和“comput”這2個詞都被歸為關鍵詞類，在目標文本中這2個詞相鄰出現過，因此，“grid comput”被合成作為1個關鍵詞.注意在處理過程中，所有的詞都被抽取為詞干以簡化計算.

3　實　　驗

3.1數據集

專利數據集作為背景知識數據集：本文下載了US patent數據集10年(2003至2013年)的數據作為背景數據集.在實驗中，本文算法2步驟1采用開源搜索引擎Lucene[28]對專利文集進行檢索.Lucene提供基于關鍵詞匹配查詢功能，可以按相關度排序返回檢索到的相關文件列表.在本文實驗中使用查詢詞，檢索專利數據集中的相關文件，對返回的文件列表中的每個文件pr，Lucene都會返回該文件與查詢詞的相關度值，記為查詢相關度z(pr).

本文實驗提取前50篇專利文件構造相關知識庫，并保存每篇專利文件的相關度z(pr).

專利文集：我們從專利數據集文件中隨機選取了3 000份獨立專利文獻(屬于同一分類)進行關鍵詞抽取.對于每份專利文獻，待抽取關鍵詞的目標文本為專利文獻中的摘要(abstract).專利文獻標題(headline)簡明扼要的體現專利文件內容，標題中的詞比較可能成為關鍵詞.但是，標題能容納的詞量有限，而且某些情況下標題為了吸引眼球，其中的詞不一定代表文件最主要內容.因此，我們邀請了30名碩士生，對這3 000份文本進行人工標注關鍵詞.每份文件由4名學生標注，要求標注5～10個關鍵詞.另外，將標題去除停用詞后剩下的詞作為第5份答案.如果1個詞在這5份答案中獲得3份以上的認同，則將此詞標記為關鍵詞答案.通過這個方法整理出來的3 000份文本的關鍵詞平均個數為每份文本6.7個.在實驗中對比了不同訓練樣本數據對測試結果的影響.

SemEval[29]數據集：SemEval數據集是關鍵詞抽取領域的開放數據集，含有244份科技文件，每份有6～8頁，內容涵蓋計算機網絡通信(computer-communication networks)、信息儲存與檢索(information storage and retrieval)、人工智能(artificial intelligence)和計算機應用(computer applications)4個ACM分類的研究領域.數據集提供了3份關鍵詞答案，1份是文件作者自己提供的關鍵詞，1份是人工標注的關鍵詞，1份是前面2個結果的融合，本文采取了作者和人工標注的關鍵詞融合作為標準答案.平均75%的關鍵詞由人工標注得到，25%是文件原作者提供.在本文實驗中，此數據集被分出144篇(含2 265關鍵詞)用于訓練而剩下的100篇(含1 443關鍵詞)用于測試.

3.2評價方法

目前國內外尚未有其他研究者利用專利數據集作為外部知識來源構造背景知識庫服務于關鍵詞抽取的工作發表.文獻[17]使用SemEval數據集實驗評估了當前最新的關鍵詞抽取算法和商用系統，結果證明目前最新關鍵詞抽取算法和系統中，性能最佳的3個方法為Alchemy keyword(Alch_key)[30]，KP-Miner[2]，Maui[17].其中Alch_key是商用系統AlchemyAPI提供的文本分析服務接口，如實體提取、語義分析和文本分類等.KP-Miner是基于統計特征的關鍵詞自動抽取，Maui是使用維基百科作為背景知識的有效代表性方法，其工作原理在相關工作中已進行了討論.這3個系統返回的關鍵詞列表帶有相關度權值，當以權值排序選取前15個為最終結果時得到的實驗結果最佳.為了評估本文算法的有效性，將本文算法與這3個系統在SemEval數據集上進行實驗對比，見實驗2.

本文采用分類問題中較為流行的準確率(preci-sion,P)(式(15))、召回率(recall,R)(式(16))及綜合評價指標(F1-score,F)(式(17))對關鍵詞的抽取性能進行評估.

(15)

(16)

(17)

3.3實驗分析

實驗1. 驗證背景知識庫的有效性：使用不同背景知識庫在專利數據集上進行的對比實驗.

本文算法利用專利數據集作為背景知識庫來源，構造了背景知識庫，利用查詢詞在專利數據集中首先獲得了相關知識庫PAI，從PAI中的每一份專利文件，根據專利文件間隱含的知識關聯和鏈接關系，進一步得到其他知識庫(工作知識庫IF、相關領域知識庫AS、先驗知識庫CI和同類知識庫CL)生成了新的知識特征值，包括相關知識特征值、工作知識特征值、同類知識特征值、相關領域知識特征值及先驗知識特征值,并結合詞頻、詞長、詞的位置等多種特征進行詞的分類以抽取關鍵詞.

背景知識庫的引入增加了關鍵詞抽取的計算量.特別是同類專利文集的引入產生了同類知識庫，大大增加了背景知識庫的內容，同類知識特征值較大地增加了算法的計算量.為驗證背景知識庫的必要性，本文實驗比較了只使用傳統統計數據進行關鍵詞抽取的結果(簡稱為TF-IDF)；只使用相關知識庫PAI進行實驗(簡稱PI)；只使用相關知識庫PAI和從相關知識庫PAI中衍生得到的工作知識庫IF、相關領域知識庫AS、先驗知識庫CI加上統計特征值計算的9種特征值的關鍵詞抽取結果(簡稱為9 Features)；使用全部10種特征值進行關鍵詞抽取效果(簡稱為10 Features).

在實驗1中，本文使用200份已標注好答案的專利文件作為訓練數據，以其他100份文件作為測試數據.對每一份文件，首先構造查詢詞，然后使用查詢詞在專利數據文集中搜索相關專利文集，按照算法2方法構造背景知識庫，并計算目標文件中非停用詞的在專利數據集上的特征值和常規統計特征值，使用支持向量機利用專利文集中已經具有人工標注答案的200份訓練文件及其詞特征值和關鍵詞標記進行訓練，得到分類器.最終利用分類器對目標文本所包含的詞結合其特征值進行分類，從而找出目標文件的關鍵詞.實驗結果如圖3所示，本文提出的知識特征值能夠較好的反映詞在目標文本背景知識中的重要程度，與單純使用傳統統計數據的方法(TF-IDF)相比，當加入相關知識庫PAI時，其分類效果有非常突出的改進，得到較佳的關鍵詞抽取結果.從PAI衍生的知識庫能提供有效的知識補充，提升分類效果；同類知識庫得到的同類知識特征值能有效幫助關鍵詞抽取工作，其關鍵詞抽取結果明顯優于前面幾個方法.

Fig. 3　Experiments on 9 features and 10 features.圖3　9個特征值和10個特征值的實驗

實驗2. 驗證關鍵詞抽取算法的有效性：在SemEval數據集上將本文算法與其他現有先進系統進行對比試驗.

在SemEval數據集上，本文算法的執行過程如下：對SemEval數據集上每一份目標文件，首先構造查詢詞.然后使用查詢詞在專利數據文集中搜索相關專利文集，按照算法2方法構造目標文件的背景知識庫，并按照3.3節的方法計算獲得目標文件中非停用詞在專利數據集上的5個知識特征值和5個常規統計特征值，最后使用支持向量機利用SemEval數據集144份測試文件的關鍵詞答案和文件中各非停用詞10個特征值進行分類器訓練，得到分類器.利用分類器對SemEval數據集的100份測試文件的詞結合詞特征值進行分類，從而找出關鍵詞.圖4展示了本文算法與其他3種當前最優算法Alch_key[30], KP-Miner[2]， Maui[17]在SemEval數據集上實驗的結果對比.可以看到，本文基于背景知識庫的關鍵詞抽取算法能夠有效提高準確率、召回率及綜合評價指標.

Fig. 4　Comparison with the state-of-the-art systems.圖4　與其他現有先進系統的對比實驗

實驗3. 驗證關鍵詞抽取算法在大規模數據中的有效性：為驗證算法在大規模數據中的有效性，方法A在專利數據集中采用2 000份專利文件及關鍵詞標記，計算專利文件中每個非停用詞的10個特征值為樣本數據，訓練分類器，之后再利用分類器將剩下的1 000份專利文件作為目標文件進行關鍵詞抽取. 方法B調整訓練樣本大小為1 500份專利文件進行分類器訓練，同樣對前面方法A的1 000份目標專利文件做關鍵詞抽取. 方法C調整訓練樣本大小為1 200份專利文件進行分類器訓練，同樣對前面方法A的15 000份目標專利文件做關鍵詞抽取. 方法D調整訓練樣本大小為1 000份專利文件進行分類器訓練，同樣對前面方法A的1 000份目標專利文件做關鍵詞抽取. 方法E調整訓練樣本大小為500份專利文件進行分類器訓練，同樣對前面方法A的1 000份目標專利文件做關鍵詞抽取.實驗結果如圖5所示，可以看到，本文算法在大規模數據中同樣能得到較好的結果.而且，訓練樣本數據在達到一定1 500份時已經能取得較好的效果，不需要再增加.

Fig. 5　Experiments on mass data and different training data.圖5　大數據集及樣本數量實驗

實驗4. 自動化訓練實驗：現有科學文獻關鍵詞的標準答案都以人類專家標注的方法獲得，例如前文使用的關鍵詞抽取領域的公開測試集SemEval數據集，關鍵詞答案由文章作者和人類專家標注組成.為提高自動化，本文嘗試用專利文件標題中含有的非停用詞作為關鍵詞答案，自動構成訓練樣本.方法I隨機抽取了200份專利文件,以其標題所含非停用詞為關鍵詞答案構成訓練數據，對另外100份專利數據作為測試數據.按照算法1的方法獲得分類器后，對測試數據文本進行關鍵詞抽取.測試文本仍以人工標注答案為正確答案.實驗結果與實驗1中10個特征值(10 Features)的實驗結果進行對比，如圖6所示.

Fig. 6　Experiments on automatic training.圖6　自動化訓練實驗

正如前文所述，文本標題可以簡明扼要地體現文件內容，標題中的詞比較可能成為關鍵詞.但是，標題能容納的詞量有限，而且某些情況下標題為了吸引讀者，其中的詞不一定代表文件最主要內容和方向.因此，以標題內容為標準答案構造訓練數據的做法得到的結果較差.

4　結束語

隨著信息時代的飛速發展，在海量數據資料面前，人們需要更快地明確接觸到的信息是否符合自己的興趣范圍.關鍵詞是人們進行判斷的重要線索.在大數據時代，傳統的人工標注關鍵詞的方法已不再可行，因此自動準確地從文本中抽取關鍵詞成為一個非常重要的任務.關鍵詞自動抽取在信息檢索、文本挖掘和自然語言處理等各領域具有重要應用.

為了使計算機能夠像人類一樣針對目標文本，利用相關文獻資料查閱出相關知識，對目標文本的內容進行“學習”和“理解”，最終標記出關鍵詞.本文首次提出利用專利數據集獲取目標文本背景知識的關鍵詞抽取方法.專利數據集因數據龐大、內容準確、科學權威而被選作外部知識來源.本文分析了專利數據集的語義和結構特征，提出了利用專利數據集為目標文本構造背景知識庫的方法，為目標文本構建了包括相關知識庫、工作知識庫、同類知識庫、相關領域知識庫及先驗知識庫等背景知識庫，定義了表征詞匯特征的知識特征值及計算公式，定義了基于背景知識庫的關鍵詞抽取算法.海量、準確、嚴謹、權威的專利信息為目標文本提供權威可靠的背景知識庫，新的知識特征值能反映詞語在目標文本的背景知識庫中的重要程度，很好地補充了基于目標文本計算的傳統詞特征值，使計算機能夠像人類專家一樣，根據背景知識，對目標文本進行“理解”，從而標注出關鍵詞.

本文提出專利數據集作為背景知識來源的利用方法不僅可用于關鍵詞抽取工作，在信息檢索及自然語言處理的其他相關工作中也可進一步使用.另外，在專利文獻數據集中，除了本文使用到的專利標題、專利摘要、專利發明人、權利人、分類號、專利引用信息及專利分類信息外，還有大量信息，如專利發表時間、專利權利聲明、專利圖片等尚未加以利用.這些專利描述信息也具有非常大的價值，在今后的工作中，若利用得當，相信可以更好地提高關鍵詞抽取效率.因此，在未來的工作中將進一步考慮以上2方面的工作內容.

[1]The United States: Patent and Trademark Office. Patent Grant Full Text[DB//OL]. [2012-02-03]. http://www.google.com//googlebooks//uspto-patents-grants-text.html

[2]El-Beltagy S R, Rafea A. Kp-miner: A keyphrase extraction system for English and ?Arabic documents[J]. Information Systems, 2009, 34(1): 132-144

[3]Claude P. Task5: Single document keyphrase extraction using sentence clustering and latent Dirichlet alocation[C] //Proc of the 5th Int Workshop on Semantic Evaluation. Stroudsburg, CA: Association for Computational Linguistics, 2010: 154-157

[4]Shi Jing, Li Wanlong. Topic words extraction method based on LDA model[J]. Computer Enginering, 2010, 36(19): 81-83 (in Chinese)

(石晶, 李萬龍. 基于LDA模型的主題詞抽取方法[J]. 計算機工程, 2010, 36(19): 81-83)

[5]Liu Jun, Zou Dongsheng, Xing Xinlai, et al. Keyphrase extraction based on topic feature[J]. Application Research of Computers, 2012, 29(11): 4224-4227 (in Chinese)

(劉俊, 鄒東升, 邢欣來, 等. 基于主題特征的關鍵詞抽取[J]. 計算機應用研究, 2012, 29(11): 4224-4227)

[6]Blei D M, Ng A Y, Jordan M I. Latent Dirichlet alocation[J]. Journal of Machine Learning Research, 2003, 1(3): 993-1022

[7]Mihalcea R, Tarau P. Textrank: Bringing order into texts[C] //Proc of Conf on Empirical Methods in Natural Language. Piscataway, NJ: IEEE, 2004: 404-411

[8]Wan Xiaojun, Xiao Jianguo. CollabRank: Towards a collaborative approach to single-document keyphrase extraction[C] //Proc of IEEE COLING’08. Piscataway, NJ: IEEE, 2008: 969-976

[9]Wan Xiaojun, Xiao Jianguo. Single document keyphrase extraction using neighborhood knowledge[C] //Proc of IEEE AAAI’08. Piscataway, NJ: IEEE, 2008: 855-860

[10]Zha H. Generic summarization and keyphrase extraction using mutual reinforcement principle and sentence clustering[C] //Proc of IEEE SIGIR’02. Piscataway, NJ: IEEE, 2002: 113-120

[11]Wan Xiaojun, Yang Jianwu, Xiao Jianguo. Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction[C] //Proc of IEEE ACL’07. Piscataway, NJ: IEEE, 2007: 552-559

[12]Li Decong, Li Sujian, Li Wenjie. A semi-supervised key phrase extraction approach: Learning from title phrases through a document semantic network[C] //Proc of IEEE ACL’10. Piscataway, NJ: IEEE, 2010: 296-300

[13]Li Peng, Wang Bin, Shi Zhiwei, et al. Tag-TextRank: A webpage keyword extraction method based on tags[J]. Journal of Computer Research and Development, 2012, 49(11): 2344-2351 (in Chinese)

(李鵬, 王斌, 石志偉, 等. Tag-TextRank: 一種基于Tag的網頁關鍵詞抽取方法[J]. 計算機研究與發展, 2012, 49(11): 2344-2351)

[14]Mihalcea R, Csomai A. Wikify!: Linking documents to encyclopedic knowledge[C] //Proc of ACM IKM’07. New York: ACM, 2007: 233-242

[15]Grineva M, Lizorkin D. Extracting key terms from noisy and multitheme documents[C] //Proc of ACM WWW’09. New York: ACM, 2009: 661-670

[16]Zhang Wei, Feng Wei, Wang Jianyong. Integrating semantic relatedness and words intrinsic features for keyword extraction[C] //Proc of IEEE IJCAI’13. Piscataway, NJ: IEEE, 2013: 2225-2231

[17]Louis J. An assessment of online semantic annotators for the keyword extraction task[G] //LNAI 8862: Proc of ICAI. Berlin: Springer, 2014: 548-560

[18]Medelyan O, Frank E, Witten I H. Human-competitive tagging using automatic keyphrase extraction[C] //Proc of IEEE EMNLP’09. Piscataway, NJ: IEEE, 2009: 1318-1327

[19]Xu Songhua, Yang Shaohui, Lau F C M. Keyword extraction and headline generation using novel word features[C] //Proc of IEEE AAAI. Piscataway, NJ: IEEE, 2010: 1461-1466

[20]Qureshi M, O’Riordan C, Pasi G. Short-text domain specific key terms//phrases extraction using ann-gram model with Wikipedia[C] //Proc of ACM IKM’12. New York: ACM, 2012: 2515-2518

[21]IFS. CLEF-IP[EB//OL].[2010-03-01]. http://www.ifs.tuwien.ac.at//～clef-ip

[22]NTCIR. PatentMT[EB//OL].[2010-03-01]. http://ntcir.nii.ac.jp//PatentMT//

[23]University of Birmingham. QTag[CP//OL].[2010-03-01]. http://web.bham.ac.uk//O.Mason//software//tagger//

[24]Miller G A. Wordnet: A lexical database for english[J]. Communications of the ACM, 1995, 38(11): 39-41

[25]Chen Yiqun, Yin Jian, Zhu Weiheng. Novel word features for keyword extraction[G] //LNCS 9098: Proc of the 16th Int Conf on Web-Age Information Management. Berlin: Springer, 2015: 148-160

[26]Manning C D, Raghavan P, Schütze H. Introduction to Information Retrieval[M]. Cambridge: Cambridge University Press, 2010

[27]Chang Chih-Chung, Lin Chih-Jen. Libsvm—A library for support vector machines[J]. ACM Trans on Intelligent Systems & Technology, 2011, 2(3): 389-396

[28]Apache. Lucene[CP//OL].[2010-03-01]. http://lucene.apache.org//

[29]Kim S N, Medelyan O, Kan M Y, et al. Semeval-2010 task 5: Automatic keyphrase extraction from scientific articles[C] //Proc of the 5th Int Workshop on Semantic Evaluation. Stroudsburg, CA: Association for Computational Linguistics, 2010: 21-26

[30]Alchemy. Alchemyapi[CP//OL].[2010-03-01]. http://www.alchemyapi.com//api//keyword-extraction

Chen Yiqun, born in 1979. PhD candidate, associate professor. Her main research interests include information retrieval, data mining and artificial intelligent.

Zhou Ruqi, born in 1971. PhD candidate, associate professor. His main research interests include machine learning and artificial intelligent.

Zhu Weiheng, born in 1976. PhD, lecturer. His main research interests include data mining and information retrieval.

Li Mengting, born in 1988. PhD. Her main research interests include data mining and artificial intelligent.

Yin Jian, born in 1968. PhD, professor and PhD supervisor. His main research interests include data mining and artificial intelligent.

Mining Patent Knowledge for Automatic Keyword Extraction

Chen Yiqun1,2, Zhou Ruqi2, Zhu Weiheng3, Li Mengting4, and Yin Jian1

1(DepartmentofComputerScience,SunYat-senUniversity,Guangzhou510275)2(DepartmentofComputerScience,GuangdongUniversityofEducation,Guangzhou510303)3(CollegeofInformationScienceTechnology,JinanUniversity,Guangzhou510632)4(MeizuTelecomEquipmentCo.Ltd,Zhuhai,Guangdong519085)

Keywords are important clues that can help a user quickly decide whether to skip, to scan, or to read the article. Keyword extraction plays an increasingly crucial role in information retrieval, natural language processing and other several text related researches. This paper addresses the problem of automatic keyword extraction and designs a novel automatic keyword extraction approach making use of patent knowledge. This approach can help computer to learn and understand the document as human being according to its background knowledge, finally pick out keywords automatically. The patent data set is chosen as external knowledge repository because of its huge amount of data, rich content, accurate expression and professional authority. This paper uses patent data set as the external knowledge repository serves for keyword extraction. An algorithm is designed to construct the background knowledge repository based on patent data set, also a method for automatic keyword extraction with novel word features is provided. This paper discusses the characters of patent data, mines the relation between different patent files to construct background knowledge repository for target document, and finally achieves keyword extraction. The related patent files of target document are used to construct background knowledge repository. The information of patent inventors, assignees, citations and classification are used to mining the hidden knowledge and relationship between different patent files. And the related knowledge is imported to extend the background knowledge repository. Novel word features are derived according to the different background knowledge supplied by patent data. The word features reflecting the document’s background knowledge offer valuable indications on individual words’ importance in the target document. The keyword extraction problem can then be regarded as a classification problem and the support vector machine (SVM) is used to extract the keywords. Experiments have been done using patent data set and open data set. Experimental results have proved that using these novel word features, the novel approach can achieve superior performance in keyword extraction to other state-of-the-art approaches.

background knowledge; keyword extraction; patent data; support vector machine (SVM); information retrieval

2016-03-21；

2016-05-30

國家自然科學基金項目(61472453,U1401256,U1501252)；廣東省科技計劃基金項目(2012A010701013)

印鑒(issjyin@mail.sysu.edu.cn)

TP391

This work was supported by the National Natural Science Foundation of China (61472453, U1401256, U1501252) and the Research Foundation of Science and Technology Plan Project in Guangdong Province (2012A010701013).

挖掘專利知識實現關鍵詞自動抽取

1 相關工作

2 挖掘專利知識庫實現關鍵詞自動抽取

3 實 驗

4 結束語

1　相關工作

2　挖掘專利知識庫實現關鍵詞自動抽取

3　實　　驗

4　結束語