戴佩娟, 賀春林, 山岳玉蓉
(西華師范大學 計算機學院, 四川 南充 637000)
在大數據時代,對專利數據的有效利用,能夠為企業單位研發人員提供極大的幫助.專利信息資源是一種重要的科技信息源,是科研人員和科技情報工作者在實際工作中經常需要檢索的重要參考資源,加之醫藥行業的特殊性,醫藥專利數據是藥物信息分析的重點與難點.
文本分類在國內外的研究已基本趨于成熟,只是在不同的文本分類中不同的模型和算法表現得效果不同.而對于專利文本分類的研究,在深度學習上很少.目前,在對專利的標引工作中,大多只運用了強約束策略式標引、人工標引兩種,而前者是其領域的權威者由自己所積累的行業知識來確定匹配規則,缺點是領域權威者自身意識的限制,對知識的了解和掌握也無法保證全面,準確率和查全率無法滿足需求;后者效率低,對人力資源消耗巨大.這兩種方式都不適合大數據專利知識下的標引分類工作.
文本分類技術發展過程從最開始的專家系統、慢慢發展到后來的機器學習、到現在還將深度學習應用到了這個領域.專利數據分類進一步利用了基于自然語言處理(NLP)的方法[7]、基于語義分析的方法[8]、基于規則的方法[9]、基于屬性函數的方法[10]和基于神經網絡的方法[11].所以本文的研究內容和創新點是提供一種基于XGBoost模型進行專利自動分類的方法,通過理論和實驗結果證明XGBoost模型對醫……