杜若鵬 鮮國建 寇遠濤
(中國農業科學院農業信息研究所/農業農村部農業大數據重點實驗室,北京 100081)
在海量的科技信息中,文本文獻是最重要的部分[1],文本自動分類技術是組織和管理海量科技信息的重要手段[2]。文本自動分類研究中,對內容相似類目(用詞上非常接近的不同類別)的處理是其中一個重要課題[3]。
在農業科技文獻中,相近的研究領域的文獻,其文本特征信息是高度重合的,在很多情況下,雖然研究的對象不同,但研究方向相同或相近時,其研究手段、分析方法往往都是相同或相似的。如番茄、辣椒和茄子,雖然是不同的作物,但是產品器官均為果實,其育種目標、育種途徑及應用的主要技術方法基本相同,因此這3種作物在遺傳育種方面的文獻,其關鍵詞、高頻詞以及全文用詞的相似度非常高。如何對這種內容相似類目進行精準分類,是農業數字圖書館進行專題文獻分類以及開展個性化檢索服務時需要解決的重要問題。
文本自動分類中較為關鍵的環節是文本特征抽取,特征抽取準確與否,直接影響文本分類的最終效果。基于信息測度的特征選擇算法是目前最常用的,包括文檔頻率(Document Frequency,DF)、信息增益(Information Gain,IG)、詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TFIDF)、卡方檢驗(Chi-squared,CHI)、互信息(Mutual Information,MI)以及期望交叉熵(Expected Cross Entropy,ECE)等[4]。上述方法在實踐應用中各自表現出優點和不足,所以一直處于不斷改進和完善中。
筆者從探索適合農業科研領域內容相似類目文獻精準分類方法的目的出發,在前人對TF-IDF改進的基礎上,結合實際應用情況作進一步改進,形成改進的TF-IDF-CHI(ImpTF-IDF-CHI)方法。……