劉 輝,張振康,王韓林 ,晏飛揚
(1. 重慶郵電大學通信與信息工程學院,重慶 400065; 2. 重慶郵電大學通信新技術應用研究中心,重慶 400065; 3. 重慶信科設計有限公司,重慶 401121)
文本分類的表示模型一般采用向量空間模型,它有著高維稀疏的缺點,嚴重影響著文本分類的效果。特征選擇是解決向量空間模型高維度缺陷的有效方法,通過選取優質的特征子集來代表原始的字符集合,達到有效表示文本、提高表示效率的目的。信息論和統計學思想指導了特征選擇方法的設計,一些常用方法如基尼指數、文檔頻率、信息增益、互信息、卡方統計、期望交叉熵等均受此啟發[1]。已有研究表明,CHI相比于其它特征選擇方法更具有優勢[2]。
傳統的CHI方法雖然有著時間復雜度低、效果良好等優點,但也存在不足。該方法統計了特征詞的文檔頻率,用來評估特征詞對文本分類的重要程度,但是忽略了詞頻的影響力,造成了低頻詞缺陷;有些時候,對分類起到干擾作用的詞項,會被誤認為重要詞匯,進入到文本表示集合中,這就引入了負相關因素。針對以上不足,一些學者做了大量研究工作。徐明等人[3]將頻度參數引入到傳統模型中,用改進的卡方統計方法進行微博特征提取,取得了較好的實驗效果。馬瑩等人[4]通過引入項的頻度、分散度、集中度等因子對模型進行加權改進,并驗證了此方法的有效性。冀俊忠等人[5]由方差統計策略出發,聯合IG與CHI,挖掘了更多類別特征;裴英博等人[6]通過引入文本的分散度、集中度等因素對模型進行加權,提高了其在類分布不均勻語料集上的分類精確度。閆健卓等人[7]基于類間詞頻和類內分布熵,為卡方統計量添加了詞頻信息,提高了特征項的類別表示能力。李平等人[8]提出相關系數,增加特征項在類別中的影響力,從而減弱負相關性。宋呈祥等人[9]定義了頻度分布相關性系數,選擇局部強相關性特征,提升了不均衡數據集的分類指標。謝娜娜等人[10]提出傾向性選擇因子,對小類別特征的“負相關性”起到一定抑制作用。忽略了不均衡數據集中特征詞類間分布差異性。李富星等人[11]針對類內分散度、類間集中度同權的缺點,引入平衡因子,改進了類別區分詞的提取效果。劉海峰等人[12]引入比例因子α,按照其正、負相關性進行分類并賦以不同權重以改善CHI模型的特征選擇能力,但是比例因子需要通過經驗來選擇,誤差較大。樊存佳等人[13]提出自適應比例因子,削減了人為選取比例因子帶來的誤差。
對于特征選擇而言,希望滿足這樣的原則,即特征詞在本類中均勻出現,覆蓋大多數文檔,且多次出現,在類外分布較少,凸顯本類特征詞的代表能力。針對以上原則,提出改進的卡方統計方法彌補既有模型的不足。利用詞頻信息的分布,獲取類內分散的詞匯;利用信息熵的權衡,獲取類間集中的詞匯。
CHI特征選擇方法常被用來評估特征項tk和類別ci的相關程度。卡方值越大,特征含有的類別信息越多,特征也就越重要。假設特征項tk和類別ci之間滿足一階自由度的分布條件,則特征tk對于類別ci的χ2統計值計算如式(1)所示

(1)
其中,A表示包含特征tk且屬于類別ci的文檔數,B表示包含特征tk且不屬于類別ci的文檔數,C表示不包含特征tk且屬于類別ci的文檔數,D表示不包含特征tk且不屬于類別ci的文檔數。
當要從全類當中挑選特征詞時,就需要在類別特征詞的基礎上進行篩選。具體來說,有兩種策略,分別為求最大值和加權平均。計算公式如下:

(2)

(3)
其中,式(2)將出現的最大卡方值作為特征的全局卡方值,式(3)綜合看待各類別卡方值的貢獻,結合類別頻率,平衡了數據傾斜問題。
由式(1)可以知道,它只考慮了特征項是否在文檔中出現,而不管其出現了多少次。對于同樣的只在某一類別ci中出現而在其它類別很少出現特征項,在某一文檔內出現次數越多的特征項比出現次數少的類別表征能力更強。所以只統計在類別中出現的文檔數是不夠的,還應該考慮到其在文檔內的不同詞頻數對類別表征能力的影響。
卡方統計方法并沒有把詞頻考慮進來,這樣就造成低頻詞泛濫的情況。如果同一類的兩個特征項,它們的文檔頻率相差不大,則卡方值也就接近。但是,在類內頻繁出現的詞語應該比不頻繁出現的詞語更具有代表性。所以應當考慮特征項在類內的頻度信息,使得高頻詞匯的類別表征能力強于低頻詞匯。為了得到專屬類別的特征項,需要排除一些在本類中大量出現,在其它類中也大量出現的詞匯。
Yang等人[14]提出了CMFS特征選擇算法,結合了文檔頻率和DIA關聯因子的優點,從類內和類間兩個角度綜合地評判一個特征的分類重要性程度。為解決CHI的低頻詞缺陷,借鑒了CMFS的思想,在詞匯的基礎上,改進原有方法,提出CMFS_CHI特征選擇方法,改進方法的公式如下

(4)
其中,tf(tk,ci)表示特征tk在類別ci中的詞匯頻率,tf(t,ci)表示在類別ci中所有特征的頻率總和,tf(tk)表示特征tk在整個訓練集中的詞匯頻率,|V|表示特征的初始數目,|C|表示類別的數目。
卡方統計量衡量的是特征項tk和類別ci之間的相關程度,特征項對于某類的卡方值越高,其與該類之間的相關性越大,攜帶的類別信息越多。卡方統計量在衡量類別特征詞的權重時,會引入干擾,這是該方法的固有缺陷。根據相關程度判別特征項與類別的所屬關系,雖然簡單高效,但是有將負相關的特征項誤判為正相關的可能性,若負相關的特征項參與表示本類別,會對最終的文本分類結果產生消極影響。
為了消除負相關特征的不利作用,已有學者作了一些研究。袁磊等人[15]從判斷條件出發,對特征項的相關性進行了區分,完全排除負相關特征。當AD-BC> 0時,認為特征項對分類起到積極作用,屬于正相關特征;當AD-BC≤ 0時,認為特征項對分類起到消極作用,屬于負相關特征,但是,忽略了中頻詞攜帶的文本分類信息,造成分類精度下降。劉海峰等人[12]引入賦權因子,按不同權重從正相關特征、負相關特征中提取分類信息,改善CHI模型的特征選擇能力,但是,賦權因子又造成了不可避免的調節誤差。
為了更好地識別特征詞的相關性,引入了類內信息熵[16]的概念。通過比較本類的信息熵和全類平均信息熵,有效度量特征詞的相關性,排除負相關特征詞的干擾,將具有類別表征能力的特征詞納入本類。類內信息熵的定義如下

(5)
其中tf(tk,diq)為特征tk在ci類的第q個文本出現的頻數。分析此式可以看出,當特征詞在類內分布得越均勻,而不是集中在某幾個文檔,越有資格代表該類,相應熵值也在反映這一變化,表現為熵值越大。
綜上所述,針對低頻詞缺陷和負相關問題,在考慮文檔頻率的基礎上,融合分布狀況,加入詞頻信息,然后為了獲取類別詞匯,降低噪聲因素干擾,改進了判決條件,提出最終改進的卡方統計方法(ICHI),其公式如下

(6)
基于ICHI的特征選擇算法如下:
輸入:訓練集文本D,類別集合C,特征選擇維度N。
輸出:特征集合Fi。
1)將訓練集文本D進行預處理;
2)由類別ci生成類別集合Fi;

4)針對類別集合Fi中的每個特征詞,使用式(5)計算類內信息熵和平均信息熵;

6)將各類別集合放到一起,使用式(2)確定重復詞的卡方值,然后依據卡方值進行降序排序;
7)輸出TopN個特征作為Fi,算法結束。
實驗在Pycharm2019環境下進行,采用的編程語言是python3.7,電腦系統是windows10,使用了SVM分類器進行文本數據的分類實驗。整體流程如圖1所示。語料集合選用的是復旦大學李榮陸教授整理的新聞語料庫。選取其中的電腦、運動、歷史、環境、政治,共5個類別。從中各抽取500篇文檔,按照4:1的比例分類訓練集和測試集。分詞工具采用的是中科院的NLPIR漢語分詞系統[17]。數據集的分布如表1所示。

表1 數據集分布

圖1 文本分類流程
衡量具體類別上的實驗性能有查準率P(precision)、查全率R(recall)、F1值等指標,如式(7)~(9)所示。衡量全體類別上的實驗性能有宏查準率(macro_P)、宏查全率(macro_R)、宏F1值(macro_F1)、準確率(accuracy)等指標,如式(10)~(12)所示。

(7)

(8)

(9)

(10)

(11)

(12)
其中TP為真正例,FP為假正例,FN為假反例,TN為真反例。
對數據集中的文本數據進行預先處理,包括分詞、去除停用詞等。使用IG、CHI、WCHI[18]、ICHI三種特征選擇方法對詞匯組成的特征集合依據分類重要性進行特征尋優,并
按照特征的重要程度進行排序,依次選取位置靠前的多組特征子集展開實驗。
圖2和圖3對 IG、CHI、WCHI、ICHI進行了對比實驗,從而驗證ICHI的分類正確性和性能。從圖2可以看出,ICHI的整體準確率要高于CHI、WCHI和IG。隨著特征維度的增加,三種特征選擇方法的準確率開始提高,后期由于冗余信息的加入,增長緩慢,甚至下降。其中ICHI的準確率在1300維時達到最高,為87%;WCHI的準確率在1600維時達到最高,為84%;CHI的準確率也在1600維時達到最高,為83%;IG的準確率在1900維時達到最高,為83%。從圖3可以看出,ICHI在大部分維度上的表現好于其它對比算法,四種特征選擇方法的宏F1值在1300維時達到最高,ICHI與IG、CHI、WCHI相比,分別提高了2.91%、2.02%、1.57%。

圖2 四種特征選擇方法的準確率對比

圖3 四種特征選擇方法的宏F1值對比
ICHI在準確率和宏F1值方面要比IG和CHI表現好,原因在于IG和CHI忽略了詞頻信息,而ICHI借助CMFS引入了詞頻因子,該詞頻因子從類內、類間兩個角度考量了一個特征對分類的重要性;對于IG會將特征詞不出現的情況作為主導,CHI無法有效識別負相關特征的問題,ICHI借助類內信息熵來識別有效特征,去除噪聲特征的干擾。WCHI在CHI的基礎上用tfidf加權,所以效果要好于CHI,但是,沒有考慮詞頻在類別中的分布,也沒有對負相關特征進行處理,所以,表現不如ICHI。
為了進一步驗證ICHI的效果,進行了具體類別上的實驗,選取的特征維度是1300維。實驗結果如圖4~6所示。

圖4 各類別的查準率對比

圖5 各類別的查全率對比

圖6 各類別的F1值對比
分析圖4~6可知,改進的CHI在大多數類別上明顯地比傳統的CHI、WCHI和IG表現要好。其中在精確率上,ICHI比IG在政治類上提升最明顯,為2.61%;ICHI比CHI、WCHI在環境類上提升最明顯,分別為1.57%和0.92%。在召回率上,ICHI比IG、CHI和WCHI在電腦類上提升最明顯,分別為4.00%、2.41%和3.54%。在F1值上,ICHI比IG和WCHI在電腦類上提升最明顯,分別為3.20%、2.94%;ICHI比CHI在環境類上提升最明顯,為1.66%。可以得出,ICHI與IG、CHI、WCHI相比,特征選擇的效果要好一些。
分析原因在于改進算法提高了模型的穩定性,一方面從電腦類、環境類、政治類中提取了高關聯度特征詞,另一方面兼顧了運動類、歷史類特征詞數量較少的情況,補充了更具代表性的特征詞。
傳統的CHI特征選擇方法考慮了特征詞在語料集的文本頻率,忽略了特征詞在具體文本的詞匯頻率,造成了高頻詞和低頻詞的同等看待問題。由于負相關缺陷,導致含有少量分類信息的特征進入類別代表特征中,對分類造成了一定干擾。針對以上問題,本文提出了改進的CHI,從類內、類間兩個角度考慮詞頻信息的重要性,而且通過信息增益理論對負相關特征進行了剔除。結合實驗結果分析,ICHI比傳統方法的特征選擇效果要好。下一步的工作,將在特征詞的語義能力上進行探索,借助神經網絡技術識別更具代表性的特征進入特征集合或生成豐富含義的特征輔助特征的表達。