陶宏曜+梁棟屹



引言
隨著Internet的發展,網絡上的信息量增長迅猛,互聯網信息提取技術應運而生。自動分類是數據挖掘中一項關鍵的技術,在許多領域得到了廣泛的應用。為了實現快速對大量文本自動分類,許多學者對這一問題做了大量的探索,在構造分類器時使用的技術大體可分為兩類:機器學習和深度學習。
在機器學習領域中,有研究較為成熟的算法,如:樸素貝葉斯分類器,支持向量機,信息熵,條件隨機場等。這些方法又可以分為三類:有監督的機器學習,半監督的機器學習和無監督的機器學習。其中李榮陸等人使用最大熵實現了對中文文本的分類。李婷婷等通過對文本數據構建若干特征,再利用傳統的機器學習方法對文本進行分類。李文波等人提出了一種附加類別標簽的LDA算法,該模型很好的解決了基于傳統LDA分類算法時強制分配隱含主題的問題。解沖鋒等人利用分類文本中旬子內部詞語的相關性和句子間的相關性提出了一種基于序列的文本自動分類算法。
現有許多分類器效果的好壞大都取決于所構建特征的質量和分類模型。為了得到更好的分類效果,國內學者針對如何選取和生成特征,以及如何優化模型參數等問題做了大量的研究。其中陸玉昌等人深入分析了向量空間模型(VSM)的本質,找出了其分類正確率低的原因,并提出了一種利用評估函數代替IDF函數的改進方法。李榮陸等人提出了一種基于密度的KNN分類器訓練樣本裁剪方法,克服了KNN方法中存在的計算量大,而且訓練樣本的分布不均勻會造成分類準確率的下降的問題。尚文倩等人分析了基于矢量空間模型(VSM)的大多數分類器的瓶頸,通過對基尼指數進行文本特征選擇的研究,構造了基于基尼指數的文本特征評估函數,提出了一種新的基于基尼指數的文本特征選擇算法,進一步提高分類性能。劉赫等人針對文本分類中的特征加權問題,提出了一種基于特征重要度的特征加權方法。明顯改善了樣本空間的分布狀態,簡化了從樣本到類別的映射關系。唐煥玲等人針對如何從高維的特征空間中選取對文本分類有效的特征的問題,提出了一種結合評估函數的TEF-WA權重調整技術,不僅提高了分類精確度,還降低了算法的時間復雜度。
近幾年來,有關深度學習的理論研究與技術應用吸引學術界和工業界的廣泛興趣。特別是圖像識別,語音識別等領域的成功應用,越來越多的學者嘗試引入深度學習到自然語言的處理領域中來。梁軍等人利用自動編碼技術和半監督機器學習,實現了對微博文本的情感分析,大量減少了人工標注的工作量。陳翠平引入了深度學習的思想來完成文本分類任務,使用深度信念網絡來完成提取文本特征的工作。Yoon等嘗試利用卷積神經網絡結構來解決情感分析和問題分類等若干自然語言處理任務,獲得了不錯的效果。
目前使用機器學習技術實現的中文文本分類器已達到了不錯的效果,但仍然存在對混淆類數據處理不佳,特征不稀疏等問題。針對此問題本文提出了一種基于卷積神經網絡結合新的TF-IDF算法和Word2vec工具的改良方法。本文在職位描述文本集上展開實驗,通過調整調整卷積核,池化層大小以及隱藏層層數,分析新方法和傳統方法在不同訓練參數情況下,對職業描述文本進行自動分類的性能。
1基于卷積神經網絡的文本分類模型
卷積神經網絡是前饋神經網絡的一種,其特點有局部感受野、權值共享,可以極大地減少需要訓練的參數個數。基于卷積神經網絡的文本分類器可以解決傳統文本分類器中人工選取特征難且不準確的問題,其具體構架如圖1所示:
第一層為數據預處理層:該層首先對職位描述文本進行分詞處理,然后根據每個詞的特性利用現有的算法提取每個詞的特征,以作為第二層的輸入層。
第二層為卷積層:該層通過4xl的卷積核對輸入層的詞特征進行組合過濾,再使用Relu神經元激勵函數計算從而形成更抽象的特征模型。
第三層為池化層:對上一層的詞特征的相鄰小區域進行聚類統計,得到新的特征。
第四層為全連接層:在經過卷積層和池化層的處理之后,我們可以認為職位的描述信息已經被抽象成了信息含量更高的特征,需要使用全連接層來完成分類任務。
第五層為Softmax分類層:通過Softmax層,可以得到當前職位描述屬于不同分類的概率分布情況。
數據預處理是整個分類方法的第一步,預處理的好壞直接影響著分類的效果的好壞。接下來將具體探討職位描述文本詞特征的提取問題。
2傳統TF-IDF算法
TF-IDF(詞頻率一逆文檔頻率)是一種用于資訊檢索與資訊探勘的常用加權技術。它的主要方法是:關鍵詞在文檔中的權重為該關鍵詞在文檔中出現的頻數反比于包含該關鍵詞的文檔數目。TF表示關鍵詞w在該文檔中出現的頻率,IDF表示所有文
通過TF-IDF能夠提取出一篇文檔的關鍵詞,其含義是如果詞w的在該文檔中出現的頻率高,在其他文檔中出現的頻率低,就代表詞w能夠很好的表示該文檔的特征。S
TF-IDF將文檔的內部信息與外部信息綜合起來考慮特征詞,能較為全面的反應文檔的特性,但在IDF的設計中還存在缺陷,關鍵詞的權重反比于逆文檔頻率。在實際情況中,往往判斷一個文檔的關鍵詞權重并不總是反比于逆文檔頻率,特別是在短文本的關鍵詞抽取中使用TF-IDF算法的效果不是很好。
假設總文檔數為10,以表1為例,‘工作和‘java關鍵詞在‘計算機類別和‘新聞傳媒類別中的逆文檔頻率分別為2,2和5,0。其中‘工作的IDF為log(10/4+0.01)=0.41,‘iava的IDF為log(10/5+0.01)=0.31。在c1類別的同一文檔中當wl與w2具有相同的TF時,TF×IDF x~>TF×IDFiava。TF-IDF和TF-IDF的值表明,‘工作比‘java根據代表力,但從關鍵詞‘工作和‘iava在‘計算機和‘新聞傳媒類別中的分布表明,‘java比‘工作具有更好的類別區分度。在短文本分類中如果單純使用TF-IDF作為文本特征的抽取方法,往往達不到分類的效果,導致這一問題的原因可歸結為兩點:一是TF-IDF設計本身的缺陷;二是對文本表示的特征深度不夠。對此可使用Word2vec的Skip-gram進一步提取文本特征來提高分類精確度。endprint
3Word2vec Skip-gram模型
Word2vec是Mikolov等所提出模型的一個實現,可以用來快速有效地訓練詞向量。Word2vec包含了兩種訓練模型,而skip-gram模型是其中的一種。采用該模型的最大優勢在于,能夠克服傳統詞向量訓練模型中由于窗口大小的限制,導致超出窗口范圍的詞語與當前詞之間的關系不能被正確地反映到模型之中的問題。Skip-gram模型的設計見圖2所示。Skip-gram模型的訓練目標就是使得下式的值最大。
其中,c是窗口的大小,在Skip-gram模型中就是指n-Skip-gram中的n的大小,T是訓練文本的大小。在Word2vec中,使用的是c-Skip-gram-bi-grams。基本的Skip-gram模型計算條件概率公式如下:
其中,Vw和V分別是詞w的輸入和輸出向量。
使用Word2vec對中文文本生成的詞向量能夠從詞性,語法以及語義上表示一個詞的特性。相比于TF-IDF算法,詞向量所包含的信息量更為深入,所構造出的分類器精確度有所提高,但仍存在對混淆類的數據噪點處理不佳的問題。
4改進的TF-IDF表示
對于訓練數據中存在像混淆類的噪點造成的文本分類不準確的問題,我們可以在保持原有特征信息量不變的基礎上,可引入改進的TF-IDF特征表示來緩解問題。
對傳統TF-IDF的改進工作主要有兩點:一是對原算法的應用擴展,二是對函數的改造。傳統TF-IDF解決是多個文檔的特征提取,此處我們可以上升到對每個類別的關鍵詞特征提取,具體算法是:
其中TF表示的是W在CJ類別中出現的頻率,d代表Wi詞在Cj類中出現的文檔數,D代表q類的總文檔數。
公式(7)構造的是一個閾值函數。公式(8)展開需要用到公式(7),N代表總類別數,WiCj含義具體可參照公式(6)的介紹。重新構造的IDF求的是關鍵詞Wi在分類時出現概率的對數。此處使用的閾值函數主要是減少數據噪點對計算Wi詞的真實IDF的影響。在計算完每個詞在每一類中的TF-IDFmcj值后,可以運用概率期望來表示每一個詞的TF-IDFwi權值,其具體計算方法詳見公式(9)和公式(10)。公式(10)中n是總詞數,m是總類別數。
利用改進后的TF-IDF詞權重表示法結合Word2vec詞向量構成的特征組再對卷積神經網絡進行訓練。實驗結果表明這種方法,在緩解數據噪點對精確度的影響大的問題上是有效的。
5實驗分析
5.1數據準備及預處理
本文實驗采用從web上爬取的職位描述信息,共計四百萬條信息。首先對職位描述文本進行分詞以及去停詞。接著使用Word2vec和改進前和改進后的TF-IDF算法對職位描述文本進行特征提取,并生成與之對應的特征表。
5.2測量標準
本文實驗選擇的測量標準有兩個:一是最直接衡量分類效果的預測正確率,如公式(11)所示。另一個是經過Softmax回歸之后的預測分類和正確分類之間的交叉熵,如公式(12)所示,其中p為正確概率,g為預測概率,x表示預測類別。
5.3樣本數量
訓練樣本的大小是影響分類效果最直接的因素之一,它也是整個實驗研究的基礎。在對樣本數量考察時,需保證只有樣本數量這一變量。本次實驗將樣本數量分為100000條,200000條和300000條,實驗結果見圖3所示。結果表明當加大訓練數量,可以改善分類的正確率。通過實驗還發現隨著訓練樣本數量的線性增加,對正確率的影響并不是線性的,數量越大,對正確率的影響越小。
5.4學習率的大小
學習率的大小關系到神經網絡的收斂速度。實驗結果如圖4和圖5所示,可以觀測到當學習率以5.0的速率訓練時,整個網絡會有很大的波動,且分類的結果也有比較大的誤差。當學習率為0.008時,整個網絡收斂相對穩定,但是收斂的速度較慢。學習率太大會造成無法收斂,學習率偏小則收斂速度過慢,正確率也得不到很好的提升。通過多次實驗,我們發現當學習率為0.07時效果最好,收斂相對較快,且預測的正確率高。
5.5卷積核大小和全連接層數量
卷積核大小即一次抓取局部多少個的詞的長度。全連接的層數表示擬合參數的維度。在相同學習率和訓練數據,不同卷積核大小和全連接層節點數的情況下訓練分類器,所得結果見表2所示。卷積核為4*1最為合適,如表2的第一行可知當卷積核太小時,整個神經網絡學習不到特征間的聯系,正確率相對較差。見表2第6行所示,當卷積核太大則會使學習的特征太過泛化,提升不了分類的正確率。經表2第3,4,5行比較顯示,全連接層為2層最佳,當層數太低無法學習到更深的規則,當層數過大時對分類效果的影響不大,反而還加大了算法的時間復雜度。
5.6不同分類算法和訓練特征
使用TF-IDF,Word2vec和改進后的TF-IDF的中文詞特征提取法。對傳統kNN分類器與基于卷積神經網絡的分類器進行了對比,實驗結果見表3所示。通過對表3的kNN列和CNNs列的比較我們可以發現,無論在哪種情況下使用卷積神經網絡來對職位描述文本分類時都占有得天獨厚的優勢,其中使用Word2vec詞向量和改進后的TF-IDF特征表示所訓練處來的分類器預測的結果最為準確,證實了該方法在處理混淆類等噪點數據時有一定的成效。
6結語
本文探討利用卷積神經網絡構造分類器的方法,分析了傳統分類器中TF-IDF特征提取算法的不足,提出了一種新的TF-IDF表示方法。通過實驗分析,深入了解到了樣本數量,學習率,卷積核大小,隱藏層層數對分類器效果的影響機制,進一步對分類器進行了調優,同時驗證了新方法在解決傳統分類器中存在解決學習深度不夠,對混淆類數據噪點處理不佳等問題上是可行的。endprint