譚建平 劉波 肖燕珊



摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,文本信息量巨大,大規(guī)模的文本處理已經(jīng)成為一個挑戰(zhàn)。文本處理的一個重要技術便是分類,基于SVM的傳統(tǒng)文本分類算法已經(jīng)無法滿足快速的文本增長分類。于是如何利用過時的歷史文本數(shù)據(jù)(源任務數(shù)據(jù))進行遷移來幫助新產(chǎn)生文本數(shù)據(jù)進行分類顯得異常重要。文章提出了基于半監(jiān)督的SVM遷移學習算法(Semi-supervised TL_SVM)來對文本進行分類。首先,在半監(jiān)督SVM的模型中引入遷移學習,構建分類模型。其次,采用交互迭代的方法對目標方程求解,最終得到面向目標領域的分類器。實驗驗證了基于半監(jiān)督的SVM遷移學習分類器具有比傳統(tǒng)分類器更高的精確度。
關鍵詞:文本分類;半監(jiān)督學習;遷移學習;算法
文本分類是挖掘文本信息的處理技術,在傳統(tǒng)文本分類方法中,大部分都是有監(jiān)督的,即用帶標簽的數(shù)據(jù)來訓練分類模型,并且只局限于目標數(shù)據(jù)域。然而,收集標注數(shù)據(jù)是非常困難且耗費巨大的,未標注數(shù)據(jù)卻相當巨大,很容易獲取。如果只有少量標注數(shù)據(jù)和大量未標注數(shù)據(jù)可用,那么半監(jiān)督學習的方式在一定程度上便能彌補因訓練數(shù)據(jù)不足而導致過擬化的分類誤區(qū)。
很多機器學習的方法,無論是傳統(tǒng)的機器學習還是半監(jiān)督學習問題,都建立在一個共同假設上:測試數(shù)據(jù)與訓練數(shù)據(jù)屬于統(tǒng)一數(shù)據(jù),分布于同一特征空間。一旦數(shù)據(jù)分布有差異,很多學習方法便無法表現(xiàn)得很好。于是又要重新標記大量數(shù)據(jù)去訓練模型來適應新的數(shù)據(jù)分布,這樣的代價是昂貴的。基于這個局限,便引入了遷移學習,目的是從其他相關輔助數(shù)據(jù)域中遷移知識去幫助目標域中解決學習任務。例如,在網(wǎng)頁分類中,能利用遷移學習從大學網(wǎng)頁遷移知識來幫助Facebook. com分類任務訓練一個分類器。雖然大學網(wǎng)頁與社交網(wǎng)絡的數(shù)據(jù)分布十分不同,但是始終存在一些共同的分類知識來構建知識遷移的橋梁幫助提高分類器性能。
近年來,隨著研究的深入,基于SVM的半監(jiān)督、遷移學習等方法也逐漸應用于數(shù)據(jù)分類、社交網(wǎng)絡分析和圖像處理等方面。如Qiang Yang等人遷移學習對于文本挖掘的應用。目前,在解決實際的文本分類問題中,人們提出了不同的基于SVM的分類方法。隨后在這些基本方法的基礎上引入了當今熱點研究的遷移學習,形成了如跨域SVM方法。遷移學習在各領域的應用也是層出不窮,如在社交網(wǎng)絡的推薦系統(tǒng)中便提出了跨域推薦(CDR)和社交網(wǎng)絡中的異構遷移對于圖像聚類的方法,在圖像處理和信號處理方面也有應用。
在這篇文章中,筆者提出了一種基于半監(jiān)督的SVM遷移學習方法,此法的貢獻有:(l)本文合理地利用了目標域中未標注的文本數(shù)據(jù)與少量標注的文本數(shù)據(jù),采用局部化SVM(LSVM)進行局部和全局一致學習(LLGC),并通過半監(jiān)督的學習方式來加強分類器精度。并給出了這種方法的目標方程。(2)為了給分類器得到更好的泛化誤差,本文引入了遷移學習的方法對目標方程進行迭代,給出了迭代終止目標函數(shù),產(chǎn)生更為精確的分類器,并得到數(shù)據(jù)標簽。
1 相關工作
由于本文關注的是基于半監(jiān)督的SVM遷移學習文本分類方法,所以著重研究算法,而在文本數(shù)據(jù)上進行實驗。接下來先回顧半監(jiān)督文本分類學習與遷移學習等方法。
1.1 半監(jiān)督文本分類學習
近年來,半監(jiān)督學習在文本分類上受到了廣泛的關注。所謂半監(jiān)督學習就是利用目標域中未帶標簽的數(shù)據(jù)與帶標簽的訓練數(shù)據(jù)集一同訓練分類器。這在某種程度上克服了傳統(tǒng)機器學習中因為帶標簽訓練數(shù)據(jù)集不足而導致的分類器不準確的問題。各式各樣的半監(jiān)督文本分類方法也被陸續(xù)地提出。Wajeed提出基于KNN的半監(jiān)督文本分類方法,這種半監(jiān)督方法使用了不同的相似度測量與不同向量產(chǎn)生技術來提高分類的準確度。v.Vapnik提出的自訓練半監(jiān)督SVM算法,很好地利用了大量未標記數(shù)據(jù)結合少量帶標簽數(shù)據(jù)共同訓練分類器。接著Yong Ma在v.Vapnik的自訓練半監(jiān)督SVM算法上提出了一種改進的方法,這個方法將類別之間的差異性用一個散度矩陣表示出來,然后優(yōu)化了目標方程。
1.2 遷移學習
隨著互聯(lián)網(wǎng)信息的高速發(fā)展,遷移學習越來越受到數(shù)據(jù)挖掘、機器學習等相關領域的關注,已經(jīng)成為當今的一個研究熱點。遷移學習就是利用一個新環(huán)境中學習的相關知識去指導當前環(huán)境目標任務的學習,而在數(shù)據(jù)挖掘中,本文定義新環(huán)境為輔助域,當前環(huán)境為目標域。現(xiàn)階段的遷移學習工作方式分為3個主要部分:同構空間下基于實例的遷移學習、同構空間下基于特征的遷移學習和異構空間下的遷移學習。
現(xiàn)在各個研究方面陸續(xù)有不同的遷移學習方法被提出。Feng Yu提出了文本分類的遷移學習,這個方法利用了遷移知識采樣源數(shù)據(jù)域數(shù)據(jù)構建了遷移知識庫,進而幫助目標數(shù)據(jù)進行分類。C.Do針對文本分類問題提出了一種通過SoftmaxRegres sion學習一個參數(shù)函數(shù)來分類新的任務,而QiangYang在社交網(wǎng)絡分析中提出了一種異構遷移學習的圖像聚類方法,旨在通過社交網(wǎng)絡中不相關的帶注釋的圖片遷移知識來提高目標圖片搜尋的精度。
盡管對遷移學習在文本分類、社交網(wǎng)絡等不同領域的研究已經(jīng)比較深入,但是在遷移知識的過程中,不同的遷移方法往往效果差別很大,不能很好地體現(xiàn)出分類器的效果。現(xiàn)階段的遷移方式用得比較好的還是基于同構空間下遷移(分為基于實例的遷移和基于特征的遷移),而基于異構的遷移學習方法比較復雜多變,且實現(xiàn)起來比較困難,容易造成負遷移而導致分類器性能下降。
本文引入了一種基于鄰域的SVM方法對源數(shù)據(jù)知識進行遷移,以便使與目標域帶標簽數(shù)據(jù)分布相近的數(shù)據(jù)更大程度地幫助訓練目標分類器而提高分類器性能。本文利用基于SVM的半監(jiān)督學習方法和局部和全局一致性方法(LLGC)進行模型構建,并給出了目標方程。這種半監(jiān)督的學習方法所獲得的方程能很好地結合鄰域SVM方法,從而解決遷移學習方法運用于數(shù)據(jù)分類的問題。
2 半監(jiān)督的SVM遷移學習方法
在這一節(jié)中,本文結合以前提出的半監(jiān)督SVM分類算法與現(xiàn)在的遷移學習算法,提出了一種比較新穎的半監(jiān)督遷移學習的方法。其原理如圖1所示。
2.1 半監(jiān)督遷移算法的模型
Sem-isupervised_based TL_SVM算法是利用相關輔助域數(shù)據(jù)遷移合適的知識來幫助目標域任務的學習,并利用了半監(jiān)督迭代的思想來訓練分類模型。
首先,定義輔助數(shù)據(jù)集用表示 ,目標數(shù)據(jù)集用表示 。目標數(shù)據(jù)集中帶標簽的數(shù)據(jù)集為 ,包含 個樣本數(shù)據(jù) ,不帶標簽的為 ,包含l2個樣本 。對于輔助數(shù)據(jù)域 ,先對其相應的預處理,找到在輔助數(shù)據(jù)域中的一組SVM支持向量 ,并且學習到輔助數(shù)據(jù)域判別函數(shù) 。
定義一個基本的跨域遷移SVM分類器對于2類問題:
約束條件:
其中, 是一個訓練實例的特征向量, 是其通過一個核函數(shù)映射到高維空間, 是樣本數(shù)據(jù) 所帶的類別標記, 是一個正規(guī)常數(shù)。
類似于LSVM,輔助數(shù)據(jù)集 的知識遷移的影響能被目標域訓練集所限制。這個限制的基本原理就是一個支持向量 落入目標數(shù)據(jù) 的近鄰,它有一個類似于 的分布并且能被用來幫助分類 指代輔助域中支持向量 和帶標簽目標數(shù)據(jù)集 之間的相似度測量。
在遷移SVM的優(yōu)化中 ,原來從中學習得到支持向量適應于新的訓練數(shù)據(jù) ,支持向量與新的訓練數(shù)據(jù)結合一起學習一個新的分類器。特別地,讓 ,則方程(1)可被改寫如下:
類似A_SVM,本文也想要保證這個新的決策邊界在舊的輔助數(shù)據(jù) 的判別屬性,但是這個技術有一個特別的優(yōu)點:就是沒有強迫這個正規(guī)項限制新決策邊界相似于舊的。代替這個,基于本地化的主意,這個判別屬性僅在與目標數(shù)據(jù)有相似分布的重要輔助數(shù)據(jù)樣本中被處理。特別地,δ采用了高斯函數(shù)的形式:
β控制來自Vs的重要支持向量的退化速度。β越大,支持向量的影響就越小,同時也就遠離 。當盧非常大,一個新的決策邊界單獨基于新的訓練數(shù)據(jù) 學習得到。相反,當β非常小,來自Vs的支持向量和目標數(shù)據(jù)集 同等對待并且算法相當于運用 共同訓練一個SVM分類器。通過這樣的控制,與傳統(tǒng)方法對比,這個算法更加一般化和靈活。控制參數(shù)β實際上能通過系統(tǒng)驗證試驗來優(yōu)化。
對于上面所產(chǎn)生的一個初始弱SVM分類器,本文得到了目標域中未標記數(shù)據(jù) 的一組初始標簽,接著把 加入訓練集中一起訓練,就形成了本文所提出的半監(jiān)督遷移的方法。其基于半監(jiān)督的SVM遷移學習算法的分類器對于2類問題的定義如下:
2.2 半監(jiān)督遷移算法的描述
對于目標域數(shù)據(jù) ,假設 是包含 個樣本 且給定標簽 的訓練集, 是包含 個樣本 且未帶標簽。
本文提出的基于半監(jiān)督的SVM遷移算法詳細描述如下:
算法:Semi-supervised TL_SVM
輸入:目標數(shù)據(jù)集 (包含 和 ),經(jīng)過預處理的輔助域支持向量xt,閾值δ0。
輸出:D的類別標簽
(1)利用 和xt訓練初始TLSVM分類器。
(2)得到 的初始標簽 和TLSVM分類器的初始參數(shù) , 。
(3)將獲得初始標簽的 加入到訓練集中一起訓練分類器,假設經(jīng)過k次訓練后構建一目標函數(shù)
(4) Loop k=2,訓練TLSVM對 進行類別測試,并得到每次分類器參數(shù)。
的預測標簽就為
End If
Else
k++;
End If
3 實驗
本文選取Enron公司提供的內(nèi)部員工通信郵件數(shù)據(jù)集Enron數(shù)據(jù)集作為本文的實驗數(shù)據(jù),它包含1702封郵件,53個類別。
3.1 數(shù)據(jù)集說明
Enron數(shù)據(jù)集的描述如表1所示。
3.2 數(shù)據(jù)預處理
文本采用此空間向量表示文本數(shù)據(jù),即:
上式中, 是詞頻的集合, 是其對應的權重。首先,將一些沒有實際分類意義的詞去掉,再根據(jù)有分類意義的詞進行統(tǒng)計,最后根據(jù)TF-IDF算法將文本表述成文本向量空間,就形成了可以利用的SVM標準數(shù)據(jù)集了。然后便可以利用LIBSVM來實現(xiàn)本文的實驗。
3.3 實驗分析
首先,利用本文提出的基于半監(jiān)督的SVM遷移學習算法遷移輔助域數(shù)據(jù)知識來對本文的目標數(shù)據(jù)集進行實驗,并與半監(jiān)督SVM進行對比。其次,還要調(diào)整參數(shù)β,用來控制輔助域數(shù)據(jù)的退化速度。將隨機抽取的輔助數(shù)據(jù)集F加入經(jīng)過數(shù)據(jù)知識遷移幫助目標域訓練集進行分類器的訓練,然后找到最佳參數(shù)β。
首先,本文選取152封作為目標數(shù)據(jù)集(其中訓練數(shù)據(jù)100封,測試數(shù)據(jù)52封),剩余1650封用來作為輔助數(shù)據(jù)集。也就是目標數(shù)據(jù)約占輔助數(shù)據(jù)集的10%。對比本文提出的算法與半監(jiān)督SVM算法在數(shù)據(jù)集Enron上的分類性能評估如表2所示,單位(%)。
β參數(shù)的變化就是控制著遷移知識在訓練模型時所起的作用。在目標域數(shù)據(jù)僅占1%時本文調(diào)整最佳參數(shù),接下來在不同β的下的進行實驗,這里本文選取了p=[O.OOI,O.O1,0.1,1】這4個參數(shù)值上實驗。并與半監(jiān)督SVM形成對照,遷移性能與β的關系如圖2所示。
通過上面β來控制遷移知識對分類器的影響。由圖2可知β越小,遷移知識越多,遷移數(shù)據(jù)所起的作用越大,然而當達到一定的量時,遷移學習所起的作用可能跟傳統(tǒng)的方法差不多,甚至可能存在負遷移的情況,所以實驗中本文得到的最佳β是lx 10-2。
接下來,在確定最佳β參數(shù)值的情況下,本文提高目標數(shù)據(jù)占輔助數(shù)據(jù)的比例,利用本文提出的算法進一步分析,如圖3所示。
由圖3可知,隨著目標域數(shù)據(jù)增多,遷移效果也在提升。當目標數(shù)據(jù)集占30%時,遷移學習的效果與傳統(tǒng)的算法效果接近。
實驗結果表明,當目標數(shù)據(jù)集較小時,本文提出的基于SVM的半監(jiān)督遷移學習算法效果明顯,而當目標數(shù)據(jù)集變大到一定數(shù)量時,本文所提出的算法與半監(jiān)督SVM算法效果接近,可以使用傳統(tǒng)的半監(jiān)督SVM算法。
4 結語
在本文中,筆者提出了基于SVM的半監(jiān)督遷移學習的方法,其主要是在減少目標域帶標簽訓練數(shù)據(jù)的同時,增加了相關域帶標簽數(shù)據(jù)。本文在以前方法SVM的基礎上提出了一種新的文本分類方法。將本文所提出的方法與半監(jiān)督SVM方法相比較,證明本文的方法比半監(jiān)督SVM方法好。
基于SVM的半監(jiān)督遷移學習方法在數(shù)據(jù)分類中取得了明顯的效果。而考慮利用本文所提的方法對在線增量進行分類將成為筆者的下一個研究目標。