999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多因素影響特征選擇的短文本分類方法①

2019-01-07 02:41:22李文慧張英俊潘理虎
計算機系統應用 2018年12期
關鍵詞:分類特征文本

李文慧,張英俊,潘理虎,2

1(太原科技大學 計算機科學與技術學院,太原 030024)

2(中國科學院 地理科學與資源研究所,北京100101)

我國“互聯網+”技術在各方面取得了積極進展[1],網上的新聞報道、交互平臺每時每刻都在發布各式各樣大量的短消息[2],短文本自動分類在信息解鎖、智能推薦、搜索引擎等方面的應用越來越重要,按照既定的目標對其進行分類,可以大大提高用戶獲取有效信息的質量和速度.

短文本分類是指對聊天、購物、新聞等平臺的回復、留言、建議意見等按照給定的分類標準進行分類.目前短文本分類特征提取和表示的過程面臨如下問題[3]:(1)內容簡短信息量少、特征向量表示高維稀疏.(2)缺乏語義、主題分布不明顯.(3)含有大量的噪音特征.

近年來,機器學習、深度學習逐漸推廣應用[4],基于特征提取的短文本分類方法取得了較大成效.唐明等人[5]使用Word2vec語言模型表示文檔向量,解決傳統特征向量空間表示高維稀疏問題;張培穎[6]等人使用語義距離計算類別的特征向量集合,然后再確定文本類別;姜芳[7]等人針對文本特征表示高維稀疏、忽略低頻詞的問題,提出通過聚類算法利用語義距離挖掘相關主題特征,然后用信息增益提取特征;然而上述文本分類方法考慮影響特征提取的因素單一,分類準確率有待提高,運算開銷有待降低.

1 相關工作

常見的文本特征提取方法包括基于算法和基于評估標準的過濾方法.

特征選擇算法包括無監督的TF-IDF和有監督的卡方、信息增益、互信息[8];TF-IDF算法的優點是結果較接近實際情況方便快速,不足之處是片面的用單一的“詞頻”作為特征重要性的衡量標準,因為具有強類別區分能力的詞可能詞頻較低,除此之外,TFIDF不能很好的體現特征的語義和位置信息;而卡方檢驗和TF-IDF相反,增強了低頻詞的類別區分能力,信息增益最大的問題是只分析特征對整體的重要性,忽略了對每個類別重要性的考察,所以這些方法通常結合其它算法綜合評判特征的類別區分能力.

過濾方法[9]是從語料庫的一般特征中選擇特征子集,利用獨立的評估指標 (比如距離度量,熵度量,依賴性度量和一致性度量)評價該特征的重要性,并把評分分配給每個單獨的特征,因此,過濾方法只會選擇一些指標性能排名靠前的特征,而忽略其他特征,通常,過濾方法由于簡單和高效,多用于文本分類;然而,過濾方法僅利用訓練數據的固有特性來評價特征的分類性能,而不考慮用于分類的學習算法,這樣可能導致超出期望的分類性能,對于特定的學習算法,很難確定哪種特征過濾選擇方法最適合用于分類.

針對傳統的TF-IDF方法在提取特征時詞匯在類間的分布情況不明顯的問題,周源[10]等人通過擴充IDF的方差值來區分詞匯在不同類間的集中程度;姚海英提出基于特征詞頻度和類內信息熵的卡方統計方法修正IDF值,然后用此IDF增強特征詞的類別區分能力;牛萍[11]等人用改進的TF-IDF算法提取特征項,考慮了特征詞匯位置和長度對特征權重的影響;陳杰[12]等人通過將Word2vec和TF-IDF結合,重新為每個特征詞賦予權重實現文本分類;汪靜[13]等人在短文本分類中引入Word2vec模型,解決空間向量表示高維稀疏和缺乏語義的問題;雖然上述方法一定程度上改進了傳統算法,但也存在缺陷,僅TF-IDF或者改進后TFIDF無法分析不同維度對分類結果的影響而且缺乏語義信息,而Word2vec和TF-IDF結合的模型忽略Word2vec中上下文冗余特征對詞向量貢獻的影響.

本文提出了一種多因素考量特征選擇的短文本分類方法.首先,利用TF-IDF算法具有良好的特征區分能力,提取并計算短文本特征詞匯的權重;其次,引入改進后的Word2vec語言模型更加深層次的表示短文本語料特征;然后,用TF-IDF算法計算特征詞匯的權重區分改進Word2vec模型特征的重要性;最后,通過上述短文本特征提取過程構建評價函數建立短文本分類模型,并把其應用在不同的分類器上進行實驗.

文本分類過程中,融合多因素提取文本特征的方法有很多,大致可以分為兩種:分類器的融合和統計方法的融合.融合分類器在長文本分類表現優異,一定程度上可以改善文本分類效果,但沒有分析語料特性對分類結果的影響,在短文本語料上的分類效果一般;融合統計方法雖然有從特征位置、詞性、語義等角度綜合考慮,但在分類準確性和訓練時間上任有待提高,本文提出的方法相對于以上方法有以下優勢:

(1)統計方法與深度學習相結合.統計方法準確的計算特征重要性,利用深度學習更加豐富的表達文本信息.

(2)用改進的Word2vec深度學習模型訓練不同維度的詞向量,分析其對分類結果的影響并找到合適的特征維度.

(3)特征選擇函數融合了特征語義、重要性、維度.

2 多因素融合

2.1 計算特征重要性

常規的特征選擇評價函數有很多,體現特征重要性的方法也不盡相同.評估一個特征的重要性通常是由該特征表示的向量權重來體現,即如果一個特征由向量權重評估計算的權值越大,說明該特征的類別區分性能越強.TF-IDF的優勢在于可以評估特征詞相對于語料庫中其中一篇文檔的重要程度,還可以去除常見的但對于文本分類不重要的特征詞,保留重要的特征詞;雖然它的沒有考慮在同一個類內和不同類間特征的分布情況,但任可以去除常見但對于文本分類不重要的詞匯,保留重要的特征詞.特征詞匯的重要性權重計算公式為:

其中,ti是給定的某一特征詞,mi, j是這個特征詞在文檔Dj中出現的次數,|D|是語料庫中所有文檔數目之和,|{j:ti∈Dj}|為含有特征詞ti的文檔數目 (mi, j≠0 的文件數目),一般情況下使用1+|{j:ti∈Dj}|可以防止該特征詞不在語料庫中被除數為零的情形.如表1為摘自某購物平臺預處理后的商品評論的TF-IDF值,由表1可知,TF-IDF值為0代表該特征詞沒有在該文檔中出現或TF-IDF小于某個閾值被過濾掉,不為0的TFIDF值可以反映該特征對評論分類的貢獻程度.

表1 某購物平臺預處理后的商品評論的TF-IDF值

2.2 提取低維、語義化特征

特征的維度對短文本分類效果至關重要,若特征太多會出現大量冗余,增加文本分類的訓練時間,若特征太少,又會缺乏表征文本類別的重要特征.

隨著深度學習的推廣應用,Word2vec模型表示文檔向量并實現文本分類取得了良好成效.在維度方面,Word2vec可以通過訓練把文本內容簡化到K維向量空間中進行向量運算,達到文本特征高效降維的目的;在語義方面,Word2vec可以通過特征詞之間的距離快速的訓練詞向量,并計算出特征向量空間的相似度,來表示文本特征語義上的相似度,與潛在語義分析LSI、潛在狄立克雷分布LDA相比,Word2vec更加豐富的利用了詞的文檔中上下文中的語義信息.

Word2vec神經網絡語言模型有兩種,分別是CBOW和Skip-gram.CBOW模型是從給定上下文各c個詞預測目標詞的概率分布,例如,給定學習任務:“今天 下午 2 點鐘 軟件實驗室 成員 開例會”,使用“今天 下午 軟件實驗室 成員 開 例會”預測單詞“2 點鐘”的概率分布,而Skip-gram模型則和CBOW模型相反,是從給定目標詞預測上下文各c個詞的概率值,例如,使用“2 點鐘”來預測“今天 下午 軟件實驗室 成員 開例會”中的每個單詞的概率分布.

Word2vec模型刪除傳統神經網絡語言模型中的隱藏層,直接將中間層與輸出層連接,復雜度得到優化,特征維度減小,輸出采用哈夫曼樹,運算量降低;以CBOW為例,通過分析Word2vec模型可知,傳統的Word2vec模型中每個詞向量的貢獻度是通過梯度

求和實現的,詞向量的更新公式為:

其中,V(w)為詞向量,η為學習率,w為語料庫中的一個特征詞,Context(w)表示特征詞w的上下文特征詞的集合,j是哈夫曼樹中的第j各節點Xw是上下文各詞向量的累加和.

雖然Word2vec能夠表示文檔向量,但仍有缺陷,傳統的模型通過學習率η把求得的梯度和分配給每一個詞的詞向量,在這種情況下,若其中有一個詞向量是冗余的,將導致詞向量計算出現偏離進而影響特征詞對整篇文檔的表達,如果要縮小冗余對詞向量更新準確性的影響,考慮采用均衡貢獻的思想,把梯度和求平均值累加到原詞向量上,因此本文提出一種改進Word2vec模型,引入均衡因子來縮減個別冗余特征等對詞向量表達的影響,采用平均貢獻后更新的誤差將小于直接求和更新的誤差,用改進的模型更新詞向量.均衡因子β的計算為:

所以改進后的詞向量更新公式為:

改進后的的Word2vec模型訓練得到的詞向量表示如圖1所示.

圖1 改進 Word2vec 訓練詞向量結果

2.3 構造特征選擇評價函數

短文本特征提取的時,特征的維度、語義、重要性均可影響短文本分類效果,所以需采用一定的方法對這些因素進行融合來提取短文本特征.

包含M個文檔的集合D,其中Di(i=1,2,…,M)已經采用分詞工具NLPIR對中文文檔進行分詞,將其通過改進的Word2vec模型進行訓練,設置每個特征詞訓練窗口的大小,取不同維數的輸出向量,得到每個分詞對應的N維詞向量h,其中h=(v1,v2,…,vn).

對每類文檔集中的每篇文檔里的每個分詞,首先將短文本分詞向量化,然后利用TF-IDF算法計算其在該文檔中的權重W(t,Di),其表示為詞t在文檔Di(i=1,2,…,M)中的權重.對于每篇文檔Di(i=1,2,…,M),其特征選擇函數的表示形式如下:

其中,ht表示特征詞t的詞向量,所以文檔向量還是一個N維的實數向量.

FS特征選擇函數利用改進后的Word2vec模型訓練短文本,得到低維、語義化的詞向量,再通過TFIDF算法計算不同詞向量的權值,增強具有類別區分能力特征項的權值,削弱冗余項的類別區分能力,最終可以用于文本分類.

3 實驗

3.1 實驗數據

實驗所使用的數據取自搜狗實驗室中文文本分類語料庫,將下載的原始數據進行轉碼,文檔切分,然后給文本標類別標簽,劃分訓練與測試數據,共包含文本21 924 篇,分為 11 類,分別是汽車、財經、IT、健康、體育、旅游、教育、軍事、文化、娛樂和時尚,其中每類有2000篇,按4:1分為1600篇訓練文本和400篇測試文本,然后控制文本長度最多不超過100個詞;文本分詞是預處理過程中必不可少的一個操作,使用中國科學院計算機研究所分詞工具ICTCLAS分詞;去停用詞也是預處理過程中不可缺少的一部分,去停用詞包括(標點、數字、單字和其它一些無意義的詞),比如說“這個”、“的”、“一二三四”、“我你他”、“0 1 2 … 9”等.

3.2 文本向量化及權重修正

當詞匯表變得很大時,特征詞頻率和權重向量化表示文本有一定的局限性[14],這需要巨大的向量來編碼文檔,并對內存要求很高,而且會減慢算法的速度,一種很好的方法是使用單向哈希方法來將單詞轉化成整數,該方法不需要詞匯表,可以選擇任意長的固定向量,缺點是哈希量化是單向的,Python中的Hashing Vectorizer類實現了這一方法,向量化完畢后使用tfidftransformer類進行特征的權重修定.

3.3 評價指標

對于給定的類別,評價指標采用準確率、分類器的訓練時間.準確率,又稱“精度”,表示正確分類到該類的文本占分類到該類文本的比例,計算如下:

并檢測短文本分類過程中分類器的訓練時間.

3.4 短文本分類實驗

為了驗證該方法的有效性,實驗分別在SVM(支持向量基)、KNN(K近鄰分類器,取K=10)分類器上進行短文本分類實驗,流程如圖2.

圖2 短文本分類流程圖

實驗一:基于TF-IDF特征重要性的短文本分類實驗,取不同特征數時用評價指標對實驗結果進行評價,特征維數對準確率和訓練時間的影響分別如圖3和圖4,從圖3中可以看出,原來經過預處理的短文本特征有64 858個,利用哈希方法向量化特征并設置不同的特征維數,當特征在 10 000–60 000 維時準確率雖然有波動但都較高,而且變化范圍不大,在SVM分類器上的準確率在84.5%~86.1%之間,因為當特征數比較多達到上萬維時有冗余特征,在適當的范圍內去掉一些冗余特征可以提高運算效率,而對準確率影響不大;當特征提取到 10 000 維以下時,準確率急劇下降,當特征數為500維時,SVM分類器的準確率下降到64.3%,KNN分類器上的準確率下降到69.2%,特征提取時去掉了許多重要的特征,影響了短文本分類效果.從圖4中可以看出,在SVM分類器上短文本分類訓練時間隨著特征數的增加而增加,變化范圍為 50 s~70 s之間,而在KNN分類器上訓練時間相對較少,不同維數下的訓練時間均在1 s以下.

圖3 選擇不同特征數時分類器預測準確率

圖4 選擇不同特征數時分類器訓練時間(s)

雖然上述實驗中詞匯特征重要性得到體現,但當文本特征數提取下降到 10 000 維時,相對于 70 000 維來說維度有所降低,但特征維數還是很高,特征提取時忽略了語義信息,而且短文本分類在SVM分類器上的訓練時間較長,所以進行了以下實驗;

實驗二:特征提取時多因素融合(特征、維度、語義)的短文本分類實驗,哈希向量化特征為10 000維時計算特征重要性權重,設置改進Word2vec模型參數,使用Skip-gram模型,不同的詞向量輸出維度范圍設置在50~500維之間,取不同特征維數時用評價指標對實驗結果進行評價,特征維數對準確率和訓練時間的影響分別如圖5和圖6,從圖5中可以看出,原來經過預處理的短文本特征有64 858個,利用改進Word2vec模型向量化設置不同的特征維數,在SVM分類器上的準確率變化范圍在84%~88%之間,當特征提取到300維左右時,準確率達到最大,當特征大于或小于300維時,SVM分類器的準確率開始下降,但不會下降太多,最低為 84%;同理,KNN 分類器上的準確率在150維左右時達到最大;因為在適當的范圍內去掉一些冗余特征可以提高運算效率,而準確率不會有很大影響,從圖6中可以看出,在SVM分類器上訓練時間隨著特征數的增加而增加,變化范圍為12 s~63 s之間,訓練時間整體比單一的基于詞匯重要性TFIDF的訓練時間少;而在KNN分類器上訓練時間變化范圍為 1 s~11 s之間,訓練時間整體比單一的基于詞匯重要性TF-IDF的訓練時間多.

4 結束語

新的特征選擇評價函數從特征語義和權重的層面進行需求分析,不僅解決了傳統向量空間模型特征表示高維稀疏的問題,從改進的Word2vec語言模型出發,采用線性映射將詞的獨熱表示投影到稠密向量表示,引入向量均衡因子更精確的更新詞向量,而且還融入傳統特征選擇方法不具有的語義性,實驗表明基于多因素融合特征選擇后的方法在SVM和KNN分類器上準確率都有提高;由于分類器的性能不同,訓練時間在SVM分類器上有所減少,在KNN分類器上的訓練時間增加,但在提高分類準確率的同時犧牲少量的訓練時間是可以接受的;但也有不足之處:

FS特征選擇方法雖然量化了特征維數和重要性,分類準確率也有所提高,但是否有比TF-IDF準更好特征重要性衡量標仍有待研究;Word2vec模型對多義詞無法很好的表示和處理,因為使用了唯一的詞向量,而且詞匯上下文沒有順序性,語義性削弱,在語義性方面還有待優化;針對特征提取的需要,考慮應用深度學習算法改進特征選擇評價函數.

圖5 選擇不同特征數時分類器預測準確率

圖6 選擇不同特征數時分類器訓練時間(s)

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 欧美激情第一区| 国产在线一区二区视频| 欧美亚洲一区二区三区在线| 亚洲an第二区国产精品| 亚洲欧洲免费视频| 国产一级毛片网站| 露脸真实国语乱在线观看| 另类重口100页在线播放| 精品视频91| 亚洲天堂伊人| 99手机在线视频| 国产另类乱子伦精品免费女| 无码又爽又刺激的高潮视频| 亚洲无码一区在线观看| 91福利免费视频| 国产成人亚洲欧美激情| 国产AV无码专区亚洲A∨毛片| 日本久久网站| 国产高清在线丝袜精品一区| 国产麻豆va精品视频| 久久婷婷六月| 欧美一区中文字幕| 午夜免费小视频| 国产精品天干天干在线观看| 91精品国产情侣高潮露脸| 亚洲AV无码久久天堂| 色综合天天综合| 国产精品免费久久久久影院无码| 婷婷午夜影院| 久久亚洲高清国产| 国产麻豆aⅴ精品无码| 青青国产视频| 亚洲日本韩在线观看| 亚洲第一精品福利| 成人免费网站在线观看| 一本久道久久综合多人| 在线无码九区| 人人澡人人爽欧美一区| 欧美午夜一区| 亚洲天堂精品在线观看| 亚洲精选无码久久久| 亚洲天堂视频网站| 污视频日本| 亚洲性影院| 欧美在线中文字幕| 久久久久亚洲精品成人网| 国产成人区在线观看视频| 国产中文在线亚洲精品官网| 久久中文电影| 国产人成网线在线播放va| 国产成人a在线观看视频| 久精品色妇丰满人妻| 亚洲国产欧洲精品路线久久| 亚洲精品麻豆| 青青草原国产免费av观看| 中日无码在线观看| 五月六月伊人狠狠丁香网| 国产高清在线丝袜精品一区 | 少妇人妻无码首页| 亚洲手机在线| 日韩精品亚洲人旧成在线| 免费xxxxx在线观看网站| 国产精品自拍露脸视频| 成人在线观看不卡| yjizz视频最新网站在线| 久久99国产精品成人欧美| 视频一区亚洲| 国产精品视频导航| 中国美女**毛片录像在线| 18禁黄无遮挡网站| 欧美成a人片在线观看| 亚洲最猛黑人xxxx黑人猛交| 91精品啪在线观看国产60岁| 欧美性精品| 亚洲婷婷在线视频| 看你懂的巨臀中文字幕一区二区| 日本精品中文字幕在线不卡| 亚洲成人免费在线| 免费一级毛片在线观看| 亚洲精品久综合蜜| 亚洲天堂自拍| 亚洲AV无码乱码在线观看代蜜桃|