999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于互信息和余弦相似度的維吾爾文不良文檔信息過濾方案

2016-09-09 02:51:36趙旭東亞森艾則孜
電子設計工程 2016年16期
關鍵詞:分類特征文本

趙旭東,亞森·艾則孜

(新疆警察學院 信息安全工程系,新疆 烏魯木齊 830011)

基于互信息和余弦相似度的維吾爾文不良文檔信息過濾方案

趙旭東,亞森·艾則孜

(新疆警察學院 信息安全工程系,新疆 烏魯木齊830011)

針對網頁中的維吾爾文不良文檔信息的過濾問題,提出一種基于互信息和余弦相似度的不良文檔信息過濾方案。首先,對輸入文檔進行預處理,過濾掉無用單詞。然后,利用文檔頻率(DF)和互信息(MI)相結合,從文檔中提取出高區分度的特征向量。最后,利用TF-IDF方法對特征進行加權,并計算加權特征向量與分類模板中的各類加權特征向量之間的余弦相似度,來分類文檔并過濾掉不良文檔信息。實驗結果表明,該方案能夠有效過濾不良維吾爾文文檔,正確過濾率達到了83.5%。

維吾爾文;不良文檔過濾;互信息;余弦相似度;TF-IDF

互聯網的高速發展促使著人類社會的進步,其蘊涵的共享資源不僅提高了人們的工作學習效率,還豐富著人們的業余生活。但由于其開放性的特點,各種良莠不齊的垃圾信息也隨之泛濫,特別是反動、色情、暴力或帶有明顯情緒煽動言論的不良信息的入侵,不僅威脅著網絡信息的安全,更極大地危害著社會的穩定和人們的身心健康[1]。因此,開發網頁文檔信息過濾技術尤為重要。

隨著國家對新疆地區的大力投入,使其信息化建設得到快速發展,維吾爾文等少數民族語種的大量文字信息開始以數字化形式呈現。對維吾爾文書寫的大量網頁文檔數據進行信息過濾,對新疆地區的穩定具有重要的意義[2]。目前,對于英文和中文等大語種的文檔過濾技術已經得到大量研究,并趨于成熟。然而,對于維吾爾文表述的數字文檔的過濾,相關方面的研究還處于起步階段[3]。維吾爾文是一種黏著性語言,具有比較復雜的時態變化和豐富的形態結構[4]。目前,學者提出了一些對維吾爾文的文檔分類技術,例如文獻[5]提出一種基于語義詞特征提取的維吾爾文文本的分類方法,用一種組合統計量(DME)來度量文本中相鄰單詞之間的關聯程度,以此來提取特征詞。文獻[6]利用χ2統計量來提取詞干,并利用支持向量機(SVM)算法來構造了維吾爾文文本分類器。

本文結合維吾爾文特點,提出一種基于互信息和余弦相似度的維吾爾文不良文檔信息過濾方案。首先,對輸入文檔進行預處理,過濾掉無用信息。然后,利用文檔頻率(Document Frequency,DF)和互信息(Mutual Information,MI)相結合,提取文檔中最能代表文檔屬性的特征向量。最后,計算提取的特征向量與分類模板中的各類特征向量之間的余弦相似度,來分類文檔并過濾掉不良文檔信息。實驗結果表明,本文方案能夠有效過濾不良維吾爾文文檔。

1 提出的文檔過濾方案

本文提出一種維吾爾文文檔信息過濾方案,首先,需要收集一些已分類的文檔作為訓練文檔集。本文過濾方案主要包括3個部分:1)維吾爾文文檔預處理階段:在該階段,過濾掉停留詞,并提取維吾爾文單詞的詞干,以降低文檔維度。2)特征提取階段:本文使用文檔頻率(DF)法根據特征出現頻率提取初始特征集,然后利用互信息(MI)法計算特征與類之間的互信息來獲得最終特征集,以一組特征向量來表示一個文檔,即用向量空間模型(VSM)表示文檔。3)文檔過濾階段:通過詞頻-逆向文件頻率 (TF-IDF)方法對提取的特征進行加權,計算輸入文檔特征向量與訓練文檔集獲得的分類模板中各類的特征向量之間的余弦相似度,來判斷輸入文檔的屬性。另外,在文檔過濾之后,通過人為判斷文檔過濾正確性,并作為反饋來調整相似度比較的判斷閾值R,以獲得最佳過濾性能。本文文檔過濾方案框架如圖1所示。

圖1 本文文檔過濾方案框架

1.1文檔預處理

維吾爾文文檔預處理主要包括兩個部分:文檔過濾和詞干提取。其中,文檔過濾用于過濾掉文檔中非維吾爾文文字和停用詞;詞干提取是用來提取文檔中具有真正含義的詞匯。經過文檔預處理,可將文檔原始特征維度降低約一半。

文檔去噪過程中,首先對文檔進行過濾,獲得維吾爾文單詞集。然后,通過和事先準備好的停用詞表進行比對,過濾掉停用詞。停用詞為對文檔主題沒有貢獻,不包含文章類別信息的詞,例如介詞、副詞、代詞等。去掉停留詞能夠實現特征降維,提高分類精度[7]。

詞干提取過程中,首先,根據維吾爾文單詞與單詞之間的空格符來進行分詞。由于維吾爾文單詞是由字母拼寫而成的,通過將不同的詞綴粘貼到單詞的頭部來實現語法功能,所以,提取文檔中能夠代表真實含義的詞匯是困難的。維吾爾文中,同一詞干可以演變為很多不同含義的詞語,雖然這些詞語的詞形不同,但詞義卻不會有很大區別[8]。其中一個典型例子如表1所示。為了提取單詞的詞義,并考慮特征的數量,本文以詞干(學校)作為特征項,以此從文檔中提取出詞干集。

1.2基于DF和MI的特征提取

目前,主流的特征提取方法有文檔頻率(DF)、信息增益(IG)、χ2統計量(CHI)和互信息(MI)等[9]。這些特征選擇方法基本思想都是基于一種評估函數,評估每個特征詞的價值,然后根據價值將特征詞從高到低進行排序,根據設定的特征數量,從高到低提取特征詞作為特征集合,以此獲得具有高區別能力的特征集并降低特征維數。

表1 維吾爾詞語變體

DF方法只計算文檔集中具有特征項文檔的數量,若只利用其來提取特征較為粗糙[10]。MI方法根據特征和類別共同出現的概率,度量特征和類別的相關性,所提取的特征較為精確,但計算量較大[11]。為此,本文將DF方法和MI方法相結合,首先,在預處理后的文檔中利用DF方法,計算出具有每個詞條的文檔數,將在設定上下限閾值之間的特征加入到初始特征集中,以此去掉一些低頻詞和高頻詞。然后,在生成的初始特征集上,根據每個詞干和每個類別之間的MI值來選擇具有較高類別區分能力的詞干作為最終特征,進一步降低特征維數。

DF方法中的文檔頻率指文檔集中出現某個特征項的文檔個數。在文檔集中含有該特征的文檔數量為:

本文設定DF(v)的上下閾值分別為5%~70%。出現頻率低于5%的特征視為很少出現的特征,其在文檔分類中的作用較小。而出現頻率大于70%的特征,由于在文檔中廣泛分布,所以其區別性較低。

特征V=(v1,v2,…,vd)和類C=(c1,c2,…,ck)之間的MI可表示為:

特征v1在類c1中出現的概率越高,則互信息I(c1,v1)就越大,則相關性越大。若本文設定對每類提取N個特征,那么則將互信息從大到小排名前N的特征作為特征向量。

1.3基于余弦相似度的文檔過濾

在提取文檔特征之后,可通過計算輸入文檔和訓練模板之間的相似度來判斷文檔屬性。其中,訓練模板是通過從已知文檔類別的訓練集中提取的特征訓練獲得,其由每種文檔類別的特征向量組成。

目前,計算相似度的主流方法是計算兩個文檔特征向量的內積或內積的某種相關系數。其中,向量內積表示的是一個向量在另一個向量上的投影,內積越大,兩個文本相似度就越大。本文采用夾角余弦距離公式來計算其相似度,夾角余弦相似度衡量的是向量空間兩個向量的夾角,更加體現的是方向上的差異,而不是位置,這就是歐式距離和夾角余弦的最大不同之處。向量夾角的余弦值越大,表明兩者之間的相似度越大。

在計算余弦相似度之前,需要對特征進行加權。本文利用經典的TF-IDF方法[12],根據特征項的詞頻(TF)和逆文檔頻率(IDF)來加權特征,并進行歸一化處理到[0,1]范圍內,表達式為:

其中,tfvi為詞頻,表示特征vi在文檔d中出現的次數;idfvi為逆文檔頻率,表示訓練文檔集中包含特征vi的文檔數量(即DF(vi))倒數的log值,表達式為:

令A=(a1,a2,…,an)和B=(b1,b2,…,bn)表示兩個特征向量對應的權重向量,那么這兩個特征權重向量之間的余弦相似度如式(5)所示:

在相似度計算結束后,設定將相似度大于閾值R的文檔返回給用戶,否則屏蔽該文檔。

2 實驗及分析

2.1實驗數據

為了評估本文方案的性能,構建一個計算平臺,以Intel酷睿i5作為CPU,主頻為2.4 Ghz,應用Windows7系統環境,利用Matlab2011進行實驗。

對于維吾爾文的文本分類應用,目前還沒有可使用的標準文本集。由于本文方案是應用于不良信息過濾領域,所以本文從新疆政府網、天山網和新疆公安犯罪數據庫中的不良文檔中收集了2 000篇文檔,通過人工方式將其分為5類文檔:1)正常文檔、2)暴恐傾向文檔、3)色情文檔、4)賭博文檔、5)反動言論文檔,其中正常文檔800篇,其它各類不良文檔分別為300篇。在數據集中均勻選取1 200篇文本作為訓練集,剩余800篇作為測試集。

2.2性能指標

本文采用分類中常用的性能指標F1值[13]來評估方案性能,其由分準確率(Precision)和召回率(Recall)計算獲得。對于某一個類別i,其準確率、召回率、F1值分別可以描述為:

在對過濾器性能進行統計計算時,用宏均值(Macro-F1)參數來反應過濾器的性能,表達式為:

2.3分類過濾實驗

實驗中,首先對維吾爾文文本集進行預處理,為了方便后續處理,把文本轉換成UTF-8二進制編碼格式[14]。然后,過濾掉文本中的非維吾爾文字符和停用詞。預處理結束后,獲得一個具有24 420個詞的初始詞語集。然后進行詞干提取,將同一詞根演變而來的特征進行聚合,使詞干數降維到13 826個。

然后通過本文提出DF+MI特征提取算法,提取出和類別具有高互信息(高區分度)的詞干組成最終特征向量。設定每個類別提取500~2 000個特征詞作為特征向量,表2列出了暴恐和反動文檔類中的前5個特征詞。

表2 2種類別的前5名高區分度的特征詞

將本文方案與文獻[5]和文獻[6]提出的方案進行比較,在特征向量大小為500~2 000個特征詞下,以Macro-F1作為性能指標評估正確分類過濾的性能。實驗中,每次實驗計算所有測試文檔被分為5個類的F1值,并取宏均值Macro-F1,相同實驗執行10次,最終獲得平均Macro-F1值,結果如圖2所示。

圖2 各種方案分類過濾的Macro-F1值

從圖2可以看出,隨著特征數量的增加,各種方案的過濾性能逐漸提高,但當達到一定程度上呈現平穩狀態。這是因為,特征選取數量過少時,導致很多對分類過濾具有較大貢獻的特征詞被遺漏[15];當特征數量過多時,就會造成特征冗余,增加計算復雜度,從而影響了分類過濾性能。然而,本文方案始終保持最高的分類過濾性能,當特征向量長度為1 400左右時,性能最佳,獲得的F1值達到了0.835。這是因為本文在特征提取階段首先利用DF方法過濾掉一些特征詞,降低了特征提取的計算量。同時,利用余弦距離來計算輸入文檔

3 結束語

為了凈化新疆地區維吾爾文網頁中的不良文檔,促進地區穩定,文中提出一種基于互信息和余弦相似度的維吾爾文網頁不良文檔信息過濾方案。利用文檔頻率(DF)和互信息(MI)相結合,從文檔中提取出高區分度的特征向量。利用TF-IDF方法對特征進行加權,并計算加權特征向量與分類模板中的各類加權特征向量之間的余弦相似度,來分類文檔并過濾掉不良文檔信息。實驗結果表明,與其它方案相比,本文方案能夠有效過濾網頁中的不良維吾爾文文檔。

[1]丁霄云,劉功申,孟魁.基于一類SVM的不良信息過濾算法改進[J].計算機科學,2013,40(11):86-90.

[2]阿力木江·艾沙,庫爾班·吾布力,吐爾根·依布拉音.維吾爾文Bigram文本特征提取[J].計算機工程與應用,2015,51 (3):216-221.

[3]熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區分性關鍵詞模型的維吾爾文本情感分類[J].計算機工程,2014,40(10):132-136.

[4]亞力青·阿里瑪斯,哈力旦·阿布都熱依木,陳洋.基于向量空間模型的維吾爾文文本過濾方法[J].新疆大學學報:自然科學版,2015(2):221-226.

[5]吐爾地·托合提,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉.語義詞特征提取及其在維吾爾文文本分類中的應用[J].中文信息學報,2014,28(6):140-144.

[6]阿力木江·艾沙,吐爾根·依布拉音,庫爾班·吾布力.基于SVM的維吾爾文文本分類研究[J].計算機工程與科學,2012,34(12):140-144.

[7]Uysal A K,Gunal S.The impact of preprocessing on text classification[J].Information Processing&Management,2014,50(7):104-112.

[8]田生偉,鐘軍,禹龍.維吾爾文多詞領域術語的自動抽取[J].中文信息學報,2015,29(2):133-141.

[9]李建林.一種基于PCA的組合特征提取文本分類方法[J].計算機應用研究,2013,30(8):2398-2401.

[10]Bharti K K,Singh P K.Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering[J].Expert Systems with Applications,2015,42(6):3105-3114.

[11]Shadvar A.Dimension reduction by mutual information feature extraction[J].International Journal of Computer Science&Information Technology,2012,4(3):231-245.

[12]張保富,施化吉,馬素琴.基于TFIDF文本特征加權方法的改進研究[J].計算機應用與軟件,2011,28(2):17-20.

[13]Liu J.A Network Information filtering method based on node energy transfer[J].Advanced Materials Research,2014,25 (9):4400-4404.

[14]阿力木江·艾沙,吐爾根·依布拉音,艾山·吾買爾,等.基于機器學習的維吾爾文文本分類研究 [J].計算機工程與應用,2012,48(5):110-112.

[15]Arasaratnam I.Sensor fusion with square-root cubature information filtering[J].Intelligent Control&Automation,2013,4(1):11-17.

A uyghur bad text information filtering scheme based on mutual information and Cosine similarity

ZHAO Xu-dong,Yasen·AIZEZI
(Department of Information Safety Engineering,Xinjiang Police College,Urumqi 830011,China)

For the issues that the Uyghur bad text information filtering in the web page,an information filtering scheme based on mutual information and cosine similarity is proposed.First,the input document is preprocessed to filter out useless words. Then,the combination of document frequency(DF)and mutual information(MI)is used to extract the feature vector which with high degree of differentiation.Finally,the feature is weighted by the TF-IDF method,and calculate the cosine similarity between the weighted feature vector and the weighted feature vectors in the classification template,so as to classify the documents and filter out the bad document information.Experimental results show that the proposed scheme can effectively filter the bad Uyghur documents,and the correct filtering rate is 83.5%.

Uyghur;bad text information;mutual information;cosine similarity;TF-IDF

TN918

A

1674-6236(2016)16-0109-04

2016-02-06稿件編號:201602020

新疆維吾爾自治區自然科學基金科研項目(2015211A016)

趙旭東(1977—),男,安徽蕪湖人,碩士,講師。研究方向:信息安全、軟件工程等。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产黄视频网站| 日韩一二三区视频精品| 国产日韩av在线播放| 伊人久久大香线蕉成人综合网| 欧美日本在线| 欧洲亚洲一区| 女人av社区男人的天堂| 成人一区在线| 91外围女在线观看| 91亚洲国产视频| 久久精品只有这里有| 日韩精品少妇无码受不了| 国产无码精品在线播放| 欧美国产视频| 欧美性精品不卡在线观看| 国产精品尤物在线| 欧美成人影院亚洲综合图| 日本妇乱子伦视频| 91口爆吞精国产对白第三集| 国产精品lululu在线观看| 亚洲欧美另类久久久精品播放的| 不卡视频国产| 亚洲精品国偷自产在线91正片| 亚洲清纯自偷自拍另类专区| 国产福利拍拍拍| 蜜臀AVWWW国产天堂| 色综合国产| 午夜视频免费一区二区在线看| 综合网天天| 免费精品一区二区h| 国产亚洲欧美在线中文bt天堂 | 2021无码专区人妻系列日韩| 青青热久免费精品视频6| 久久这里只精品国产99热8| 成人国产精品网站在线看| 国产精品女主播| 国产网站免费| 亚洲日本在线免费观看| 亚洲αv毛片| 58av国产精品| 欧美视频在线播放观看免费福利资源 | 亚洲第一色视频| 国产亚洲精品无码专| 国产95在线 | 久久女人网| 久久久久久久蜜桃| 一级做a爰片久久毛片毛片| 国内精品久久久久鸭| 亚洲国产午夜精华无码福利| 亚洲水蜜桃久久综合网站| 久久精品国产91久久综合麻豆自制| 欧美成人看片一区二区三区 | 2021国产精品自产拍在线| 欧美精品啪啪一区二区三区| 亚洲毛片一级带毛片基地 | 欧美另类精品一区二区三区| 九九九九热精品视频| 国产主播福利在线观看| 老司国产精品视频91| 亚洲男女天堂| A级毛片高清免费视频就| 国产欧美日本在线观看| 一级福利视频| 亚洲av无码人妻| 国产尹人香蕉综合在线电影 | 五月丁香在线视频| 中文精品久久久久国产网址| 免费一级毛片完整版在线看| 久久超级碰| 国产日韩丝袜一二三区| 999国内精品视频免费| 精品三级在线| 国产成人艳妇AA视频在线| 亚洲美女一区| 久久精品女人天堂aaa| 久久五月天国产自| 中文字幕在线看| 中文字幕在线播放不卡| 99在线观看视频免费| 国产a v无码专区亚洲av| 园内精品自拍视频在线播放| 毛片免费高清免费|