999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM藏文文本分類的研究與實(shí)現(xiàn)

2018-02-25 06:21:08賈宏云群諾蘇慧婧次仁羅增巴桑卓瑪
電子技術(shù)與軟件工程 2018年9期

賈宏云 群諾 蘇慧婧 次仁羅增 巴桑卓瑪

摘要 利用SVM(支持向量機(jī))技術(shù)對復(fù)雜繁瑣的漢文文本資源進(jìn)行快速分類已經(jīng)相當(dāng)?shù)某墒欤湓诓匚奈谋痉诸愔械膽?yīng)用還處于研究階段,因此實(shí)驗(yàn)?zāi)康脑谟跍y試該方法是否在藏文文本分類中具有良好的性能。主要過程包括:文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比,最后與Logis tic回歸分類器進(jìn)行同等條件下的實(shí)驗(yàn)對比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類中具有良好的分類效果。

【關(guān)鍵詞】藏文文本分類 支持向量機(jī)Logis tic回歸

1 引言

由于文本記錄著時代變遷的痕跡,文本的數(shù)量在歷史的長河中不斷增加,因人們在查閱和學(xué)習(xí)的過程中對相關(guān)文本的尋找顯得十分麻煩,所以文本分類的有效性對上述問題的解決具有重要作用。同時伴隨著科學(xué)技術(shù)的發(fā)展,人們開始利用計算機(jī)的高效性進(jìn)行文本自動分類,因此對分類數(shù)學(xué)模型的選擇變得更為重要。

目前,機(jī)器學(xué)習(xí)算法已成為主流的方法,尤其在中文文本分類算法的研究上已經(jīng)相當(dāng)成熟,特別是SVM算法利用最小結(jié)構(gòu)風(fēng)險的原理使得分類性能更加優(yōu)異,在武漢理工大學(xué)熊浩勇[1]的碩士畢業(yè)論文中已經(jīng)詳細(xì)描述,雖然其具有對模型參數(shù)的設(shè)置相當(dāng)復(fù)雜并且耗費(fèi)時間長等不足之處,但所獲取的模型參數(shù)十分精確。由于SVM的核函數(shù)很多,因此不同結(jié)構(gòu)的文本使用的核函數(shù)具有差異性,藏文文本也存在這種情況。因此實(shí)驗(yàn)?zāi)康脑谟跍y試該方法是否在藏文文本分類中具有良好的性能。主要過程包括:文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類性能對比,最后與Logistic回歸分類器進(jìn)行同等條件下的實(shí)驗(yàn)對比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類中具有良好的分類效果。

2 SVM模型分類原理

SVM是一種二分類模型,但可以在多分類中進(jìn)行多次二分類,它的基本模型定義在樣本特征數(shù)據(jù)空間上的間隔最大的線性分類器,有效的解決樣本特征數(shù)據(jù)在低維空間中非線性(線性也是非線性的特殊情況)的情況下,通過核函數(shù)把樣本數(shù)據(jù)映射到高維空間中,利用經(jīng)驗(yàn)風(fēng)險和結(jié)構(gòu)風(fēng)險最小化原理找到線性超平面實(shí)現(xiàn)樣本分類。由于藏文文本特征的高稀疏性和低維空間中樣本的不可分類性,所以本文選擇一定的懲罰參數(shù)C和核函數(shù)來構(gòu)造SVM分類器。

2.1 SVM分類器構(gòu)建算法

2.1.1 確定目標(biāo)函數(shù)

3 文本語料的收集和預(yù)處理

本次基于SVM模型的藏文文本分類實(shí)現(xiàn)的語料來源于對中國西藏新聞網(wǎng)(藏文版),人民網(wǎng)(藏文版),西藏日報(藏文版)等網(wǎng)站相關(guān)文章信息的收集而成共77000篇,主要以剔除文本數(shù)據(jù)較小的文本并適當(dāng)組合形成新語料的方式進(jìn)行預(yù)處理,語料數(shù)據(jù)數(shù)據(jù)如表1。

4 建立向量空間模型

向量空間模型是對文本信息的組合,通常以特征項(xiàng)的權(quán)重作為向量空間元素,向量空間模型對分類模型的運(yùn)算較為便捷。

4.1 特征項(xiàng)定義

特征項(xiàng)是文本的屬性包含著文本的信息,在藏文文本中字是其屬性的一個元素,字與字之間主要由音節(jié)點(diǎn)來分離,字可分為一個字符、多個字符,多個音節(jié)點(diǎn)之間又有一定的關(guān)聯(lián),為了統(tǒng)計的方便和對模型的測試,本次試驗(yàn)選擇一個音節(jié)點(diǎn)里包含的藏字作為特征項(xiàng),并且假設(shè)每個音節(jié)點(diǎn)之間的藏字相互獨(dú)立。

4.2 特征項(xiàng)權(quán)重設(shè)置與選擇

特征項(xiàng)的權(quán)重設(shè)置方法很多,通常以該特征項(xiàng)在樣本中出現(xiàn)的頻度作為其特征權(quán)重,首先統(tǒng)計出上述類別文本中各個字出現(xiàn)頻率fn,使藏字特征數(shù)據(jù)化成Xl向量,對特征項(xiàng)進(jìn)行選擇時,可以選擇相對高頻字與相對低頻字作為待選特征集,并利用信息增益算法對待選特征集降維,從待選特征集中選擇部分信息增益相對大的特征項(xiàng)作為待提取特征集。最后利用歐氏距離算法對待提取特征集中的特征進(jìn)行聚類,使待提取特征集中的特征形成特征簇,并加權(quán)平均特征簇內(nèi)特征,最終得到文本類別分類特征項(xiàng)。本次基于SVM模型的藏文文本分類實(shí)現(xiàn)共分7個類別,共使用36個特征構(gòu)成分類特征項(xiàng)向量x=(融w,島,i函,孰;,孛w,R黽,甲;“坪】,q,釃,o{,iF,B‘,氙_E,為,q,目1“,8訇q,i,1S,R自一,9_‘,“1·7‘,wx,15一,掣,南,a;,91幣i,ic,ac,&),數(shù)據(jù)化特征向量Xl=(fl,f2,...f35,86),Xl∈Xn,n為樣本數(shù)量,類別向量集合Y=(教育類:1,人文類:2,政務(wù)類:3,時政類:4,經(jīng)濟(jì)類:5,法律類:6,民生類:7)標(biāo)記所有樣本成X= (Xl∈Xn,Yl∈Y),構(gòu)成整個完整的樣本向量空間模型數(shù)據(jù)集。

5 實(shí)驗(yàn)結(jié)果與評價

實(shí)驗(yàn)前需要把所有文本進(jìn)行向量空間模型化,形成樣本數(shù)據(jù)集,本次實(shí)驗(yàn)由三部分內(nèi)容組成,分別是分類模型對訓(xùn)練集樣本數(shù)據(jù)進(jìn)行訓(xùn)練獲取模型參數(shù)、對測試樣本數(shù)據(jù)進(jìn)行分類預(yù)測、對實(shí)驗(yàn)結(jié)果進(jìn)行評價。

5.1 模型訓(xùn)練與參數(shù)獲取

通常分類模型對訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練是獲取該模型參數(shù)的主要途徑,訓(xùn)練樣本數(shù)據(jù)越多,對模型參數(shù)的獲取就越精確,對訓(xùn)練樣本數(shù)據(jù)的訓(xùn)練有效性對后續(xù)測試結(jié)果有著直接的影響,訓(xùn)練樣本集如表2。

5.1.1 獲取核函數(shù)參數(shù)

實(shí)驗(yàn)中,把線性函數(shù)、多項(xiàng)式函數(shù)、RBF函數(shù)和SIGMOID函數(shù)作為模型的核函數(shù),通過對訓(xùn)練樣本集構(gòu)成的訓(xùn)練樣本數(shù)據(jù)集進(jìn)行多次訓(xùn)練和10折交叉驗(yàn)證法進(jìn)行評估,獲得核函數(shù)參數(shù)如下:

5.2 模型測試

5.2.1 SVM模型下不同核函數(shù)實(shí)驗(yàn)對比

模型測試是對模型訓(xùn)練學(xué)習(xí)性能的一種檢測,模型從訓(xùn)練數(shù)據(jù)集中獲取到參數(shù)后,在其它參數(shù)相同的條件下,分別對懲罰系數(shù)C取不同的值,并在表3測試樣本集構(gòu)成的測試樣本數(shù)據(jù)集下進(jìn)行測試,表4、表5‘-記號符表示當(dāng)前值為零。

5.2.2 SVM與Logistic回歸模型測試結(jié)果對比

Logistic回歸模型在以前的文本分類實(shí)驗(yàn)中,分類效果較好,因此本次實(shí)驗(yàn)選擇Logistic回歸模型與SVM模型對藏文文本分類性能進(jìn)行對比,其中實(shí)驗(yàn)的平臺、語料、文本特征項(xiàng)、特征項(xiàng)權(quán)重以及測試和訓(xùn)練數(shù)據(jù)集完全相同。

5.3 實(shí)驗(yàn)結(jié)果評價

(1)從上述表4與表5實(shí)驗(yàn)數(shù)據(jù)可以看出,當(dāng)核函數(shù)選擇LINEAR和POLY時比選擇RBF和SIGMOID的分類效果好,并且選擇核函數(shù)LINEAR和POLY自身分類效果較好。

(2)設(shè)定不同的懲罰參數(shù)C對分類效果具有一定影響,LINEAR和POLY變化趨勢相似。

(3)由選擇的特征向量中的值比較大,使特征向量內(nèi)積和差值相對很大,因此RBF和SIGMOID的分類效果不好。

(4)從表6測試結(jié)果可以看出,當(dāng)SVM核函數(shù)選擇為LINEAR和POLY并且在上述參數(shù)下,從整體參考值上看SVM的藏文本分類效果好于Logistic回歸文本分類效果。

6 總結(jié)

本文采用基于SVM模型的藏文文本分類實(shí)現(xiàn)過程中,為了降低模型的復(fù)雜度,對藏文文本特征提取時,忽略詞與詞之間聯(lián)系,因此假定詞與詞之間的互信息為零。實(shí)驗(yàn)驗(yàn)證了SVM模型對藏文文本具有良好的效果,因此后期會繼續(xù)研究藏文文本結(jié)構(gòu)形式,增大特征信息量,提高分類的效果。

參考文獻(xiàn)

[1]熊浩勇,基于SVM的中文文本分類算法研究與實(shí)現(xiàn)[D].武漢理工大學(xué),2008.

[2]李航,統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.

[3]崔建明,劉建明,廖周宇.基于SVM算法的文本分類技術(shù)研究[J].計算機(jī)仿真,2013.

[4]高定國,珠杰,藏文信息處理的原理與應(yīng)用[M].成都:西南交通大學(xué)出版社,2015.

[5]楊玉珍,劉培玉,朱振方,邱燁,應(yīng)用特征項(xiàng)分布信息的信息增益改進(jìn)方法研究[J].山東大學(xué)學(xué)報(理學(xué)版),2009.

[6]楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].吉林大學(xué),2013.

主站蜘蛛池模板: 国产jizz| 亚洲国产成人自拍| 日韩a级毛片| 无码AV动漫| 88av在线看| 国产高清在线丝袜精品一区| 国产亚洲高清视频| 色九九视频| 国产精品视频第一专区| 国产亚洲精品无码专| 毛片最新网址| 国产尤物视频在线| 国产成人精品亚洲77美色| 国产精品无码翘臀在线看纯欲| 少妇极品熟妇人妻专区视频| 亚洲资源站av无码网址| 亚洲va欧美va国产综合下载| 亚洲视频免| 国产福利一区二区在线观看| 五月婷婷综合网| 国产清纯在线一区二区WWW| 无码精油按摩潮喷在线播放 | 亚洲天堂视频网| 国产理论最新国产精品视频| 91成人在线观看视频| 国产福利2021最新在线观看| 中文字幕在线免费看| 五月婷婷丁香综合| 欧美三级不卡在线观看视频| 试看120秒男女啪啪免费| 日韩在线第三页| 国产精品女在线观看| 麻豆精品视频在线原创| 欧美在线黄| 国产区免费| 中文字幕啪啪| аⅴ资源中文在线天堂| 免费看的一级毛片| 蜜芽一区二区国产精品| 国产成人h在线观看网站站| 国模私拍一区二区| 一级成人a做片免费| 国产xxxxx免费视频| 亚洲精品第1页| 亚洲免费毛片| 亚洲永久精品ww47国产| 91精品免费高清在线| 99re热精品视频中文字幕不卡| 91av国产在线| 日韩在线播放中文字幕| 九月婷婷亚洲综合在线| 欧美成人午夜影院| 国产91无码福利在线| 久久一级电影| 一本一道波多野结衣一区二区| 免费Aⅴ片在线观看蜜芽Tⅴ| hezyo加勒比一区二区三区| 国产高清无码麻豆精品| 久久a级片| 欧美亚洲香蕉| 欧美色亚洲| 一本大道东京热无码av| 久久99热66这里只有精品一| 九九热精品视频在线| 精品国产欧美精品v| 欧美精品亚洲精品日韩专区| 5555国产在线观看| 中文字幕不卡免费高清视频| 特级做a爰片毛片免费69| 亚洲欧美激情小说另类| 国产不卡一级毛片视频| 伊人久综合| 亚洲男人的天堂久久精品| 欧美精品成人一区二区视频一| 久久黄色影院| 午夜福利在线观看入口| 五月婷婷亚洲综合| 天天综合网色| 在线看免费无码av天堂的| 亚洲AV无码一二区三区在线播放| 激情视频综合网| 青青草原国产av福利网站|