999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)ML-KNN算法的文本分類研究

2020-03-24 08:47:55邢娟韜白金牛
科技創(chuàng)新與應(yīng)用 2020年9期

邢娟韜 白金牛

摘? 要:由于傳統(tǒng)ML-KNN算法數(shù)據(jù)集中每個特征具有相同權(quán)重,與事實上的不同特征具有不同權(quán)重相違背,故提出對ML-KNN算法的改進(jìn),用ML-KNN來構(gòu)建分類模型進(jìn)行分類。為驗證該算法的分類效果,選取算法常用的衡量標(biāo)準(zhǔn)與其他兩種算法比較,結(jié)果表明由改進(jìn)ML-KNN算法構(gòu)造的模型要優(yōu)于其他兩種算法,能有效表達(dá)多領(lǐng)域數(shù)據(jù)集分類問題,算法效果更好。

關(guān)鍵詞:多標(biāo)記學(xué)習(xí);ML-KNN;最近鄰;聚類;距離權(quán)重

中圖分類號:TP311? ? ? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號:2095-2945(2020)09-0025-03

Abstract: Because each feature in the data set of the traditional ML-KNN algorithm has the same weight, which is contrary to the fact that different features have different weights, an improvement to the ML-KNN algorithm is proposed, which uses ML-KNN to build a classification model for classification. In order to verify the classification effect of the algorithm, the commonly used criteria of the algorithm are compared with the other two algorithms. The results show that the model constructed by the improved ML-KNN algorithm is better than the other two algorithms, and can effectively express the classification problem of multi-domain data sets, and the effect of the algorithm is better.

Keywords: multi-marker learning; ML-KNN; nearest neighbor; clustering; distance weight

1 概述

傳統(tǒng)的單標(biāo)記分類任務(wù)是將一個樣本映射到單個類別標(biāo)簽L(L=1)中;當(dāng)L=2,該分類問題就是“二類分類”;當(dāng)L>2,該分類就是“多類分類”,也稱為多標(biāo)記分類問題[1-2]。該方法已應(yīng)用到很多新的領(lǐng)域,如音樂分類[3]、蛋白質(zhì)功能分類[4]、Web挖掘[5]以及圖像和視頻的語義分類[6-9]。ML-KNN(Multi-Label K-Nearest Neighbor)就是典型的多標(biāo)簽分類算法。在ML-KNN算法中的數(shù)據(jù)集,每個特征具有相同的特征權(quán)重。事實上,對于數(shù)據(jù)集中的每一個樣本,它的k個近鄰的標(biāo)簽集合理論上應(yīng)該跟它自身的標(biāo)簽集合有一定程度上的相似,這種相似度會隨著近鄰到樣本距離的改變而改變,而且距離大,相似度越小。故不同特征所承擔(dān)不同權(quán)重,ML-KNN算法并沒有講這一問題,故提出對ML-KNN算法的改進(jìn)。

2 方法描述

2.1 ML-KNN算法

ML-KNN算法思想:給定一個分類預(yù)測點x,計算預(yù)測點到訓(xùn)練數(shù)據(jù)集中所有點的距離。采用交叉驗證方法得到最優(yōu)K值,結(jié)合貝葉斯方法并運(yùn)用最大化后驗概率,由式(1)得到預(yù)測點x的預(yù)測結(jié)果Y。

2.2 改進(jìn)ML-KNN算法

基于上文提出的ML-KNN算法弊端,利用權(quán)重來解決這一問題。提出新的分類函數(shù):

其中:w表示由x的最近鄰到x的距離所轉(zhuǎn)換而來的權(quán)重,也是x的最近鄰在本文改進(jìn)算法中的權(quán)重;1-w則表示x的k個近鄰的權(quán)重;NNx(li)表示x的最近鄰樣本是否含有l(wèi)i標(biāo)簽,可能為0可能為1。w取最合適的高斯函數(shù):w=a?鄢e■,a和c是常數(shù);d表示歐式距離。算法具體步驟如下:

輸入:訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集。

輸出:分類結(jié)果。

(1)利用k-means聚類算法將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分別分為r(R1,R2,...Rr)個聚類中心,t(T1,T2,...,Tr)個聚類中心;

(2)計算Ti到Rj的歐式距離D(Ti,Rj),其中i=1,2,...,t,j=1,2,...,r;

(3)取2步驟中最短的歐式距離記為Rj,其中j=1,2,...,r;

(4)將Ti對應(yīng)的簇作為新的測試集,記為NewY;

(5)將3步得到的Rj對應(yīng)的簇作為新的訓(xùn)練數(shù)據(jù),記為NewX;

(6)對于每一個xu∈NewX,計算每一個li∈L的先驗概率:

(7)采用交叉驗證法得到xu的K個近鄰,獲取最近鄰距離d,并運(yùn)用上文提及的高斯函數(shù)轉(zhuǎn)化為w;

(8)計算li∈L的后驗概率:

(9)利用新的分類函數(shù)2式計算每一個zv∈NewY擁有l(wèi)i的后驗概率,得到終極結(jié)果。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集和文本預(yù)處理

本文實驗數(shù)據(jù)來自新浪微博平臺,通過爬蟲獲得,共計4000多條,其中訓(xùn)練樣本3000條,測試樣本1000條,訓(xùn)練樣本集包含時尚、娛樂、體育、新聞、影視、科技、美食、人文、醫(yī)藥、護(hù)膚、情感、歷史、經(jīng)濟(jì)、健康、游戲15個標(biāo)簽類別。具體如下:

本文使用jieba中文分詞模塊對樣本博文進(jìn)行分詞,可以有效處理未登錄詞語的識別問題,能夠適應(yīng)市場需求,使用TP-IDF方法實現(xiàn)文本的特征提取。

3.2 評價指標(biāo)

本文選取5個常用的多標(biāo)簽評價指標(biāo):漢明損失、1-錯誤率、覆蓋率、排序損失、平均精度。其中,漢明損失、1-錯誤率、覆蓋率、排序損失的值越小表示分類性能越好,平均精度的值越大表示分類性能越好。

3.3 實驗結(jié)果分析

由上述算法的描述可知,有最近鄰K 值、高斯函數(shù)a、c兩個參數(shù)、訓(xùn)練數(shù)據(jù)r個聚類簇數(shù)、測試樣本t個聚類簇數(shù)。其中K值由交叉驗證法取15,a、c取值如表2,為了驗證改進(jìn)ML-KNN算法的性質(zhì),將改進(jìn)ML-KNN算法記為:AML-KNN,文獻(xiàn)[10]中提出的改進(jìn)算法稱為BML-KNN,在MATLAB上實現(xiàn)。

由表2可知:當(dāng)a=10、c=1/2時,算法效果最好。同時由上述算法易知:不同聚類簇數(shù)對本文算法也有至關(guān)重要的影響,如表3所示,當(dāng)a、c確定時,聚類簇數(shù)不同對算法性能的影響。

表3 數(shù)據(jù)集上不同聚類簇數(shù)的影響

由表3可知,本文所選數(shù)據(jù)集在r=2,t=2效果最好。

4 結(jié)束語

針對ML-KNN算法中的數(shù)據(jù)集,每個特征具有相同的特征權(quán)重這一問題,對ML-KNN算法優(yōu)化,結(jié)合聚類和最近鄰距離權(quán)重,本文提出的改進(jìn)ML-KNN算法在實驗結(jié)果上,取得了很好的分類效果,并且在多標(biāo)簽評價指標(biāo)上也優(yōu)于其他兩種算法。

參考文獻(xiàn):

[1]Gao Sheng,Wu Wen,Lee C H,et al.A MFoM learning approach to robust multiclass multi-label text categorization[C]//Proc of the 21st International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publisher,2004:329-336.

[2]Zhang Minling, Zhang Kun. Multi-label learning by exploiting label dependency[C]//Proc of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2010:999-1007.

[3]Li Tao,Ogihara M.Toward intelligent music information retrieval[J].IEEE Trans on Multimedia,2006,8(3):564-574.

[4]Zhang Minling,Zhou Zhihua.Multi-label neural networks with applications to functional genomics and text categorization[J].IEEE Trans on Knowledge and Data Engineering,2006,18(10):1338-1351.

[5]Tang Lei,Rajan S, Narayanan V K. Large scale multi-label classification via metalabeler[C]//Proc of the 19th International

主站蜘蛛池模板: 婷婷午夜天| 全免费a级毛片免费看不卡| 色婷婷电影网| 无码精油按摩潮喷在线播放| 国产福利一区二区在线观看| 一级毛片视频免费| 不卡无码h在线观看| 99999久久久久久亚洲| 国产91熟女高潮一区二区| 五月婷婷综合在线视频| 国产va在线观看| 国产人前露出系列视频| 午夜视频日本| 国产亚洲精品97在线观看| 人妻中文字幕无码久久一区| 婷婷亚洲综合五月天在线| 九九热精品视频在线| 中文字幕在线视频免费| 国产亚洲精品yxsp| 人与鲁专区| 国产区在线观看视频| 真人高潮娇喘嗯啊在线观看| 一级福利视频| 手机在线免费不卡一区二| 国产美女自慰在线观看| 欧美成人影院亚洲综合图| 男女男免费视频网站国产| 综合色88| 99精品在线视频观看| 国产h视频在线观看视频| 亚洲综合一区国产精品| 国产一级视频在线观看网站| 国产欧美视频一区二区三区| 天天视频在线91频| 亚洲中久无码永久在线观看软件| 久久公开视频| 亚洲第七页| 国产在线精品99一区不卡| 欧洲欧美人成免费全部视频| 男人天堂伊人网| 亚洲国产欧美中日韩成人综合视频| 亚洲人免费视频| 91在线激情在线观看| 2021最新国产精品网站| 国产成人高清精品免费| 99在线观看国产| 99久久精品国产麻豆婷婷| 在线国产综合一区二区三区 | 久久一日本道色综合久久| 国产欧美日韩另类精彩视频| 91福利在线看| 日本一本正道综合久久dvd| 国产乱人伦AV在线A| 婷婷亚洲最大| 手机在线国产精品| 亚洲日产2021三区在线| 欧美黄网站免费观看| 日韩中文精品亚洲第三区| 亚洲成人播放| 亚洲综合二区| 免费看美女自慰的网站| 国产精品天干天干在线观看| 不卡国产视频第一页| 国产麻豆永久视频| 日韩小视频网站hq| 国产成人精品无码一区二| AV网站中文| 久久亚洲AⅤ无码精品午夜麻豆| 国产综合网站| 最新国语自产精品视频在| 国产黄网永久免费| 97av视频在线观看| 一级毛片免费不卡在线| 中文字幕在线看| 女人18毛片久久| 国产成人综合欧美精品久久 | 久久9966精品国产免费| 在线观看网站国产| 婷婷99视频精品全部在线观看| 亚洲男人天堂久久| 美女一级毛片无遮挡内谢| 国产成人无码AV在线播放动漫 |