999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征擴展的半監督協同短文本分類方法研究

2018-01-04 12:02:04付學敏
電腦知識與技術 2018年29期

付學敏

摘要:短文本分類是數據挖掘的一個重要方面,半監督學習可以有效的解決標簽數據不足的問題。然而,短文本數據的稀疏性極大的限制了半監督學習算法的應用。因此本文提出一種基于特征擴展的半監督協同短文本分類方法。該方法能改善文本的稀疏性問題,實驗結果表明,本文所提方法可以有效的提高已有半監督算法的分類精度。

關鍵詞:稀疏性;分類精度;半監督算法;短文本分類

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)29-0205-03

Abstract:Short text classification is an important aspect of data mining. Semi-supervised learning can effectively solve the problem of insufficient label data. However, the sparsity of short text data greatly limits the application of semi-supervised learning algorithms. Therefore, this paper proposes a semi-supervised collaborative short text classification method based on feature extension. This method can improve the sparsity of texts. The experimental results show that the proposed method can effectively improve the classification accuracy of existing semi-supervised algorithms.

1引言

隨著互聯網的發展,網絡文本如博客、微博、產品評論等也隨之大量涌現,這類數據包含了大量有價值的信息,然而這類數據往往缺失標簽信息,因此,研究半監督的文本分類算法具有十分重要的意義。

半監督算法旨在利用少量的標簽數據和大量無標簽數據構建高性能分類器,解決標簽數據不足的問題。當前的半監督算法主要分為增量式半監督學習算法和基于圖的半監督學習算法。增量式半監督學習算法[1][2],以迭代方式根據某種選擇方法選擇部分較為信任的樣本加入標簽數據集來對分類器進行重新訓練。而基于圖的半監督學習算法如[3],將樣本表示成圖中的頂點,樣本間的相似性表示成頂點間的邊,迭代的將樣本的標簽通過圖傳遞給未標記文本。這些方法一定程度上解決了樣本標簽數據不足問題,提高了最終的分類精度。

然而在文本分類中,數據普遍具有的稀疏性,從而極大的限制了半監督算法的運用[4],這在網絡文本上尤其明顯。在增量式半監督學習算法中,數據的稀疏性使得特征出現的頻率不高,在標簽文本中訓練的分類器很容易出現過擬合現象,導致分類精確度較低,影響了增量式半監督學習算法的后續迭代過程[5]。

本文提出一種基于特征擴展的半監督協同短文本分類方法,該方法首先利用無標簽文本數據統計特征間的共現關系,根據該共現關系計算特征間的相似度,然后針對文本中未出現的特征,計算特征與該文本中所有特征的相似性,用相似性較高的部分特征擴充原有特征空間,最后分別在原始數據和擴展數據上訓練分類器,迭代的選擇預測標簽一致的無標簽文本加入訓練集。

2 基于特征擴展的半監督協同短文本分類方法(co-self-training svm)原理

2.1基本思想

給定僅包含少量標簽的文本數據[L=xi,yimi=1]和大量無標簽數據[U=(xi)ni=m+1],(m<

首先,利用特征在文本中的頻率作為權重對x進行向量化表示,[x=],其中[tffi,x]為特征[fi]在文本[x]中出現的次數。文本數據普遍具有一定的高維稀疏性,即大多數[tffi,x]值為0,從而影響分類精度。因此,本文通過擴充樣本的特征空間來改善文本的稀疏性,然后利用半監督算法訓練得到一個高效的分類器。

2.2特征擴展方法

3.3方法準確率對比

表1列出了算法的實驗結果對比,從表中可以看出,modified self-training svm算法和modified LP算法實驗結果平均都大于基本的self-training svm算法和LP算法一個百分點,這證明了本文頻率擴展方法可以有效的改善文本的稀疏性,提高半監督學習算法的效率,同時,本文提出的co-self-training svm算法實驗結果高于所有的其他算法的實驗結果,這顯示了本文算法的有效性。

4 本文小結

針對半監督環境下短文本數據的稀疏性問題,本章提出一種基于特征擴展的半監督協同短文本分類方法,首先使用頻率擴展方法改善文本的稀疏性,并使用擴展后文本和原始文本協同訓練半監督算法。實驗表明,在相同的數據集上,本章提出的算法在文本上分類性能優于所有其他基本算法。

參考文獻:

[1] 鄭文靜,李雷. 基于聚類核的半監督情感分類算法研究[J].計算機技術與發展,2016(12):87-91.

[2] 蘇艷,居勝峰,王中卿,等.基于隨機特征子空間的半監督情感分類方法研究[J].中文信息學報. 2012(04):85-90.

[3] 郭濤,李貴洋,蘭霞.基于圖的半監督協同訓練算法[J].計算機工程與設計.2012(09):3584-3587.

[4] 孫學琛,高志強.基于半監督學習的短文本分類方法[J].山東理工大學學報(自然科學版).2012(01):1-4.

[5] 王玨,周志華,周傲英.機器學習及其應用[M].北京:清華大學出版社,2006.

[6] 黃建校,邵曦. 一種改進的SVM增量學習算法研究[J].無線互聯科技,2017(03):46-49.

[7] 劉家辰.集成單類分類算法及其應用研究[D].西安電子科技大學,2015.

[8] 馮愛民.結構驅動的單類分類器設計及拓展研究[D].南京航空航天大學,2011.

【通聯編輯:唐一東】

主站蜘蛛池模板: 在线观看无码a∨| 国产性生大片免费观看性欧美| 美女被躁出白浆视频播放| 国产区免费| 亚洲经典在线中文字幕| 欧美午夜理伦三级在线观看| 国产精品hd在线播放| 国产三级视频网站| 国产96在线 | 亚洲国产成人超福利久久精品| 国产精品亚洲αv天堂无码| 亚洲婷婷丁香| 久久99国产视频| 无码精品国产VA在线观看DVD| 中文字幕日韩视频欧美一区| 亚洲精品大秀视频| av一区二区人妻无码| 国产成人高清在线精品| 国产日韩欧美精品区性色| 狠狠色丁香婷婷综合| 国产第一页第二页| 日韩欧美国产区| 国产精品内射视频| 欧美日韩一区二区在线播放| 中国丰满人妻无码束缚啪啪| 亚洲av日韩综合一区尤物| 一本久道久综合久久鬼色| 中文字幕欧美成人免费| 黄色a一级视频| 国内精品视频区在线2021| 91人妻日韩人妻无码专区精品| 国产区精品高清在线观看| 亚洲系列无码专区偷窥无码| 91久久精品国产| 丁香婷婷久久| 色视频国产| 国产女同自拍视频| 亚洲国产成人精品青青草原| 欧美精品v欧洲精品| 免费一级全黄少妇性色生活片| 亚洲欧美成人网| 午夜国产小视频| 中日无码在线观看| 国产日韩欧美在线视频免费观看| 国产无码精品在线播放 | 亚洲国产系列| 精品福利视频导航| 欧美亚洲第一页| 久久香蕉欧美精品| 亚洲综合18p| 欧美一区二区啪啪| 国产农村1级毛片| 国内精品久久久久鸭| 一级毛片在线播放| 国产门事件在线| 欧洲一区二区三区无码| 精品久久久久久中文字幕女| 亚洲色欲色欲www在线观看| 2019国产在线| 中文字幕久久波多野结衣 | 在线人成精品免费视频| 精品国产自在现线看久久| 免费人成网站在线观看欧美| 免费无码又爽又黄又刺激网站| 久久精品国产免费观看频道| 亚洲精品视频免费看| 欧美一级黄片一区2区| 本亚洲精品网站| 精品国产欧美精品v| 欧美精品v欧洲精品| 日本高清免费不卡视频| 国产香蕉国产精品偷在线观看 | 久草网视频在线| 亚洲国产精品无码AV| 国产你懂得| 自偷自拍三级全三级视频| 一级福利视频| 激情无码字幕综合| 国产AV无码专区亚洲A∨毛片| a网站在线观看| 欧美精品亚洲精品日韩专区va| 真实国产乱子伦视频|