999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于FastText的新聞文本多分類研究

2020-05-28 09:36:21張超超盧新明
軟件導刊 2020年3期

張超超 盧新明

摘 要:在迅速增加的海量數(shù)據(jù)中,文本形式的數(shù)據(jù)占很大比重。文本分類作為最常見的文本挖掘技術(shù),可在大量雜亂的文本數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,具有重要意義。文本分類面臨的首要問題是如何在確保分類準確率的同時縮短分類時間。提出使用分類模型FastText學習單詞特征以解決該問題,同時在數(shù)據(jù)集上使用停用詞處理方法降低噪聲數(shù)據(jù)對分類模型的影響。實驗結(jié)果表明,使用FastText文本分類模型在數(shù)據(jù)集上準確率達到96.11%,比傳統(tǒng)模型提高近4%,且模型處理每條文本的平均時間為1.5ms,縮短了約1/3。

關(guān)鍵詞:文本分類;詞向量;FastText;停用詞;噪聲數(shù)據(jù)

DOI:10. 11907/rjdk. 192499

中圖分類號:TP301 ? 文獻標識碼:A??????????????? 文章編號:1672-7800(2020)003-0044-04

Research on News Text Classification Based on FastText

ZHANG Chao-chao, LU Xin-ming

(College of Computer Science and Engineering, Shandong University of Science and Technology,Qingdao 266590,China)

Abstract: With the rapid increase of the amount of data, textual data accounts for a large proportion. Text classification, as the most common text mining technology, is of great significance for finding valuable information in a large amount of messy text data. In the field of text classification, the primary goal is to reduce the classification time while ensuring the classification accuracy. Therefore, this paper uses the classification model FastText to learn the word features to solve the current problem. In addition, a stop word processing method is used to reduce the influence of noise data on the classification model. The experimental results show that the accuracy rate of FastText text classification model is 96.11%, which is nearly 4% higher than the traditional model. Furthermore the time spent by the model in processing each text was 1.5m/s on average, which was reduced by about 1/3.

Key Words: text classification; term vectors; FastText; stop words; noise data

0 引言

文本分類最初使用基于特定規(guī)則[1]的方法。先收集關(guān)于待分類文本領(lǐng)域內(nèi)專家知識和經(jīng)驗,將其組織成一系列分類規(guī)則[2],然后根據(jù)這些分類規(guī)則進行文本分類。文獻[3]使用基于降噪自動編碼器的中文文本分類方法;文獻[4]提出一種基于維基百科的文本分類規(guī)則。雖然這些分類方法處理特定領(lǐng)域的文本有很好的效果,但概括分類領(lǐng)域所有知識并制定相關(guān)分類規(guī)則需消耗大量人力成本,所以該類方法適用性較差。此外,當文本無法依照現(xiàn)有規(guī)則進行分類時,需重新獲取文本并歸納規(guī)則再進行分類,因此該類方法泛化性也較差。相比而言,本文FastText模型無需較多人工訓練模型,僅對訓練數(shù)據(jù)集作簡單的預處理后即可放入模型進行訓練,且在新分類任務出現(xiàn)時,模型只需更新迭代訓練之后即可完成新任務,大幅降低了人力、物力成本。

隨著人工智能的飛速發(fā)展,機器學習算法在文本分類中的應用成為自然語言處理研究熱點。文獻[5]提出將Word2vec應用于文本分類研究;文獻[6]采用LDA與SVM算法結(jié)合的文本分類。這些方法將文本數(shù)據(jù)改為以向量的形式輸入,所有數(shù)據(jù)被分為一定比例的訓練集和測試集,利用分類模型進行訓練和測試,并將模型分類結(jié)果與原有類別對比作為分類算法效果的證明。目前已有多種機器學習算法應用于文本分類。趙剛等[7]在基于機器學習的商品評論情感分析模型研究中,通過集群技術(shù)刪除數(shù)據(jù)集中的正面例子以得到更多負面例子,使用改進的詞頻率逆文檔頻率(tf-idf)進行特征提取,與支持向量機相結(jié)合改進Rocchio分類器構(gòu)建,以提高分類準確性。但是這類方法大都忽略了詞與詞之間的句法形態(tài),導致最終分類效果只能在90%左右。本文FastText模型通過學習單詞特征,關(guān)聯(lián)上下文單詞詞義并將其作為分類結(jié)果,使詞頻不同但相互之間有所聯(lián)系的單詞在分類任務中發(fā)揮一定作用。

其中σ(?)表示 Sigmoid 函數(shù)[4],LC(n)表示 n 節(jié)點的左孩子,[x]是一個特殊函數(shù),其定義如式(5)所示。

[θn(yj,l)]為節(jié)點[n(yj,l)]的參數(shù)。X是輸入。從根節(jié)點到[y2]的路徑長度為[L(y2)=4]。這樣在經(jīng)過分層Softmax處理之后,模型計算復雜度從[O(k)]降低至[O(log(k))],資源耗費大幅降低。

3 實驗與分析

3.1 實驗數(shù)據(jù)

本文數(shù)據(jù)集包括來自搜狗新聞的50 000條訓練集與10 000條測試集,分別有體育、財經(jīng)、房產(chǎn)、家居、教育、科技、時尚、時政、游戲和娛樂10個類別。

因為新聞數(shù)據(jù)集為中文文本,分詞工具為Python中jieba分詞工具,jieba分詞有3種模式,本文根據(jù)實際文本序列長度,采用其中的精確模式,jieba分詞前后文本樣例如圖3所示。

為降低文本分類器計算復雜度、提高分類器分類效率,需在將文本語料轉(zhuǎn)化為特征向量前對文本作降維處理,方法為去掉文本中對分類沒有意義的停用詞和低頻詞,同時去掉文本中的表情、網(wǎng)址、特殊符號,以減小特征詞典大小,減少噪音數(shù)據(jù)對分類模型的影響。

3.2 實驗結(jié)果

由圖4、圖5可知,分類器在測試集上的測試結(jié)果比較理想,精確率為96.11%,閾值為60%時,精確率為?? 0.985 2%,召回率為0.966 1%,F(xiàn)1分數(shù)為0.975 6%。本文數(shù)據(jù)集文本質(zhì)量相對較好,所以訓練后的分類器在測試集上的表現(xiàn)比較好,測試集每條文本對應的測試label打分均相對較高。

4 結(jié)語

本文首先簡要介紹了常用文本分類方法,然后闡述了文本分類理論與技術(shù)。根據(jù)新聞文本特點,在新聞文本預處理過程中,將地點名詞加入到常用停用詞表中,去除了更多對文本表達無意義的詞,分類效果得以改進。通過實驗數(shù)據(jù)綜合對比,可以觀察到本文提出的FastText算法模型與傳統(tǒng)機器學習算法相比,在訓練速度、預測速度和準確率上均有明顯提升,證明本文模型具有較高的使用價值。

參考文獻:

[1]段旭磊,張仰森,孫祎卓. 微博文本的句向量表示及相似度計算方法研究[J]. 計算機工程,2017, 43(5): 143-148.

[2]范云杰,劉懷亮. 基于維基百科的中文短文本分類研究[J]. 現(xiàn)代圖書情報技術(shù),2012(3):47-52.

[3]劉紅光,馬雙剛,劉桂鋒. 基于降噪自動編碼器的中文新聞文本分類方法研究[J]. 現(xiàn)代圖書情報技術(shù), 2016(6): 12-19.

[4]趙輝,劉懷亮. 一種基于維基百科的中文短文本分類算法[J]. 圖書情報工作,2013,57(11): 120-124.

[5]張謙,高章敏,劉嘉勇. 基于Word2vec的微博短文本分類研究[J]. 信息網(wǎng)絡安全, 2017(1): 57-62.

[6]宋鈺婷,徐德華. 基于LDA和SVM 的中文文本分類研究[J]. 現(xiàn)代計算機(專業(yè)版),2016(5): 18-23.

[7]趙剛,徐贊. 基于機器學習的商品評論情感分析模型研究[J]. 信息安全研究, 2017, 3(2): 166-170.

[8]金志剛,韓玥,朱琦. 一種結(jié)合深度學習和集成學習的情感分析模型[J]. 哈爾濱工業(yè)大學學報,2018, 50(11): 32-39.

[9]梁喜濤,顧磊. 中文分詞與詞性標注研究[J]. 計算機技術(shù)與發(fā)展,2015,25(2):175-180.

[10]徐戈,王厚峰. 自然語言處理中主題模型的發(fā)展[J]. 計算機學報,2011,34(8):1423-1436.

[11]劉德喜,聶建云,張晶,等. 中文微博情感詞提取:N-Gram為特征的分類方法[J]. 中文信息學報, 2016, 30(4): 193-205, 212.

[12]萬紅新,彭云,鄭睿穎. 時序化LDA的輿情文本動態(tài)主題提取[J]. 計算機與現(xiàn)代化, 2016(7): 91-94.

[13]李鵬,于巖,李英樂,等. 基于權(quán)重微博鏈的改進LDA微博主題模型[J]. 計算機應用研究,2016, 33(7):2018-2021.

[14]KORDE V,MAHENDER C N. Text classification and classifiers: a survey[J]. International Journal of Artificial Intelligence & Applications (IJAIA), 2012,3(2):86-99.

[15]CARPENTER B. Integrating out multinomial parameters in latent Dirichlet allocation and naive Bayes for collapsed Gibbs sampling[R]. ALIAS:2010.

[16]GOUDJIL M, KOUDIL M, BEDDA M, et al. A novel active learning method using SVM for text classification[J]. International Journal of Automation & Computing, 2015(1): 1-9.

[17]TONG S,KOLLER D. Support vector machine active learning with applications to text classification[J]. Journal of Machine Learning Research,2001,2(11):45-66.

[18]BAHASSINE S, MADANI A, KISSI M. An improved Chi-sqaure feature selection for Arabic text classification using decision tree[C]. International Conference on Intelligent Systems: Theories and Applications,2016: 2378-2536.

[19]SCHAPIRE R E,SINGER Y. Machine learning[M]. Cambridge:MIT Press,2000.

[20]MARUF S, JAVED K, BABRI H A. Improving text classification performance with random forests-based feature selection[J]. Arabian Journal for Science & Engineering, 2016, 41(3): 951-964.

(責任編輯:江 艷)

收稿日期:2019-11-14

基金項目:國家重點研發(fā)計劃項目(2017YFC0804406);山東省重點研發(fā)計劃項目(2016ZDJS02A05)

作者簡介:張超超(1994-),男,山東科技大學計算機科學與工程學院碩士研究生,研究方向為自然語言處理;盧新明(1961-),男,博士,山東科技大學計算機科學與工程學院教授、博士生導師,研究方向為數(shù)字礦山軟件、CAD、計算機圖形學。

主站蜘蛛池模板: 国产男女免费视频| 一区二区午夜| 亚洲无线国产观看| 成人亚洲视频| 青青青草国产| 黄色网页在线观看| 久久中文字幕av不卡一区二区| 免费一级无码在线网站| 无码中字出轨中文人妻中文中| 国产97区一区二区三区无码| 欧美视频在线不卡| 国内精品一区二区在线观看| 99视频在线免费观看| 日本不卡免费高清视频| 国产欧美日韩18| a网站在线观看| 精品国产成人av免费| 亚洲午夜综合网| 久久精品66| 成人福利一区二区视频在线| 免费毛片视频| 国产成人无码久久久久毛片| 亚洲大学生视频在线播放| 亚洲 欧美 偷自乱 图片| 无码专区在线观看| a色毛片免费视频| 国产亚洲精品97在线观看| 亚洲日本韩在线观看| 无码日韩视频| 久久人与动人物A级毛片| 朝桐光一区二区| 99久久精品久久久久久婷婷| 欧美日本在线| 99爱视频精品免视看| 日日摸夜夜爽无码| 精品无码国产一区二区三区AV| 久久国产精品波多野结衣| 国产一区二区三区在线精品专区| 欧美不卡视频在线| 亚洲欧洲天堂色AV| 日韩 欧美 国产 精品 综合| 欧美日本视频在线观看| 91精选国产大片| 日韩欧美高清视频| 三上悠亚一区二区| 高h视频在线| 亚洲成a人片| 99精品免费欧美成人小视频| 青草视频久久| 91亚洲视频下载| 亚洲Av激情网五月天| 亚洲欧美另类日本| 久久99精品久久久久久不卡| 国产菊爆视频在线观看| 91麻豆国产视频| 一级全黄毛片| 亚洲无码视频喷水| 国产性生大片免费观看性欧美| 国产欧美日韩视频怡春院| 欧美激情,国产精品| 免费毛片全部不收费的| 亚亚洲乱码一二三四区| 国产欧美自拍视频| 永久成人无码激情视频免费| 97国产精品视频自在拍| 精品91视频| 国产白浆视频| 日韩精品无码免费一区二区三区 | 日本精品一在线观看视频| 欧美激情首页| 亚洲综合第一区| 久久永久视频| 国产精品lululu在线观看| 亚洲视频免| 中文字幕在线观| 高清无码一本到东京热| 新SSS无码手机在线观看| 日韩黄色精品| 亚洲欧洲自拍拍偷午夜色| 久久精品亚洲热综合一区二区| 性做久久久久久久免费看| 凹凸国产分类在线观看|