999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本分類概述

2021-03-15 06:59:23栗征征
電腦知識(shí)與技術(shù) 2021年1期

栗征征

摘要:在大數(shù)據(jù)時(shí)代,隨著網(wǎng)絡(luò)上的文本數(shù)據(jù)日益增長,文本分類技術(shù)顯得越來越重要,是文本挖掘領(lǐng)域的熱點(diǎn)問題,具有廣闊的應(yīng)用場景。文本分類方法的研究開始于20世紀(jì)50年代,一直受到人們的廣泛關(guān)注。該文從文本分類的流程出發(fā),簡要介紹文本分類的一般流程以及每一步驟中涉及的主要技術(shù)。主要包括預(yù)處理部分的分詞、去停詞和文本表示方法、特征降維和分類算法,分析了各種方法的優(yōu)缺點(diǎn)并總結(jié)。

關(guān)鍵詞:文本分類;預(yù)處理;特征降維;分類算法

中圖分類號(hào):TP3? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)01-0229-02

1文本分類簡介

概念:文本分類是自然語言處理中的重要學(xué)科,其目的是在已知的分類中,根據(jù)給定文本內(nèi)容自動(dòng)確定其所屬文本類別的過程。

文本分類可分兩個(gè)階段:訓(xùn)練與測試,每個(gè)階段又涉及預(yù)處理、特征降維、訓(xùn)練分類器三個(gè)步驟。預(yù)處理包括分詞、去停詞、文本表示等;特征降維主要用到的方法有詞頻-逆文檔頻率(tf-idf)、卡方統(tǒng)計(jì)等;目前主流的分類器包括:支持向量機(jī)(SVM)、樸素貝葉斯(NB)、K近鄰等[1]。如圖1所示。

預(yù)處理:將文本數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)可處理形式。

特征選擇:由于文本內(nèi)容復(fù)雜,難以用簡單的方法表示,一般情況下文本的特征會(huì)達(dá)到很高的維度,特征選擇可以降低維度從而使運(yùn)算速度和準(zhǔn)確率得到提高。

分類器:對(duì)分類器進(jìn)行訓(xùn)練。

2關(guān)鍵技術(shù)

2.1 預(yù)處理

預(yù)處理主要包括兩大部分:分詞、去停用詞和文本表示。

(1)分詞、去停用詞

分詞。中文文本與英文文本的分詞區(qū)別在于英文可以根據(jù)空格來將詞語分開,中文則需要用一定算法來講文本分為詞序列。分詞是自然語言處理的中的第一步,對(duì)中文來說更為重要。在目前的文本分類研究中,大多使用成熟的分詞系統(tǒng)如jieba分詞,來進(jìn)行分詞的工作,可以取得較好的效果。

去停用詞。在文本中會(huì)使用無實(shí)意的虛詞、代詞、名詞等,這些詞的出現(xiàn)頻率高,而且對(duì)文本的分析無太大影響,更會(huì)加重運(yùn)算負(fù)擔(dān),因此需要將此類詞語去除[2]。

(2)文本表示

文本表示:將文本轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的數(shù)據(jù)的過程稱之為文本表示。

文本表示模型主要有:

布爾模型:用0或1來代表特征詞的權(quán)重。當(dāng)某詞語在文檔中出現(xiàn)過時(shí),該詞的權(quán)重值為1。

向量空間模型:向量空間模型利用特征向量表示文本,文本集合中的詞條作為表示文本的特征項(xiàng)。

向量空間模型又分為獨(dú)熱表示與分布式表示。獨(dú)熱表示或稱淺層表示,是最簡單的向量空間模型,獨(dú)熱表示用一個(gè)維度為詞典大小的向量來表示所有詞。詞語m的向量表示為:m在詞典中的索引位置為1,其他位置為0[3]。

獨(dú)熱表示簡單易懂,因此其缺點(diǎn)也比較明顯,一是:向量的維度為字典大小,容易造成維數(shù)災(zāi)難;二是:任意兩個(gè)詞之間都是孤立的,無法表示上下文關(guān)系。

分布式表示目前比較熱門的為基于神經(jīng)網(wǎng)絡(luò)的分布式表示,即詞嵌入(word embedding)。

傳統(tǒng)的獨(dú)熱表示僅僅將詞符號(hào)化,不包含任何語義信息。詞嵌入表示方法與獨(dú)熱表示不同的地方在于它可以刻畫詞與上下文的關(guān)系,用向量代表詞[4]。它的表示模型有CBOW( Continuous Bag-of-Words)和 Skip-gram 模型等,目前的實(shí)現(xiàn)工具主要用word2vec。

2.2特征降維

目前主要的特征降維方法有:詞頻-逆文檔頻率(tf-idf)、信息增益(IG)、X2統(tǒng)計(jì)等。

如圖2所示,5條分類線都可以實(shí)現(xiàn)將樣本分為兩類,但是由SVM得到的分類器H與兩個(gè)類別的間隔較大,因此有較好的分類性能。

SVM是二分類器,將其運(yùn)用到多分類時(shí)需要進(jìn)行拓展,主要有兩種方法,分別是:

直接求解法:修改目標(biāo)函數(shù),將多分類任務(wù)的所有面的參數(shù)求解看作一個(gè)中體,在解該最優(yōu)化問題時(shí),一次性實(shí)現(xiàn)多類分類。

間接求解法:

將多分類問題分為多個(gè)二分類任務(wù),即組合若干二分類器,主要思想有兩種:

①任意兩類使用一個(gè)SVM來進(jìn)行分類,即有m個(gè)類別就需要訓(xùn)練m(m-1)/2個(gè)SVM分類器。

最終進(jìn)行分類任務(wù)時(shí),將所有分類器進(jìn)行統(tǒng)計(jì),得票最多的即為該文本所屬類別。

②每一個(gè)類別與其他所有類別為一組,有m個(gè)類別就分為m組,對(duì)每一組都構(gòu)造一個(gè)分類器,最終進(jìn)行分類任務(wù)時(shí),將所有分類器進(jìn)行統(tǒng)計(jì),概率最高的即為該文本所屬類別。

(3)SVM與NB優(yōu)缺點(diǎn)總結(jié)

3總結(jié)

隨著數(shù)據(jù)的爆照式增長,文本分類越來越重要。本文闡述了目前文本分類任務(wù)的各部分工作,簡要介紹了文本預(yù)處理、特征降維和分類器的原理這三個(gè)方面。隨著技術(shù)的更新,分類的效率及準(zhǔn)確率還會(huì)有進(jìn)一步的提升。

參考文獻(xiàn):

[1] 徐冠華,趙景秀,楊紅亞,等.文本特征提取方法研究綜述[J].軟件導(dǎo)刊,2018,17(5):13-18.

[2] 高寧杰.基于SVM模型優(yōu)化的互聯(lián)網(wǎng)新聞自動(dòng)分類研究[D].開封:河南大學(xué),2019.

[3] 賀心皓. 基于支持向量機(jī)的文本分類研究[D].成都:成都信息工程大學(xué),2019.

[4] 王旌舟.中文文本分類技術(shù)研究及應(yīng)用[D].成都:西南交通大學(xué),2019.

[5] 曾奇.面向微博的短文本分類算法研究[D].成都:電子科技大學(xué),2019.

【通聯(lián)編輯:代影】

主站蜘蛛池模板: 亚洲欧美在线综合图区| 91精品亚洲| 免费看黄片一区二区三区| 美女一区二区在线观看| 中日韩一区二区三区中文免费视频 | 亚洲成综合人影院在院播放| 婷婷中文在线| 热这里只有精品国产热门精品| 免费中文字幕一级毛片| 欧美专区在线观看| 天堂网国产| 91欧美在线| 精品国产免费第一区二区三区日韩| 亚洲成人精品久久| 亚洲日韩精品欧美中文字幕 | 欧美.成人.综合在线| www.日韩三级| 毛片免费网址| 在线欧美日韩国产| 99热这里只有精品免费| 久久一本精品久久久ー99| 久视频免费精品6| 97在线免费视频| www.99精品视频在线播放| 免费一级全黄少妇性色生活片| 久久性视频| 国内精品手机在线观看视频| 99精品一区二区免费视频| 97国产在线播放| 精品精品国产高清A毛片| AV熟女乱| 另类综合视频| 亚洲天堂网2014| www.91在线播放| 国产成人8x视频一区二区| 青青操视频免费观看| 波多野结衣一区二区三区四区| 免费观看亚洲人成网站| 欧美激情视频二区| 久久久亚洲国产美女国产盗摄| 自慰高潮喷白浆在线观看| 欧美人在线一区二区三区| 久久青草免费91线频观看不卡| 污网站在线观看视频| 午夜高清国产拍精品| 欧洲熟妇精品视频| 欧美翘臀一区二区三区| 日韩无码视频网站| 精品无码人妻一区二区| 免费看a级毛片| 国产制服丝袜91在线| 国产在线观看成人91| 97视频在线观看免费视频| 中文字幕精品一区二区三区视频| 日韩在线欧美在线| 免费又黄又爽又猛大片午夜| 午夜激情福利视频| 人妻精品全国免费视频| 色欲综合久久中文字幕网| 亚洲男人在线天堂| av在线手机播放| 一区二区在线视频免费观看| 永久毛片在线播| 欧美69视频在线| 女人毛片a级大学毛片免费| 久久这里只有精品23| 不卡视频国产| 免费看的一级毛片| 国产美女91呻吟求| 亚洲Av综合日韩精品久久久| 久久久久亚洲Av片无码观看| 毛片在线区| 伊人久久影视| 国产女人18水真多毛片18精品| 99精品久久精品| 一区二区偷拍美女撒尿视频| 国产成年女人特黄特色毛片免| 国产欧美一区二区三区视频在线观看| 午夜视频免费试看| 九九久久精品免费观看| 国产在线精品人成导航| 人人爽人人爽人人片|