999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本分類概述

2021-03-15 06:59:23栗征征
電腦知識與技術 2021年1期

栗征征

摘要:在大數據時代,隨著網絡上的文本數據日益增長,文本分類技術顯得越來越重要,是文本挖掘領域的熱點問題,具有廣闊的應用場景。文本分類方法的研究開始于20世紀50年代,一直受到人們的廣泛關注。該文從文本分類的流程出發,簡要介紹文本分類的一般流程以及每一步驟中涉及的主要技術。主要包括預處理部分的分詞、去停詞和文本表示方法、特征降維和分類算法,分析了各種方法的優缺點并總結。

關鍵詞:文本分類;預處理;特征降維;分類算法

中圖分類號:TP3? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)01-0229-02

1文本分類簡介

概念:文本分類是自然語言處理中的重要學科,其目的是在已知的分類中,根據給定文本內容自動確定其所屬文本類別的過程。

文本分類可分兩個階段:訓練與測試,每個階段又涉及預處理、特征降維、訓練分類器三個步驟。預處理包括分詞、去停詞、文本表示等;特征降維主要用到的方法有詞頻-逆文檔頻率(tf-idf)、卡方統計等;目前主流的分類器包括:支持向量機(SVM)、樸素貝葉斯(NB)、K近鄰等[1]。如圖1所示。

預處理:將文本數據轉換為計算機可處理形式。

特征選擇:由于文本內容復雜,難以用簡單的方法表示,一般情況下文本的特征會達到很高的維度,特征選擇可以降低維度從而使運算速度和準確率得到提高。

分類器:對分類器進行訓練。

2關鍵技術

2.1 預處理

預處理主要包括兩大部分:分詞、去停用詞和文本表示。

(1)分詞、去停用詞

分詞。中文文本與英文文本的分詞區別在于英文可以根據空格來將詞語分開,中文則需要用一定算法來講文本分為詞序列。分詞是自然語言處理的中的第一步,對中文來說更為重要。在目前的文本分類研究中,大多使用成熟的分詞系統如jieba分詞,來進行分詞的工作,可以取得較好的效果。

去停用詞。在文本中會使用無實意的虛詞、代詞、名詞等,這些詞的出現頻率高,而且對文本的分析無太大影響,更會加重運算負擔,因此需要將此類詞語去除[2]。

(2)文本表示

文本表示:將文本轉化為計算機能夠識別的數據的過程稱之為文本表示。

文本表示模型主要有:

布爾模型:用0或1來代表特征詞的權重。當某詞語在文檔中出現過時,該詞的權重值為1。

向量空間模型:向量空間模型利用特征向量表示文本,文本集合中的詞條作為表示文本的特征項。

向量空間模型又分為獨熱表示與分布式表示。獨熱表示或稱淺層表示,是最簡單的向量空間模型,獨熱表示用一個維度為詞典大小的向量來表示所有詞。詞語m的向量表示為:m在詞典中的索引位置為1,其他位置為0[3]。

獨熱表示簡單易懂,因此其缺點也比較明顯,一是:向量的維度為字典大小,容易造成維數災難;二是:任意兩個詞之間都是孤立的,無法表示上下文關系。

分布式表示目前比較熱門的為基于神經網絡的分布式表示,即詞嵌入(word embedding)。

傳統的獨熱表示僅僅將詞符號化,不包含任何語義信息。詞嵌入表示方法與獨熱表示不同的地方在于它可以刻畫詞與上下文的關系,用向量代表詞[4]。它的表示模型有CBOW( Continuous Bag-of-Words)和 Skip-gram 模型等,目前的實現工具主要用word2vec。

2.2特征降維

目前主要的特征降維方法有:詞頻-逆文檔頻率(tf-idf)、信息增益(IG)、X2統計等。

如圖2所示,5條分類線都可以實現將樣本分為兩類,但是由SVM得到的分類器H與兩個類別的間隔較大,因此有較好的分類性能。

SVM是二分類器,將其運用到多分類時需要進行拓展,主要有兩種方法,分別是:

直接求解法:修改目標函數,將多分類任務的所有面的參數求解看作一個中體,在解該最優化問題時,一次性實現多類分類。

間接求解法:

將多分類問題分為多個二分類任務,即組合若干二分類器,主要思想有兩種:

①任意兩類使用一個SVM來進行分類,即有m個類別就需要訓練m(m-1)/2個SVM分類器。

最終進行分類任務時,將所有分類器進行統計,得票最多的即為該文本所屬類別。

②每一個類別與其他所有類別為一組,有m個類別就分為m組,對每一組都構造一個分類器,最終進行分類任務時,將所有分類器進行統計,概率最高的即為該文本所屬類別。

(3)SVM與NB優缺點總結

3總結

隨著數據的爆照式增長,文本分類越來越重要。本文闡述了目前文本分類任務的各部分工作,簡要介紹了文本預處理、特征降維和分類器的原理這三個方面。隨著技術的更新,分類的效率及準確率還會有進一步的提升。

參考文獻:

[1] 徐冠華,趙景秀,楊紅亞,等.文本特征提取方法研究綜述[J].軟件導刊,2018,17(5):13-18.

[2] 高寧杰.基于SVM模型優化的互聯網新聞自動分類研究[D].開封:河南大學,2019.

[3] 賀心皓. 基于支持向量機的文本分類研究[D].成都:成都信息工程大學,2019.

[4] 王旌舟.中文文本分類技術研究及應用[D].成都:西南交通大學,2019.

[5] 曾奇.面向微博的短文本分類算法研究[D].成都:電子科技大學,2019.

【通聯編輯:代影】

主站蜘蛛池模板: www欧美在线观看| 国产亚洲精久久久久久久91| a在线亚洲男人的天堂试看| 97精品国产高清久久久久蜜芽| 久久人与动人物A级毛片| 国内老司机精品视频在线播出| 成人伊人色一区二区三区| 欧美日本在线| 久久黄色小视频| 久久婷婷人人澡人人爱91| 亚洲二三区| 999精品在线视频| 亚洲中文无码h在线观看| 亚洲AⅤ波多系列中文字幕| 国产黑丝一区| 国产精品久久久久久久久久98| 精品黑人一区二区三区| 97人人模人人爽人人喊小说| 日韩大片免费观看视频播放| 欧美日韩国产成人在线观看| 国产国产人在线成免费视频狼人色| 欧美性精品| 免费人成在线观看视频色| 久久婷婷五月综合97色| 亚洲精品中文字幕无乱码| 国产va在线观看| 亚洲va视频| 97久久人人超碰国产精品| 国产成人高精品免费视频| 91久久精品国产| 精品视频一区二区观看| 久久无码高潮喷水| 欧美三级不卡在线观看视频| 欧美.成人.综合在线| 国产福利小视频在线播放观看| 久久精品国产亚洲麻豆| 久久性妇女精品免费| 国产成人综合在线观看| 中文字幕一区二区视频| 2022精品国偷自产免费观看| 免费观看欧美性一级| 国产麻豆永久视频| 日韩欧美中文在线| 久久国产精品影院| 国产一级精品毛片基地| 天堂va亚洲va欧美va国产 | 狠狠色丁香婷婷| 国产农村1级毛片| 中文字幕天无码久久精品视频免费 | 久久婷婷综合色一区二区| 亚洲精品无码AV电影在线播放| 米奇精品一区二区三区| 国产色图在线观看| 欧美视频在线观看第一页| 精品视频一区二区观看| 97精品伊人久久大香线蕉| 国产精品三区四区| 国产福利微拍精品一区二区| 亚洲愉拍一区二区精品| 欧美视频在线不卡| 国产精品播放| 大学生久久香蕉国产线观看| 国产成人亚洲欧美激情| 制服丝袜一区| 噜噜噜久久| 人妻丰满熟妇av五码区| 成人毛片免费在线观看| 欧美a级完整在线观看| 中文字幕无码av专区久久 | 99视频精品在线观看| 国产在线一区视频| 国产三区二区| 亚洲精品国产首次亮相| 国产女人18水真多毛片18精品 | 伊人成人在线视频| 狼友av永久网站免费观看| 91啦中文字幕| 首页亚洲国产丝袜长腿综合| 蜜桃臀无码内射一区二区三区| 波多野结衣一二三| 精品国产三级在线观看| 一级黄色欧美|