999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本分類模型對比研究

2023-02-20 03:24:36陳海紅黃鳳坡
赤峰學院學報·自然科學版 2023年1期
關鍵詞:分類文本情感

陳海紅,司 威,黃鳳坡

(赤峰學院 數學與計算機科學學院,內蒙古 赤峰 024000)

1 引言

文本分類問題是自然語言處理領域的重要研究問題,可以進行主客觀分類、輿情情感分析等。文本分類的模型也是比較多的,本文采用7種方法對中文文本進行二分類(正向情感、負向情感)或三分類(正向情感、中性情感、負向情感)研究對比,找到各種方法的優缺點,并將其應用到輿情情感分析等文本分類領域。

2 數據的準備

我們從網絡上收集了很多領域的評論數據,以及日常的微博數據,并對數據進行了預處理,去除多余的空格,表情符號,Html標簽等。然后對這些數據進行標注,再將數據轉換成各種模型能夠識別的格式。模型在使用的時候把這些數據分成開發集(development set)和測試集(test set),開發集又分成訓練集(training set)和開發測試集(development test set)。本文中使用的開發集樣本數是17130條,測試集樣本數是4187條,此外,還收集了停用詞典,情感詞典(分為正向詞典和負向詞典),程度副詞,否定詞典等數據。

3 中文文本分類法

3.1 基于情感詞典的分類法

基于情感詞典的分類法是對人類的記憶和判斷思維的最簡單模擬,人類會通過學習來記憶一些基本詞匯,如否定詞有“不”,積極詞有“幸?!薄膀湴痢?,消極詞有“討厭”,從而在大腦中形成一個基本的語料庫,然后對輸入的句子進行拆分,看看記憶的詞匯表中是否存在相應的詞,然后根據這個詞的類別來判斷情感。

這里使用了一種比較簡單的算法,將詞語的權重值劃分為四類,分別為P、N、DaP、DaN。P類型的詞語權重值為1,包括積極詞語、否定詞+消極詞語;N類型的詞語權重值為-1,包括消極詞、否定詞+積極詞語、積極詞語+否定詞;DaP類型的詞語權重為2,包括程度副詞+積極詞語;DaN類型的詞語權重為-2,包括程度副詞+消極詞語。并假定情感值滿足線性疊加原理,最終算出的權重值在(-∞,+∞)范圍內,越大說明越積極。為了方便劃分類別,將最終的權重值放入sigmoid函數轉換成(0,1)之間的數值。上述方法在測試集上進行測試,最終結果的準確率為60%。

該方法存在的問題:(1)假設了所有積極詞語、消極詞語的權重值都是相等的,但我們知道中文文本本身帶有非常豐富的感情色彩,同為積極/消極詞語但語氣程度可能是不同的;(2)對否定詞和程度副詞僅做了取反和加倍,但事實上,不同的否定詞和程度副詞的權重程度也是不同的;(3)假設了權重值是線性疊加的,但事實上,人腦情感分類是非線性的,不僅僅在想這個句子是什么情感,還會判斷句子的類型,整體的結構(主語、謂語、賓語等),甚至還會聯系上下文對句子進行判斷,基于簡單的線性疊加性能是有限的;(4)情感詞典沒有自動擴充能力,人類獲得新知識的手段不僅僅靠他人的傳授,還會自己進行學習、總結和猜測,如“喜歡”和“熱愛”是積極詞語,那么人類就會知道“喜愛”也是積極的詞語。

3.2 snowNLP庫

SnowNLP是一個python寫的類庫,可以方便地處理中文文本內容,是受到了TextBlob的啟發而寫的,它囊括了中文分詞、詞性標注、情感分析、文本分類、轉換拼音、繁體轉簡體、關鍵字/摘要提取、文本相似度等諸多功能,像隱馬爾科夫模型、樸素貝葉斯、TextRank等算法均在這個庫中有對應的應用。SnowNLP對情感的測試值為0到1,值越大,說明情感傾向越積極。

使用SnowNLP對數據進行測試,測試數據有4187條,測試結果以0.5為界,大于0.5的判定為正向,小于0.5的判定為負向,最終的準確率為73%。如果大于0.8判定為正向,小于0.3判定為負向,中間為中性,最終的準確率為67%。

SnowNLP的分詞效果沒有結巴分詞效果好,而且原料是基于幾個方向的評論留言,語料文件比較片面,且其中有些語句意向不準確,導致效果并不是特別好,但如果沒有其他知識的情況下做中文文本處理,使用SnowNLP是一個不錯的選擇。

3.3 邏輯回歸

邏輯回歸是一個非常經典的分類算法,目前仍被廣泛應用到各個領域,Bahalul Haque等人利用邏輯回歸,根據年齡、性別、國家和地區預測COVID-19導致的個人死亡[1]。

我們首先對文本進行特征提取,提取方法采用TF-IDF(Term Frequency-Inverse Document Frequency),計算公式為:

S1是tf值與idf值的乘積,tf(t,d)表示某一篇文檔d中,詞項t的頻度。

nd表示訓練集文本數,df(d,t)表示包含詞項t的文檔總數。用S1和S2對訓練集和測試集文本進行特征提取,在訓練集上得到的特征矩陣維度是(17130,41000),這是一個非常龐大的稀疏矩陣。然后使用sklearn中的LogisticRegression[2]對該矩陣數據進行邏輯回歸訓練,訓練參數選擇newton-cg作為優化算法,選擇1.0作為懲罰系數。訓練好的模型應用到測試集上進行測試,測試結果的logloss:0.527,準確率83%。

文本的特征提取是自然語言處理領域的最重要問題,它決定著最終結果的上限。目前word2vec是一種應用較廣泛的特征提取方法,它產生了很多變體,應用于很多方面[3,4]。這里我們使用word2vec對文本再次進行特征提取。使用TF-IDF進行特征提取時,它能過濾掉一些常見的卻無關緊要的詞語,同時保留影響整個文本的重要詞語,但丟失了文本上下文之間的聯系。使用word2vec進行特征提取時,它會考慮上下文,并且維度更少。首先使用gensim庫中的word2vec[5]對1.3G的中文語料進行建模,生成維度為400的詞向量,使用該詞向量對[‘微積分’,‘統計學’,‘蘋果’]進行heatmap分析,發現微積分與統計學具有很多的相似性,與蘋果相差很多。

圖1 熱圖分析數值

然后將一個句子中所有詞的詞向量相加取平均,得到句子向量,再將句子向量輸入到上述邏輯回歸模型進行訓練,并測試。測試結果的logloss:0.617,準確率76%,發現并沒有得到比TF-IDF更好的結果。后面第3.4節也使用這個word2vec訓練的詞向量,得到了不錯的結果。

3.4 簡單的全連接網絡和LSTM模型

深度學習可以幫助我們從多角度提取文本特征,文本的分類問題同樣可以使用深度學習模型進行處理。我們先使用keras[6,7]中的Sequential搭建一個簡單的3層全連接網絡查看效果。在搭建神經網絡之前,先在word2vec訓練的詞向量的基礎上對特征數據進行標準化/歸一化處理,因為如果某個特征的方差遠大于其他特征的方差,那么它將會在算法學習中占據主導位置,導致模型不能像我們期望的那樣,去學習其他的特征,這將導致最后的模型收斂速度慢甚至不收斂。

model=Sequential()

model.add(Dense(256,input_dim=400,activation=” relu” ))

model.add(Dense(256,activation=” relu” ))

model.add(Dense(3))

model.add(Activation(” softmax” ))

模型中間加Dropout[8]和BatchNormalization()來防止過擬合,優化器選擇adam,損失函數選擇categorical_crossentropy,測試結果的logloss:0.453,準確率82%。

CNN(Convolutional Neural Network)和RNN(Recurrent Neural Network)都會將矩陣形式的輸入編碼為較低維度的向量,而保留大多數有用的信息,但卷積神經網絡更注重全局的模糊感知,循環神經網絡更注重鄰近位置的重構,而自然語言是具有時間序列特征的數據,每個詞的出現都依賴于它的前一個詞和后一個詞。由于這種依賴的存在,我們使用循環神經網絡來處理這種時間序列數據更適合。Long Short Term Memory Units(LSTMs)是一種特殊的循環神經網絡,從抽象的角度看,LSTM保存了文本中長期的依賴信息。

在使用LSTM建模之前,先測定訓練集和測試集中的句子長度,測試結果如圖2所示,根據圖中的結果,又計算了句子長度小于150的句子總數占61%,句子長度小于210的句子總數占93%,因此選擇句子長度為210,在訓練的過程中,加入了回調函數,使得模型能夠停止在最佳的迭代節點,最終結果如圖3所示,在epoch=25時達到了最佳節點。最終測試結果的logloss:0.32,準確率86%。

圖2 不同句子長度的數量分布

圖3 句子長度為210時的acc和loss

3.5 BERT模型

BERT(Bidirectional Encoder Representations from Transformers)模型來源于論文[9],它的網絡架構使用的是《Attention is all you need》中提出的多層Transformer結構,它解決了傳統模型的一些問題:(1)解決了RNN模型本身的序列依賴結構不適合大規模并行計算的問題;(2)詞向量訓練模型word2vec在預訓練好詞向量后就永久不變了,但不同語境中相同的詞可能代表不同的含義。BERT詞向量包含了雙向的語境信息,在很多方面具有比較好的效果,也出現了很多針對它的改進模型。

主要的思路:將一句話進行分詞,通過BERT模型之后輸出各個分詞對應的詞向量及CLS對應的詞向量,CLS中包含了整句話的信息,然后通過CLS進行類別的判斷。最終測試結果的logloss:0.31,準確率88%。

4 結果

F1和精確匹配(Exact Match,EM)是模型性能評價的兩個指標。如果預測值與真實值完全相同,則EM值為1,否則為0;F1則是平衡精確率和召回率之間關系的指標,值越大越好。幾種方法的EM和F1值如表1所示。測試集數據是一個三分類的數據,標記為1的代表正向情感,標記為2的代表負向情感,標記為0的代表中性情感,個數見表1所示?;谇楦性~典的思路簡單,穩定性強,但精確度不高,需要提取好情感詞典,而這一步,往往需要大量的工作才能保證準確率,而且必須要對中文語義足夠了解才可以做到。測試時將結果值大于0.8的分類為正向情感,小于0.3的分類為負向情感,其余的分類為中性情感,結果的F1值為49%。SnowNLP的測試結果也是數值,和情感字典一樣做三分類劃分,F1值是51%。

表1 測試集樣本個數

機器學習允許我們在幾乎零背景的前提下,為某個領域的實際問題建立模型。在機器學習模型中,BERT模型達到了最高的準確率和最低的loss,表2的BERT模型結果是在learning_rate=2e-5,num_train_epochs=1.0,vocab_size=21128(詞表大小)的條件下獲得的。使用機器學習模型需要我們對相關框架、算法、知識點足夠的了解,如果沒有相關方面的知識又想做中文文本分類的話可以使用SnowNLP庫。根據表2的結果基于TF-IDF的邏輯回歸取得了不錯的效果,基于word2vec的邏輯回歸使用了平均詞向量方法獲得句子向量,這種方法的缺點是認為句子中的所有詞對于表達句子含義同樣重要。因此如果是簡單的任務,使用基于TFIDF的邏輯回歸將會是不錯的選擇,總體來講深度學習的方法精確度更高。

表2 結果對比

5 總結

本文使用基于情感詞典的分類方法,SnowNLP庫,邏輯回歸,全連接神經網絡,LSTM,BERT模型等多種方法對相同的文本進行分類研究。我們發現預訓練模型雖然在很多時候能取得不錯的結果,但需要忍受更大的模型尺寸及更高的延遲,因此在解決具體任務時,傳統的普通方法也許能取得不錯的結果,而且沒有更大的開銷。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 亚洲第一成年网| 午夜无码一区二区三区在线app| 国产精品香蕉在线| 午夜国产精品视频| 福利一区在线| 国产精品lululu在线观看| 成人综合网址| 国产精品乱偷免费视频| 国产成人综合亚洲欧美在| 国产在线麻豆波多野结衣| 狠狠ⅴ日韩v欧美v天堂| 免费高清自慰一区二区三区| 亚洲有无码中文网| AV在线天堂进入| 中文字幕亚洲第一| 色哟哟国产精品| 日韩 欧美 小说 综合网 另类| 国产麻豆精品在线观看| 国产精品原创不卡在线| 国产超碰在线观看| 日韩黄色在线| 热久久这里是精品6免费观看| 特级精品毛片免费观看| 熟妇丰满人妻av无码区| 国产精品林美惠子在线观看| 国产第四页| 美女扒开下面流白浆在线试听| 久久精品中文字幕免费| 手机在线国产精品| 亚洲欧美成人综合| 亚洲制服丝袜第一页| 无码乱人伦一区二区亚洲一| 国产亚洲精| 18禁色诱爆乳网站| 鲁鲁鲁爽爽爽在线视频观看| 国产精品深爱在线| 亚洲色精品国产一区二区三区| 九色视频线上播放| 国产日韩丝袜一二三区| 亚洲天堂视频在线观看| 毛片免费观看视频| 五月婷婷综合网| 国产成熟女人性满足视频| 无码人中文字幕| 自拍偷拍欧美日韩| 国产欧美日韩va另类在线播放| 欧美日韩在线第一页| 人妻91无码色偷偷色噜噜噜| 91精品在线视频观看| 欧美午夜一区| 久久精品一品道久久精品| 久久a级片| 国产一国产一有一级毛片视频| 99久视频| 婷婷亚洲综合五月天在线| 欧美特黄一级大黄录像| 色婷婷天天综合在线| 中文字幕亚洲精品2页| 亚洲国产高清精品线久久| 国产成人a在线观看视频| 久久五月视频| 国产视频a| 秘书高跟黑色丝袜国产91在线| 亚洲va精品中文字幕| 亚洲日韩久久综合中文字幕| 国产一区二区三区在线观看免费| 欧美国产在线精品17p| 真人免费一级毛片一区二区| 欧美激情福利| 高h视频在线| 亚洲成a人片| 亚洲天堂.com| 国内精品九九久久久精品| 91精品小视频| 亚洲一区二区三区在线视频| av尤物免费在线观看| 国产成人精品一区二区秒拍1o| 欧美成人国产| 九九久久99精品| 国产美女精品人人做人人爽| 日本少妇又色又爽又高潮| 米奇精品一区二区三区|