999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于支持向量機的微博情感分析方法研究

2022-12-08 17:03:16李首政
現代計算機 2022年19期
關鍵詞:文本情感方法

李首政,王 琪,王 力

(1.南陽理工學院信息工程學院,南陽 473000;2.南陽理工學院土木工程學院,南陽 473000)

0 引言

微博作為國內最大的社交媒體之一,是一種極其豐富的文本來源,具有內容精煉、時效性強、簡短、通俗等特點,研究專門的情感分析技術有利于決策者分配業務及合理的決策[1]。

過去人工監控和分析的方法不僅需要耗費大量的人力成本,而且產生了很大的滯后性。目前對微博數據進行情感分析的方法主要包括兩大類,基于情感詞典的方法和基于機器學習的方法。基于詞典的方法雖然設計思想簡單,準確率較高,但需依賴于專業人士的詞典構造,人工工作量巨大,且受限于詞典先驗知識,普遍性不強[2]。基于KNN 的分類方法雖然算法簡單,但準確率較低且內存占用量較大[3]。Krishnaveni 等[4]提出面向文本的樸素貝葉斯分類器的基本思想,然而經典的回歸思想和貝葉斯方法都是基于一個假設,即概率分布及分布模型是先驗的,但實際數據集往往并不同分布,因此準確率較低。基于深度學習的方法采用RNN 的方法雖然準確率較高,但需大量數據進行模型訓練,且參數較大,實際應用中小樣本數據存在過擬合問題[5]。支持向量機(SVM)方法采用監督方式學習數據的分布模型,從而有效避免了先驗模型與實際模型差距較大的問題[6-7]。

本文分析微博文本數據,提出了一種基于支持向量機的微博文本分析方法,首先爬取微博文本數據并進行預處理,然后采用TF-IDF 算法進行文本向量化,通過詞袋模型獲得文本特征向量,設計高斯核支持向量機分類模型對文本特征向量進行分類器訓練,最終,獲得微博文本數據的情感分類結果,通過實驗分析本文支持向量機方法的準確性,總體流程如圖1所示。

圖1 總體結構

1 文本預處理及特征獲取

通過微博數據爬取工具Weibo Spider 爬取微博平臺個人發布數據,獲得微博文本原始數據。然而,直接爬取的數據存在大量冗余和無效內容,且計算機并不能直接處理文本信息,因此需要對文本數據進行預處理,使得文本特征向量更準確,從而達到提高訓練準確性的目的。文本預處理包含文本清洗、情感標注、文本分詞、去除停用詞四部分。預處理后的文本計算機并不能直接處理,本文提出基于關鍵詞的詞袋模型,獲得文本特征矩陣降低文本特征矩陣稀疏性,最終,構建了實驗數據為10000條的訓練集和500條的測試集數據。

1.1 文本預處理

1.1.1 文本清洗和情感標注

由于爬取程序是直接復制博主發布的內容,導致爬取的數據中包含了“#”開頭和“#”結尾的Tag等較多無效內容,因此需要對無效信息進行清洗。同時,由于微博短文本的特點,爬取信息中包含較多表情符號,而這些表情符號可以很好地體現人的情感,因此將表情符號轉換為同義文本表示,比如微博常見的允悲表情,用文字“允悲”表示。文本分類是有監督學習,因此清洗后的訓練集文本需進行情感標注,根據自然語言知識及人類普遍認知對爬取的文本逐條進行情感標注,本文設計的情感分為積極和消極兩種情感,積極情感用標簽“1”表示,消極情感用標簽“0”表示。

1.1.2 文本分詞和去除停用詞

文本由詞語組成,而與英文句子相比,中文句子中若沒有空格則無法簡單地識別詞語,因此需要分詞。本文采用jieba 分詞工具進行文本分詞。停用詞是指一些無意義詞的中文詞,比如“你,我,他”,“如果,那么”。去除停用詞是常見的NLP 預處理的一個步驟,能幫助減少特征矩陣的大小,從而減少特征矩陣的計算消耗,實現減少計算時間和成本的目的。清洗后的文本標注“積極”或“消極”情感標簽,用于構建數據集及模型訓練。

1.2 基于關鍵詞的詞袋模型

本文采用詞袋模型將文本進行向量化。但傳統詞袋模型獲得的文本向量稀疏性較強,存在很大冗余且不能體現句子關鍵詞,因此本文提出基于關鍵詞的詞袋模型,從而獲得文本特征向量,算法通過IF-IDF 方法獲得,包括三個步驟。

第一步,通過TF-IDF 算法提取文本特征詞,由特征詞構建新的文本詞袋,從而解決了傳統詞袋模型高冗余性的問題,同時能夠體現詞的權重概率。

特征詞提取主要是指提取出有利于情感分析分類的情感詞,本文采取TF-IDF 算法計算每個詞的IF-IDF 值,并采用L2 范數進行標準化,選取文檔權值最高前20 個詞作為特征詞。TF 是詞出現的頻率,TF-IDF 的基本思想是如果某個單詞在一篇文章中出現的頻率TF 高,并且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合作為特征詞,算法見式(1)—(4)。

第二步,運用新建的詞袋表計算句子的詞袋向量,并將每個詞的TF-IDF值替代傳統詞袋向量中詞出現的次數。

第三步,數據標準化的目的是通過標準化得到均值為0 和標準差為1 的服從標準正態分布的數據,此外,標準化能提升分類器擬合的速度,同時縮小可能的異常值的影響。本文采用數據標準化的方法是減去均值然后除以方差或標準差,經過這種數據標準化方法處理過的數據符合標準正態分布。

2 分類器構建

2.1 線性分類器

支持向量機算法的基本思想是尋找一個分類器,使得超平面和最近的數據點之間的分類邊緣(超平面和最近的數據點之間的間隔)最大。對于SVM 算法,通常認為分類邊緣越大,平面越優,通常定義具有最大間隔的決策面就是SVM 要尋找的最優解。因為支持向量到決策邊界有一定的距離,因此支持向量機容許一定的誤差,算法的魯棒性得到一定的提高。對線性可分樣本集T=,其中x(m)∈?n,y(m)∈{-1,1};選擇懲罰參數C>0,構造并求解凸二次規劃。

其中ɑj為拉格郎日乘子,得到最優解a*=(a1

*,a2*,…,aN

*)T。

計算ω*=yixi,b*=yj-yi(xi·xj),得到超平面ω*x + b*= 0,則分類決策函數:

可見,SVM 分類問題需求解樣本的內積,然而實際樣本往往線性不可分,因而需引入核函數,核函數可將樣本向量映射到高維核空間,使得原本線性不可分的樣本變為線性可分,核函數一般包括線性核函數、多項式核函數和高斯核函數。

2.2 高斯核函數

高斯核函數可以將輸入特征映射到無限多維,不僅可以解決樣本線性不可分的問題,而且能夠突出樣本特征的相似性,同時相比多項式核函數計算量更小,因其僅需一個參數σ,所以調參較易。

引入高斯核函數后分類器優化問題變為

3 實驗與分析

采用本文方法爬取數據并進行文本處理后構建了10000 條數據作為訓練集,500 條作為測試集。統計出訓練集的文本長度分布如圖2 所示,文本長度集中在31—151區間,更接近于真實語料環境。訓練集經過標注后得到1 標簽和0標簽的文本數量分布如圖3 所示。圖3 橫坐標的0 代表著文本的情感是消極的;橫坐標1 代表著文本的情感是積極的。由圖3可見訓練樣本中積極情感占比54.96%,消極情感占比45.04%,積極情感略高于消極情感,但整體數量相當,合理的數據分布有利于提高分類器訓練的準確性。

圖2 微博訓練集文本長度統計

圖3 微博訓練集情感極性分布

通過基于關鍵詞的詞袋模型對10000條訓練集文本進行特征詞提取,共提取出61949個特征詞,并獲得(10000,61949)大小的文本特征矩陣,500條測試集特征矩陣大小為(500,1949)。利用本文高斯核SVM 的方法對訓練集數據進行訓練,學習曲線如圖4 所示,由圖4 中準確率的變化趨勢可見,訓練集和驗證集的準確率隨著樣本數的增大能夠較好地擬合,最終穩定在較高準確率,說明本文方法獲得的訓練模型有較好的泛化能力。與通過傳統詞袋模型采用多項式SVM、線性SVM、樸素貝葉斯、KNN 和決策樹五種方法的訓練集和測試集得分進行對比,結果如表1 所示,SVM 三種分類器表現出較理想的效果,其中本文高斯核的SVM 方法在訓練集和驗證集上都取得了較高的準確率,且擬合度較好,KNN 方法和樸素貝葉斯方法的準確率不高,決策樹方法出現了較嚴重的過擬合現象。采用本文高斯核SVM 方法和上述五種方法分別建立分類器對測試集進行驗證,其預測的準確率如圖5所示。

圖4 高斯SVM分類器學習曲線

表1 各種方法的準確率對比結果

圖5 分類器準確率對比圖

圖5可見,使用小樣本訓練支持向量機分類器已經取得不錯的準確率,與同等樣本數訓練的其他分類器相比有明顯的優勢,隨著樣本數的增加,六種分類器的準確率均有所提高,且KNN 和樸素貝葉斯分類器與SVM 分類器準確率差距有所縮小,其中本文高斯SVM 的方法準確率最高。決策樹方法由于存在過擬合現象導致總體效果不佳。由此可見,本文采用的高斯SVM 方法在微博情感分析中能取得較高的準確率,且相比KNN、樸素貝葉斯等方法,本文方法在小樣本數據集上有較明顯優勢。

4 結語

針對當前需要對內容精煉、時效性強、通常包含簡短且非正式縮寫詞的微博短文本情感分析問題,本文提出一種更適合微博文本情感分析的方法,通過weibo Spider 爬取微博數據并進行人工標注,構建數據集,TF-IDF 算法和詞袋模型構建基于關鍵詞的詞袋模型,獲得文本特征矩陣,最后采用了高斯核的支持向量機方法進行分類器訓練,通過測試集驗證準確率,對比多項式支持向量機、KNN、樸素貝葉斯決策樹等方法,實驗結果顯示本文方法準確率較高,在小樣本數據的情況下可獲得較高的準確率。

猜你喜歡
文本情感方法
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 男人天堂伊人网| 亚洲精品波多野结衣| 国产精品污视频| 91色国产在线| 国产美女免费| 免费一级成人毛片| 波多野结衣中文字幕一区| 91伊人国产| 欧美特黄一级大黄录像| 26uuu国产精品视频| 亚洲天堂精品在线| 三上悠亚精品二区在线观看| 国产va视频| 亚洲视频欧美不卡| 欧美日本在线播放| 男女男免费视频网站国产| 国产成人在线无码免费视频| 欧美啪啪精品| 免费黄色国产视频| 激情综合婷婷丁香五月尤物| 日韩经典精品无码一区二区| 欧美一级专区免费大片| 激情综合网激情综合| 中文国产成人精品久久| 亚洲水蜜桃久久综合网站| 欧美天堂在线| 久久免费看片| 四虎成人免费毛片| 伊人激情久久综合中文字幕| 91黄色在线观看| 国产99在线观看| 亚洲男人天堂久久| 亚洲国产欧美国产综合久久| 国产男女免费完整版视频| 亚洲综合色区在线播放2019| 国产激情无码一区二区APP | 免费人成网站在线高清| 中文字幕1区2区| 韩国福利一区| 凹凸国产熟女精品视频| 久久综合国产乱子免费| 国产成人喷潮在线观看| 国产精品尤物铁牛tv| 天天干天天色综合网| 国产无码精品在线播放| 久久国语对白| 日本亚洲欧美在线| 欧美福利在线观看| 乱人伦视频中文字幕在线| 欧美在线精品一区二区三区| 亚洲欧美一区二区三区图片| 日韩av资源在线| 97亚洲色综久久精品| 久久中文无码精品| 亚洲精品欧美日韩在线| 国产喷水视频| 99国产精品国产高清一区二区| 日韩毛片基地| 亚洲AV无码一区二区三区牲色| 99久久精彩视频| 国产在线观看99| 国产在线精品人成导航| 91在线激情在线观看| 91黄色在线观看| 欧美一级片在线| 国产老女人精品免费视频| 欧美成人午夜在线全部免费| 97人妻精品专区久久久久| 日韩 欧美 小说 综合网 另类| 日韩精品资源| 特级精品毛片免费观看| 色欲国产一区二区日韩欧美| 无码日韩人妻精品久久蜜桃| 无套av在线| 黄色一级视频欧美| 国产簧片免费在线播放| 久久香蕉国产线看观| 六月婷婷精品视频在线观看 | 免费看一级毛片波多结衣| 国模粉嫩小泬视频在线观看| 久久人妻xunleige无码| 久久精品最新免费国产成人|