999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于支持向量機(jī)的中文文本情感分析方法研究

2022-11-15 06:59:36劉祉燊張倩周菠汪志霖顧永昊
科技創(chuàng)新與應(yīng)用 2022年32期
關(guān)鍵詞:分類文本情感

劉祉燊,張倩,周菠,汪志霖,顧永昊

(山東石油化工學(xué)院,山東 東營 257000)

隨著網(wǎng)絡(luò)的發(fā)展和技術(shù)的提高,人們的精神需求也向更高層次發(fā)展,大眾表達(dá)自我的意愿更為強(qiáng)烈,自媒體平臺成為大眾表達(dá)感情,發(fā)表言論的重要渠道。尤其是大學(xué)生群體具有勇于表達(dá)自己觀點(diǎn),熱衷表達(dá)自己態(tài)度的特點(diǎn)。2021年2月3日中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第47次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示:截至2020年12月,我國網(wǎng)民規(guī)模達(dá)9.89億,手機(jī)網(wǎng)民規(guī)模達(dá)9.86億,互聯(lián)網(wǎng)普及率達(dá)70.4%。其中,學(xué)生網(wǎng)民最多,占比為21.0%[1]。因此,學(xué)生網(wǎng)民在網(wǎng)絡(luò)上的情感表達(dá)和輿論觀點(diǎn)更值得關(guān)注。通過爬取網(wǎng)絡(luò)大數(shù)據(jù)中學(xué)生的言論并以此文本為依據(jù),挖掘當(dāng)今大學(xué)生的關(guān)注話題和情感傾向,分析大學(xué)生的所思所想,對于及時掌握高校大學(xué)生的思想動態(tài)和疏導(dǎo)大學(xué)生的不良情緒有重要作用。同時,對高校在學(xué)生管理方面具有重要意義。

1 相關(guān)研究技術(shù)

1.1 網(wǎng)絡(luò)爬蟲

當(dāng)今社會已進(jìn)入大數(shù)據(jù)時代,手動獲取數(shù)據(jù)已不適合現(xiàn)在的發(fā)展趨勢,網(wǎng)絡(luò)爬蟲可以很好解決這類問題。網(wǎng)絡(luò)爬蟲是一種能夠自動抓取互聯(lián)網(wǎng)信息的程序或者腳本,廣泛應(yīng)用于網(wǎng)頁或網(wǎng)站內(nèi)容的檢索。網(wǎng)絡(luò)爬蟲的實(shí)現(xiàn)形式多樣,其工作原理也各不相同。典型的網(wǎng)絡(luò)爬蟲有通用網(wǎng)絡(luò)爬蟲和聚焦網(wǎng)絡(luò)爬蟲2類。本文采用通用網(wǎng)絡(luò)爬蟲,其實(shí)現(xiàn)基本原理及流程如圖1所示。

圖1 通用網(wǎng)絡(luò)爬蟲的工作原理

首先,根據(jù)初始爬取的網(wǎng)頁得到初始統(tǒng)一資源定位系統(tǒng)(uniform resource locator,URL),接著由初始URL爬取網(wǎng)頁內(nèi)容并存儲數(shù)據(jù),在爬取數(shù)據(jù)過程中可獲得新的URL地址,然后將新的URL地址加入U(xiǎn)RL列表。根據(jù)新URL地址重復(fù)以上步驟繼續(xù)爬取數(shù)據(jù),最后直到滿足條件的數(shù)據(jù)爬取完后結(jié)束整個過程。

1.2 分詞技術(shù)

詞語是一句話中能夠體現(xiàn)獨(dú)立含義的最小單位,通過詞語分析理解文本含義是情感分析和數(shù)據(jù)挖掘的重要方法。對中文文本的情感分析需要將語句按照一定邏輯關(guān)系劃分為詞語后再進(jìn)行分析。相比于英文單詞在句子中用空格間隔開的自然分割,中文詞語之間沒有明顯的區(qū)分標(biāo)志,因此對中文語句中的詞語劃分要更加復(fù)雜和困難。

對語句分詞時采用Python提供的第三方分詞庫——jieba庫,jieba分詞是一款開源工具,在中文文本分詞方面廣泛使用且分詞效果較好。jieba分詞工具對應(yīng)有3種不同模式:精確模式、全模式和搜索引擎模式。如:對“山東石油化工學(xué)院新增3個本科專業(yè)”這句文本用3種模式分詞,精確模式分詞后為“山東/石油化工/學(xué)院/新增/3/個/本科專業(yè)”,全模式分詞結(jié)果為“山東/東石/石油/石油化工/化工/化工學(xué)院/工學(xué)/工學(xué)院/學(xué)院/新增/3/個/本科/本科專業(yè)/專業(yè)”,搜索引擎模式分詞結(jié)果為“山東/石油/化工/石油化工/學(xué)院/新增/3/個/本科/專業(yè)/本科專業(yè)”。從分詞效果可以看出,精確模式可以對語句進(jìn)行最精確的切分,并且不存在冗余數(shù)據(jù),適合做文本分析。

1.3 情感分析

在大數(shù)據(jù)時代,對文本情感手工分類已無法滿足需要,當(dāng)下通常選擇機(jī)器學(xué)習(xí)算法對文本情感分類。常用的機(jī)器學(xué)習(xí)算法有:支持向量機(jī)、K近鄰算法、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)等。其中,樸素貝葉斯模型是基于貝葉斯定理和特征條件獨(dú)立假設(shè)的一種預(yù)測模型,主要應(yīng)用在文本分類、疾病診斷等領(lǐng)域[2]。該方法簡單有效,但在使用時假設(shè)屬性之間相互獨(dú)立,在實(shí)際應(yīng)用中往往是不成立的,影響預(yù)測結(jié)果。神經(jīng)網(wǎng)絡(luò)模型包括卷積神經(jīng)網(wǎng)絡(luò)、時間遞歸神經(jīng)網(wǎng)絡(luò)和結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)等不同模型,卷積神經(jīng)網(wǎng)絡(luò)在文本分析方面的優(yōu)勢不及在圖像領(lǐng)域,多模型組合是未來神經(jīng)網(wǎng)絡(luò)在文本分析領(lǐng)域的改進(jìn)方向[3]。支持向量機(jī)(SVM)在求解過程中避開了局部收斂的缺陷致使所得解準(zhǔn)確率同比其他算法更高。因此,SVM算法回歸分析所得解具有全局性和高準(zhǔn)確性,該算法被廣泛應(yīng)用[4]。

支持向量機(jī)是機(jī)器學(xué)習(xí)算法的一種,于1995年由Vapnik等提出。該方法以訓(xùn)練誤差為優(yōu)化問題的約束條件,以置信范圍值最小化為訓(xùn)練目標(biāo),是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的學(xué)習(xí)方法,推廣能力優(yōu)于其他傳統(tǒng)學(xué)習(xí)算法。

支持向量機(jī)分類的基本思想是找到能夠正確劃分訓(xùn)練數(shù)據(jù)集并且使幾何間隔最大的超平面,同時有少許不能準(zhǔn)確分類的樣本點(diǎn)。假設(shè)(xi,yi),xi∈Rm,yi∈{-1,1},i=1,2…m,則得到最有超平面為ω·xi+b=0。要使超平面的分類間隔最大,即求2/||ω||最大的問題,轉(zhuǎn)化為(1/2)||ω||2最小。引入懲罰系數(shù)C表示樣本點(diǎn)與最優(yōu)超平面的距離程度。該問題可闡述為

式中:ω為權(quán)重向量;C為懲罰系數(shù);ξ為松弛因子。C越大,未落在正確分類的樣本對最優(yōu)超平面的懲罰越大。

SVM提供了不同的核函數(shù)。常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)和Sigmoid核函數(shù)。核函數(shù)的選擇根據(jù)具體使用情境選擇,如:是否線性可分、樣本數(shù)量的多少等。所以,在使用SVM訓(xùn)練時,需經(jīng)過大量調(diào)試,在考慮準(zhǔn)確率、運(yùn)算速度等問題的前提下選擇合適的參數(shù)。

2 研究思路

本文中文文本情感分析的數(shù)據(jù)來源采用山東石油化工學(xué)院官方微博上的評論,用以分析該校學(xué)生在日常生活和熱點(diǎn)問題上的情緒表達(dá)。研究的整體思路如下:首先需要利用網(wǎng)絡(luò)爬蟲對網(wǎng)站數(shù)據(jù)進(jìn)行采集,得到的數(shù)據(jù)集中包含了文字、符號和表情等多種信息,對無用信息進(jìn)行剔除,并篩選出有效信息,將有用的語句作為文本情感分析的內(nèi)容,并根據(jù)文本的情感傾向標(biāo)注積極和消極情感標(biāo)簽。該文本為大多為語句式結(jié)構(gòu),接下來對文本預(yù)處理,將語句分詞處理,轉(zhuǎn)換為詞語的形式,并生成詞向量,形成機(jī)器學(xué)習(xí)的數(shù)據(jù)集和訓(xùn)練集。最后,將精簡數(shù)據(jù)集輸入SVM訓(xùn)練器進(jìn)行分類訓(xùn)練,得到預(yù)測結(jié)果。中文文本情感分類過程示意圖如圖2所示。

圖2 中文文本情感分類過程示意圖

2.1 文本獲取

文本數(shù)據(jù)通過對山東石油化工學(xué)院官方微博下方評論數(shù)據(jù)的爬取獲得。除了用戶評論內(nèi)容外,還可得到相應(yīng)的用戶id、用戶昵稱和評論時間等相關(guān)信息。在爬取數(shù)據(jù)時,首先根據(jù)瀏覽器中的開發(fā)者工具查看抓包過程中的相關(guān)信息,接著使用Python編程模擬發(fā)出網(wǎng)絡(luò)請求,由于返回的數(shù)據(jù)是json數(shù)據(jù),還需要用Python自帶的json庫對其進(jìn)行解析,最后將解析后的數(shù)據(jù)保存為.csv文件。數(shù)據(jù)爬取結(jié)果如圖3所示,為.csv文件中保存的微博評論區(qū)獲取的用戶id、用戶昵稱、用戶所在城市和評論內(nèi)容等相關(guān)數(shù)據(jù)。

圖3 數(shù)據(jù)爬取結(jié)果

2.2 文本處理

直接從網(wǎng)頁爬取的數(shù)據(jù)中存在一定的無效信息,無法直接使用,如存在空白項(xiàng)、重復(fù)項(xiàng)和存在表情符號等問題,需先進(jìn)行數(shù)據(jù)清洗,過濾掉無用信息。保留下來的中文文本的處理需將整個句子劃為單詞的形式,包括對中文的分詞、去停用詞和提取關(guān)鍵詞等。文本中含有標(biāo)點(diǎn)符號、介詞和語氣詞等,這些詞對理解文本沒有實(shí)際意義,應(yīng)從分詞結(jié)果中去除,這些詞稱之為停用詞[5]。利用哈爾濱工業(yè)大學(xué)創(chuàng)建的停用詞列表,過濾文本中的停用詞,減少停用詞對語句分析造成的干擾。過濾后的文本按照語意劃分分詞,采用開源的jieba分詞工具的精確模式切分。

文本向量化是自然語言處理的重要一步。文本向量化即將文本以向量的形式表現(xiàn)出來,這樣就把自然語言的分析問題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問題。通常,以詞為基本單位進(jìn)行文本向量化。本文采用2013年由Google公司提出的生成詞向量的神經(jīng)網(wǎng)絡(luò)算法“Word2vec”[6]。該算法基于神經(jīng)網(wǎng)絡(luò)模型,通過對給定語料庫的學(xué)習(xí),生成維度不同的詞向量空間,由于該方法是基于上下文對詞語進(jìn)行分析處理,因而能夠達(dá)到本文需要達(dá)到的情感傾向性分類目的。

2.3 模型預(yù)測

本文將微博評論區(qū)爬取的評論文本經(jīng)過初步篩選和標(biāo)注,得到積極情感文本329條和消極情感文本406條,共735條。該文本信息作為情感分析的原始信息,將經(jīng)過處理的文本向量分為訓(xùn)練集和測試集2部分。采用支持向量機(jī)模型預(yù)測,將訓(xùn)練集和測試集輸入支持向量機(jī)分類器訓(xùn)練,得到預(yù)測的準(zhǔn)確率。由于支持向量機(jī)的分類效果與所選擇的核函數(shù)、懲罰因子等有一定關(guān)系,所以選擇合適的參數(shù)是達(dá)到良好分類效果的關(guān)鍵。

3 實(shí)驗(yàn)結(jié)果分析

根據(jù)以上分析,經(jīng)過數(shù)據(jù)爬取、數(shù)據(jù)預(yù)處理等步驟,將生成的詞向量分為訓(xùn)練集和測試集輸入SVM進(jìn)行訓(xùn)練,得到預(yù)測模型。SVM的懲罰因子選擇默認(rèn)參數(shù)1,核函數(shù)分別選擇常用的線性核函數(shù)、多項(xiàng)式核函數(shù)和徑向基核函數(shù)進(jìn)行測試。在不同核函數(shù)下的分類準(zhǔn)確率見表1。

表1 SVM選擇不同核函數(shù)的分類結(jié)果

由表1可知,當(dāng)核函數(shù)選擇多項(xiàng)式核函數(shù)時,分類效果最好,可達(dá)到91.2%,遠(yuǎn)高于其他2種核函數(shù)下的準(zhǔn)確率。所以,選擇多項(xiàng)式核函數(shù)作為中文文本情感分類預(yù)測模型的核函數(shù)。除了核函數(shù)影響分類結(jié)果準(zhǔn)確率之外,懲罰因子與分類結(jié)果密切相關(guān)。在選擇多項(xiàng)式核函數(shù)的前提下,測試不同懲罰因子對分類結(jié)果的影響,見表2。

表2 SVM選擇不同懲罰因子的分類結(jié)果

由表2的分類結(jié)果可知,選擇懲罰因子為0.8,核函數(shù)為多項(xiàng)式核函數(shù)能夠達(dá)到較好的分類效果,分類準(zhǔn)確率可達(dá)到95.2%。由于本文所采用的文本數(shù)量有限,且選取學(xué)校官方微博下的評論作為數(shù)據(jù)集,數(shù)據(jù)集的內(nèi)容不夠全面,因此,測試結(jié)果具有一定的局限性。未來可在該方面繼續(xù)研究,得到更為廣泛適用的預(yù)測模型。

4 結(jié)論

本文建立了基于支持向量機(jī)的中文文本情感分析模型,通過支持向量機(jī)訓(xùn)練對山東石油化工學(xué)院微博下的評論進(jìn)行情感傾向分析,可以達(dá)到分類正確率95%以上。該模型的分析,可以得到負(fù)面情緒文本內(nèi)容,以及所對應(yīng)的用戶和話題等信息,可以針對性地分析學(xué)生的心理變化,對學(xué)校疏導(dǎo)和緩解學(xué)生負(fù)面情緒有一定的幫助。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 一级成人欧美一区在线观看| 国产精品毛片一区| 久久99热这里只有精品免费看| 毛片在线看网站| 欧美性久久久久| 亚洲va在线∨a天堂va欧美va| 永久毛片在线播| 日韩小视频在线观看| 国产精品刺激对白在线| 美女无遮挡免费网站| 成年人午夜免费视频| 91亚洲视频下载| 日韩精品成人在线| 制服丝袜一区二区三区在线| 波多野结衣无码中文字幕在线观看一区二区| 欧美在线天堂| 美女被狂躁www在线观看| 妇女自拍偷自拍亚洲精品| 国产免费看久久久| 欧美伊人色综合久久天天| 狠狠亚洲五月天| 久久99热66这里只有精品一| 久久国产精品77777| 99视频精品全国免费品| 国产视频只有无码精品| 91年精品国产福利线观看久久 | 欧美人与牲动交a欧美精品| 日韩av在线直播| 国产高清不卡视频| 宅男噜噜噜66国产在线观看| 午夜少妇精品视频小电影| AV不卡国产在线观看| 色综合天天综合中文网| 韩日无码在线不卡| 久久女人网| 狠狠色丁香婷婷| 亚洲欧洲日本在线| 精品少妇三级亚洲| 色婷婷亚洲十月十月色天| 久久一级电影| 一级毛片中文字幕| 91在线激情在线观看| 狂欢视频在线观看不卡| 18禁高潮出水呻吟娇喘蜜芽| 中国一级毛片免费观看| 亚洲无码视频喷水| 99热这里只有精品久久免费| 国产白浆在线| 香蕉视频国产精品人| 成人韩免费网站| 99re在线免费视频| a级毛片免费播放| 亚洲精品高清视频| 永久毛片在线播| 91美女视频在线| 国产在线视频福利资源站| 国产香蕉在线视频| 无码一区二区波多野结衣播放搜索 | 第九色区aⅴ天堂久久香| 国产色偷丝袜婷婷无码麻豆制服| 久久精品国产一区二区小说| 国产男人的天堂| 欧美激情视频二区| 国产大片黄在线观看| 亚洲va欧美va国产综合下载| 国产高潮视频在线观看| 欧美激情网址| 2021最新国产精品网站| 中文字幕在线播放不卡| 亚洲精品无码AV电影在线播放| 无码一区18禁| 亚洲免费福利视频| 91综合色区亚洲熟妇p| 免费一级大毛片a一观看不卡| 亚洲swag精品自拍一区| 日韩视频免费| 国产精品色婷婷在线观看| 久久久91人妻无码精品蜜桃HD| 日韩人妻无码制服丝袜视频| 91欧洲国产日韩在线人成| 国产成人综合网| 97视频在线精品国自产拍|