999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的中文微博情感識別與分類研究

2015-05-30 03:17:02劉丹丹邱恒清趙應(yīng)丁
中國新通信 2015年21期
關(guān)鍵詞:分類特征文本

劉丹丹 邱恒清 趙應(yīng)丁

【摘要】 微博是當(dāng)下社交網(wǎng)絡(luò)中最流行的社交工具典型代表,微博信息具有及時(shí)性,流動速度快,內(nèi)容情感色彩豐富,微博的分析是對社會學(xué)、信息學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等多學(xué)科交叉領(lǐng)域的研究,成為了其新的熱點(diǎn)研究方向。鑒于自主采用Java語言開發(fā)的新浪微博的情感識別與分類系統(tǒng),對中文微博的情感進(jìn)行識別與分類研究。系統(tǒng)使用爬蟲技術(shù),抓取微博的文本內(nèi)容,然后利用支持Java開發(fā)語言的ICTCLAS分詞工具進(jìn)行分詞,去停用詞,文本規(guī)范等預(yù)處理操作,再抽取情感特征,對文本情感識別與分類,最終輸出分類結(jié)果。實(shí)驗(yàn)中通過多種方法對比,選擇實(shí)驗(yàn)效果較好的方法,最終實(shí)驗(yàn)結(jié)果表明:樸素貝葉斯的主客觀句識別效果優(yōu)于支持向量機(jī)分類方法,基于支持向量機(jī)一對一多步識別中文微博文本情感類別效果優(yōu)于一對其余一次識別方法,且準(zhǔn)確率達(dá)到63.76%,召回率達(dá)到74.4%,總體實(shí)驗(yàn)結(jié)果較傳統(tǒng)粗粒度研究有明顯進(jìn)步。

【關(guān)鍵字】 微博 網(wǎng)絡(luò)爬蟲 情感識別 情感分類 支持向量機(jī)

引言

隨著web2.0的快速發(fā)展,社交網(wǎng)絡(luò)逐漸從各個(gè)方面影響著中國網(wǎng)民。微博成為了社交網(wǎng)絡(luò)中社交工具的典型代表。網(wǎng)民使用微博在互聯(lián)網(wǎng)上的活動主要是獲取信息與發(fā)布信息,發(fā)布的信息含有自己對某事物的看法、觀點(diǎn)、感知等個(gè)人情感。

它們主要以文字,表情符號(新浪微博默認(rèn)表情及標(biāo)點(diǎn)符號)形式出現(xiàn)。通過用戶之間的互動傳播(一個(gè)微博用戶具有雙重角色,即博主與粉絲),這種社交網(wǎng)絡(luò)媒體具有傳播速度快,傳播范圍廣等特點(diǎn)。因此對微博情感識別與分類就顯得尤為重要。

對微博文本的情感進(jìn)行識別與分類,不僅能讓企業(yè)及時(shí)了解客戶需求尋找到潛在的客戶群體,通過實(shí)時(shí)、準(zhǔn)確地評估其情感。能夠獲得客戶市場反饋信息及客戶的消費(fèi)習(xí)慣,幫助企業(yè)進(jìn)行有效的需求管理及企業(yè)戰(zhàn)略調(diào)整,從而快速應(yīng)對市場變化,提高企業(yè)競爭力。還能幫助政府部門實(shí)時(shí)監(jiān)控民眾情緒,對負(fù)面情緒及時(shí)采取措施,防止不法分子企圖通過微博平臺傳播謠言,以此保證社會的和諧穩(wěn)定,政府了解民意,為制訂國家政策提供參考。

同時(shí)也能協(xié)助醫(yī)生分析心理障礙者,及時(shí)掌握患者情緒波動,準(zhǔn)確對患者病情進(jìn)行有效的對癥下藥。避免了患者不能準(zhǔn)確描述病情,而帶來的不相關(guān)治療。

因此對微博情感進(jìn)行研究具有重要的理論與實(shí)踐意義。文章意在為政府或企業(yè)等利用到微博情感分析數(shù)據(jù)的領(lǐng)域提供基礎(chǔ)。

鑒于自主采用Java語言開發(fā)的新浪微博的情感識別與分類系統(tǒng),對中文微博的情感進(jìn)行識別與分類研究。系統(tǒng)使用爬蟲技術(shù)[1],抓取微博的文本內(nèi)容,然后進(jìn)行分詞,去停用詞,文本規(guī)范等預(yù)處理操作,再抽取情感特征,對文本情感識別與分類,最終輸出分類結(jié)果。

一、相關(guān)工作

1.1文本獲取及預(yù)處理

對微博數(shù)據(jù)資源的獲取有兩種形式,一種是用戶以普通文本形式直接在系統(tǒng)前臺相應(yīng)位置輸入待分析的文本,系統(tǒng)可以自動進(jìn)行情感識別與分類;另一種是用戶以微博文本URL形式輸入,系統(tǒng)對用戶輸入U(xiǎn)RL連接采用網(wǎng)絡(luò)爬蟲技術(shù)抓取微博正文內(nèi)容。

網(wǎng)絡(luò)爬蟲結(jié)構(gòu)先將用戶輸入U(xiǎn)RL作為爬蟲起點(diǎn),通過web協(xié)議(主要是HTTP協(xié)議)采集頁面,使用多線程或并列技術(shù)獲取網(wǎng)頁數(shù)據(jù)信息,網(wǎng)絡(luò)爬蟲結(jié)構(gòu)也提供了鏈接過濾模塊(過濾掉不符合URL規(guī)范的鏈接),頁面數(shù)據(jù)庫模板(存儲已經(jīng)爬取到本地的原始頁面數(shù)據(jù),以備預(yù)處理階段建立索引使用)。

為了提高分類的準(zhǔn)確率,減少獲取文本內(nèi)容不必要干擾,對文本進(jìn)行預(yù)處理操作十分必要。系統(tǒng)的預(yù)處理操作主要包括:

1.文本規(guī)范化處理,判斷待處理的文本是否含有由兩個(gè)#組成的話題標(biāo)簽,若有則刪除兩個(gè)#及它們之間的文字內(nèi)容。

2.使用正則表達(dá)式判斷微博文本是否含有以下三種含@微博標(biāo)簽,若有將它們刪除①以@開頭,以:結(jié)尾②以@開頭,以空格結(jié)尾③以回復(fù)@開頭以:結(jié)尾。

3.判斷英文詞語是否含有感情色彩,刪除不必要的英文詞語。

4.用中文描述替代含有感情的“?”和“!”去除一些標(biāo)點(diǎn)符號。

5.使用得到普遍認(rèn)可的支持Java開發(fā)語言的ICTCLAS分詞工具分詞,去除停用詞。

1.2文本特征抽取

文本特征抽取[2-3]是從文本中選取一部分能夠反應(yīng)其內(nèi)容信息的特征詞匯并計(jì)算其特征權(quán)重。特征抽取的主要目的是為了降低向量空間的維度,消除無關(guān)特征的噪音,通過選擇可區(qū)分性強(qiáng)的少量特征來提高分類器的分類精度和效率。常用的特征選取方法有: 文檔頻率、信息增益法、期望交叉熵等。文檔頻率[4](Document Frequency )一種簡單的特征約減技術(shù),常用自動特征選擇,通過設(shè)置目標(biāo)特征的文檔頻率閾值來進(jìn)行特征的抽取。DF是含有該目標(biāo)特征的文檔數(shù)與所有文檔數(shù)的比值,可表示為

信息增益法[5]是指文本包含該特征項(xiàng)與不包含該特征項(xiàng)時(shí)的信息熵的差值,根據(jù)所獲信息增益的多少篩選有效特征,已成為機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用較為廣泛的特征選擇方法。信息增益法計(jì)算公式可以表示為:

由于當(dāng)特征數(shù)目較少時(shí),使用該方法得到的數(shù)據(jù)稀疏,分類結(jié)果會不理想,因此本文首先對預(yù)處理后待分析的文本里出現(xiàn)的每個(gè)詞計(jì)算其信息增益,設(shè)置一個(gè)閾值,抽取特征詞,按照信息增益值降序選擇特征項(xiàng)組成特征向量。

期望交叉熵[6](Expected Cross Entropy)反應(yīng)了文本類別的概率分布與在出現(xiàn)了某個(gè)詞條的情況下文本類別的概率分布之間的距離。

詞條的交叉熵越大,對文本類別分布影響也就越大。所以選CE最大的K個(gè)詞條作為最終的特征項(xiàng)。

期望交叉熵計(jì)算公式:

為了提供特征詞抽取的時(shí)間效率,針對微博的數(shù)據(jù)量很大的特點(diǎn),使用期望交叉熵和TF-IDF求方差的方法抽取情感特征詞。

1.3文本情感識別與分類

采用基于樸素貝葉斯主客觀句識別方法[7]和支持向量機(jī)的分類方法[8-11]對文本分類。樸素貝葉斯方法是一種基于事件概率簡單而誤差率較小的分類方法。基本原理是:在事件相對獨(dú)立的條件下,事件A在事件B發(fā)生的條件下的概率且與事件B在事件A發(fā)生的條件下概率是不相同的。及文檔A屬于B i類概率表示為

系統(tǒng)應(yīng)用思想:對有已知類別集合S(x1,x2,…,xn),求在待分類項(xiàng)出現(xiàn)的條件下,集合中各個(gè)類別出現(xiàn)的概率,哪個(gè)類別的概率值大,就認(rèn)為待分類項(xiàng)屬于那一類別。并將對每個(gè)特征項(xiàng)主客觀句的條件概率計(jì)算結(jié)果輸出,作為支持向量機(jī)分類器的輸入值。

系統(tǒng)的工作流程圖如圖1所示。

二、實(shí)驗(yàn)分析

使用第二屆自然語言處理與中文計(jì)算機(jī)會議所提供包含4000條已經(jīng)標(biāo)注是否含有情感色彩的中文微博語料,含有13252個(gè)句子,且主觀句中又表明了所屬具體情感類。情感類別分為7個(gè)類別,分別是:喜好、安樂、驚奇、厭惡、悲哀、憤恨和恐懼。

選擇這些數(shù)據(jù)作為系統(tǒng)測評數(shù)據(jù)主要是與系統(tǒng)測試結(jié)果進(jìn)行比較,核實(shí)評價(jià)實(shí)驗(yàn)結(jié)果的召回率(R),準(zhǔn)確率(P),性能評價(jià)指標(biāo)F值。求解公式如下所示:

系統(tǒng)將實(shí)驗(yàn)測評數(shù)據(jù)首先進(jìn)行預(yù)處理,對其進(jìn)行規(guī)范化、分詞去除停用詞、抽取情感特征,然后采用樸素貝葉斯方法,使用其公式計(jì)算結(jié)果來識別主觀句,支持向量機(jī)方法先將抽取的特征詞轉(zhuǎn)換成向量形式,再將向量化后的文本放到向量機(jī)的模型中,最終輸出分類結(jié)果。通過計(jì)算支持向量機(jī)的情感分類方法召回率達(dá)到74.4%,準(zhǔn)確率高達(dá)63.76%,F(xiàn)值達(dá)到0.6534.

實(shí)驗(yàn)中采用準(zhǔn)確率,召回率,F(xiàn)值測評指標(biāo),對常見的情感特征抽取方法[16]實(shí)驗(yàn)結(jié)果進(jìn)行了對比,見表1,通過對比樸素貝葉斯和支持向量分類方法對主客觀句的識別結(jié)果,得出結(jié)論:本實(shí)驗(yàn)中對主客觀句的識別樸素貝葉斯方法比支持向量機(jī)方法的實(shí)驗(yàn)結(jié)果更好。因?yàn)橹С窒蛄繖C(jī)方法準(zhǔn)確率雖更高,但召回率較低。

實(shí)驗(yàn)結(jié)果見表2。對已識別的主客觀句,我們采用支持向量機(jī)的一對一的多步分類方法及一對其余的一次分類方法進(jìn)行情感分類。

實(shí)驗(yàn)結(jié)果見表3。實(shí)驗(yàn)結(jié)果表明:一對一多步情感分類方法效果優(yōu)于一對其余一次分類。因?yàn)橐粚ζ溆喾诸惙椒赡艹霈F(xiàn)重疊現(xiàn)象或因不可分類現(xiàn)象而引起數(shù)據(jù)集的抖動。因此實(shí)驗(yàn)最終選擇支持向量機(jī)的一對一多步分類方法。

三、結(jié)語

微博作為網(wǎng)民在互聯(lián)網(wǎng)主要活動之一,逐漸從各個(gè)方面影響著人們,網(wǎng)民帶有情感的言論對各行各業(yè)都有著不可估量的使用價(jià)值。因而對微博文本的數(shù)據(jù)分析研究有一定的社會意義。

通過查閱文獻(xiàn)發(fā)現(xiàn)基于樸素貝葉斯識別主客觀句的方法及基于機(jī)器學(xué)習(xí)支持向量的方法有較高的精度。而由于針對中文微博的研究大部分是理論性的研究,因此本文通過構(gòu)建系統(tǒng),將基于樸素貝葉斯的識別主客觀句個(gè)方法及支持向量機(jī)的方法的研究思路實(shí)踐化。實(shí)驗(yàn)結(jié)果對企業(yè)、政府及廣大網(wǎng)民均有重要的社會意義。

展望:

1.后期會打破僅在初步解決微博文本的情感識別和分類問題的研究,接下來會投入對用戶的圖片信息,鏈接的視頻聲音信息進(jìn)行研究。

2.本文去除英文詞語,采用的是人工標(biāo)注方法。鑒于部分國人傾向于有使用英文的習(xí)慣,所以會不斷的完善系統(tǒng)情感庫,或設(shè)計(jì)系統(tǒng)能自動翻譯,以此減少人工工作量。

參 考 文 獻(xiàn)

[1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.

[2] 張彪.基于關(guān)聯(lián)分析的文本分類特征選擇算法[J].計(jì)算機(jī)工程.2010(22):184-186.

[3]謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào),2011,26(1):73-83.

[4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.

[5] 李海瑞.基于信息增益和信息熵的特征詞權(quán)重計(jì)算研究[D].重慶大學(xué),2012.

[6] 廖一星.文本分類及其特征降維研究[D].浙江大學(xué).2012

[7] 蔣良孝.樸素貝葉斯分類器及其改進(jìn)算法研究[D].中國地質(zhì)大學(xué),2009

[8]楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法 [J].計(jì)算機(jī)應(yīng)用研究,2010,27(10):3737-3739

[9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.

[10]趙暉.支持向量機(jī)分類方法及其在文本分類中的應(yīng)用研究[D].大連理工大學(xué),2006.

[11]張博.基于SVM的中文觀點(diǎn)句抽取.[D].北京.北京郵電大學(xué),2011

[12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.

[13] 韓忠明,張玉莎,張慧,等.有效的中文微博短文本傾向性分類算法[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(10):89-93.

[14] 張艷輝,杜文韜,劉培玉,等.基于詞典的微博的傾向性分析[C].第五屆中文傾向性分析評測研討會,2013:50-52.

[15] 張珊,于留寶,胡長軍.基于表情圖片與情感詞的中文微博情感分析[J].計(jì)算機(jī)科學(xué),2012,39(11A):146-148.

[16] 劉明吉,王秀峰.Web 文本特征信息的特征獲取算法[J].小型微型計(jì)算機(jī)系統(tǒng),2002,23(6):683-686.

猜你喜歡
分類特征文本
分類算一算
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 四虎永久免费地址在线网站| 亚洲美女视频一区| 青青青国产在线播放| 国产成年女人特黄特色毛片免| 亚洲激情区| 一级一毛片a级毛片| 国产精品污视频| 国产精品丝袜在线| 日韩天堂视频| 91精品啪在线观看国产60岁| 伊人福利视频| 亚洲天堂网视频| 日本人妻一区二区三区不卡影院| 日韩专区第一页| 国产福利2021最新在线观看| 精品国产91爱| 亚洲国产综合自在线另类| 91福利免费| 国产尤物在线播放| 国产精品大尺度尺度视频 | 国产乱人视频免费观看| 久久国产拍爱| 99精品视频九九精品| 国产高清不卡| 欧美亚洲日韩中文| 中文字幕av一区二区三区欲色| 欧美不卡视频在线| 1级黄色毛片| 日本精品αv中文字幕| 免费在线色| 国产一级一级毛片永久| 手机精品福利在线观看| 久久国产精品麻豆系列| 国产成人无码播放| 亚洲最大在线观看| 久久综合丝袜日本网| 色偷偷av男人的天堂不卡| a毛片免费观看| 国产不卡在线看| 日韩高清欧美| 欧美日韩在线成人| 波多野结衣无码中文字幕在线观看一区二区 | 福利国产微拍广场一区视频在线 | 青草免费在线观看| 国产高清免费午夜在线视频| 无码国产偷倩在线播放老年人| 亚洲一区二区三区国产精华液| www.亚洲一区二区三区| 伦伦影院精品一区| 欧美午夜小视频| 亚洲成人在线网| 四虎永久在线| 国产成人精品视频一区二区电影| 亚洲中文字幕97久久精品少妇| 午夜在线不卡| 天天躁狠狠躁| 制服丝袜在线视频香蕉| 久久人人爽人人爽人人片aV东京热| 色天堂无毒不卡| 99久久精品美女高潮喷水| 国产特级毛片aaaaaaa高清| 五月激情婷婷综合| a在线观看免费| 波多野吉衣一区二区三区av| 色妞www精品视频一级下载| 亚洲男人的天堂久久香蕉网| 国产成人啪视频一区二区三区 | 国产aaaaa一级毛片| 亚洲国模精品一区| 国产成人亚洲精品无码电影| 九色91在线视频| 日本一区二区三区精品国产| 69av免费视频| 亚洲精品波多野结衣| 婷婷色中文网| 日韩欧美国产区| 亚洲天堂777| 丁香五月婷婷激情基地| 高清大学生毛片一级| 日韩视频精品在线| 国产超薄肉色丝袜网站| 久久特级毛片|