999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社會熱點事件中評價對象分類研究

2017-06-26 12:49:24張志遠楊宏敬
計算機與數(shù)字工程 2017年6期
關(guān)鍵詞:分類文本評價

張志遠楊宏敬

(中國民航大學計算機科學與技術(shù)學院天津300300)

社會熱點事件中評價對象分類研究

張志遠楊宏敬

(中國民航大學計算機科學與技術(shù)學院天津300300)

隨著微博等自媒體平臺的迅猛發(fā)展,社會熱點事件的傳播速度越來越快,影響范圍也越來越廣。識別這些熱點事件中的評論對象并對其進行分類可了解公眾對事件責任主體的認定傾向,是輿情傳播的重要研究內(nèi)容之一。特征提取是文本分類的重要一環(huán),傳統(tǒng)的信息增益方法只考慮類別對特征的影響,而大量短微博中的特征很可能會被忽略,影響分類效果。論文在信息增益方法的基礎上加入文本長度對特征的影響,在新浪微博上的實驗表明,新方法的分類準確度較傳統(tǒng)的信息增益方法有所提高。

微博;熱點事件;評論對象;分類;信息增益

Class NumberTP391

1 引言

隨著網(wǎng)絡的普及和快速發(fā)展,其具備的強時效性和信息廣泛性以及便利性等,使人們越來越傾向于在網(wǎng)絡上表達自己對事件的看法。就目前來看,借用自然語言文字仍然是廣大網(wǎng)民表達情感及觀點的主流形式。微博作為各類新聞、事件等評論的載體,具有強大的社會輿論影響力和輿論導向作用。廣大網(wǎng)友不僅能通過微博獲取新聞時事訊息,更可以借助微博發(fā)表自己對事件的看法。在針對社會熱點事件的評論中,網(wǎng)友對事件的看法一般都帶有感情色彩,識別并確定網(wǎng)友的褒貶態(tài)度是輿情監(jiān)控的重要內(nèi)容之一。

存在這樣一大類社會熱點事件,由于這些事件本身和社會的基本價值觀相悖,廣大網(wǎng)友的態(tài)度容易形成一邊倒的態(tài)勢。如2015年11月的“南航急救門”事件中,乘客在突發(fā)疾病后相關(guān)單位人員均怕承擔責任而互相推諉的事件曝光后,網(wǎng)絡上以批評聲者居多。因此在這種情況下,確定網(wǎng)友的評判對象是誰就顯得更為重要了。一方面可以獲悉廣大網(wǎng)友認為事件到底是誰的責任,另一方面對涉事企業(yè)或個人而言,也可使其正確認識輿論傾向,并為其進一步正確引導輿論提供決策依據(jù)。

2 相關(guān)工作

一條微博評論可承載的信息形式可以是文本、圖片、視頻鏈接等,本文的主要研究對象是其中的文本內(nèi)容。趙妍妍等[1]將文本情感分析分為情感信息的抽取、分類、檢索與歸納三種任務。本文研究內(nèi)容為從微博文本中獲取網(wǎng)友的評價對象,屬于情感信息抽取范疇。劉鴻宇等[2]使用句法分析結(jié)果獲取候選評價對象,然后使用頻率過濾以及名詞剪枝等算法對候選評價對象進行篩選。另有部分學者使用條件隨機場模型識別評論對象,如Hamdan等[3]使用CRF(Conditional Random Field)識別餐館和筆記本電腦評論中的評價對象,林琛等[4]使用CRF識別社會熱點事件中的評論對象。本文研究內(nèi)容和文獻[4]類似,不同之處在于本文并非識別具體出現(xiàn)在文本中的評論對象而是對其進行歸類。例如關(guān)于“南航急救門”事件中責任相關(guān)方的紅十字會,網(wǎng)友評論中有多種指稱,如“紅會”、“黑十字會”等,我們將其統(tǒng)一歸為一類。因此,本文將評論中各涉事單位或個人看作不同類別,進而將評論對象識別轉(zhuǎn)換為文本分類問題。

文本分類的步驟大致為:獲取原始文本后,首先進行分詞,并以某停用詞表作為基準去除停用詞,將文本表示為向量空間模型,進行特征選擇,然后訓練分類模型并進行測試。選取好的特征對訓練分類器至關(guān)重要。TF-IDF(Term Freqency-Inverse Document Frequency)作為經(jīng)典的特征提取算法,多次被前人進行過研究。王美芳等[5]在原始TF-IDF算法上提出了一種新的改進后的評價函數(shù),此評價函數(shù)將類別信息引入到特征項中,使其提取出的特征項與類別相關(guān),彌補了傳統(tǒng)型TF-IDF的不足,提高了分類精度。賀飛艷等[6]等結(jié)合TF-IDF方法與方差統(tǒng)計方法,并將其應用于微博短文本的細粒度情感特征詞提取,在NLP&CC2013的評測任務中取得了較好的成績。

一些研究者嘗試將TF-IDF和信息熵結(jié)合進行特征提取。周炎濤等[7]考慮詞條文檔在分類中的分布情況,在TF-IDF的基礎上添加了信息熵因素,利用向量空間模型進行文本分類并取得較好的實驗結(jié)果。郭紅鈺[8]也將信息熵與TF-IDF結(jié)合,提出了新的特征權(quán)重計算方法ETF-IDF。該方法綜合考慮了特征項在文檔中出現(xiàn)的頻率和在訓練集中的集中度以及其在各個類別中的分散度,可以更準確地表示文本,進而提高分類的精確程度。

Yang等[9]針對文本分類問題,分析和比較了多種特征提取方法,認為信息增益(Information Gain,IG)和卡方統(tǒng)計(chi-square statistic,CHI)效果較好。傳統(tǒng)的信息增益方法只考慮類別對特征的影響,而短微博中的詞匯在特征選擇后很可能會被忽略,從而導致其無法被正確分類。本文在信息增益算法的基礎上,考慮了微博短文本中的詞匯對特征提取的影響,并將其應用于社會熱點事件中的評價對象分類研究。

3 信息增益

信息增益是依據(jù)某特征項ti為整個分類所能提供的信息量多少來衡量該特征項的重要程度,從而決定對該特征項的取舍。信息增益由信息熵與條件熵的差值決定,其中信息熵表示隨機變量的不確定性,熵越大,不確定性越大,則做出正確估計的可能性就越小。實際上,均勻分布時熵最大,最不具有區(qū)分意義。條件熵是指在給定條件下隨機變量的不確定性。因此信息增益表示的是在給定條件下信息不確定性減少的程度。具體到文本分類,就是以某特征存在與否為條件。如果考慮進該特征后,后者的不確定性小了,則二者之差表示該特征帶給我們的信息量大了,因此考慮將這個特征加入特征集。Yang等[9]定義了用于文本分類中特征選擇的信息增益公式:

其中,t為單詞,Ci表示第i個類別,n為類別總數(shù)。根據(jù)概率論知識,公式中其他部分也很容易得到。P(Ci)是第i類出現(xiàn)的概率,若每類平均出現(xiàn),則P(Ci)=1/n。P(t)是單詞t出現(xiàn)的概率,可用出現(xiàn)詞語t的文檔數(shù)與總文檔數(shù)的比值估算。P(t)是單詞t不出現(xiàn)的概率,可用1-P(t)估算。P(Ci|t)即t出現(xiàn)時,Ci出現(xiàn)的概率,可用出現(xiàn)t且屬于Ci的文檔數(shù)與所有出現(xiàn)t的文檔總數(shù)的比值估算。P(Ci|t)即t不出現(xiàn)但屬于Ci的概率,可用未出現(xiàn)t但屬于Ci的文檔總數(shù)與未出現(xiàn)t的所有文檔數(shù)的比值估算。

4 算法設計

與前人不同的是,本方法考慮短文本中的特征詞對分類的影響。為避免短文本中的特征詞被忽略,增加了文本長度系數(shù)來提高短文本中特征詞的權(quán)重,從而增加短文本的分類準確性。該系數(shù)由單詞在所有微博條目中出現(xiàn)的比率加和得到,公式為

其中IG(t)由傳統(tǒng)信息增益計算,Lit表示第i條微博中單詞t出現(xiàn)的次數(shù),Li表示第i條微博中的單詞總數(shù),N表示數(shù)據(jù)集中微博條目總數(shù)。為避免IG(t)和單詞的文本長度系數(shù)之間大小差距懸殊的情況,對兩者分別進行了歸一化處理,即式(2)中的Normal函數(shù)。

短文本中的詞匯由于Li值較小容易獲得比較大的比值,反之長本文中的詞匯要想獲得比較大的比值,要么在同一篇微博中出現(xiàn)的次數(shù)比較多,要么出現(xiàn)在不同微博中的次數(shù)比較多一些。為分析該算法的有效性,我們比較了“南航急救門”事件中網(wǎng)民對于紅十字會的多種表述方式在傳統(tǒng)信息增益算法和本文改進算法中的排序位置,如表1所示。從表中可以看出,主流的表述方式如“紅十字會”、“紅會”由于出現(xiàn)次數(shù)較多,在兩種算法中均占據(jù)了比較靠前的位置。而一些不太常見的表述方式如“紅十字”、“紅十會”、“黑十字會”、“黑十字”等的排序位置均比較靠后,但這些單詞在本文算法中的排序位置均比傳統(tǒng)的信息增益算法靠前,也就更容易被選擇為特征詞語?!爸袊t十字會”作為一個單位名稱,并未被切分為“中國”和“紅十字會”兩個詞語,由于這個詞只在以下兩篇短微博中出現(xiàn)過:

表1 “南航急救門”事件特征詞排序示例

1)又是中國紅十字會,厚顏無恥。

2)中國紅十字會真是神一般的存在~999急救看來是999要人命?。?/p>

因此獲得了較高的文本長度系數(shù),從而將排序位置由原來的126位提高到了24位。

5 實驗與結(jié)果分析

5.1 實驗數(shù)據(jù)集

實驗數(shù)據(jù)使用八爪魚采集器從Sina微博抓取。抓取的微博主要來自兩個主題:南航急救門和維珍事件,分別獲取了170條和319條微博。對于每條微博,都對其進行了手工情感標注,分為正向、負向、中立和無情感傾向四種。如引言所述,對于“南航急救門”事件,負面評論居多(負向111條,無情感48條,中立7條,正向4條)。我們僅研究其中的負向評論,并根據(jù)其中的評論對象對微博進行分類。由于某些評價對象在數(shù)據(jù)集中僅出現(xiàn)一兩次,對這類微博條目予以刪除。經(jīng)過這些處理后,南航急救門事件剩余104條微博,維珍事件剩余197條微博。

手工標注了每條微博的評論對象以訓練分類器,標注示例如表2和表3所示。由于微博中有很多口語用語或者名詞簡稱,比如“紅十字會”和“紅會”其實指的是同一個機構(gòu),我們就把這類詞都歸為“紅十字會”類。維珍事件中,出現(xiàn)很多“白人”“老外”“歐美”等,其實對象指向均為“外國人”,于是將其分類為“外國人”。這些有明顯評價對象的,可以進行具體分類,但諸如“人命關(guān)天,有什么比生命更重要?”“爛尾的事情還少么”,這類文本并沒有明確的評價對象指向,所以將它們分為“不明確”類。其中單條微博可能包含多個評價對象,本文將不同評價對象的組合作為單獨的類別予以對待,如表3中的第4類“急救中心和民航”。

表2 “南航記者門”事件分類示例

表3 維珍事件分類示例

5.2 數(shù)據(jù)預處理

微博中經(jīng)常出現(xiàn)一些http鏈接、@××等,這些信息對評價對象識別和分類沒有什么用處,將其去掉。另外微博中經(jīng)常會出現(xiàn)一些標題引用,如“道歉有什么用?該反思檢討改變了『南航機場急救門:真正惡劣的是后來的事…』”,后面的標題引用對于最后的評價對象分類易造成干擾,因此也將其去掉。

去除無用信息后進行分詞,此處選擇中科院張華平教授開發(fā)的自然語言分詞系統(tǒng)NLPIR[10]進行分詞,并采用哈工大停用詞表作為基準,將文本中出現(xiàn)的停用詞去掉。

5.3 基于規(guī)則的評價對象分類

給定評價對象,一般比較容易想到一些代表性的詞匯。當微博中出現(xiàn)這些代表性詞匯時,可以使用簡單的規(guī)則對其進行分類,并將其結(jié)果作為測試基準。兩類事件的分類規(guī)則如表4所示。若同時出現(xiàn)兩種類別,則按5.1節(jié)所述作為一個新類別對待;若一種類別也沒有出現(xiàn),則將其分到“不明確”中。對兩個數(shù)據(jù)集分別進行測試,所得準確率分別為67.27%和41.9%。由于維珍事件中關(guān)于中國人和外國人的描述具有很大的不確定性,很難找到合適的代表性詞匯,因此準確率比較低。

表4 評價對象分類規(guī)則

5.4 實驗結(jié)果與分析

對兩個數(shù)據(jù)集以按類別分層抽樣的方式平均分成三份,其中兩份作為訓練集,一份作為測試集,使用支持向量機作為分類器進行交叉驗證,所得結(jié)果如表5所示。由于網(wǎng)絡詞匯極為豐富,表4中的規(guī)則很難覆蓋到所有情況,因此當采用基于規(guī)則的方法將微博分到“不明確”類中時很可能會出現(xiàn)偏差。因此,本文還考慮了“規(guī)則+本文算法”的方法,如表5最后一行所示。本方法僅針對基于規(guī)則方法中分出的“不明確”類微博使用本文算法,而其他微博則使用原基于規(guī)則分類方法所得結(jié)果。

表5 實驗結(jié)果匯總

在兩個數(shù)據(jù)集的實驗中,本文算法所得準確率分別為70.21%和55.78%,均高于基于規(guī)則的分類方法和傳統(tǒng)的信息增益方法。而“南航急救門”事件中信息增益算法的準確率為63.4%,低于基于規(guī)則方法的67.27%,說明當評價對象的代表性詞匯較為集中時,基于規(guī)則的方法雖簡單,卻也能收到不錯的效果。采用“規(guī)則+本文算法”時“南航急救門”事件的正確率在四種方法中效果最好,達到了73.93%,但在“維珍事件”中該方法只有46.8%的準確率,僅略高于基于規(guī)則的方法。

從表5可以看出,本文算法在“南航急救門”事件的數(shù)據(jù)集上具有明顯優(yōu)勢,而對于維珍事件來說,改進后的算法較原始的信息增益算法,雖然準確率略有提高,但并未達到預期效果。甚至在結(jié)合語義規(guī)則后,準確率反倒低了。為此,我們對實驗數(shù)據(jù)進行了分析。由于本文中提出的算法是加入了短文本為考慮因素,于是我們從兩個數(shù)據(jù)集的文本長短入手,假設我們規(guī)定文本短于30個字的為短文本,30字~50字之間的為中長度文本,多于50字的為長文本。分別計算出短、中、長文本在整個數(shù)據(jù)集中所占的比例,如圖1所示。

圖1 兩個數(shù)據(jù)集的文本長短分布情況

其中,“南航急救門”事件中短、中、長文本占比分別為60.5%、13.5%、26%,而“維珍事件”中短、中、長文本對應的比例分別為5.6%、22.3%、72.1%。能夠明顯地看出“南航急救門”事件的數(shù)據(jù)集中,短文本占有相當大的比例,而“維珍事件”數(shù)據(jù)集則與此相反,長文本占了很大比例。這也表明了本文算法更適用于短文本較多的數(shù)據(jù)集,在長文本較多時,優(yōu)勢不甚明顯。

6 結(jié)語

本文研究了從評價對象的角度對反應社會熱點事件的微博進行分類的問題。針對微博中存在大量短文本,其中的特征詞語易被忽略的問題,本文提出了在傳統(tǒng)信息增益算法的基礎上增添文本長度系數(shù)進行特征選擇的方法,在新浪微博上的實驗表明,新方法的分類準確度較傳統(tǒng)的信息增益方法有所提高。

[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,8:1834-1848.

ZHAO Yanyan,QIN bing,LIU ting.Sentiment Analysis[J].Journal of Software,2010,8:1834-1848.

[2]劉鴻宇,趙妍妍,秦兵,等.評價對象抽取及其傾向性分析[J].中文信息學報,2010,24(1):84-88.

LIU Hongyu,ZHAO Yanyan,QIN Bing,et al.Comment Target Extraction and Sentiment Classification[J].Journal of Chinese Information Processing,2010,24(1):84-88.

[3]Hamdan H,Bellot P,Béchet F.Supervised Methods for Aspect-Based Sentiment Analysis[C]//Proceedings of the 8thInternationalWorkshoponSemanticEvaluation(SemEval 2014),Dublin,Ireland,Aug.2014,596-600.

[4]林琛,王蘭成.基于條件隨機場的網(wǎng)民評論對象識別研究[J].現(xiàn)代圖書情報技術(shù),2013(6):63-67.

LIN Chen,WANG Lancheng.Object Recognition of Network Comments Based on Conditional Random Fields[J]. New Technology of Library and Information Service,2013(6):63-67.

[5]王美方,劉培玉,朱振方.基于TFIDF的特征選擇方法[J].計算機工程與設計,2007,28(23):5795-5799.

WANG Meifang,LIU Peiyu,ZHU Zzhenfang.Feature selection method based on TFIDF[J].Computer Engineering and Design,2007,28(23):5795-5799.

[6]賀飛艷,何炎祥,劉楠,等.面向微博短文本的細粒度情感特征抽取方法[J].北京大學學報(自然科學版),2014,50(1):48-54.

HE Feiyan,HE Yanxiang,LIU Nan.A Microblog Short Text Oriented Multi-class Feature Extraction Method of Fine-Grained Sentiment Analysis[J].Acta Scientiarum Naturalium Universitatis Pekinensis,2014,50(1):48-54.

[7]周炎濤,唐劍波,王家琴.基于信息熵的改進TFIDF特征選擇算法[J].計算機工程與應用,2007,43(35):156-171.

ZHOU Yantao,TANG Jianbo,WANG Jiaqin.An Improved TFIDF Feature Selection Algorithm Based On Information Entropy[J].Computer Engineering and Applications,2007,43(35):156-171.

[8]郭紅鈺.基于信息熵理論的特征權(quán)重算法研究[J].計算機工程與應用,2013,49(10):140-146.

GUO Hongyu.Research on term weighting algorithm based on information entropy theory[J].Computer Engineering and Applications,2013,49(10):140-146.

[9]Yang Y,Pedersen JO.A Comparative Study on Feature Selection in Text Categorization[C]//Fourteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.1997:412-420.

[10]NLPIR漢語分詞系統(tǒng)[EB/OL].http://ctclas.nlpir.org/ downloads.(ICTCLAS2013)

Opinion Target Classification in Hot Social Events

ZHANG ZhiyuanYANG Hongjing
(School of Computer Science&Technology,Civil Aviation University of China,Tianjin300300)

With the rapid development of microblog from the media platform,the propagation velocity of the hot social events gets faster and faster,and the scope of influence becomes more widely as well.To recognize the target of these hot events reviews and classify them can identify the attitude of public for the tendency of the main responsibility of the events,and it is important for the research of the spread of public opinion.Feature extraction is an important part of text classification,and the traditional information gain only considers the impact on the characteristics of the category,large number of features in short microblog are potentially to be ignored,thus affecting the classification effect.This paper proposes a method based on the information gain that considers the length of text influence on feature.Experiments on Weibo shows that the classification accuracy of the new method is better than the traditional information gain.

microblog,hot events,opinion target,classification,information gain

TP391

10.3969/j.issn.1672-9722.2017.06.031

2016年12月3日,

2017年1月24日

張志遠,男,副教授,研究方向:文本挖掘,數(shù)據(jù)倉庫,復雜網(wǎng)絡。楊宏敬,女,碩士,研究方向:情感分析。

猜你喜歡
分類文本評價
SBR改性瀝青的穩(wěn)定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于Moodle的學習評價
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 亚洲欧美在线精品一区二区| 国产激爽大片在线播放| 自慰网址在线观看| 妇女自拍偷自拍亚洲精品| 狠狠综合久久| 国产va在线观看| 亚洲码在线中文在线观看| 亚洲精品无码久久毛片波多野吉| 亚洲天堂免费在线视频| 成年人免费国产视频| 免费人成又黄又爽的视频网站| 日韩毛片免费视频| 国产成年女人特黄特色大片免费| 亚洲国产黄色| 国产流白浆视频| 国产在线视频二区| 1024你懂的国产精品| 91网站国产| 91欧美亚洲国产五月天| 97青青青国产在线播放| 久久一本日韩精品中文字幕屁孩| 国产精品无码翘臀在线看纯欲| 露脸一二三区国语对白| 五月天久久婷婷| 国产人碰人摸人爱免费视频| 国产成人8x视频一区二区| 亚洲大学生视频在线播放| 中国一级特黄视频| 午夜丁香婷婷| av在线人妻熟妇| 国产不卡在线看| 亚洲欧美日韩视频一区| 亚洲精品国产精品乱码不卞| 99在线视频免费| 伊人色综合久久天天| 免费国产黄线在线观看| 狼友av永久网站免费观看| www欧美在线观看| 国产色图在线观看| 久久狠狠色噜噜狠狠狠狠97视色| 国产欧美在线观看一区| 国产免费久久精品99re丫丫一| 毛片网站观看| 色网站在线视频| 日本午夜视频在线观看| 亚洲视屏在线观看| 亚洲中文在线看视频一区| 丁香亚洲综合五月天婷婷| 免费看av在线网站网址| 日日碰狠狠添天天爽| 99视频在线精品免费观看6| 无码区日韩专区免费系列| 人妖无码第一页| 午夜免费小视频| 欧美一区二区福利视频| 国产精品真实对白精彩久久| 免费不卡视频| 波多野结衣无码AV在线| 久久综合九色综合97婷婷| 98精品全国免费观看视频| 欧美无专区| 一级不卡毛片| 在线看国产精品| 91精品免费高清在线| 久久99国产精品成人欧美| 五月天久久综合国产一区二区| 99re66精品视频在线观看| 欧洲欧美人成免费全部视频| AV老司机AV天堂| 亚洲国产一成久久精品国产成人综合| 91视频99| 欧美激情综合| 成人一级黄色毛片| 久久a级片| 无码国内精品人妻少妇蜜桃视频 | 老司国产精品视频91| 亚洲VA中文字幕| 国内精品视频| 亚洲精品欧美日本中文字幕| 亚洲精品视频网| 天天躁狠狠躁| 国产精品页|