韋 航,王永恒
(湖南大學信息科學與工程學院,長沙410082)
基于主題的中文微博情感分析
韋 航,王永恒
(湖南大學信息科學與工程學院,長沙410082)
傳統的微博情感分析一般忽略結構化的語義信息,使得分類準確率不高,同時還忽略情感表達的具體對象,以與主題無關的形式進行情感分析,容易造成錯誤的分析結果。為此,采用對語法樹進行剪枝的方法實現基于主題的情感分析,使用支持向量機中的卷積樹核函數獲取語法樹結構化特征,通過建立本體和句法路徑庫對語法樹進行基于主題的剪枝,去除無關評價的干擾。實驗結果表明,該方法在2個不同主題的數據集上準確率分別達到86.6%和86.0%。
中文微博;情感分析;語法樹;樹核函數;剪枝策略;支持向量機
微博是一種通過關注機制分享簡短實時信息的廣播式社交平臺,是Web2.0時代最流行的應用之一,用戶可以通過網頁、移動終端等各種客戶端,發表最多140字的文字信息并實現與他人共享。微博自問世以來,吸引了大量用戶在微博上記錄生活、討論熱點話題、表達和分享觀點,已成為挖掘人們觀點與情感的重要資源[1],為用戶滿意度調查、輿情監測、社會學研究等應用提供有效的數據支持。微博上信息繁多且增長速度很快,僅靠人工瀏覽的方法難以應對海量信息的收集和處理工作。情感分析技術能夠自動將文本中表達的情感傾向進行正負面的分類,很大程度上解決微博上信息雜亂的現象,方便用戶快速準確定位所需信息。微博文本與傳統文本相比,具有篇幅較短、存在錯別字和語法錯誤等噪聲、存在大量網絡詞匯和口語詞匯等特點[2],給情感分析任務提出了新的挑戰。
現有的微博情感分類方法通常以一種主題無關的方式操作,但是微博文本存在主題發散性[3],即一條微博可能涉及對多個有關或無關實體的評價,而現有的方法將所有情感特征當成是針對單一主題的評價,容易造成錯誤。基于此,本文提出一種基于主題的中文微博情感分析方法,對微博句子進行語法分析得到語法樹,根據語料庫中頻繁出現的名詞構建領域本體,并通過該本體識別句子中與主題無關的實體,基于句法路徑的情感評價單元識別方法,找出與主題無關的評價單元,將其從語法樹中剪除,從而去除無關實體及其評價詞對分類的干擾。最后,采用基于復合核函數的支持向量機分類器,將剪枝后的語法樹特征與平面特征單字(unigram)結合,共同作為分類特征。
2.1 主題無關的情感分析
主題無關的情感分析指的是對指定文本給出情感極性,而不關心該情感極性所描述的對象[3]。目前的微博情感分析方法大多是主題無關的,主要分為基于情感詞典和基于機器學習2種方法。
基于情感詞典的方法需要利用包含正面情感詞和負面情感詞的情感詞典,通過統計文本中正負面情感詞的數量來判斷傾向性。文獻[4]使用了3種不同的計分策略進行微博分類,包括正負面情感詞差值法、詞頻-反向文檔頻率(Term Frequency Inverse Document Frequency,TF-IDF)和潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)。文獻[5]應用點互信息量對已有的情感詞典進行擴展,構建面向中文微博的情感詞典,并對否定詞、程度副詞、感嘆句、反問句以及表情符號做相應分析處理,用加權和的方式取得整條微博的情感分值。由于情感詞典法無法解決未登錄詞的問題,微博中又含有大量網絡詞匯、口語詞等不存在于現有情感詞典中的情感詞語,單純使用情感詞典進行分類效果不佳,易造成低召回率的問題。
基于機器學習的分類將情感分析問題當成一個特殊的文本分類問題,使用大量已標注的文本對機器學習模型進行訓練,再使用訓練好的分類模型對未知極性的文本進行分類。文獻[6]首次提出用機器學習方法進行文本分類,提取unigram、二元(bigram)、詞性標注以及詞的位置作為分類特征,選用樸素貝葉斯(Na?ve Bayesian)、最大熵(Maximum Entropy)、支持向量機(Support Vector Machine,SVM)3種模型作為分類模型。文獻[7]利用微博中特有的標簽和表情符號作為情感標簽抽取訓練樣本,訓練一種類似KNN的分類器進行細粒度的情感分類。文獻[2]除了考慮微博本身的內容特征,還考慮了當前微博與其他微博之間的關系、微博發布者與其好友之間的相互影響等上下文特征,將2種特征結合起來共同作為分類特征。文獻[8-9]將情感詞典法與機器學習法相結合,用情感詞典法抽取文本作為分類器的訓練集,無需人工標注訓練集。
2.2 主題相關的情感分析
主題相關的情感分析考慮文本中針對某一主題的情感傾向,而非文本的整體情感傾向。已有的方法主要是基于規則的方法和基于特征的方法。
在基于規則的方法中,文獻[10]將最靠近主題詞的情感詞作為針對該主題的有效情感指示詞,文獻[11]則將句子中所有的情感詞按照與主題詞的距離遠近進行加權和,得到針對該主題的情感分值。文獻[12]通過語法分析找出情感詞與主題詞之間的關系,并將這些關系與人工制定的規則進行匹配以判斷其極性,但是這種方法需要人工制定規則,不能處理新出現的未涵蓋情況。
在基于特征的方法中,文獻[13]選取了7種基于主題的特征,通過淺層語法分析得到文中的這些特征,但該方法需要人工制定特征提取規則,且這些特征是符合英文語法規則的,不能直接用在中文領域;文獻[3]則進行了主題相關句子的篩選,去掉與主題無關的句子,但篩選方法不夠準確,且不能處理句子中包含多個實體的情況。
大多數機器學習情感分類方法采用的是一種bag-of-features特征表示方法,抽取文中一系列平面特征,將文本表示為特征向量形式,不考慮特征的出現順序以及特征之間的關系,這些平面特征通常包括詞的n-gram及其出現頻率、詞性、情感詞、否定詞等。然而,平面特征忽略了句子的語義信息以及詞語之間的結構化關系,也無法捕獲遠距離的情感信息。
為了克服平面特征存在的問題,通過句子的語法樹獲取文本的結構化特征。語法樹是句子結構的圖形表示,它代表了句子的推導結果,有利于理解句子語法結構的層次。例如句子“這臺相機很好用”可表示為如圖1所示的樹形結構。

圖1 語法樹結構
3.1 卷積樹核函數
語法樹能夠捕獲句子的結構化語義信息,將語法樹作為特征交由支持樹核函數的SVM進行訓練,就能得到一個自動獲取語法樹中結構化信息的分類系統。采用卷積樹核函數(Convolution Tree Kernel,CTK)來獲取結構化特征,它通過計算2棵樹之間相同子樹的數目來衡量其相似度[14-15],即2棵語法樹T1和T2的相似度KC(T1,T2)按下式計算:

其中,N1和N2分別表示T1和T2的節點集;Δ(n1, n2)為以n1和n2為根節點的子樹中相同子樹的數量,由以下遞歸方法計算:
(1)若n1和n2的產生式不同,則Δ(n1,n2)=0,否則轉(2);
(2)若n1和n2都是葉子節點的前一個節點(即詞性標注),則Δ(n1,n2)=λ,否則轉(3);
(3)遞歸計算:

其中,nc(n1)表示n1的子節點個數;ch(n,j)表示節點n的第j個子節點;λ(0<λ≤1)是用于防止子樹的相似度過度依賴于子樹大小的衰減因子。
3.2 復合型核函數
微博文本由于存在字數限制,包含的信息量較少,缺少上下文信息,需要更多的特征來進行情感分類。卷積樹核函數能夠有效抽取結構化特征,平面特征則需要基本核函數獲取,包括線性核函數、多項式核函數等。多個核函數之和仍是有效的核函數,并能兼顧各個單核的優點,因此,將卷積樹核函數與基本核函數復合,能夠同時獲取結構特征和平面特征。復合核可表示為λK1+τK2。其中,K1表示卷積樹核;K2表示基本核,通過調整λ和τ的值,可以獲取卷積樹核和基本核各自的貢獻度。
平面特征方面,文獻[6]發現unigram能取得最佳效果,所以也采用unigram特征。為了對特征空間進行降維去噪,采用CHI方檢測對特征進行篩選。CHI方檢測通過測量特征與類別之間的依賴性進行特征的選取[16],CHI越大表示相關性越大,計算公式如下:

其中,A表示含有特征t的ci類樣本數;B表示含t的非ci類樣本數;C表示不含t的ci類樣本數;D表示不含t的非ci類樣本數;N表示樣本總數。將unigram特征按照CHI值降序排序,取前n個特征作為分類特征,去掉剩下的CHI較小的特征。
語法樹能夠提供豐富的結構化信息,但是一棵完整的語法樹含有較多噪音,分類的開銷也較大,故需要進行剪枝操作。文獻[14]分別基于形容詞和情感詞進行語法樹剪枝,通過滑動窗口大小確定剪枝范圍;文獻[15]對依存樹進行基于情感詞的剪枝,去掉與情感詞之間的依存關系出現不頻繁或對分類無益的節點。本文研究基于主題的情感分析,提出一種基于主題的語法樹剪枝策略,將與主題無關的信息從語法樹中去掉。
4.1 領域本體的構建
本體是共享概念模型明確的形式化規范說明[17],可以用來捕獲領域知識,對領域中的概念以及概念之間的關系進行建模。
形式概念分析(Formal Concept Analysis,FCA)是一種數學數據分析理論,常用于知識表示和信息管理[18],能夠從一系列實體及其屬性中建立本體模型。FCA的基本構件是概念,由2個集合來描述:外延(extension)和內涵(intension),其中,外延指屬于這個概念的對象的集合;內涵指這些對象所共有的屬性集。文獻[18]采用FCA方法人工構建領域本體,針對產品的某一屬性進行評分。本文采取一種半自動的FCA方法構建領域本體:
(1)統計與主題詞共同出現的名詞,按照其出現頻率排序;
(2)從頻繁出現的名詞集合中選取實體和屬性,分別加入實體集和屬性集;
(3)由實體集抽取出概念,實體集作為概念的外延,屬性集中的概念共有屬性作為概念的內涵,某些實體的特有屬性單獨取出作為特有屬性集,與該實體相連。
步驟(2)、步驟(3)需手動完成。圖2給出了一個手機領域本體,其中“手機”為概念,上方為其內涵,即手機具有“屏幕”、“軟件”、“硬件”等屬性,下方為其外延,如χ、y等具體品牌的手機。其中,“WP8系統”等屬性屬于χ所特有的屬性,作為χ的特有屬性集與其相關聯。值得注意的是,在商品或服務領域,同一個概念外延中的各個實體,是存在競爭關系的實體,如χ與y、z等。

圖2 手機領域本體示例
4.2 情感評價單元識別
在一條微博消息句子中,可能含有多個評價對象和評價詞語,情感評價單元識別就是將評價詞語及其所修飾的評價對象作為一個評價單元抽取出來。文獻[19]提出基于句法路徑的情感評價單元識別方法,其基于一個假設:評價詞語與其修飾的評價對象之間的句法路徑是具有一定規律的、可總結的。采取類似方法識別評價單元,為下一步基于主題的剪枝提供依據。
評價對象與評價詞語之間的句法路徑,指的是在語法樹上鏈接評價對象與評價詞語兩節點之間的句法結構,如圖1所示的語法樹中,“相機”為一個評價對象,“好用”為一個評價詞語,兩節點之間的句法路徑(箭頭所示)為:NN→NP→NP→IP→VP→VP→VA。在較大規模語料庫中進行統計,能夠發現句法路徑存在一定的規律,正確的句法路徑出現頻率應較多,而錯誤的句法路徑出現較少。
評價對象一般為名詞,通過詞性標注可以獲取,而評價詞語可以通過情感詞典獲取。獲取評價對象與評價詞之間的句法路徑之后,可進行一步泛化處理,使得只存在細小差別的句法路徑合并為一個具有代表性的句法路徑,方法是將句法路徑中連續的相同成分合并,如上面的句法路徑NN→NP→NP→IP→VP→VP→VA泛化為NN→NP→IP→VP→VA。將句法路徑按照出現頻率排序之后,根據事先定義的閾值thP,選擇前thP個句法路徑構成句法路徑庫,去掉出現頻率不高的句法路徑。
4.3 基于主題的語法樹剪枝策略
構建了領域本體和句法路徑庫之后,就可以進行基于主題的語法樹剪枝,基本思路是,一個微博句子中可能含有對多個對象的評價,有些對象與主題無關,則將這樣的無關對象及其評價詞從語法樹中剪除,從而實現針對主題的情感分析。
剪枝的具體流程如下:
(1)通過詞性標注和查詢情感詞典,獲取句子中的名詞集合和情感詞集合;
(2)查詢領域本體,在名詞集合中識別不存在本體中、與主題詞無關的實體加入待修剪名詞集合;對于存在于本體中,但與主題詞存在競爭關系的實體,也加入待修剪集合,且如果該實體之后存在該實體的屬性,也需要將其加入待修剪集合;
(3)針對待修剪集合中的實體,獲取語法樹上這些實體與情感詞之間的句法路徑,通過匹配句法路徑庫,識別對其進行修飾的情感詞;
(4)根據第(3)步中識別出的主題無關評價單元中評價對象和評價詞在語法樹上對應的節點位置,找出其共同父節點,將父節點下方含有該評價詞和評價對象的子樹剪除,若剪枝后該父節點下沒有任何子樹,則將該父節點也剪除。
下面列出2個句子的剪枝過程加以說明。設a為感興趣的主題詞。句子1:a還不錯,差評是給b的。該句子中的評價對象為{a,b};評價詞語為{不錯,差評}。查詢本體發現b是與主題無關的實體,加入待修剪集合。句子的語法樹結構如圖3所示,b與“不錯”之間的句法路徑為NN→NP→VP→IP→CP→IP→VP→VA,與“差評”之間的句法路徑為NN→NP→VP→IP→NP→NN。

圖3 句子1的語法樹剪枝示例
搜索句法路徑庫發現第1個句法路徑不存在庫中,而第2個句法路徑存在庫中,則可判斷“差評”是b的有效評價詞。在語法樹中找到這2個節點的共同父節點“IP”,將以該父節點為根節點的子樹中含有b和“差評”的子樹剪除,此時該父節點下已無子樹,則將該節點也剪除。
句子2:早知道就不買c了,流量消耗特別快,還比不上d呢。評價對象為{c,流量消耗,d},評價詞為{快},查詢領域本體發現c是與d存在競爭關系的實體,“流量消耗”屬于手機的共有屬性且出現在c之后,則將其當成c的屬性,待修剪集合為{c,流量消耗}。通過匹配句法路徑庫發現“快”是對“流量消耗”的評價詞,故將這部分剪除,如圖4所示。

圖4 句子2的語法樹剪枝示例
5.1 情感評價句法路徑庫構建
根據4.2節介紹的句法路徑庫構造方法構建情感評價句法路徑庫。采用NLPIR漢語分詞系統進行微博分詞和詞性標注,用Stanford Parser進行語法分析,采用的情感詞典是臺灣大學NTUSD中文通用情感詞典,包含2 810個正面詞和8 276個負面詞,同時為了處理微博中包含大量網絡詞匯的問題,加入了常用的網絡情感詞語,如表1所示。

表1 常用網絡情感詞語
對含有36 042條騰訊微博消息的語料庫進行句法路徑統計,該語料庫涵蓋汽車、手機、購物網站等多個領域。表2列出出現最為頻繁的5條句法路徑及其出現次數。

表2 出現最頻繁的5種句法路徑
5.2 微博情感分析實驗數據集
分類實驗中使用的數據來自騰訊微博。選取了2個關鍵詞作為情感分類的主題:{e,f}。根據主題詞,分別從騰訊微博上獲取包含該主題詞的微博消息。經過人工標注,分別得到正面情感和負面情感2類微博,數據集信息如表3所示。

表3 實驗數據集統計信息
5.3 微博情感分析實驗結果
本文使用SVM-light-TK作為分類工具,在SVM-light的基礎上加入了對卷積樹核函數的支持。給出一條微博示例,說明復合特征的輸入格式,分為類別標簽、語法樹特征(包含開始標志“|BT|”、結束標志“|ET|”)和平面特征3個部分。其內容為“××的f網站怎么打不開了?其他的就能打開,oo!”;分句為“句子1:××的f網站怎么打不開了?”,“句子2:其他的就能打開,oo!”;復合特征輸入格式為“-1|BT|(ROOT(CP(IP(FLR(IJ××))(NP(NN f)(NN網站))(VP(ADVP(AD怎么))(VP(VV打)(VP(ADVP(AD不))(VP(VV開))))))(SP了)))|BT|(ROOT(IP(NP(DNP(DP(DT其他))(DEG的)))(VP(VP(ADVP(AD就))(VP(VV能)(VP(VV打開))))(PU,)(VP(VA oo)))))|ET|56:1.0 235:1.0 244:1.0 258:1.0 500:1.0 536:1.0 549:1.0 721:1.0 728:1.0 841:1.0 944:1.0 947:1.0 965:1.0 1058:0.0”。
對4種情感分類方法進行了分類效果的比較,分別是:(1)只采用unigram平面特征,并用CHI檢測進行特征篩選,分類時選用線性核函數;(2)只采用語法樹特征;(3)采用復合核函數,將語法樹和unigram相結合;(4)將語法樹進行基于主題的剪枝之后,再使用復合核函數分類。SVM-light-TK中提供了可以對樹核函數在復合核函數中的貢獻進行調整的參數r,復合核函數K表示為:

其中,r的默認值為1,并對應于λK1+τK2式中的參數λ(樹核函數K1的貢獻參數),則通過調整r值可以調整復合核函數中樹核函數的貢獻程度,實驗中調整r的值(即λ的值),而參數τ(基本核函數K2的貢獻參數)則固定為1。針對2個主題詞進行實驗,評價指標為查準率、召回率、F值和準確率,實驗結果如表4所示,表中涉及復合核函數的部分,僅列出在r取不同值的情況下,獲得的最佳分類效果。

表4 微博情感分類結果%
通過觀察表4中的實驗結果發現:(1)如果僅使用語法樹特征進行分類,分類的總體效果與平面特征相比有較大程度的下降,這是由于語法樹特征僅能捕捉語義特征,而忽略了平面特征對分類的貢獻;(2)采用復合核函數的方式將平面特征與語法樹特征相結合,彌補了上述問題,分類效果有了較大提高,說明復合核函數能夠利用結構化的語義特征和平面特征兩者的優勢,提升分類性能;(3)采用基于主題的剪枝方法對語法樹進行剪枝之后,分類的效果得到進一步的提升,這說明本文提出的基于主題的剪枝策略能夠在一定程度上去掉無關評價單元的干擾,對分類起到積極作用。
實驗中,復合核函數中樹核函數貢獻參數r的取值也會對分類效果產生一定的影響,圖5顯示了r的不同取值對分類準確率的影響。

圖5 樹核函數貢獻參數r對分類準確率的影響
通過觀察發現,針對不同的數據集,取得最佳分類準確率時r的取值有所不同,其中e主題樣本在r=0.2時準確率取得最大值,而f主題樣本在r= 0.05時準確率取得最大值。表4列出的是該最佳分類結果,在實際應用中可以把r設置在0.05~ 0.20之間。
現有的微博情感分類方法大多采用主題無關的方式進行,當句子中含有多個評價實體時容易出現錯誤。本文采用基于卷積樹核函數的方法,從句子的語法樹中抽取結構化的語義特征,與平面特征相結合,共同作為分類特征;特別地,對句子中出現多個評價單元的情況,應用領域本體和統計句法路徑方法,識別出與主題詞無關的評價單元,并將其從語法樹中剪除,以排除無關評價單元對分類的干擾,從而實現了基于主題的微博情感分類。實驗結果表明,結構化語義特征與平面特征結合,能明顯提升分類效果,而采用基于主題的剪枝策略對語法樹進行剪枝,分類效果得到了進一步的提升。
由于本文的評價單元識別過程依賴情感詞典,對于不含有情感詞語的句子無法進行剪枝,現有的情感詞典涵蓋范圍有限,微博上又常出現新詞,并且剪枝方法對于一些較為復雜的句子,如比較句、轉折句等處理得不夠理想,還存在一定的局限性,因此,在今后的工作中將進一步研究網絡新詞發現、情感表達識別等問題,并改進對復雜句子的處理方法。
[1] Alexander P,Patrick P.Twitter as a Corpus for Sentiment Analysis and Opinion Mining[C]// Proceedings of the 7th International Conference on Language Resources and Evaluation.Valletta,Malta:ELRA Press,2010:1320-1326.
[2] Fotis A,George P,Konstantinos T,et al.Content Vs. Context for Sentiment Analysis:A Comparative Analysis over Microblogs[C]//Proceedings of the 23rd ACM Conference on Hypertext and Social Media.New York,USA:ACM Press,2012:187-196.
[3] 謝麗星,周 明,孫茂松.基于層次結構的多策略中文微博情感分析和特征抽取[J].中文信息學報,2012,26(1):73-83.
[4] Jinan F,Osama M,Sabah M,et al.Opinion M ining over Twitterspace:Classifying Tweets Programmatically Using the R Approach[C]//Proceedings of the 7 th International Conference on Digital Information Management.Washington D.C.,USA:IEEE Press,2012:313-319.
[5] 陳曉東.基于情感詞典的中文微博情感傾向分析研究[D].武漢:華中科技大學,2012.
[6] Pang B,Lee L,Shivakumar V.Thumbs up?Sentiment Classification Using Machine Learning Techniques[C]//Proceedings of Conference on Empirical Methods in Natural Language Processing.New York,USA:ACM Press,2002:79-86.
[7] Dmitry D,Oren T,Ari R.Enhanced Sentiment Learning Using Twitter Hashtags and Smileys[C]//Proceedings of the 23rd International Conference on Computational Linguistics.Berlin,Germ any:Springer,2010:241-249.
[8] Songbo T,Yuefen W,Xueqi C.Combining Learn-based and Lexicon-based Techniques for Sentiment Detection Without Using Labeled Exam ples[C]//Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development Information Retrieval. Singapore:[s.n.],2008:743-744.
[9] Zhang Lei,Ghosh R,Dekhil M,et al.Combining Lexicon-based and Learning-based Methods for Twitter Sentiment Analysis,HPL-2011-89[R].HP Laboratories,2011.
[10] Minqing H,Bing L.Mining and Summarizing Customer Review s[C]//Proceedings of the 10th ACM SIGKDD International Conference on Know ledge Discovery and Data Mining.Seattle.New York,USA:ACM Press,2004:168-177.
[11] Ding Xiaowen,Liu Bing.The Utility of Linguistic Rules in Opinion Mining[C]//Proceedings of the 30 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2007:811-812.
[12] Tetsuya N,Jeonghee Y.Sentiment Analysis:Capturing Favorability Using Natural Language Processing[C]// Proceedings of the 2nd International Conference on Know ledge Capture.New York,USA:ACM Press,2003:70-77.
[13] Jiang Long,Yu Mo,Zhou Ming.Target-dependent Twitter Sentiment Classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Portland,USA:[s.n.],2011:151-160.
[14] Zhang Wei,Li Peifeng,Zhu Qiaom ing.Sentiment Classification Based on Syntax Tree Pruning and Tree Kernel[C]//Proceedings of the 7th Web Information System s and Applications Conference.Washington D.C.,USA:IEEE Press,2010:101-105.
[15] Li Peifeng,Zhu Qiaom ing,Zhang Wei.A Dependency Tree Based Approach for Sentence-level Sentiment Classification[C]//Proceedings of the 12th ACIS International Conference on Software Engineering,Artificial Intelligence,NetW orking and Parallel/ Distributed Computing.Washington D.C.,USA:IEEE Press,2011:166-171.
[16] 劉志明,劉 魯.基于機器學習的中文微博情感分類實證研究[J].計算機工程與應用,2012,48(1):1-4.
[17] 黃美麗,劉宗田.基于形式概念分析的領域本體構建方法研究[J].計算機科學,2006,33(1):210-212.
[18] Efstratios K,Christos B,Theologos D.Ontology-based Sentiment Analysis of Twitter Posts[J].Expert System with Applications,2013,40(10):4065-4074.
[19] 趙妍妍,秦 兵,車萬翔,等.基于句法路徑的情感評價單元識別[J].軟件學報,2011,22(5):887-898.
編輯顧逸斐
Sentiment Analysis of Chinese Micro-b log Based on ToPic
WEIHang,WANG Yongheng
(School of Information Science and Engineering,Hunan University,Changsha 410082,China)
Micro-blog attracts a large number of users to publish and share opinions on it,making it an important data resource for opinion mining and sentiment analysis.The traditional methods always ignore structured semantic information,which leads to the low accuracy.They also tend to ignore the topic of the sentimental expressions and adopt the topic-independent strategy,which results in somemistakes.This paper proposes amethod of pruning the syntax tree to implement the topic-dependent sentiment analysis.It uses the convolution kernel of Support Vector Machine(SVM)to obtain the structured information from syntax tree,and adopts the topic-dependent syntax pruning according to the domain ontology and syntactic paths library,then eliminates the inference of irrelevant appraisal expressions.Experimental results on two corpus with different topics show that the accuracy can reach 86.6%and 86.0%.
Chinese micro-blog;sentiment analysis;syntax tree;tree kernel function;pruning strategy;Support Vector Machine(SVM)
韋 航,王永恒.基于主題的中文微博情感分析[J].計算機工程,2015,41(9):238-244.
英文引用格式:Wei Hang,Wang Yongheng.Sentiment Analysis of Chinese Micro-blog Based on Topic[J].Computer Engineering,2015,41(9):238-244.
1000-3428(2015)09-0238-07
A
TP393
10.3969/j.issn.1000-3428.2015.09.044
國家自然科學基金資助項目(61371116);湖南省自然科學基金資助項目(13JJ3046)。
韋 航(1990-),女,碩士研究生,主研方向:文本分析,數據挖掘;王永恒,講師、博士。
2014-07-30
2014-10-14 E-m ail:756877026@qq.com