基于詞項共現(xiàn)關(guān)系圖模型的中文觀點句識別研究

2015-04-12 11:30:44王明文付翠琴徐凡洪歡

中文信息學報 2015年6期

關(guān)鍵詞：模型

王明文，付翠琴，徐凡，洪歡

（江西師范大學，計算機信息工程學院，江西南昌330022）

1 引言

隨著Web 2.0應(yīng)用的普及，用戶生成內(nèi)容（User－generated content，簡稱UGC）與日俱增。通常，這些論壇、貼吧、博客、微博等新型媒介的內(nèi)容蘊含著大量的用戶觀點信息，這些觀點信息存在巨大的潛在價值。例如，生產(chǎn)商通過UGC中的產(chǎn)品評論信息獲取用戶對產(chǎn)品的情感傾向，并依此作為更新產(chǎn)品的依據(jù)。此外，電影投資者通過電影評論來預測電影票房，政府機構(gòu)根據(jù)UGC中的事件評論來分析輿情動態(tài)等等。

觀點句識別（或情感句識別）是情感分析的一個子任務(wù)，其旨在從文檔中準確抽取出帶有情感傾向的觀點句子和不帶情感傾向的句子，可以被廣泛應(yīng)用于產(chǎn)品調(diào)查、市場預測和輿情分析等諸多領(lǐng)域。

主流的觀點句識別方法采用有監(jiān)督的機器學習技術(shù)，利用向量空間模型（Vector Space Model，簡稱VSM）來表示文檔，即把每篇文檔表示成一個詞項向量或特征向量。這種文檔特征向量的表示方法基于詞項間強獨立性假設(shè)，并未考慮詞項與詞項之間的順序和依賴關(guān)系。在英文觀點句識別中，采用基于VSM的有監(jiān)督機器學習的分類方法可以取得不錯的識別性能。然而，由于中文微博、論壇、貼吧等評論信息都是口語化的文本，表達方式多樣，而且評論的長度一般有限，這些缺點導致手工構(gòu)建語法庫不僅工作量大，而且與日常口語的表達方式仍然存在差異，采用基于SVM的有監(jiān)督機器學習方法進行中文觀點句識別并不能取得較好的性能。基于圖模型的文本表示方法［1－3］可以很好地捕捉中文文本中詞項的依賴和句法關(guān)系，該方法在信息檢索、文檔摘要和詞義消歧等已取得較好的效果。鑒于此，本文將一種新型的基于詞項共現(xiàn)關(guān)系的圖模型方法應(yīng)用于中文觀點句識別中。該方法通過構(gòu)建詞項共現(xiàn)關(guān)系有向圖模型，利用詞項與詞項之間的共現(xiàn)性和句法關(guān)系來描述詞項在觀點句和非觀點句集合中的分布差異，同時采用基于入度的詞項權(quán)重計算方法來計算詞項特征值。本文的方法能夠有效地捕捉到中文句子中的語法信息，從而免去了昂貴的手工建立語法庫的工作；同時本文結(jié)合基于信息檢索的復雜特征值計算模型，將詞項分布特征及詞項間的語法信息融入分類器的訓練過程中。上述研究在基準語料上進行實驗，實驗表明采用基于詞項關(guān)系圖模型方法后，中文觀點句識別準確率相比目前基于詞袋的方法得到顯著提升。

本文后續(xù)內(nèi)容組織如下：第二節(jié)介紹觀點句識別的相關(guān)工作；第三節(jié)重點介紹本文提出的詞項共現(xiàn)關(guān)系圖模型方法和相應(yīng)的特征值計算方法；并在第四節(jié)給出了實驗設(shè)置及詳細的結(jié)果分析；最后，第五節(jié)是本文的結(jié)論和將來工作部分。

2 相關(guān)工作

Pang等［4］首次將文本中的一元詞、二元詞作為特征，并且采用布爾值（二元值）和詞頻等特征值計算方法，通過訓練樸素貝葉斯（Naive Bayes，簡稱NB）、支持向量機（Support Vector Machine，簡稱SVM）、最大熵模型（Maximum Entropy，簡稱ME）三種分類器對電影評論進行情感分類，實驗結(jié)果表明使用一元詞作為特征和二元值作為特征值訓練的SVM分類器的觀點句識別效果最好。隨后，相關(guān)文獻分別圍繞觀點句的特征提取、多分類器的融合和特征值計算等多個方面展開研究。

針對特征提取方面，Kushal等［5］從統(tǒng)計學和語言學的角度提取文本中的特征，并融入N－grams、文本子串和詞的鄰近性關(guān)系等多種有效的特征。Pang和Lee［6］通過建立句子和句子、句子和類別之間的關(guān)系圖，利用圖的最小切割算法來識別文檔的主觀性部分。徐軍等［7］選擇具有語義傾向的詞匯作為特征項、對否定詞正確處理和采用二元值作為特征項權(quán)重提高分類的準確。謝麗星等［8］對鏈接、表情符號、情感詞典等進行了多重特征選擇，結(jié)合主題相關(guān)特征訓練SVM情感分類器，以此提高性能。

針對多分類器融合方面，Prabowo等［9］構(gòu)建有監(jiān)督的分類器時融入規(guī)則方法，并用于文本的傾向性分類任務(wù)。Qiu等［10］提出了一個自學習的分類模型，該模型分成兩個階段（自學習和分類），通過不斷的迭代以增強自學習的性能。徐睿峰等［11］采用多分類器表決的方法進行觀點句抽取，表明具有與領(lǐng)域相關(guān)的大規(guī)模和高質(zhì)量的標注訓練數(shù)據(jù)為提高分類器的性能提供了重要的保證。呂云云等［12］提出基于自舉（BootStrapping，簡稱BS）的集成分類器的中文觀點句識別方法，利用Fisher線性辨別器提取特征并計算特征值，訓練了NB，SVM和ME三種分類器，同時將集成分類器具有高置信度的分類結(jié)果用于分類器的循環(huán)訓練過程。

針對特征值計算方面，Justin等［13］提出了一種專門用于情感分析的Delta Term Frequence－Inverse Document Frequence（D－TFIDF）特征值計算方法，通過分別計算詞項在觀點句和非觀點句中的分布來提高分布差異性大的詞項的重要性，減弱分布均衡的詞項的影響。在Justin的工作基礎(chǔ)上，Georgios等［14］將信息檢索中的詞項權(quán)重計算方法首次應(yīng)用于英文文本情感分析中，實驗證明了基于D－TFIDF的BM25的方法具有最好的情感分類性能。Deng等［15］提出了基于詞的重要性（importance of a term in a document，簡稱TID）和詞的情感值（importance of a term for expressing sentiment，簡稱TIS）的特征值計算方法，實驗表明在分類性能上要優(yōu)于基于D－TFIDF的BM25方法。這些特征值計算方法對應(yīng)的情感分類實驗結(jié)果均優(yōu)于Pang提出的用二元值方法，說明了采用不同的特征值計算方法會對觀點句識別效果產(chǎn)生較大影響。

綜合以上觀點句識別模型所述，傳統(tǒng)詞袋模型驅(qū)動的方法依賴于詞項間的強獨立性假設(shè)，忽略了詞項之間的依賴關(guān)系。因此，本文通過構(gòu)建詞項共現(xiàn)關(guān)系圖模型，著重考慮了詞項間的共現(xiàn)性和句法關(guān)系，同時研究和擴充了多種基于信息檢索的詞項特征計算方法。

3 基于詞項共現(xiàn)關(guān)系圖模型的中文觀點句識別方法

本節(jié)主要闡述本文提出的新型中文觀點句識別方法，主要包括詞項共現(xiàn)關(guān)系圖構(gòu)建和特征值計算兩個方面的內(nèi)容。

3.1 詞項共現(xiàn)關(guān)系圖構(gòu)建

已有研究［16－17］表明形容詞、動詞和名詞對句子的觀點表達影響更大，而且觀點句的表達方式也存在一定的模式，例如，形容詞＋名詞、動詞＋形容詞等結(jié)構(gòu)的句子是觀點句的概率更大。然而，微博、論壇、貼吧等評論信息都是口語化的文本，表達方式多樣，而且評論的長度一般有限。這些缺點導致了手工構(gòu)建語法庫不僅工作量大，而且與日常口語的表達方式仍然存在差異。

基于此，本文分別構(gòu)建基于觀點句集和非觀點句集的詞項有向圖，自動學習詞項在觀點句和非觀點句中的分布，獲得詞項之間共現(xiàn)和鄰近關(guān)系。在有向圖中，頂點代表詞項，有向邊代表詞項與詞項的共現(xiàn)和鄰近關(guān)系。若在一個固定窗口中兩個詞項同時出現(xiàn)，則建立一條詞項到詞項的有向邊，邊的方向由詞在原文中出現(xiàn)的順序決定。采用前者指向后者構(gòu)建的圖為前向圖（Forward Graph，簡稱FG），采用后者指向前者構(gòu)建的圖為后向圖（Backward Graph，簡稱BG）。本文以句子為單位來構(gòu)建詞項的有向圖，即窗口只在一句話中進行滑動，這是因為一句話在內(nèi)容上比較相近，同時表達的語義也更為完整。我們通過固定窗口大小，并設(shè)定邊的方向，構(gòu)建出每句話的詞項有向圖，然后將所有句子的有向圖進行合并得到相應(yīng)的詞項共現(xiàn)關(guān)系圖模型。

為了清晰起見，下面通過觀點句例1和例2來說明FG模型的構(gòu)建過程。

例1 總體感覺還是不錯，看世界杯挺爽。

例2 效果非常不錯，感覺就像真的一樣。

首先對每個句子進行預處理，包括分詞、刪除標點符號和一些無用字符等步驟。得到觀點句例1的預處理結(jié)果為：“總體感覺還是不錯看世界杯挺爽”，觀點句例2的預處理結(jié)果：“效果非常不錯感覺就像真的一樣”；

然后以句子為單位，按固定窗口進行滑動，窗口內(nèi)共現(xiàn)的詞項之間建立一條邊，詞項在原文中出現(xiàn)的順序即為邊的方向；

最后將上述句子的有向圖進行合并，得到最終的FG模型。

圖1顯示了窗口大小為3時，例句1和例句2合并后的FG模型。

圖1 FG模型實例

根據(jù)圖1所示的詞項共現(xiàn)關(guān)系圖模型，我們可以計算出每個詞項在觀點句和非觀點句中的分布情況，分布差異大的詞項比分布均衡的詞項對觀點句的判定影響更大。另外，根據(jù)詞的共現(xiàn)性和鄰近性，使用頻率高的短語及語法結(jié)構(gòu)也會更加突出。例如，圖1中，帶有明顯觀點傾向的詞項“感覺”和“不錯”所連接的邊數(shù)相對較多，同時與這兩個詞項有直接連接邊的詞項也是常用的搭配。

3.2 特征值計算

本節(jié)首先介紹已有的基于信息檢索的特征值計算方案，然后將重點介紹基于上述詞項共現(xiàn)圖模型文本表示形式下的特征值計算方法。

3.2.1 基于信息檢索的特征值計算

在信息檢索中，公式（1）是經(jīng)典的詞項權(quán)重計算方法，其中tfij表示詞項i在文檔j中出現(xiàn)的次數(shù)，dfi表示整個文檔集合中出現(xiàn)詞項i的文檔數(shù)，N表示整個文檔集合的文檔數(shù)。式（1）包含了詞頻tf和逆文檔頻率idf兩部分。

結(jié)合上述信息檢索的詞項權(quán)重計算方法，本文將特征值的計算分成了詞項的權(quán)重（term weighting，簡稱tw）和詞項的分布（inverse document frequence，簡稱idf）兩部分，根據(jù)已有信息檢索模型的得分函數(shù)，給出了表1和表2所示的改進后的特征值計算方法。其中dlj表示文檔j的長度，ave＿dl表示文檔集的平均文檔長度。

3.2.2 基于入度的詞項共現(xiàn)圖模型的特征值計算

現(xiàn)有的權(quán)重計算方法如TF－IDF和BM25均以詞袋模型的形式表示文檔，其詞項權(quán)重的計算都是基于詞頻。然而，本文通過頂點的入度數(shù)確定每個詞項的權(quán)重。如果指向某個頂點的邊數(shù)越多，則說明詞項的共現(xiàn)次數(shù)越多。基于入度的權(quán)重計算方法不僅計算簡單，而且能更好的捕捉詞項與詞項之間的關(guān)系。已有的工作表明［1－2］，采用基于入度的詞項權(quán)重可以很好的找到文檔的中心（重要詞項），相應(yīng)地，在中文觀點句識別時，找到圖模型中帶有觀點傾向的詞項（即中心）。

表1 詞項權(quán)重計算方案

表2 詞分布計算方案

本文分別構(gòu)建了基于觀點句集和非觀點句集的詞項共現(xiàn)圖模型，模型中邊的方向定義有兩種：FG和BG。因此，本文計算詞項在兩個圖模型中的權(quán)重值時，分別采用以下兩種方法。

1）基于FG模型的詞項權(quán)重稱為前向詞權(quán)重（Forward Term Weighting，簡稱FTW）。由兩部分組成：基于主觀句集FG模型上詞項的權(quán)重ftw（s）和基于非主觀句集FG模型上詞項的權(quán)重ftw（n）。

2）基于BG模型的詞項權(quán)重稱為后向詞權(quán)重（Backward Term Weighting，簡稱BTW）。由兩部分組成：基于主觀句集BG模型上詞項的權(quán)重btw（s）和基于非主觀句集BG模型上詞項的權(quán)重btw（n）。

在上述構(gòu)建的詞項共現(xiàn)圖模型中，我們已經(jīng)分別計算了詞項權(quán)重FTW和BTW，得到公式（2）和公式（3）所示的基于圖模型的權(quán)重計算方法。其中，ftw（i）是詞項i在文檔集構(gòu)建FG模型中的權(quán)重，btw（i）是詞項i在文檔集構(gòu)建BG模型中的權(quán)重。

結(jié)合基于信息檢索的權(quán)重計算方法，本文針對FTW和BTW分別給出了八種基于圖模型的詞項權(quán)重計算方案，具體如表3所示。詞項分布的計算方案仍采用表2一致的計算方法。

表3 基于圖模型的詞項權(quán)重計算方案

4 實驗及結(jié)果分析

本節(jié)將通過實驗驗證詞項共現(xiàn)圖模型在中文觀點句識別任務(wù)中的有效性，并對實驗結(jié)果進行詳細的分析。

4.1 實驗設(shè)置

本文采用第三屆中文傾向性分析評測①http：／／www.ir－china.org.cn／所發(fā)布的電子產(chǎn)品評論作為語料集，該語料共包括2 000篇電子產(chǎn)品領(lǐng)域的文檔，去噪后語料包含觀點句5 662條，非觀點句9 266條。為了取得平衡的數(shù)據(jù)，我們采用了隨機裁剪的方法，使得觀點句和非觀點句在數(shù)量上相當。同時，使用中國科學院的分詞與詞性標注軟件①http：／／ictclas.org對語料進行分詞預處理，采用LIBSVM②http：／／www.csie.ntu.edu.tw／～cjlin／libsvm／作為分類器（參數(shù)均取默認值），并采用十折交叉驗證方法獲取實驗結(jié)果，詞項滑動窗口的取值范圍為2至6。

為了驗證基于詞項共現(xiàn)圖模型的中文觀點句識別方法的有效性，本文將已有的基于信息檢索（IRM）的中文觀點句識別方法和呂云云等［11］提出的基于BootStrapping的集成分類器（BSM）的中文觀點句識別方法作為Baseline。BSM是采用Bootstrapping的方法擴展訓練語料，分別訓練貝葉斯、支持向量機和最大熵分類器。然后，通過給三個訓練好的分類器賦權(quán)獲得一個集成分類器。此外，本文還將通過設(shè)置兩個對比實驗來驗證，在中文觀點句識別當中，基于FG模型和基于BG模型的性能。

4.2 實驗結(jié)果及分析

4.2.1 Baseline實驗結(jié)果

圖2顯示了IRM和BSM模型的中文觀點句識別性能。在IRM模型中，tw有五種計算方法，idf有三種計算方法，共有15種計算方案，實驗參數(shù)取值采用已有文獻中求得的經(jīng)驗參數(shù)值k＝1.2和b＝0.75。在BSM模型中，語料標注率在0.05和1之間以0.05的步長進行平滑，在標注率分別為0.4和1時，訓練的集成分類器的效果達到最好，分別為0.778 6和0.772 4。因此，本文只取bsm0.4和bsm1的實驗結(jié)果作對比。

圖2 Baseline實驗結(jié)果

圖2數(shù)據(jù)表明：

1）在英文觀點句識別中，僅使用二元特征值就可以取得很好的效果，分類精度通常可以達到82.9%，但該方法在中文觀點句識別中效果并不好，圖2中tw0＊idf1的精度只有63.37%，這一實驗結(jié)果說明了簡單的二元特征值計算方法不適合于中文觀點句識別任務(wù)；

2）在計算特征值時僅考慮詞項權(quán)重總體識別效果都不太好，其中tw1×idf1、tw2×idf1、tw3× idf1和tw4×idf1的分類精度分別為60.10%、69.37%、58.74%和69.59%，精度均低于70%。相比較而言，僅用詞項分布來計算特征值的方法分類效果具有顯著提升，識別性能均在77%以上，其中在tw0×idf2和tw0×idf3方案中，精度分別高達到78.01%和77.92%，這一實驗結(jié)果說明詞項在語料中的分布情況對于觀點句的識別具有重要的作用。同時，BM25模型（tw5×idf3方法）可以取得更好的識別效果，分類精度達到最高（78.28%）。

3）整體上來說，在中文觀點句識別中，IRM模型可以顯著提升中文觀點句識別效果，甚至可以取得比BSM模型訓練的集成分類器更好的分類性能。

4.2.2 基于FG模型的特征值計算

圖3顯示了窗口大小為3時的FG模型中特征值計算下的中文觀點句識別性能。圖中實驗結(jié)果表明：使用基于FG模型的特征值計算方法，分類性能都有較大幅度的提升。在不考慮詞項分布的ftw1×idf1、ftw1×idf2、ftw1×idf3和ftw1×idf4方案中，分類性能分別達到了75.98%、66.55、71.68%和 69.98%，與基于信息檢索的同等條件下的方案相比，性能都有所提升，這一實驗結(jié)果充分說明本文構(gòu)建的FG圖模型可以捕捉到更多的觀點句和非觀點句中詞項間的依賴及語法關(guān)系，并用于分類器的訓練。基于BM25模型的ftw4×idf2方案可以達到最好的性能81.22%，ftw3×idf2、ftw3×idf3的分類性能也都在80%以上。但是，ftw1×idf3和 ftw2×idf3方案與同等條件下的基于信息檢索的方案相比，性能會有所降低（僅有73.07%和75.18%），原因在于一些非觀點詞的共現(xiàn)頻率過高，導致分類器引入更多的噪音。

另外，基于FG模型的觀點句識別方法也可以獲得比基于BSM模型更好的分類性能。

圖3 基于FG的特征值計算

4.2.3 基于BG模型的特征值計算

圖4顯示了窗口大小為3時的BG模型中特征值計算下的中文觀點句識別性能。

圖4 基于BG的特征值計算

實驗結(jié)果表明，基于BG模型的分類性能與基于FG的方法的分類性能總體相差不大。分析圖3和圖4可得，采用ftw3×idf3、ftw4×idf3和btw3× idf3、btw4×idf3方案計算特征值的性能較好，而且也較穩(wěn)定。其中，最好的模型分類性能是方案bw1× idf3，高達80.24%，比基于FG的方法最好的性能稍差。ftw2×idf1的性能最差，只有66.31%，分析原因是在計算詞項權(quán)重時用文檔集中最大的權(quán)重值進行了平滑，導致部分觀點詞的影響減弱。

通過上述分析可得，基于FG和BG模型采用不同的特征值計算方案，得到的觀點句識別性能會有相對較大的浮動，原因在于信息檢索模型均以詞袋（Bag－Of－Words，簡稱BOG）的形式表示文檔，其特征值計算方案都依賴于詞項獨立性假設(shè)，即并未考慮詞項之間的依賴關(guān)系。相反，本文是通過構(gòu)建詞項共現(xiàn)關(guān)系圖來表示每篇文檔，因此信息檢索中性能較好的特征值計算方法不太適用于本文構(gòu)建的模型中，同時更加適合中文觀點句識別這一任務(wù)的特征值計算方案也將作為我們未來的研究工作之一。

4.2.4 窗口大小的選擇

圖5顯示了在FG模型中，ftw4×idf2特征值計算方法在不同的詞項滑動窗口下的分類性能。實驗表明詞項滑動窗口大小與分類精度并不是簡單線性關(guān)系。例如：在窗口大小為2時，分類精度為80.3161%；在窗口大小為3時，分類精度達到最大81.2169%。該實驗結(jié)果可以很好的總結(jié)漢語表達的語法習慣，即在中文表達觀點時，作者傾向于采用三元成分結(jié)構(gòu)。當窗口逐漸增加，分類精度卻有逐漸下降，原因在于隨著窗口大小的增大，很多非合法語法搭配結(jié)構(gòu)被當作有用的特征來計算詞項的FTW和BTW值，即加入了很多噪音特征，從而導致分類精度下降。

圖5 FG模型中調(diào)整詞項滑動窗口大小對性能的影響

5 總結(jié)與展望

針對傳統(tǒng)的詞項間強獨立性假設(shè)的詞袋模型驅(qū)動的中文觀點句識別方法的不足，本文提出了一種新型的基于詞項共現(xiàn)關(guān)系的圖模型方法。該方法通過構(gòu)建詞項共現(xiàn)關(guān)系有向圖模型，利用詞項與詞項之間的共現(xiàn)性和句法關(guān)系來描述詞項在觀點句和非觀點句集合中的分布差異。同時，在構(gòu)建的圖模型上，本文采用基于入度的詞項權(quán)重計算方法計算每個頂點（詞項）的權(quán)重，并結(jié)合基于信息檢索的特征值計算方案計算特征向量的特征值。上述研究在基準語料上進行實驗，實驗表明采用基于詞項關(guān)系圖模型方法后，中文觀點句識別準確率相比目前基于詞袋的方法得到顯著提升。

將來工作主要包括以下兩個方面：（1）在跨領(lǐng)域數(shù)據(jù)集上驗證本文提出的模型性能；（2）將本文提出基于詞項共現(xiàn)圖模型的特征計算方法與目前已有的特征計算方法進行結(jié)合，以體現(xiàn)方法的協(xié)同性。

［1］ Rousseau F，Vazirgiannis M.Graph－of－word and TWIDF：new approach to ad hoc IR［C］／／Proceedings of the 22nd ACM International Conference on Information and Knowledge Management.ACM，2013：59－68.

［2］ Mihalcea R，Tarau P.TextRank：Bringing order into texts［C］／／Proceedings of the 2004Conference on Empirical Methods in Natural Language Processing（EMNLP）.2004，4（4）：275.

［3］洪歡，王明文，萬劍怡，等.基于迭代方法的多層Markov網(wǎng)絡(luò)信息檢索模型［J］.中文信息學報，2013，27（5）：122－128.

［4］ Pang B，Lee L，Vaithyanathan S.Thumbs up？：sentiment classification using machine learning techniques［C］／／Proceedings of the Associate Computational Linguistics 02Conference on Empirical Methods in Natural Language Processing－Volume 10.Association for Computational Linguistics，2002：79－86.

［5］ Dave K，Lawrence S，Pennock D M.Mining the peanut gallery：Opinion extraction and semantic classification of product reviews［C］／／Proceedings of the 12th International Conference on World Wide Web.ACM，2003：519－528.

［6］ Pang B，Lee L.A sentimental education：Sentiment analysis using subjectivity summarization based on minimum cuts［C］／／Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics，2004：271.

［7］徐軍，丁宇新，王曉龍.使用機器學習方法進行新聞的情感自動分類［J］.中文信息學報，2007，21（6）：95－100.

［8］謝麗星，周明，孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取［J］.中文信息學報，2012，26（1）：73－83.

［9］ Prabowo R，Thelwall M.Sentiment analysis：A combined approach［J］.Journal of Informetrics，2009，3（2）：143－157.

［10］ Qiu L，Zhang W，Hu C，et al.Selc：a self－supervised model for sentiment classification［C］／／Proceedings of the 18th ACM Conference on Information and Knowledge Management.ACM，2009：929－936.

［11］徐睿峰，王亞偉，徐軍，等.基于多知識源融合和多分類器表決的中文觀點分析［C］／／第三屆中文傾向性分析評測論文集，2011：77－87.

［12］呂云云，李旸，王素格.基于BootStrapping的集成分類器的中文觀點句識別方法［J］.中文信息學報，2013，27（5）：84－92.

［13］ Martineau J，F(xiàn)inin T.Delta TFIDF：An Improved Feature Space for Sentiment Analysis［C］／／Proceedings of the 3rd International Conference on Weblogs and Social Media（ICWSM）.2009：258－261.

［14］ Paltoglou G，Thelwall M.A study of information retrieval weighting schemes for sentiment analysis［C］／／Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics，2010：1386－1395.

［15］ Deng Z H，Luo K H，Yu H L.A study of supervised term weighting scheme for sentiment analysis［J］.Expert Systems with Applications，2014，41（7）：3506－3513.

［16］ Riloff E，Wiebe J.Learning extraction patterns for subjective expressions［C］／／Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing（EMNLP）.Association for Computational Linguistics，2003：105－112.

［17］ Kim S M，Hovy E.Determining the sentiment of opinions［C］／／Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics，2004：1367.