羅裕雋
(同濟大學 電子與信息工程學院,上海 201804)
隨著信息化的普及,互聯網逐漸取代傳統媒體成為信息傳播的主流媒介,各大門戶網站、微博和主流新聞機構都力爭在第一時間發布各類新聞信息,最大限度地達到新聞傳播效果,互聯網上每天都有數以萬計的新聞輿論出現。輿情傾向性分析在網絡輿情監控中起著十分重要的作用,對于企業而言,能幫助其了解自身的經營狀況和存在的問題,依據當前形勢制定相應的市場戰略;對于監管部門而言,能夠幫助其對所轄企業進行及時的服務和監管。但現有的門戶網站或搜索引擎一般不會對發布或檢索到的信息提供正負面分類功能,而人工篩選的方式因為效率低、工作量大,很難滿足業界的需求。因此,如何從數量龐大的新聞中快速且準確地獲取傾向性信息是一個亟待解決的問題。
傳統的中文輿情傾向性分析主要是基于規則和統計的方法,如肖紅等人[1]提出的基于句法分析和情感詞典的方法,這類方法具有一定準確率,但模型的泛化能力較弱,對于規則未覆蓋到的文本信息不能準確識別,且該方法依賴語法規則和詞典,需要大量專業人員對語言本身進行處理和分析,因此難以推廣使用。
運用機器學習方法進行輿情傾向性分析是目前比較主流的研究方向。Pang Bo等人[2]對比了最大熵模型、貝葉斯分類器、支持向量機以及不同的特征選擇方法,在IMDB影評數據集上進行測試,其實驗證明基于bi-gram的特征選擇并使用支持向量機模型得到的情感分析結果最好。劉志明等人[3]對比了三種機器學習算法,驗證了方法在微博評論的適用性。
綜合分析現有的研究成果,在中文輿情傾向性分析研究領域,僅使用基于統計的特征抽取以及基于語法規則和句法樹的分類方法遠不能達到理想的效果,而基于機器學習的分析方法研究還較為匱乏,因此本文提出運用詞嵌入方法對詞語特征進行抽取,并采用平均池化的方法構建文本特征,再將抽取的文本特征輸入機器學習分類模型中進行預訓練。本文綜合比較了三種主流機器學習分類算法,實驗結果表明,基于集成學習迭代決策樹算法對輿情傾向性分析的效果最好。
機器學習算法一般不能直接處理原始文本,使用固定長度的數值特征向量表達文本是一種常見的特征抽取方式。詞匯的數量往往十分龐大,如果不加選擇地將所有詞都用做特征,可能會造成維度災難和特征稀疏的問題,導致分類模型的效果不佳。因此特征抽取是機器學習中非常重要的環節。
傳統的詞語獨熱表示(One-hot Representation)僅僅將詞符號化,不包含任何語義信息。詞嵌入(Word Embedding)是一種基于神經網絡的詞分布式表示,將詞轉化為固定長度向量的方法,通常這個長度都遠小于詞典的大小,在幾十維到幾百維之間。詞分布式表示的核心是上下文的表示以及上下文與目標詞之間的關系建模,因此詞向量包含豐富的語義信息,在詞性標注、命名實體識別等自然語言處理任務中都有出色的表現。
Word2vec[4-5]是2013年Google發布的一種基于深度學習的詞向量訓練工具。如圖1所示,word2vec主要用到Continuous Skip-gram Model(Skip-gram)和Continuous Bag-of-Words Models(CBOW)兩種簡化的神經網絡模型。兩種模型都是由輸入層、投影層和輸出層組成的三層網絡結構。Skip-gram模型是根據當前詞w(t)預測其上下文Context(w(t)),而CBOW模型是在w(t)的上下文已知的情況下預測當前詞。

圖1 word2vec中神經網絡模型
由于文本長度的不一致,機器學習模型不能直接處理詞特征。池化(Pooling)方法能整合特征,保證輸出文本特征維度的統一,同時能較好保留詞向量中每個維度特征的信息。經過詞向量平均池化后,c維文本特征Docc可表示為
(1)
其中,N為文本所包含的詞語數目,wci為第i個詞的c維詞向量。
支持向量機(Support Vector Machine, SVM)、決策樹(Decision Tree, DT)和迭代決策樹(Gradient Boosting Decision Tree, GBDT)在文本分類任務上都有良好的表現,本節對這三種方法進行簡要介紹。
在線性可分的樣本空間中,劃分超平面可通過如下線性方程來描述:
wTx+b=0
(2)
其中w=(w1;w2;…;wd)為法向量,決定了超平面的方向;b為位移項,決定了超平面與原點之間的距離。樣本空間中任意點x到超平面(w,b)的距離可寫為:
(3)
假設超平面(w,b)能將訓練樣本正確分類,即對于(xi,yi)∈D,若yi=+1,則有wTx+b>0;若yi=-1,則有wTx+b<0。即:
(4)
其中,與超平面距離最近的幾個訓練樣本使公式(4)等號成立,這些訓練樣本被稱為“支持向量”。SVM要找到具有“最大間隔”的劃分超平面,因此其目標函數為:
s.t.yi(wTxi+b)≥1,i=1,2,…,m
(5)
若原始樣本空間不存在一個劃分超平面,即訓練樣本并非線性可分的,對于這樣的問題,SVM通常引入核函數(Kernel Function)來解決。核函數與樣本特征的關系如下:

(6)

決策樹是一個樹結構,其中葉節點對應決策結果,非葉節點則對應一個特征屬性的測試,每個分支代表特征屬性在某個值域上的輸出。根節點包含樣本全集,每個節點包含的樣本集合根據屬性測試的結果被劃分到子節點中。決策樹生成的基本流程是一個遞歸的過程,在生成過程中,希望決策樹的分支節點所包含的樣本盡可能屬于同一類別,即節點的“純度”越來越高?!凹兌取蓖ǔS尚畔㈧貋肀硎荆鬌為當前樣本集合,pk(k=1,2,…,|y|)為第k類樣本所占的比例,則D的信息熵的定義為:
(7)
Ent(D)的值越小,則D的純度越高。
如何選擇最優劃分屬性是決策樹生成過程中一個關鍵問題。ID3決策樹學習算法采用信息增益來進行決策樹的劃分屬性選擇。對于屬性a對樣本集D進行劃分所獲得的信息增益為:
(8)
而另一種常見的決策樹學習算法C4.5則基于信息增益率來做劃分屬性選擇。增益率的定義為:

(9)
其中
(10)
決策樹具有模型簡單、訓練速度快的優點,但單棵決策樹在模型訓練過程中容易出現過擬合的現象,為了彌補這一缺陷,通常采用集成學習的方法。集成學習的核心思想是通過組合多個學習器,最終得到的模型比單一學習器具有顯著優越的泛化性能。集成學習的示意圖如圖2所示。

圖2 集成學習示意圖
GBDT是一個基于迭代累加的決策樹集成算法,它通過構造一組回歸決策樹,并把多棵數的結果通過Gradient Boosting的方法累加起來作為最終的預測輸出。Gradient Boosting每一次訓練需要在殘差減少的梯度方向上訓練一個新的模型,因此,通過多次訓練,模型的殘差不斷降低。
本文實驗部分采用三個數據集,分別是企業新聞數據集、第三屆中文傾向性分析評測(COAE2011)數據集和商品購買評論數據集。其中企業新聞數據集包含若干家大型企業相關的互聯網新聞約1 889條篇章級文本,COAE2011抽取財經相關的約1 400條句子級文本,購物評論集包含電商網站用戶對商品的評價約20 000條句子級文本。數據集的具體分布情況如表1所示 。

表1 實驗數據集
實驗首先對樣本數據進行預處理,包括分詞和去除停用詞等,再根據第1節介紹的特征抽取方法構建樣本特征,其中word2vec選用CBOW模型進行詞向量的訓練。實驗先后使用SVM、DT和GBDT三種算法在三個數據集上分別進行模型的訓練和評估,其中算法的實現采用Python的sklearn模塊。主要參數為,SVM采用徑向積核函數,DT采用Gini系數來做特征劃分,GBDT的深度為10,并采用0.05的學習率。最終數據集的平均準確率如表2所示。

表2 傾向性分析結果
從結果來看,在三個數據集上,GBDT算法的準確率都高于其他兩個方法。
通過實驗證明機器學習方法對處理中文輿情傾向性分析問題是有效的,其中又以基于集成學習的迭代決策樹算法效果最佳。其原因是集成學習算法能夠綜合多個學習器的結果來決定最終分類,并在一定程度上避免單個學習器在訓練過程中的過擬合問題。另外,在不同領域,不同篇章長度的數據集上機器學習算法都有比較好的表現,證明其具有較好的泛化能力。
[1] 肖紅, 許少華. 基于句法分析和情感詞典的網絡輿情傾向性分析研究[J]. 小型微型計算機系統, 2014, 35(4): 811-813.
[2] Pang Bo, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C].Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.
[3] 劉魯, 劉志明. 基于機器學習的中文微博情感分類實證研究[J]. 計算機工程與應用, 2012,48(1): 1-4.
[4] MIKOLOV T, SUTSKEVER I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C].Advances in Neural Information Processing Systems, 2013,26: 3111-3119.
[5] MIKOLOV T, Chen Kai, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Compater Science, 2013.