基于boosting算法的中文情感分類研究

2017-07-05 17:47:23黃彬

電子技術與軟件工程 2017年12期

摘要現如今對文本情感分類的方法多種多樣，將語義理解與統計學方法相結合的機器學習算法是目前比較可取的方法之一。這種算法的步驟是，首先對文本中的情感詞匯進行匯總，作為特征應用，通過統計學方法衡量出這些特征的初始權重，然后通過對文本語義結構進行分析修改特征權重，最后應用以Bayesian作為基本分類算法的Boosting算法對文本最終進行分類。實驗結果表明，基于語義理解的Bayesian分類算法的分類準確率遠遠的高于基于統計學的Bayesian分類算法，這種算法的分類準確率最高可以達到百分之九十。

【關鍵詞】語義理解情感分類 Boosting算法

以情感為基礎開展的文本分類活動也就是文本情感分類，主要是在分類的過程當中，分析文本當中體現的情感傾向，并以此為基礎加以分類。它在眾多方面都有廣泛應用，例如智能問答、商品推薦、股票預測以及報刊編輯等領域，都體現出潛在的應用價值。在分析文本當中語義傾向性的前提下，借助于判斷基準詞同詞匯之間相似度的這一方法，來有效判斷詞匯體現出的感情傾向性。除此之外，通過分析詞匯當中的語義傾，還能夠體現出新聞文本的態度。部分研究人員改進SO-PMI算法，并且嘗試應用到文本的情感分類當中，取得比較理想的成果，給了他人很多的新思路。以語義當作基礎進行分類的方法，在很大程度上減少了樣本訓練量，同時減輕對特定專業知識的依賴程度。當前情況下，大量的研究人員在該領域嘗試進行研究，已經有了很大的突破，但仍然存在一個問題，那就是還不能具體有效分析詞匯在傾向性方面的強度。在統計機器學習領域，有研究人員嘗試應用機器學習技術來解決文本的情感分類難題，其中應用比較廣泛的包括樸素貝葉斯算法以及最大熵技術等，來分類電影評論。為了把基于統計學技術的優勢發揮到極致，但同時還不能過分的依賴于統計學方法，本篇文章利用自然的語言處理算法，介紹語義分析技術以及統計學技術綜合應用的優點，借助于分析語義并且確定特征權重，外加利用Bayesian算法進行情感分類。為了進一步減少文本在情感分類過程當中的誤差，改進分類的效果，在此嘗試應用Boosting算法到文本的情感分類當中，實現基于語義的Boosting情感分類，進一步改進情感傾向性處理水平。

1 語義傾向性分析

語義傾向指的是某個詞匯同詞匯體現的概念詞之間主要內涵的偏離程度，可以說是度量語言的重要標尺。通常情況下應用兩個不同的維度來分析特定詞匯的傾向性，也就是偏離方向的判斷以及偏離強度的判斷，這些度量方法在現實生活當中已經得到廣泛應用。在文本情感分類環節，偏離方向是判斷詞匯含義于貶義或者是褒義，具體而言就是確保文本可以更通俗易懂進行表達，因此也叫做情感方向。所謂偏離強度是指褒義程度或者是或貶義程度的大小，也叫做情感強度。分析語義的傾向性也就是分析不同詞語體現的情感傾向，來具體分析文檔整體上的情感傾向，在這其中需要測定的便就是情感強度以及情感方向。

2 Boosting算法

Boosting算法是由最早由Schapire提出，并且在發展過程當中不斷有研究人員對其進行改進，是近些年應用最為廣泛的學習算法之一，同時也是應用最廣泛的，其所應用的理念類似于合并不同的學習模型并完成輸出。因為這一算法簡單易用，除了調解迭代次數之外不需要調解其它的參數，也不需要了解特定領域。只要數據足夠充分，就可以滿足預測的精度。如今，Boosting算法正漸漸的得到了人們重視，在圖像識別以及模式處理當中得到應用，并生成了一系列的分類器，不過每個分類器還依舊有著之前一個的影子，因此，為了減少錯誤率的累加，就給予上一次分類器錯誤分類的樣例更高的權重。

3 Bayesian—Boosting情感分類

通過采用的是Bayesian分類方法對情感特征進行選取及權重計算，首先要做的是對文本的特征空間有著非常清晰的界定，可以應用特征來來替代文本。不過文本當中的情感傾向主要是由文本當中的情感詞來確定的，同其他的詞匯沒有太大的聯系。所以在情感分類的時候，特征空間需要篩選情感詞匯，而不需要囊括全部詞匯組成特征空間。目前而言對于這種算法的研究成果已經在眾多的國家863計劃項目中出現，在情感模塊當中應用效果理想。本文基于語義理解的學習方法，是文本進行情感分類的新思路。從理論角度而言，對詞匯進行褒貶的時候，僅僅依靠統計學措施無法實現，必然會對情感分類的標準產生結構性的影響，也就是說單純應用語義理解計算來情感分類，也無法將機器學習的成果應用的活靈活現。

通過語文理解對訓練樣本集中300篇文本進行分類，然后選擇出感情傾向明顯的前150篇作為SVM的訓練文本，之后進行三組數據分析，在特征選擇過程中分別判斷文檔頻率、X2統計法進行統計，如表1所示。

通過應用統計學方法衡量出這些特征的初始權重，然后通過對文本語義結構進行分析修改特征權重，最后應用以Bayesian作為基本分類算法的Boosting算法對文本最終進行分類。實驗結果表明，基于語義理解的Bayesian分類算法的分類準確率遠遠的高于基于統計學的Bayesian分類算法，這種算法的分類準確率最高可以達到百分之九十。

綜上所述，本篇文章通過介紹語義理解以及統計學技術相結合起來進行文本分類的效果，可以實現理想的情感分類，讓我們對這種分類方法有了具體了解的同時還能夠解決文本的情感分類。Boosting集合不同分類算法，通過訓練迭代來改進分類效果，最終能夠得到理想的分類器。

參考文獻

[1]翟璐.一種基于Boosting算法的新模型在銀行信用評級中的應用[D].北京交通大學，2016，6（20）：39-40.

[2]Romano Y，Elad M.Boosting of Image Denoising Algorithms[J].Siam Journal on Imaging Sciences，2015，8（02）：1187-1219.

[3]Wu J，Pan S，Zhu X，et al.Boosting for multi-graph classification.[J].IEEE Transactions on Cybernetics，2015，45（03）：430.

[4]Schreiner T，Rasch B.Boosting Vocabulary Learning by Verbal Cueing During Sleep.[J].Cerebral Cortex，2015，25（11）：4169.

[5]Korytkowski M，Rutkowski L，Scherer R.Fast image classification by boosting fuzzy classifiers[J].Information Sciences，2015，327（C）：175-182.

[6]Liu L，Zou P，Zheng L，et al.Tamoxifen reduces fat mass by boosting reactive oxygen species[J].Cell Death & Disease，2015，6（06）：e1586.

作者簡介

黃彬（1992-），男，長江大學計算機科學學院在讀研究生。主要研究方向為大數據技術。

作者單位

長江大學計算機科學學院湖北省荊州市 434023

電子技術與軟件工程2017年12期

電子技術與軟件工程的其它文章: 基于新媒介的高職圖書館宣傳探析; 電子信息技術在建筑工程中的運用; 電力機房的智能巡檢技術; 電子信息系統中的接地分析; 電力調度管理信息系統的現狀與發展; “互聯網+”帶來新一輪淘金機會