














摘要:為了提高情感分類的性能,本文提出了一種基于加權(quán)集成的序貫三支決策情感分類模型。該模型首先對評論數(shù)據(jù)集的邊界域使用不同的分類器獲取各自的預(yù)測概率,再根據(jù)歷史分類性能對不同分類器的預(yù)測概率進行加權(quán)集成,然后根據(jù)閾值和代價損失分別進行三支決策,將評論劃分為正類、負類和邊界域。對于邊界域進行序貫的集成概率預(yù)測,并根據(jù)概率和閾值進一步劃分為新的正類、負類和邊界域。直至最細粒度上的邊界域,最終通過集成二支決策得到最終的分類結(jié)果。研究結(jié)果表明,該模型在中文計算機評論、酒店評論和服裝評論數(shù)據(jù)集上性能優(yōu)于現(xiàn)有方法,其中在酒店評論數(shù)據(jù)集上分類準確率達到86.75%,相比于基于硬投票集成的序貫三支決策情感分類提高了3.6%。
關(guān)鍵詞:多粒度分類;機器學習;集成學習;文本粒化;粗糙集
中圖分類號:TP18 文獻標志碼:A 文章編號:0253-2395(2025)01-0066-11
0 引言
隨著互聯(lián)網(wǎng)的迅速發(fā)展普及,我們的生活已經(jīng)離不開網(wǎng)絡(luò)。評論作為一種新型文本語言,如產(chǎn)品評論、電影評論和書籍評論等,已經(jīng)深入影響著我們的日常生活。消費者常常會受到這些評論的影響,正面的評論可能會增強他們的購買意愿,而負面的評論則可能會導致他們?nèi)∠徺I計劃。對于商家來說,好的評論可以加強他們的信心,而不好的評論則可能促使他們改進服務(wù)質(zhì)量。因此,對大量評論數(shù)據(jù)進行快速、高效且準確的分類處理已成為自然語言處理領(lǐng)域的研究熱點。情感分析[1]也被稱為觀點挖掘,旨在分析和挖掘隱藏在文本數(shù)據(jù)中的情感極性。情感分類作為情感分析的關(guān)鍵組成部分,旨在將文本數(shù)據(jù)劃分為不同的情感類別,通常包括正面和負面情感。其目標是通過計算機自動識別和理解評論文本中包含的情感極性,以便從大規(guī)模文本數(shù)據(jù)中提取有用信息。常見的情感分類方法主要有基于情感詞典[2]、基于特征提取的機器學習方法[3-5]和深度學習方法[6-8]。單一的使用情感詞典無法涵蓋所有情感表達方式和領(lǐng)域,因為它只包含有限的情感詞匯,會導致無法準確捕捉所有情感;而單一使用機器學習的方法通常需要大量的標簽數(shù)據(jù)來訓練模型,成本較高;深度學習在情感分類方面取得了較大進展,但是存在數(shù)據(jù)需求量大且對硬件要求高的缺點。這些問題揭示了當前情感分類領(lǐng)域中的科學挑戰(zhàn),亟需新的方法來提升分類效果和降低成本。
在此背景下,引入三支決策[9]模型,其是在二支決策(接受與拒絕)的基礎(chǔ)上進行的改進,引入了第三種決策選項,即延遲決策,更符合人類的認知過程,因為在某些情況下,決策者可能無法立即做出確定的決策,而需要進一步獲取信息或者延遲做出決策。這樣應(yīng)用包括醫(yī)療診斷[10]、人臉識別[11]、隱私保護[12]等。序貫三支決策就是將三支決策作為由粗粒度到細粒度的一個動態(tài)決策過程。Zhou 等[13]將動態(tài)詞典結(jié)合到了三支決策中來進行情感分析。Zhang 等[14]使用N-gram 模型構(gòu)建了一個多粒度空間,以此來進行序貫三支決策情感分類。Yang 等[15]從時間和空間的角度出發(fā),提出了基于時空多粒度的序貫三支決策情感分析模型。Wang 等[16]引入集成學習的硬投票方法結(jié)合到序貫三支決策模型進行情感分類。Chen 等[17]從特征提取方面出發(fā),提出了用于情感分析的分類特征表示三支決策模型。Su 等[18]為了更好處理復(fù)雜環(huán)境下不確定的數(shù)據(jù),提出了基于知識融合的序貫三支決策模型社交媒體情感分析。
然而,如何提升模型的分類性能和泛化能力仍然是一個挑戰(zhàn)。所以這里引入加權(quán)集成[19]的概念,加權(quán)集成的原理在于對多個獨立分類器的歷史性能賦予不同權(quán)重,通過綜合各個分類器的預(yù)測結(jié)果來增強最終的分類效果。這種方法已在許多領(lǐng)域取得成功,尤其是在文本分類和情感分析中,研究表明加權(quán)集成能夠顯著提高模型的準確性和魯棒性。加權(quán)集成的優(yōu)點包括:首先,它能有效整合不同模型的優(yōu)勢,減輕單一模型的不足;其次,通過加權(quán)方式,能夠針對不同任務(wù)動態(tài)調(diào)整模型組合,提高適應(yīng)性。然而,加權(quán)集成也存在一定的缺點,如模型選擇和權(quán)重分配的復(fù)雜性,這可能導致實施上的挑戰(zhàn)。
本文在序貫三支決策的基礎(chǔ)上,結(jié)合加權(quán)集成和N-gram 語言模型,構(gòu)建了一個多粒度的加權(quán)集成序貫三支決策情感分類研究模型,該模型將多個獨立分類器的效果根據(jù)它們的歷史分類性能賦予不同的權(quán)重,然后對多個分類器的結(jié)果進行加權(quán)集成,從而得到最終的分類結(jié)果。通過在中文計算機、酒店和服裝評論數(shù)據(jù)集上應(yīng)用加權(quán)集成多種獨立分類器的效果來提高模型的分類性能。最后的結(jié)果表明,通過加權(quán)集成后的序貫三支決策模型能夠顯著提高情感分類的性能,并增強模型的泛化能力。
1 基本原理
1.1 粗糙集
由Pawlak[20]在1982 年提出,是一種處理不精確、不確定與不完全數(shù)據(jù)的新的數(shù)學方法。在粗糙集理論中特征選擇的研究對象主要以符號型數(shù)值的數(shù)據(jù)為主,可以表示為一個四元組S = (U,A,V,f ),其中U 為非空有限對象集合,即為論域,A 為非空有限特征集合,Va ∈ A,Va表示特征a 的值域。f:為U × A → V 是一個信息函數(shù),?x ∈ U,a ∈ A,定義f ( x,a ) 表示x 在特征a 上的取值,則有f ( x,a ) ∈ Va。若有A =C ∪ D,且C ∩ D = ?,其中C 為條件屬性集合,D 為決策屬性集合,此信息系統(tǒng)又被稱為決策系統(tǒng)。其等價關(guān)系的定義如下所示,
EA ={( x,y )∈ U × U | ?a ∈ A ? C ? At }。(1)
其中(U,EA ) 是非空有限特征集合上的近似空間,U/EA 是對U 的劃分,x 的等價類如下所示,
[ x ]EA =[ x ]A =[ x ]={ y ∈ U |( x,y ) }∈ EA。(2)
狀態(tài)集為Ω = ( X,X C ),分別表示該評論屬于積極評論還是消極評論,其中屬于X 的條件概率使用公式(3)計算。
不屬于 X 的條件概率為 1-p (X| [ x ])。動作集為A = { aP,aB,aN },三種動作依次對應(yīng)接受,延遲決策和拒絕。損失函數(shù)表如表1所示。
基于上面的損失函數(shù)表可以給出閾值的計算公式如下。
其中的α 表示最小接受閾值,β 表示最小拒絕閾值,P、B 和N 代表接受、延遲分類、和拒絕的三種決策規(guī)則。λPP 表示文本被正確劃分為正類的成本,λNN 表示文本被正確劃分為負類的成本,λBP 表示文本被劃分為邊界類但實際為正類的成本,λBN 表示文本被劃分為邊界類但實際為負類的成本,λPN 表示文本被劃分為正類但實際為負類的成本,λNP 表示文本被劃分為負類但實際為正類的成本。
1.2 序貫三支決策
三支決策理論是Yao[9]提出的一種相比于二元思維更符合人類日常思維的一種決策模式,如果無法根據(jù)現(xiàn)有的信息和提示來進行決策,則進入延遲決策,提取更多的信息后再來進行決策,三支決策規(guī)則旨在為概率粗糙集的三個鄰域提供明確的語義解釋,并在不確定或信息不完整的情況下提供一種決策方法。這三個鄰域分別對應(yīng)概率粗糙集的構(gòu)建,包括接受、拒絕和不承諾規(guī)則。在實際應(yīng)用中,通過調(diào)整不同的閾值,可以產(chǎn)生不同的決策結(jié)果,因此選擇適當?shù)拈撝抵陵P(guān)重要。通過引入貝葉斯決策過程到概率粗糙集模型中,根據(jù)不同的決策成本選擇使總體風險最小化的決策代價作為損失函數(shù)。從三支決策方法提出以來,已經(jīng)有許多的專家學者根據(jù)不同的需求改進提出了新的三支決策。例如,Chen 等[21]將三支決策和多屬性決策相結(jié)合提出了3WD-gmcr 模型,用于處理沖突分析問題,Qian 等[22]引入多層次決策表,構(gòu)建了三支決策的分層決策模型,Wang等[23]將猶豫模糊信息與三支決策方法相結(jié)合,在排序和分類方面表現(xiàn)出良好的性能,Qian等[24]對多粒度三支決策的現(xiàn)狀進行了研究。
然而,現(xiàn)有的三支決策方法未考慮在決策過程中獲取和使用信息的成本。在實際問題中,獲得解決問題的有效信息往往是一個逐步迭代的過程,初始獲得的信息可能不足以直接支持做出三支決策。基于這一考慮,提出了序貫三支決策方法,將三支決策作為序貫決策的一個中間過程,以最小化信息成本的方式獲得更好的決策效果。序貫三支決策的核心思想是按照從粗到細的順序,在每一粒度中,當現(xiàn)有信息不足以支持接受或拒絕決策時,選擇延遲決策,等待下一粒度補充信息后再進行三支決策判斷。對于常見的二支決策問題,該過程會在合適的粒度下根據(jù)信息量增加和決策成本的考慮獲得二支決策結(jié)果。
三支決策理論是傳統(tǒng)二支決策理論的擴展。在解決實際問題時,二支決策適用于信息充足或信息獲取成本較低的情況,但實際上獲得的初始信息往往不足以直接支持決策者做出適當?shù)臎Q策,對于文本情感分類也是這樣。其中的閾值設(shè)置為0 lt; βi ≤ αi lt; 1,閾值也會隨粒度的變化而變化,粗粒度具有更大的α 和更小的β,細粒度則相反。假設(shè)i = 1,2,3,…,i 為粒度層次,則閾值具有以下規(guī)律:0 lt; β1 ≤ β2 ≤ β3 ≤ …≤ βi lt; αi ≤ … ≤ α3 ≤ α2 ≤ α1 lt; 1。
序貫三支決策的模型圖如圖1 所示。
圖1 展示了序貫三支決策的具體實現(xiàn)步驟:先將論域(數(shù)據(jù)集)劃分為POS1(正域)、BND1(邊界域)和NEG1(負域),按照從粗粒度1- 細粒度i 的順序依次對得到的BND(邊界域)進行三個域的劃分,直至最細粒度上劃分為兩個域。
1.3 集成學習
集成學習利用多個基本模型的集體智慧,通過整合各個模型的預(yù)測結(jié)果,從而產(chǎn)生比單個模型更為準確和穩(wěn)健的預(yù)測。這種方法能夠彌補單個模型的局限性,并在面對復(fù)雜數(shù)據(jù)或任務(wù)時提供更可靠的解決方案。集成學習的核心思想是通過結(jié)合多個模型的優(yōu)勢以及合理的整合策略,使得集成模型具有更好的泛化能力和預(yù)測性能,從而在實際應(yīng)用中取得更好的效果。根據(jù)其實現(xiàn)方式和策略的不同可以分為Bagging[25] ,Boosting[26] ,Stacking[27] 和Vot?ing[28]。將集成學習融入其他領(lǐng)域來提高性能已經(jīng)成為一個趨勢[29-30],Huang 等[30]將反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)模型與集成三支決策相結(jié)合,提高了其預(yù)測性能;Jiang 等[31]將集成三支聚類和陰影集相結(jié)合提出了S-M3WCE 模型,對比其他集成聚類算法獲得了更高的性能;Qian 等[32]使用四種具有不同決策標準的三支決策模型通過集成算法處理分類問題,相比于其他傳統(tǒng)三支決策模型可以獲得更高的分類精度和更低的延遲率。
2 基于加權(quán)集成學習的序貫三支決策文本情感分類
2.1 粒化文本
文本粒化是將文本數(shù)據(jù)劃分成更小的片段或單位的過程[33]。在文本情感分類中,通常將粒度層次分為詞語、句子、段落和篇章級。研究者往往專注于某一特定粒度層次,但文本情感分析存在較多模糊性。僅在粗粒度進行特征提取與分類雖能節(jié)省成本,但可能忽略關(guān)鍵情感信息,導致分類性能下降;而在細粒度上進行特征提取與分類則可提高分類準確率,但成本較高,效率低下。因此,本文提出根據(jù)每條評論中情感信息含量作為粒度劃分的依據(jù),逐漸由粗到細劃分粒度層次,以求解這一問題。
2.2 加權(quán)集成下的序貫三支決策文本情感分類
首先在較粗粒度進行三支決策,將劃入到邊界域的部分根據(jù)下一粒度層次中的情感信息特征繼續(xù)進行三支決策,最后獲得分類結(jié)果。為了增強模型的泛化能力和分類性能,在上面的基礎(chǔ)上引入了集成學習,它是將多個弱分類器通過策略進行融合依次變成一個強分類器獲得更好的分類結(jié)果。具體的思路是:從粗到細的多個粒度下,分別先使用不同的分類器獨立地對評論對象進行概率預(yù)測,再對得到的不同概率根據(jù)經(jīng)驗和歷史分類性能進行權(quán)重分配和加權(quán)集成,再將得到的加權(quán)集成概率根據(jù)三支決策的損失和閾值設(shè)置得到正、負和邊界三個域,再序貫執(zhí)行上面的步驟,直到最細粒度,再對最細粒度的邊界域進行二支決策,將每個粒度層次得到的正樣本和負樣本相加得到最終的分類結(jié)果。如圖2 所示。
詳細的描述如算法1 所示。
算法1 基于加權(quán)集成的序貫三支決策情感分類方法
輸入:中文評論數(shù)據(jù)集X = { x1,x2,…,xn },不同粒度的閾值對( αi,βi,γi ),加權(quán)集成分類器集合{ mod el1,mod el2,…,modelk },以及每個分類器的權(quán)重{ λ1,λ2,…,λk }。
輸出:決策結(jié)果,即POS 和NEG
1. initializeU1 = U,Un = ?,i = 1,POS =?,NEG = ?,BND = ?
2. for i=1,2,…,n-1 do
3. prob_x = 0;
4. for each classifier model_j in ensemble clas?sifiers do
5. prob_x+=λj*model_j.predict_proba(xi)[1];
6. end for
7. POSi = { x ∈ Ui|prob_x ≥ αi }
8. BNDi = { x ∈ Ui|βi lt; prob_x lt; αi }
9. NEGi = { x ∈ Ui|prob_x ≤ βi }
10. POS = POS ∪ POSi
11. NEG = NEG ∪ NEGi
12. Ui + 1 = BNDi
13. i = i + 1
14. end for
15. if Un ≠ ? then
16. prob_x = 0
17. for each classifier model_j in ensemble classifiers do
18. prob_x+=λj*model_j.predict_proba(xi)[1]
19. end for
20. POSn = { x ∈ Un| prob_x ≥ γn }
21. NEGn = { x ∈ Un|prob_x lt; γn }
22. POS = POS ∪ POSn
23. NEG = NEG ∪ NEGn
24. end if。
算法1 首先使用多個分類器模型分別對文本進行概率預(yù)測再根據(jù)設(shè)置的權(quán)重λ 進行加權(quán)概率的集成,最后將得到的概率與設(shè)置的兩個閾值α 和β 進行比較,通過三支決策劃分為正、負和邊界域,再對邊界域通過不同分類器的重新概率預(yù)測,進行序貫的集成概率計算,最后對最細粒度的邊界域使用集成概率進行二支決策得到正域和負域,再將上面步驟得到的正域和負域相加即為最終的分類結(jié)果。包含兩個嵌套的循環(huán),外層遍歷數(shù)據(jù)集中的每條文本,內(nèi)層循環(huán)遍歷每個分類器,上面文本數(shù)量為n,分類器數(shù)量為k,得出時間復(fù)雜度為O ( n ? k )。這意味著算法的執(zhí)行時間會隨著文本數(shù)量和分類器數(shù)量的增加而線性增長,展現(xiàn)了算法在處理大規(guī)模數(shù)據(jù)集和復(fù)雜分類任務(wù)時的效率。算法1 能夠在提高分類精度的同時,有效處理分類不確定性,為文本情感分類問題提供了高效且準確的解決方案。
3 實驗結(jié)果與分析
3.1 實驗數(shù)據(jù)集
為了驗證本文所提出的方法有效性和優(yōu)越性,采用中文計算機評論、酒店評論和服裝評論三個數(shù)據(jù)集作為本文的實驗數(shù)據(jù)集,其中中文計算機評論數(shù)據(jù)集中有4 000 條評論,正負評論各2 000 條;酒店評論數(shù)據(jù)集總共有6 000 條評論,正負評論各占3 000 條,從中隨機選取正負評論各2 000 條;服裝評論數(shù)據(jù)集共有10 000條,正負評論各5 000 條,從中隨機選取正負評論各2 000 條。數(shù)據(jù)集信息如表2 所示。
3.1.1 預(yù)處理
文本預(yù)處理是自然語言中處理的重要步驟,一般分為文本清洗、分詞、移除停用詞和詞形還原等,因為英文文本具有文本空格隔斷的特征,所以英文評論數(shù)據(jù)集不用進行分詞,而對于中文評論數(shù)據(jù)集來說需要先進行分詞,再進行文本清洗和移除停用詞的操作,表3 是預(yù)處理后的部分評論文本。
3.1.2 文本特征提取
N-gram 模型是一種用于建模序列數(shù)據(jù)的統(tǒng)計語言模型,在自然語言處理任務(wù)中具有廣泛的應(yīng)用,如語言建模、文本生成和文本分類。該模型基于馬爾可夫假設(shè),即當前詞的出現(xiàn)只與前面N - 1 個詞有關(guān)。具體而言,N-gram 模型通過統(tǒng)計文本中連續(xù)N 個詞(或字符)的出現(xiàn)頻率和分布情況,從而推斷出文本的語言規(guī)律和結(jié)構(gòu)特征。借助 N-gram 模型,能夠計算在給定前N - 1 個詞的情況下,下一個詞(或字符)出現(xiàn)的概率,從而實現(xiàn)對文本的自 動建模和預(yù)測。具體的概率預(yù)測公式(7)所示:
P ( ?i| ?1,?2,…,?i - 1 )=P ( ?i |?i - N + 1,?i - N + 2,…,?i - 1 )。(7)
一般分為unigram、bigram 和trigram,相對應(yīng)的分別為一元模型、二元模型和三元模型。其中unigram 只考慮單個詞語的出現(xiàn)頻率和分布情況,不考慮詞語之間的順序關(guān)系;bigram 是指在N-gram 模型中考慮兩個連續(xù)詞語的組合,每個詞語的出現(xiàn)概率與其前一個詞語的出現(xiàn)有關(guān),即用前一個詞語來預(yù)測下一個詞語的出現(xiàn)概率;trigram 中每個詞語的出現(xiàn)概率與其前面兩個詞語的出現(xiàn)有關(guān),用前兩個詞語組合來預(yù)測下一個詞語的出現(xiàn)概率。
這里構(gòu)造特征的原則是第一粒度使用uni?gram 篩選名詞,第二粒度為bigram 篩選形容詞+名詞,在第三粒度考慮到數(shù)據(jù)規(guī)模避免數(shù)據(jù)稀疏性和計算復(fù)雜度的問題,所以不使用tri?gram,而是使用unigram+bigram 來篩選副詞+形容詞+名詞作為特征。這種按照情感信息量不同的劃分具有層層遞進更加準確高效地捕捉其中的情感信息,比如:不錯的服務(wù),在第一個粒度層次“服務(wù)”無法分辨情感傾向,放在邊界域進行第二粒度“ 錯 服務(wù)”,更偏向消極類情感,初定為消極類,第三粒度“不 錯 服務(wù)”顯然為積極類,這里可以得到積極類的傾向大于消極類的傾向,也就推翻了前面的初定義為消極類。這樣層層遞進的特征構(gòu)造方法能夠更好地反映文本中的情感信息,提高情感分類的準確性和效率。具體的如表4 所示。
3.2 評價指標
為了衡量本文方法的性能,使用了Accuracy(A)、Pr ecision(P)、Re call(R)和F1 四種常見的性能指標。根據(jù)分類結(jié)果的混淆矩陣來進行計算,其中TP 表示真正例數(shù)量(分類器將正例正確分類為正例的數(shù)量),TN 表示真負例數(shù)量(分類器將負例正確分類為負例的數(shù)量),F(xiàn)P 表示假正例數(shù)量(分類器將負例錯誤分類為正例的數(shù)量),F(xiàn)N 表示假負例數(shù)量(分類器將正例錯誤分類為負例的數(shù)量)。具體的計算公式如下:
3.3 實驗設(shè)置
3.3.1 損失及閾值設(shè)置
這里設(shè)置每個粒度下的損失,一般來說是根據(jù)自己的經(jīng)驗和實際情況來進行綜合設(shè)置。損失其實就是對于分類錯誤的代價,因為本文研究的是情感分類,最終的結(jié)果應(yīng)該為積極類和消極類兩類,所以就是將積極類和消極類分為正、負和不確定域所付出的代價,根據(jù)常識及原則來看,從粗粒度到細粒度,錯誤分類的代價也在提高,這里設(shè)置為從粗粒度開始,每個粒度損失依次增加;而將積極類分到負域和不確定域的代價應(yīng)該比將消極類分到正域和不確定域的代價更高,正確分類的損失都設(shè)置為0。考慮到分類代價的問題,所以這里只選擇三個粒度進行三支決策。這樣的設(shè)置不僅能夠考慮情感信息的重要性,還能合理地控制決策的成本,從而實現(xiàn)更加有效的情感分類。根據(jù)上面閾值的計算公式和給出的定義以及綜合考慮分類效果,將計算機評論的第一粒度層次的閾值對設(shè)置為α1 = 0.74,β1 = 0.30;酒店評論的閾值對設(shè)置為α1 = 0.73,β1 = 0.27;服裝評論的閾值對設(shè)置為α1 = 0.71,β1 = 0.32。
3.3.2 加權(quán)集成權(quán)重設(shè)置
設(shè)置邏輯回歸(Logistic Regression,LR)、樸素貝葉斯(Naive Bayes,NB)和支持向量機(Support Vector Machine,SVM)三個基分類器的權(quán)重比在0—10 以內(nèi),三者之和為10。在第一粒度下通過遍歷權(quán)重輸出錯誤分類的數(shù)量確定最佳權(quán)重比。根據(jù)遍歷結(jié)果可知在計算機評論數(shù)據(jù)集中LR∶NB=6∶4 時錯誤樣本數(shù)量最少,設(shè)置為最佳權(quán)重比。而在酒店評論數(shù)據(jù)集中得出的最佳權(quán)重組合為SVM∶LR∶NB=7∶2∶1。在服裝評論數(shù)據(jù)集中最佳權(quán)重組合為SVM∶LR∶NB=5∶3∶2。
3.4 實驗結(jié)果及分析
為了驗證閾值設(shè)置的合理性和有效性,這里遍歷閾值對不同組合第一粒度下對于酒店評論、計算機評論和服裝評論數(shù)據(jù)集的分類準確率形成的散點,其中閾值α,閾值β 和準確率(Accuracy)為坐標。注:準確率的取值范圍為0到1,0 表示0% 而1 表示100%。例如,準確率為0.85 時,表示模型的正確率為85%。在后續(xù)的分析和圖表中,將始終以0 到1 之間的小數(shù)形式表示準確率、查準率、查全率和F1 值。
從圖3 可以看出,在計算機評論數(shù)據(jù)集中,當?shù)谝涣6鹊拈撝祵棣? = 0.74,β1 = 0.30 時能獲得更高的準確率,在酒店評論數(shù)據(jù)集中當?shù)谝涣6鹊拈撝祵棣? = 0.73,β1 = 0.27 能獲得更好的實驗結(jié)果,而在服裝評論數(shù)據(jù)集中當?shù)谝涣6乳撝祵棣? = 0.71,β1 = 0.32 能獲得更高的準確率,證明了三個閾值對選取的有效性。
為驗證本文提出的粒度構(gòu)建方法的有效性,以酒店評論數(shù)據(jù)集為例,使用NB 進行分析,計算三個粒度下的分類準確率,如圖4 所示。
從圖4 中可以看出使用unigram 提取名詞作為特征時,準確率較低,使用bigram 提取形容詞+ 名詞作為特征時提升了1 個百分點,使用unigram+bigram 提取副詞+形容詞+名詞作為特征時,有大幅提升,這是因為形容詞和副詞往往包含大量的情感信息,這個結(jié)果也驗證了多粒度構(gòu)造的有效性。
本文以LR、NB 和SVM 這三個二支決策方法作為基分類器,以文獻[14]中的基于N-gram語言模型的多粒度序貫三支情感分類模型(Ngram-based Multi-granularity Sequential ThreewaySentiment Classification,NSTWSC)和文獻[16]中的結(jié)合集成學習方法的序貫三支情感分類模型(Ensemble Learning for SequentialThree-way Sentiment Classification,ESTWSC)的對比基準,首先用三種三支決策方法在兩個數(shù)據(jù)集上對比三個二支決策方法的效果,再使用本文提出的基于加權(quán)集成的序貫三支決策情感分類模型(Weighted Ensemble-based SequentialThree-way Decision Sentiment Classification,WETWSC)對比NSTWSC 和ESTWSC 的結(jié)果。分別在中文酒店評論、計算機評論和服裝評論數(shù)據(jù)集上進行實驗,來驗證本文提出的基于加權(quán)集成的序貫三支決策的情感分類模型WET?WSC 的有效性。
通過分析表5 中的查準率P,可以發(fā)現(xiàn)在三種二元分類方法中,針對中文計算機評論數(shù)據(jù)集,負樣本方面,LR 表現(xiàn)最為出色,而SVM 在正樣本上表現(xiàn)最佳。相反,在中文酒店評論數(shù)據(jù)集中,NB 在負樣本上表現(xiàn)最佳,而LR 則在正樣本方面表現(xiàn)優(yōu)異。這表明了每種二元分類方法各有其優(yōu)劣之處,呈現(xiàn)出一定的平衡性。對于三種三支決策分類方法,結(jié)果顯示在三個數(shù)據(jù)集的正、負樣本上,均優(yōu)于二元分類方法的查全率效果。這表明相較于二元分類方法,三元分類方法在情感分類中的查準率更為有效。
進一步對比三種三元分類方法在三個數(shù)據(jù)集上的表現(xiàn),可以發(fā)現(xiàn)在計算機評論數(shù)據(jù)集中,本文提出的WETWSC 方法在負樣本上表現(xiàn)最佳,相較于NSTWSC 和ESWWSC 分別提升了3 個百分點和0.8 個百分點。而在正樣本方面,ESTWSC 表現(xiàn)最佳。而在酒店評論數(shù)據(jù)集上,NSTWSC 方法在正樣本方面表現(xiàn)最佳,而在負樣本方面,WETWSC 方法表現(xiàn)最優(yōu)。在服裝評論中,ESTWSC 在正樣本上表現(xiàn)最佳,本文提出的WETWSC 在負樣本最佳,但是ES?TWSC 存在正、負樣本查準率相差較大的缺陷。綜合來看,在三個數(shù)據(jù)集上的查準率上,本文的WETWSC 均取得了不錯的結(jié)果。
通過分析表6 查全率R 的對比結(jié)果,我們可以得出以下結(jié)論:
針對計算機評論數(shù)據(jù)集的負樣本方面,SVM 方法的查全率最高,達到了0.916。而在正樣本方面,ESTWSC 方法的表現(xiàn)最佳。對于酒店評論數(shù)據(jù)集的負樣本方面,NSTWSC 方法的查全率最高,達到了0.903,略高于本文的WETWSC。而在正樣本方面,NB 方法的表現(xiàn)最佳,但是同樣存在正負樣本上表現(xiàn)差異較大不平衡的結(jié)果。而在服裝評論數(shù)據(jù)集上,EST?WSC 在正樣本上表現(xiàn)最佳,本文的WETWSC在負樣本上表現(xiàn)最佳。
總體來說,ESTWSC 和WETWSC 兩種方法在計算機評論和服裝評論數(shù)據(jù)集的查全率上均取得了較好結(jié)果,而由于酒店數(shù)據(jù)集中評論的特點導致查全率一般。
通過對表7 中的F1 值對比結(jié)果的深入分析,我們可以得出如下結(jié)論:在計算機評論和服裝評論數(shù)據(jù)集上ESTWSC 表現(xiàn)較好,但是除計算機評論的正樣本的F1 值領(lǐng)先本文方法較大之外,其他樣本上都相差不大,相比于其他的方法,兩種集成方法均展現(xiàn)了卓越的性能,F(xiàn)1 值處于領(lǐng)先地位。而在酒店評論上,本文的WETWSC 在F1 值上大幅領(lǐng)先,其中在負樣本上相比于NSTWSC 和ESTWSC 分別提高了2個百分點和5 個百分點。
最后在兩個數(shù)據(jù)集上對兩種不同的三支決策方法和二支分類效果最好的SVM 準確率進行比較,如圖5 所示。
從圖5 中可以看出在計算機數(shù)據(jù)集上,本文提出的WETWSC 相比于NSTWSC 和SVM的準確率分別提高了1.2 個百分點和2.5 個百分點,稍高于ESTWSC。在酒店數(shù)據(jù)集上,WET?WSC 相比于ESTWSC、NSTWSC 和SVM 的準確率分別提高了3.6 個百分點、0.3 個百分點和4.6 個百分點。而在服裝評論數(shù)據(jù)集上,本文的WETWSC 高于SVM 和NSTWSC,但是略低于ESTWSC。值得注意的是上面的方法在酒店評論數(shù)據(jù)集上的表現(xiàn)均不如在服裝評論和計算機評論數(shù)據(jù)集上的表現(xiàn),這是由于酒店評論中往往存在觀點表述不清,難以判斷情感傾向的評論,加大了情感分類難度。
綜合來說,本文提出的WETWSC 方法在計算機、酒店和服裝評論數(shù)據(jù)集的性能表現(xiàn)優(yōu)異,其能夠更加準確地識別負樣本和正樣本,為情感分類任務(wù)提供了更為可靠的解決方案。
4 結(jié)論與展望
在已有的三支決策與情感分類結(jié)合的研究基礎(chǔ)上,本文引入了加權(quán)集成學習,提出了一種基于加權(quán)集成的序貫三支決策情感分類模型。該模型利用N-gram 構(gòu)建了一個多粒度結(jié)構(gòu),在每個粒度層次上采用加權(quán)集成的方法對預(yù)測概率進行加權(quán),旨在提高模型的泛化性能和分類準確度。實驗結(jié)果表明將加權(quán)集成學習融入三支決策模型中能夠顯著提高情感分類的性能。相對于傳統(tǒng)的簡單三支決策方法硬投票集成的序貫三支決策方法,本文提出的加權(quán)集成方法具有更高的性能指標和更強的魯棒性。
然而,本文中使用的權(quán)重是基于歷史分類性能和經(jīng)驗設(shè)定的,可能存在一定的局限性。未來的研究方向包括優(yōu)化權(quán)重的確定方式以及深入探索更有效的特征提取方法。這些工作將進一步提升模型的性能,并豐富情感分類領(lǐng)域的研究內(nèi)容。
參考文獻:
[1] BING L. Sentiment Analysis and Opinion Mining (SynthesisLectures on Human Language Technologies) [M].Berlin: Springer, 2012.
[2] TABOADA M, BROOKE J, TOFILOSKI M, et al.Lexicon-based Methods for Sentiment Analysis[J]. ComputLinguist, 2011, 37(2): 267-307. DOI: 10.1162/coli_a_00049.
[3] ZOU H, TANG X H, XIE B, et al. Sentiment ClassificationUsing Machine Learning Techniques with SyntaxFeatures[C]//2015 International Conference on ComputationalScience and Computational Intelligence (CSCI).New York: IEEE, 2015: 175-179. DOI: 10.1109/CSCI.2015.44.
[4] AGARWAL B, MITTAL N. Machine Learning Approachfor Sentiment Analysis[M]// Prominent Feature Extractionfor Sentiment Analysis. Cham: Springer, 2016: 21-45.10.1007/978-3-319-25343-5_3.
[5] TRIPATHY A, AGRAWAL A, RATH S K. Classificationof Sentiment Reviews Using N-gram Machine LearningApproach[J]. Expert Syst Appl, 2016, 57: 117-126. DOI:10.1016/j.eswa.2016.03.028.
[6] DANYAL M M, KHAN S S, KHAN M, et al. ProposingSentiment Analysis Model Based on BERT and XLNetfor Movie Reviews[J]. Multimed Tools Appl, 2024, 83(24): 64315-64339. DOI: 10.1007/s11042-024-18156-5.
[7] ZGORNI G, QUSSAY A, ELGENDY Z, et al. DeepLearning Approaches for Sentiment Analysis: ComparativeResults[C]//2024 6th International Conference onComputing and Informatics (ICCI). New York: IEEE,2024: 59-64. DOI: 10.1109/ICCI61671.2024.10485058.
[8] REDDY R, NAOMAN A A, CHARAN G V S, et al. SentimentAnalysis of Steam Reviews Using TransformerModels[M]//Lecture Notes in Electrical Engineering. Singapore:Springer Nature Singapore, 2024: 719-727.DOI: 10.1007/978-981-99-7137-4_70.
[9] YAO Y Y. An Outline of a Theory of Three-way Decisions[C]//International Conference on Rough Sets andCurrent Trends in Computing. Berlin, Heidelberg:Springer, 2012: 1-17.10.1007/978-3-642-32115-3_1.
[10] YE J, SUN B Z, BAI J C, et al. A Preference-approvalStructure-based Non-additive Three-way Group ConsensusDecision-making Approach for Medical Diagnosis[J]. Inf Fusion, 2024, 101: 102008. DOI: 10.1016/j.inffus.2023.102008.
[11] LI H X, ZHANG L B, HUANG B, et al. SequentialThree-way Decision and Granulation for Cost-sensitiveFace Recognition[J]. Knowl Based Syst, 2016, 91: 241-251. DOI: 10.1016/j.knosys.2015.07.040.
[12] QIAN J, JIANG H Y, YU Y, et al. Multi-level PersonalizedK-anonymity Privacy-preserving Model Based on SequentialThree-way Decisions[J]. Expert Syst Appl, 2024,239: 122343. DOI: 10.1016/j.eswa.2023.122343.
[13] 周哲, 商琳. 一種基于動態(tài)詞典和三支決策的情感分析方法[J]. 山東大學學報(工學版), 2015, 45(1): 19-23. DOI: 10.6040/j.issn.1672-3961.1.2014.250.
ZHOU Z, SHANG L. A Sentiment Analysis MethodBased on Dynamic Lexicon and Three-way Decision[J]. J Shandong Univ Eng Sci, 2015, 45(1): 19-23.DOI: 10.6040/j.issn.1672-3961.1.2014.250.
[14] 張剛強, 劉群, 紀良浩. 基于序貫三支決策的多粒度情感分類方法[J]. 計算機科學, 2018, 45(12): 153-159.DOI: 10.11896/j.issn.1002-137X.2018.12.024.
ZHANG G Q, LIU Q, JI L H. Multi-granularity SentimentClassification Method Based on Sequential ThreewayDecisions[J]. Comput Sci, 2018, 45(12): 153-159.DOI: 10.11896/j.issn.1002-137X.2018.12.024.
[15] 楊新, 劉盾, 李楸柯, 等. 基于時空多粒度的序貫三支情感分析[J]. 模式識別與人工智能, 2020, 33(8): 743-752. DOI: 10.16451/j.cnki.issn1003-6059.202008008.
YANG X, LIU D, LI Q K, et al. Sequential Three-waySentiment Analysis Based on Temporal-spatial Multigranularity[J]. Pattern Recognit Artif Intell, 2020, 33(8):743-752. DOI: 10.16451/j.cnki.issn1003-6059.202008008.
[16] 王琴, 劉盾. 結(jié)合集成學習的序貫三支情感分類方法研究[J]. 計算機工程與應(yīng)用, 2021, 57(23): 211-218.DOI: 10.3778/j.issn.1002-8331.2006-0324.
WANG Q, LIU D. Sequential Three-way SentimentClassification Combined with Ensemble Learning[J].Comput Eng Appl, 2021, 57(23): 211-218. DOI:10.3778/j.issn.1002-8331.2006-0324.
[17] CHEN J, CHEN Y, HE Y C, et al. A Classified FeatureRepresentation Three-way Decision Model for SentimentAnalysis[J]. Appl Intell, 2022, 52(7): 7995-8007.DOI: 10.1007/s10489-021-02809-1.
[18] SU J Y, LIU W J, FENG D Y, et al. Social Media SentimentAnalysis of Sequential Three-way Decision ModelBased on Knowledge Fusion[C]//2023 IEEE 3rd InternationalConference on Electronic Technology, Communicationand Information (ICETCI). New York: IEEE,2023: 20-24. DOI: 10.1109/ICETCI57876.2023.10176764.
[19] XIA R, ZONG C Q, LI S S. Ensemble of Feature Setsand Classification Algorithms for Sentiment Classification[J]. Inf Sci, 2011, 181(6): 1138-1152. DOI: 10.1016/j.ins.2010.11.023.
[20] PAWLAK Z. Rough Sets[J]. Int J Comput Inf Sci, 1982,11(5): 341-356. DOI: 10.1007/bf01001956.
[21] CHEN L, XU H Y, PEDRYCZ W. Conflict AnalysisBased on a Novel Three-way Decisions Graph Modelfor Conflict Resolution Method Under Hesitant FuzzyEnvironment[J]. Inf Fusion, 2023, 100: 101936. DOI:10.1016/j.inffus.2023.101936.
[22] QIAN J, TANG D W, YU Y, et al. Hierarchical SequentialThree-way Decision Model[J]. Int J Approx Reason,2022, 140: 156-172. DOI: 10.1016/j.ijar.2021.10.004.
[23] WANG J J, MA X L, XU Z S, et al. Three-way MultiattributeDecision Making under Hesitant Fuzzy Environments[J]. Inf Sci, 2021, 552: 328-351. DOI:10.1016/j.ins.2020.12.005.
[24] 錢進, 鄭明晨, 周川鵬等. 多粒度三支決策研究進展[J]. 數(shù)據(jù)采集與處理, 2024, 39(2): 361-375. DOI:10.16337/j.1004-9037.2024.02.009.
QIAN J, ZHENG M C, ZHOU C P, et al. Recent Advancementin Multi-granulation Three-way Decisions[J].J Data Acquisition and Processing, 2024, 39(2): 361-375.DOI: 10.16337/j.1004-9037.2024.02.009.
[25] BüHLMANN P, YU B. Analyzing Bagging[J]. Ann Statist,2002, 30(4): 927-961. DOI: 10.1214/aos/1031689014.
[26] SCHAPIRE R R. A Brief Introduction to Boosting[C]//Proceedings of the Sixteenth International Joint Conferenceon Artificial Intelligence. San Francisco, CA: MorganKaufmann, 1999, 99(999): 1401-1406.
[27] PAVLYSHENKO B. Using Stacking Approaches forMachine Learning Models[C]//2018 IEEE Second InternationalConference on Data Stream Mining amp; Processing(DSMP). New York: IEEE, 2018: 255-258. DOI:10.1109/DSMP.2018.8478522.
[28] PARHAMI B. Voting Algorithms[J]. IEEE Trans Reliab,1994, 43(4): 617-629. DOI: 10.1109/24.370218.
[29] ZHANG P F, LI T R, WANG G Q, et al. Multi-sourceInformation Fusion Based on Rough Set Theory: a Review[J]. Inf Fusion, 2021, 68: 85-117. DOI: 10.1016/j.inffus.2020.11.004.
[30] HUANG X F, ZHAN J M, DING W P, et al. An ErrorCorrection Prediction Model Based on Three-way Decisionand Ensemble Learning[J]. Int J Approx Reason,2022, 146: 21-46. DOI: 10.1016/j.ijar.2022.04.002.
[31] JIANG C M, LI Z C, YAO J T. A Shadowed Set-basedThree-way Clustering Ensemble Approach[J]. Int JMach Learn Cybern, 2022, 13(9): 2545-2558. DOI:10.1007/s13042-022-01543-5.
[32] QIAN J, WANG D, YU Y, et al. E3WD: A Three-wayDecision Model Based on Ensemble Learning[J]. Inf Sci,2024, 667: 120487. DOI: 10.1016/J.INS.2024.120487.
[33] LANG Q, PAN X J, LIU X D. A Text-granulation ClusteringApproach with Semantics for E-commerce IntelligentStorage Allocation[J]. IEEE Access, 2020, 8: 164282-164291. DOI: 10.1109/ACCESS.2020.3021421.
基金項目:國家自然科學基金(62066014,62466017);江西省自然科學基金項目(20232ACB202013)