王保敏 王睿 潘洪志 楊帆
摘要:信息傳播與交互隨著互聯(lián)網(wǎng)的發(fā)展變得日益普遍,網(wǎng)絡(luò)輿論的表達方式也日益多元。中文貼吧作為網(wǎng)絡(luò)輿論表達的重要通道,已逐漸成為網(wǎng)民反映自身情感需求的一個平臺,對其觀點進行識別進而判斷其情感傾向非常重要。根據(jù)三支決策理論對貼吧觀點進行識別,采用基于三支決策的貝葉斯分類器,給出了中文貼吧觀點句識別方法和主要步驟 ,取得了較好的識別效果。
關(guān)鍵詞: 三支決策;觀點句識別 ;貝葉斯分類;貼吧
中圖分類號:TP391 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)10-0164-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 概述
互聯(lián)網(wǎng)的快速發(fā)展吸引了越來越多的用戶,這一趨勢隨著移動互聯(lián)網(wǎng)興起更加明顯。針對某一事實或者觀點,這些用戶可以便捷的表達自己的情緒、態(tài)度和立場等,形成了海量的客觀或者主觀信息。中文貼吧作為個人情感表達的一個重要渠道,使得對同一個話題感興趣的用戶方便地展開交流,其主題內(nèi)容廣泛,可以涵蓋社會、生活、教育等方面。作為用戶觀點表達和思想交流的網(wǎng)絡(luò)空間,對中文貼吧的觀點進行識別已經(jīng)愈發(fā)受到重視。
中文貼吧觀點句識別是數(shù)據(jù)挖掘的子領(lǐng)域,其目的在于分析和判斷用戶對事物的觀點傾向。在不同主題貼吧的觀點句識別具有很強的實用性。如針對某一熱點時事,通過有效識別貼吧中的觀點句,可以實現(xiàn)對輿情的及時監(jiān)測和有效引導(dǎo),從而化解輿論危機,這對維護社會穩(wěn)定促進事態(tài)向有益方向發(fā)展具有極其重要的現(xiàn)實意義。
2 三支決策基本思想
三支決策(Three-way Decision)是一種符合人類認(rèn)知的決策模式。在實際決策過程中,對于掌握足夠信息的事物,立即做出接受或者拒絕的判斷;而對于哪些信息掌握不充分、認(rèn)知不夠徹底的事物,則往往會推遲判斷。
3 中文貼吧的語言特征
與微博相比,微博發(fā)言具有嚴(yán)格的字?jǐn)?shù)限制,體現(xiàn)觀點的語句表達較為集中,而貼吧發(fā)言語句較長,字詞較多,表達作者情感或觀點的句子較為稀疏分散。與新聞或者評論相比,新聞或評論的撰寫發(fā)表須符合特定的格式,文體較為集中統(tǒng)一,主旨明確,往往首尾句在很大程度上即表明了作者的態(tài)度和觀點,而貼吧的發(fā)言具有較大的隨意性,語言風(fēng)格因人而異,反映帖子情感或觀點的語句甚至是隱藏起來的,即使是同一個詞語,在不同的語境或上下文環(huán)境下其情感傾向完全不同甚至是相反的,如“呵呵”,既可以表示贊同也可以表示戲謔。這一語言特點在新興網(wǎng)絡(luò)用語日益普遍的情況下尤為明顯。
因此,針對不同主題環(huán)境的貼吧,對觀點句的識別需結(jié)合其自身的語言特征,考慮到不同的領(lǐng)域觀點詞所表現(xiàn)出的不同的語義。
4 基于三支決策的中文貼吧觀點句識別
4.1 設(shè)計三支決策分類器
常見的機器學(xué)習(xí)算法(常規(guī)分類器)有樸素貝葉斯算法、最近鄰算法、支持向量機等,將三支決策與機器學(xué)習(xí)算法結(jié)合,形成了基于三支決策的相應(yīng)算法分類器。由于樸素貝葉斯分類器具有穩(wěn)定的分類效率、易于處理多分類任務(wù)、可分批進行增量訓(xùn)練等優(yōu)點,本文采用經(jīng)拉普拉斯校準(zhǔn)的樸素貝葉斯分類器。其基本思想是利用先驗概率和類條件概率估計帖子中句子x屬于觀點句集合C的概率,公式如下:
4.2 構(gòu)建貼吧領(lǐng)域觀點詞庫
判斷貼吧中的語句是否屬于觀點句,實際上是一個二分類問題,由兩步組成:即訓(xùn)練和預(yù)測。因此需要有一個訓(xùn)練數(shù)據(jù)集。本文采用基于詞典和統(tǒng)計分析相結(jié)合的方法構(gòu)建貼吧領(lǐng)域觀點詞庫。基本步驟如下:
1)對某一主題的貼吧,采用人工標(biāo)注的方式,將其中的語句分成兩類,即觀點句和非觀點句。根據(jù)貼吧的語言特征,標(biāo)注過程中,對可能反映觀點傾向的網(wǎng)絡(luò)用語或者符號如“??”“!!”“”“”等,需加以考慮。從觀點句集合中抽取主觀特征(能反映貼吧觀點的詞)作為候選領(lǐng)域觀點詞庫1。
2)采用文獻[3]的方法,將知網(wǎng)HowNet的情感詞典中正面情感詞、負(fù)面情感詞、正面評價詞、負(fù)面評價詞合并去重,得到候選領(lǐng)域觀點詞庫2。
3)將上述兩步得到的候選領(lǐng)域觀點詞庫1和候選領(lǐng)域觀點詞庫2合并去重,最終得到貼吧的領(lǐng)域觀點詞庫。
4.3 設(shè)定閾值
5 實例及結(jié)果
本文從某貼吧選取了一個主題為“非機動車撞上違停機動車該不該賠償”的部分回帖,對每個回帖的句子進行編碼,用id表示,首兩位數(shù)字表示回帖的編號,末兩位數(shù)字表示該回貼中句子的編號。經(jīng)過文本預(yù)處理,將所有句子保存在一個文本文件中,同時構(gòu)建出訓(xùn)練樣本集和領(lǐng)域觀點詞庫。為便于說明原理,現(xiàn)從回帖中抽取6句已經(jīng)標(biāo)注的帖子作為訓(xùn)練樣本集,選擇1句作為測試集。分詞后的結(jié)果如表1所示。
5 結(jié)論
本文給出了基于三支決策的中文貼吧觀點句識別的基本原理和步驟,分析了具體的計算過程。通過簡例表明,這一方法可以有效避免人為判斷的主觀性,如果在測試集數(shù)量足夠大的情況下,基于三至決策的識別方法能夠更好地提高識別的準(zhǔn)確性。分類過程中,閾值的選取是關(guān)鍵,是值得深入研究的一個方面。
參考文獻:
[1] 杜麗萍,李曉戈,于根,等.基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J].北京大學(xué)學(xué)報:自然科學(xué)版,2016,52(1):35-40.
[2] 葛斌,李芳芳,郭絲路,等.基于知網(wǎng)的詞匯語義相似度計算方法研究[J].計算機應(yīng)用研究,2010,27(9):3329-3333.
[3] 朱艷輝,田海龍,劉璟,等.基于三支決策的新聞情感關(guān)鍵句識別方法[J].山西大學(xué)學(xué)報:自然科學(xué)版,2015,38(4):595-600.
[4] 陳剛,劉秉權(quán),吳巖.求三支決策最優(yōu)閾值的新算法[J].計算機應(yīng)用,2012,32(8):2212-2215.
[5] 杜麗萍,李曉戈,于根,等.基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J].北京大學(xué)學(xué)報:自然科學(xué)版,2006,52(1):35-40.
[6] 于洪,王國胤,李天瑞,等. 三支決策:復(fù)雜問題求解方法與實踐[M].北京:科學(xué)出版社,2016: 219-228.
【通聯(lián)編輯:謝媛媛】