999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征觀點對的中文領(lǐng)域情感詞典構(gòu)建研究

2025-07-19 00:00:00王召義薛晨杰張麗媛
荊楚理工學(xué)院學(xué)報 2025年3期
關(guān)鍵詞:語義特征情感

中圖分類號:TP391.1 文獻標志碼:A 文章編號:1008-4657(2025)03-0039-13

情感詞典是文本情感分析的重要支撐資源。目前,中文通用情感詞典主要有臺灣大學(xué)中文情感極性詞典(NTUSD)[1]、清華大學(xué)李軍中文褒貶義詞典(TSING)[2]、知網(wǎng)情感詞典(HowNet)和大連理工大學(xué)中文情感詞匯本體庫(DUTIR)[3]等。NTUSD、TSING和HowNet都是默認情感詞的情感極性是不變的,把情感詞分為褒義詞、貶義詞或正向詞、負向詞[4]。這種詞典結(jié)構(gòu)不僅混淆了文本情感分析和情感詞情感分析的涵義,還忽略了詞語的語義環(huán)境和上下文約束關(guān)系,注定不能適應(yīng)新環(huán)境下的情感分析任務(wù)[5]。新環(huán)境下的文本內(nèi)容尤其是電子商務(wù)平臺的產(chǎn)品評論具有很強的領(lǐng)域性和上下文語義約束關(guān)系,使用通用情感詞典對其進行情感分析,可能會造成嚴重的語義歧義及情感信息誤判[6]。相對而言,DUTIR在情感詞的情感極性上做了改進,不僅把情感詞的主要情感分類標出,還為部分情感詞添加了輔助情感分類,一定程度上解決了一個情感詞可能對應(yīng)多個情感分類的問題[7]。但是仍然存在通用情感詞典面臨的關(guān)鍵問題:如何辨別和區(qū)分受領(lǐng)域或上下文約束關(guān)系影響的情感詞。有些情感詞的情感極性是因領(lǐng)域而異的[8]149,如果忽略領(lǐng)域特性進行情感分析任務(wù),會導(dǎo)致情感詞的情感極性與實際應(yīng)用場景不符,從而影響情感分析結(jié)果的準確性和可靠性。在中文詞匯中,有很多具有多義性、模糊性的情感詞,這些詞在不同的領(lǐng)域中有著不同的含義和情感極性[9,同樣不同領(lǐng)域所包含的情感詞也不盡相同,因而在領(lǐng)域內(nèi)構(gòu)建領(lǐng)域情感詞典是十分必要的[10]。同時,為了提高情感分析在特定領(lǐng)域的準確性和有效性,也迫切需要開發(fā)和使用領(lǐng)域情感詞典。

一、文獻綜述

由于領(lǐng)域情感詞典具有領(lǐng)域?qū)傩浴⒏采w廣泛性的特征,因此,構(gòu)建領(lǐng)域情感詞典通常需要依賴于領(lǐng)域語料庫。通過對特定領(lǐng)域語料庫的分析,可以準確識別和提取具有明顯情感色彩的詞匯,用以構(gòu)建情感詞典。詞語共現(xiàn)關(guān)系、詞向量技術(shù)和上下文約束關(guān)系是基于語料庫構(gòu)建情感詞典常用的技術(shù)和方法。

詞語共現(xiàn)關(guān)系指的是在文本中多個詞語同時出現(xiàn)的頻率和方式,這種共現(xiàn)關(guān)系可以揭示詞語之間的語義關(guān)聯(lián)或者語法關(guān)系,也可以幫助理解它們在文本中的語境和語義。Wang等[11]在標記有不同情感極性的語料庫中,利用改進的IF-IDF算法通過考慮詞語在語料庫中的重要性及其在語料庫中不同詞性的分布來計算詞語的情感。Zhao等[12]先構(gòu)建情感種子詞集,并以在文本中的重要程度進行排序,再使用SO-PMI算法不斷擴展情感種子詞集,并不斷調(diào)整擴展詞集的重要領(lǐng)域,再結(jié)合由DUTIR和HowNet情感詞典形成的基礎(chǔ)情感詞典,構(gòu)建高等教育領(lǐng)域情感詞典。WangY等[13]構(gòu)建了一個細粒度種子情感詞典,將圖傳播方法應(yīng)用于同義詞集來擴展細粒度種子情感詞典,再使用基于神經(jīng)網(wǎng)絡(luò)的多信息融合方法不斷擴充情感詞典。Ren等[14]提出了一種基于多維特征的監(jiān)督學(xué)習(xí)詞典構(gòu)建算法,通過使用LightGBM模型對候選關(guān)鍵詞進行二元分類及過濾,并根據(jù)關(guān)鍵詞與其類別的點互信息值來擴展電動汽車拆卸領(lǐng)域詞典。蔣昊達等[15]通過整合TF-IDF算法和LAD算法去識別和提取候選領(lǐng)域情感詞,結(jié)合SO-PMI算法和BERT模型判斷候選領(lǐng)域情感詞的情感極性,從而構(gòu)建領(lǐng)域情感詞典。

詞向量是用于表示詞語的向量化技術(shù),它將每個詞語映射到一個高維向量空間中,使得詞語之間的語義關(guān)系可以通過向量之間的幾何距離來捕捉。張璞等[6]使用Word2Vec詞向量選取與種子詞相似度高或與種子詞具有連詞關(guān)系的詞語作為候選情感詞,利用種子詞和候選情感詞之間的相似度構(gòu)建語義關(guān)聯(lián)圖,并應(yīng)用標簽傳播算法計算情感詞的極性,最終構(gòu)建情感詞典。葉霞等[17]采用CBOW詞向量模型和依存句法關(guān)系抽取情感詞,結(jié)合改進的SO-PMI算法來判斷情感詞的情感極性。胡家珩等[18]利用詞向量技術(shù)將文本信息映射到向量空間,使用通用情感詞典識別文本信息中的情感詞,建立深度神經(jīng)網(wǎng)絡(luò)分類器識別情感詞的情感極性,從而構(gòu)建金融領(lǐng)域情感詞典。蔣翠清等[19]選取HowNet情感詞典作為種子,先后使用PMI和Word2Vec算法識別汽車評論中的新詞情感極性,根據(jù)集成規(guī)則綜合考慮兩種算法的輸出結(jié)果,以此判定情感詞的情感極性。陳俊等[20]先利用詞向量進行語義相似度判斷并擴充“情緒對”,再采用R-SOPMI算法以“情緒對\"進行情感詞典調(diào)整,并結(jié)合統(tǒng)計概率特征對模糊詞分類,最終構(gòu)建領(lǐng)域情感詞典。

同一個詞語在不同的句子中可能具有不同的語義或情感色彩,這取決于它所處的上下文約束關(guān)系。這種關(guān)系能夠幫助我們更準確地識別和分析文本中的信息,特別是在情感分析、語義理解等任務(wù)中起著關(guān)鍵作用。Ding等[21]把情感詞及其修飾的屬性作為一個整體來表達上下文約束關(guān)系,以便更準確地理解情感表達的語境和語義。Qiu等[22]使用雙向傳播法來表達上下文約束關(guān)系,利用情感詞與其修飾的主題或產(chǎn)品特征之間的關(guān)系,以及情感詞和產(chǎn)品特征本身之間的關(guān)系,采用依存樹關(guān)系來提取新的情感詞,同時以基于上下文證據(jù)的極性賦值方法為新發(fā)現(xiàn)的情感詞賦予極性。 LuY[23? 先提取候選情感詞并與相關(guān)屬性進行匹配,再捕捉基于詞典、語義關(guān)系和語言規(guī)則的情感得分為約束條件,最后以線性規(guī)劃最優(yōu)化整合不同類型的信息,從而更準確地推斷文本中表達的情感極性。Lek等[24]通過依存句法關(guān)系提取屬性詞及其對應(yīng)的情感詞,把提取的(屬性,情感詞)集根據(jù)屬性集進行聚類,利用WordNet把情感詞和屬性詞的近義詞進行合并,最后根據(jù)情感詞所屬的屬性和領(lǐng)域賦予其極性,自動構(gòu)建一個依賴于屬性和領(lǐng)域的情感詞典。郗亞輝[25利用情感詞間的點互信息和上下文約束關(guān)系,使用基于約束的標簽傳播算法構(gòu)造基本情感詞典;再根據(jù)情感沖突的頻率來識別領(lǐng)域相關(guān)情感詞,并根據(jù)其上下文約束關(guān)系以及修飾的特征完善領(lǐng)域情感詞典。Li等[26]利用PULeaming方法從語料庫中提取情感詞語,并結(jié)合候選詞語的上下文信息構(gòu)建圖模型,最終使用標簽傳播算法確定候選詞語的情感極性。

基于詞語共現(xiàn)關(guān)系和詞向量關(guān)系的情感詞典構(gòu)建方法,都是圍繞情感詞來開展工作的。這些方法簡單易實現(xiàn),但也容易出現(xiàn)部分詞語由于共現(xiàn)頻率不夠而無法判斷情感極性的問題,以及情感詞典質(zhì)量很大程度上依賴情感種子集的問題,從而影響情感詞典的完整性和有效性[15]。對于產(chǎn)品評論而言,情感信息經(jīng)常以詞語組合的形式出現(xiàn),通常情感詞及其修飾對象會同時出現(xiàn),此時只考慮情感詞是不夠的,這會產(chǎn)生情感詞在特定領(lǐng)域的情感語義不明確的問題[2]。基于上下文約束關(guān)系的情感詞典構(gòu)建方法,不僅注重情感詞的識別和提取,還關(guān)注情感詞在特定語境下的相互關(guān)系。這類方法主要以提取(屬性,情感詞)為核心開展情感詞典構(gòu)建工作。但是在產(chǎn)品評論中,情感詞不僅修飾產(chǎn)品的屬性,還修飾產(chǎn)品本身或?qū)傩韵碌哪骋惶卣鳌G楦性~修飾的對象不同,情感極性不一定相同,反之亦然。例如在評價咖啡店的環(huán)境舒適度時,“舒適\"是一個正面詞匯,表示環(huán)境優(yōu)雅、氛圍寧靜;當涉及到咖啡的味道特征時,“舒適\"可能變成負面詞匯,意味著咖啡的口感太輕或者缺乏挑戰(zhàn)性。因此,在構(gòu)建情感詞典時,應(yīng)綜合考慮情感詞及其修飾的對象,把它們當作一個整體進行識別和提取。

通過對現(xiàn)有情感詞典構(gòu)建方法的綜述可以發(fā)現(xiàn),雖然這些方法在情感詞識別方面取得了一定的進展,但依然存在一些不足。基于詞語共現(xiàn)關(guān)系的技術(shù)雖然能夠捕捉局部語義關(guān)聯(lián),卻容易忽略那些雖然低頻但具有重要情感意義的詞匯;詞向量技術(shù)通過大規(guī)模語料訓(xùn)練提升了對語義相似度的識別能力,但對特定領(lǐng)域語境的敏感度不足;上下文約束關(guān)系模型雖然在復(fù)雜語境中表現(xiàn)良好,但由于算法復(fù)雜度高,限制了其在大規(guī)模應(yīng)用中的普及。此外現(xiàn)有研究在處理同義詞情感極性差異、上下文情感一致性以及低頻詞匯識別方面仍顯不足。Wang 等[1]的改進IF-IDF算法在提升識別準確性的同時,難以有效區(qū)分同義詞的情感差異;Zhao等[12]擴展了情感種子集,但由于對上下文語境的考慮不足,容易出現(xiàn)情感判斷偏差;Ren等[14]的多維特征監(jiān)督學(xué)習(xí)盡管提升了情感詞典的領(lǐng)域?qū)傩裕谔幚砬楦性~與屬性依存關(guān)系時仍有待改進。為應(yīng)對這些局限,本文提出了一種結(jié)合依存句法規(guī)則和(屬性,情感詞)對的中文領(lǐng)域情感詞典構(gòu)建方法。該方法首先設(shè)計出情感詞典的數(shù)學(xué)結(jié)構(gòu)模型,隨后通過依存句法規(guī)則識別并提取情感詞與實體、屬性及特征之間的關(guān)系,借助成熟的產(chǎn)品特征庫逐步實現(xiàn)模型的實際應(yīng)用。相比現(xiàn)有方法,依存句法能更有效地捕捉詞匯間的依存結(jié)構(gòu),解決低頻情感詞的識別問題,并提升情感詞與屬性之間關(guān)系的準確度,從而在產(chǎn)品評論等情感分析領(lǐng)域具備更廣泛的適用性和更高的分析精度。

二、中文領(lǐng)域情感詞典結(jié)構(gòu)設(shè)計

深度分析產(chǎn)品評論的特征或規(guī)律,有利于情感詞典的結(jié)構(gòu)設(shè)計。例如評論: ① 這款手機的價格雖然有點高,但是性能非常穩(wěn)定,絕對物有所值; ② 攝像頭的像素很高,拍出來的照片清晰逼真,非常滿意; ③ 手機外觀時尚,手感很好,很適合日常使用; ④ 電池續(xù)航能力超乎想象,一天使用下來還有很多電量剩余; ⑤ 屏幕顯示效果非常出色,色彩鮮艷,觀影體驗極佳。這條評論涉及了手機的不同屬性,例如價格、攝像頭像素、外觀、電池續(xù)航和屏幕顯示效果,并且包含了消費者的情感極性,有些是正面的評價,有些是負面的評價。由此發(fā)現(xiàn),產(chǎn)品評論是由兩部分組成:一是評價對象,包括實體、屬性及特征;一是評價觀點,通過情感詞表達對評價對象的情感極性。而且這兩個部分總是同時出現(xiàn)在句子中,否則不能完整地表達消費者的語義及情感。

定義1:情感觀點是一個三元組 (e,a,s) 。其中 e 是實體, a 是 e 的一個屬性 Δ,s 是對 a 或 e 的情感表達[8]18義2:情感表達是一個三元組 (w,o,p) 。其中, w 是情感詞, o 是情感極性, p 是情感強度[8]16。

定義3:中文領(lǐng)域情感詞典必須同時包含情感觀點和情感表達兩部分內(nèi)容,其數(shù)學(xué)結(jié)構(gòu)為一個五元組 (e,a,w,o,p) 模型,其中 e 表示實體, a 表示實體的屬性, w 表示情感詞, o 是情感極性, p 是情感強度。當實體明確時,可以略去 e ,中文領(lǐng)域情感詞典數(shù)學(xué)結(jié)構(gòu)模型調(diào)整為 (a,w,o,p) 。

把實體、屬性、情感詞等整合到一個結(jié)構(gòu)化的詞典中,以五元組模型的形式存儲,能夠更清晰地表達不同實體或?qū)傩韵碌那楦行畔ⅰMㄟ^這種方式構(gòu)建中文領(lǐng)域情感詞典,能夠更有效地捕捉和理解不同領(lǐng)域下實體或?qū)傩缘那楦斜磉_,更精確地進行情感分析和語義理解。

三、中文領(lǐng)域情感詞典結(jié)構(gòu)實現(xiàn)

(一)三元組的理論構(gòu)建

1.(e,a) 集合的構(gòu)建。設(shè)實體集合記為 ,屬性集合表達式為 A={a1a2…am} ,則(實

體,屬性)集合 EA 為:

其中, eaij 表示第i個實體的第j個屬性 i=1,2,…n,j=1,2,…,miomi 表示第i個實體的屬性總數(shù),均是大于等于1的正整數(shù)且不一定相等。

2.(a,c) 集合的構(gòu)建。設(shè)實體屬性 at(t=1,2,…,m) 包含若干個評價特征,記為 ,則(屬性,特征)集合 ac 為:

其中, acij 表示第i個屬性的第j個評價特征, i=1,2,…m,j=1,2,…,lio 表示第i個屬性的評價特征總數(shù),均是大于等于1的正整數(shù)且不一定相等。

3.(c,w) 集合的構(gòu)建。設(shè)評價特征 ch(h=1,2,…,lt) 搭配的情感詞集合為 ,則(特征,情感詞)集合 為:

其中, cwij 表示第 i 個特征的第j個情感詞, i=1,2,…lt,j=1,2,…,kio k 表示第i個特征的情感詞總數(shù),均是大于等于1的正整數(shù)且不一定相等。

4.(a,c) 集合的構(gòu)建。屬性 at(t=1,2,…,m) 共包含 個情感詞,則 at 的情感詞集合記為 。那么,某個實體的三元組 (e,a,w) 可以表示為:

其中,重點關(guān)注 (a,w) 集合,即(屬性,情感詞)集合aw為:

awij 表示第 i(i=1,2,…,m) 個屬性與對應(yīng)情感詞集合的第 (j=1,2,…,zt) 個情感詞組成的(屬性,情感詞)詞對,即 awij=(ai,wj) 。

綜上所述,三元組 (e,a,w) 的理論構(gòu)建中有一個中介集合一評價特征 εc ,它在整個設(shè)計過程中起到承上啟下的作用,是解決問題的關(guān)鍵點。我們把 (c,w) 集合中的元素 cwij 叫作特征觀點對,即 cwij=(ci,wj) 。特征觀點對的形式通常是由一個實體或?qū)傩宰鳛樘卣鳎硪粋€描述性的情感詞作為觀點的表達。

(二)三元組的構(gòu)建實現(xiàn)

三元組的構(gòu)建首先要解決的是特征觀點對的抽取問題。本文對周知[28]等設(shè)計的特征觀點對抽取方法進行了如下改進: ① 調(diào)整了依存關(guān)系的抽取規(guī)則,依存關(guān)系由5種調(diào)整為6種,抽取規(guī)則由12種調(diào)整為13種; ② 調(diào)整了依存關(guān)系組合,依存關(guān)系組合由6種調(diào)整為9種,并對組合結(jié)果進行了優(yōu)化,以特征觀點對的形式輸出結(jié)果; ③ 精簡了特征觀點對的過濾規(guī)則,過濾規(guī)則由4種減少為3種。通過對特征觀點對的抽取、完善和過濾三個步驟獲取目標特征觀點對。

1.特征觀點對的抽取。本文采用哈爾濱工業(yè)大學(xué)的LTP4.2工具[29]進行依存句法分析,共可提取出14種依存關(guān)系。依據(jù)依存關(guān)系中必須出現(xiàn)特征觀點對,篩選這些依存關(guān)系,僅保留SBV、VOB、ATT、ADV、CMP和COO六種依存關(guān)系,并輔以從屬詞和支配詞的詞性,得到表1的抽取規(guī)則。

表1依存關(guān)系的抽取規(guī)則
備注:依存關(guān)系 (w1,w2) 代表: Δw1 是從屬詞, Δw2 是支配詞,依存關(guān)系有向弧由支配詞指向從屬詞。

① 主謂關(guān)系(SBV)規(guī)則:主語和謂語之間的直接關(guān)聯(lián)。主語通常是具有情感的實體,謂語通常是表達情感的動詞或形容詞,當兩者之間存在SBV關(guān)系時,往往表明主語對特征或?qū)ο蟪钟心撤N觀點或態(tài)度。因此,當特征詞 αc 與情感詞 w 之間存在SBV關(guān)系時,能提取特征觀點對 (c,w) 。為減少冗余信息干擾,限定主語詞性為名詞 Π(n) 或動詞 Π(ΠV) ,謂語詞性為形容詞(a)或動詞。SBV有三種抽取結(jié)果 (n,a) 、(n,v)、 (ν,a) 。

② 動賓關(guān)系(VOB)規(guī)則:動詞與其賓語之間的關(guān)系。動詞是表達情感或態(tài)度的關(guān)鍵詞,賓語是需要被評價或描述的對象或?qū)傩裕攦烧咧g存在VOB關(guān)系時,表明動詞對賓語進行了評價或描述。因此,當特征詞 c 與情感詞 w 之間存在VOB關(guān)系,能提取特征觀點對 (c,w) 。為減少冗余信息干擾,限定謂語詞性為動詞,賓語詞性為名詞或形容詞或動詞。VOB有三種抽取結(jié)果 (v,n),(v,v),(v,a) 。

③ 定中關(guān)系(ATT)規(guī)則:修飾性的定語與被修飾的中心詞之間的關(guān)系。作為定語的情感詞用來描述或修飾特征詞,通常表達了特征詞的情感屬性或態(tài)度,就形成了定中關(guān)系,與特征觀點對的形式一致。因此,當情感詞 w 是定語、修飾或描述特征詞 c 時,能提取特征觀點對 (c,w) 。為減少冗余信息干擾,限定定語詞性為動詞或名詞或形容詞,被修飾語為名詞。ATT有三種抽取結(jié)果 (v,n),(n,n),(a,n),

④ 動補關(guān)系(CMP)規(guī)則:涉及到動詞和其補語之間的關(guān)系,通常是指動詞后跟隨的動作或狀態(tài)的補充信息。動詞通常指需要被描述或評價的動作或狀態(tài),情感詞作為動詞的補足語,用來修飾或補充特征詞所表達的動作或狀態(tài),反映了特征詞的情感屬性。因此,當情感詞 w 作為動詞補足語時,與特征詞 Ψc 能構(gòu)成二元組 (c,w) 。

⑤ 并列關(guān)系(COO)規(guī)則[30]:涉及到特征詞和情感詞在句子中的并列結(jié)構(gòu)關(guān)系。如果特征詞 c1 和 c2 并列出現(xiàn)在評論中,并且兩者存在COO關(guān)系,而 c1 與情感詞 w 又存在某種句法關(guān)系,則認為 c2 與情感詞 w 也有這種關(guān)系,從而提取特征觀點對 (c1,w) 和 (c2,w) ;如果情感詞 w1 和 w2 并列出現(xiàn)在評論中,并且兩者存在COO關(guān)系,而 w1 與特征詞 c 又存在某種句法關(guān)系,則認為 w2 與特征詞 Ψc 也有這種關(guān)系,從而提取特征觀點對 (c,w1) 和 (c,w2) 。

⑥ 狀中關(guān)系(ADV)規(guī)則:形容詞作為狀語修飾動詞的關(guān)系。動詞表示動作或狀態(tài)的行為主體,形容詞用來描述動詞所表達的動作或狀態(tài)的情感屬性。形容詞作為情感詞修飾作為特征詞的動詞,表示動作或狀態(tài)的情感。根據(jù)狀中關(guān)系規(guī)則,如果特征詞 Ψc 是動詞,情感詞 w 是形容詞并且修飾特征詞,且兩者之間存在ADV關(guān)系,能抽取特征觀點對 (c,w) 。

2.特征觀點對的完善。為了使特征觀點對盡可能的準確和全面,將部分依存關(guān)系進行組合,形成新的提取規(guī)則,以獲得語義更加完整、觀點更加明確的特征觀點對。

①ATT+SBV 規(guī)則:解決復(fù)合評價對象被拆開的問題,尤其是復(fù)合評價對象之間表現(xiàn)為ATT關(guān)系的情況。如果w1, Δw2 之間為AAT關(guān)系,且w2為支配詞,w1為從屬詞,同時在由 w2,w3 組成的SBV關(guān)系中, Δw2 是從屬詞, w3 是支配詞,則有 ATT(w1,w2)+SBV(w2,w3)=ATT+SBV(w1,w2,w3), 。 ATT+SBV 關(guān)系組合可以更全面地理解文本中的復(fù)合評價對象的情感意義。

②SBV+ADV 規(guī)則:解決SBV中支配詞的修飾問題,SBV關(guān)系中支配詞(通常是動詞)往往需要被修飾以準確表達情感,而ADV關(guān)系恰恰能捕捉到這種修飾關(guān)系。如果 wl,w2 之間為SBV關(guān)系,且w1是從屬詞, w2 是支配詞,同時在由 w2,w3 組成的ADV關(guān)系中, Δw3 從屬詞, w2 為支配詞,則有 SBV(w1,w2)+ 關(guān)系組合要比單個組合更能明確和突出用戶觀點的強度。另外, ①+② 可以形成一個新的組合 ATT+SBV+ADV ,用來解決 ② 的評價對象被拆開的問題。

③SBV+VOB 規(guī)則:解決SBV中謂語動詞的完整性問題,即把\"主-謂-賓\"完整的語義結(jié)構(gòu),分成了語義不完整的搭配結(jié)構(gòu)\"主-謂\"\"謂-賓”。如果 w1,w2 之間為SBV關(guān)系,且w1是從屬詞, w2 是支配詞,同時在由 w2,w3 組成的VOB關(guān)系中, w3 為從屬詞, w2 為支配詞,則有SBV (w1,w2)+VOB (w3,w2)= SBV+VOB(w1,w2,w3) 。 SBV+VOB 關(guān)系組合可以獲取具有完整語義的有效特征觀點對。另外, ①+③ 可以形成一個新的組合 ATT+SBV+VOB ,用來解決 ③ 的評價對象被拆開的問題。

④SBV+CMP 規(guī)則:解決謂語動詞的完整語義可能需要結(jié)合動詞的補充語義或修飾語才能準確表達的問題。如果 wl,w2 之間為SBV關(guān)系,且w1是從屬詞, Δw2 是支配詞,同時在由 w2,w3 組成的CMP關(guān)系中, Δw3 為從屬詞, w2 為支配詞,則有 SBV(w1,w2)+CMP(w3,w2)=SBV+CMP(w1,w2,w3), 。 SBV+CMP 關(guān)系組合可以獲取更加明確且完整語義的特征觀點對。

⑤CMP+VOB 規(guī)則:解決謂語動詞的賓語和補語問題,謂語動詞的賓語和補語往往需要一起分析才能準確表達動作的完整語義。如果 w1,w2 之間為CMP關(guān)系,且w1是從屬詞, w2 是支配詞,同時在由w2,w3組成的VOB關(guān)系中, Δw3 為從屬詞, Δw2 為支配詞,則有 CMP(w1,w2)+VOB(w3,w2)=CMP+VOB (w2,w3,w1) 。

⑥SBV+COO :解決并列的主語和謂語的問題,更全面地理解和抽取文本中并列的情感表達或特征描述。如果 w1,w2 之間為SBV關(guān)系,且w1是從屬詞, Δw2 是支配詞,同時在由 w2,w3 組成的COO關(guān)系中, w3 為從屬詞, Δw2 為支配詞,則有 SBV(w1,w2)+COO(w3,w2)=SBV+COO{(w1,w2)(w1,w3)} ;如果w1,w2之間為SBV關(guān)系,且w1是從屬詞, w2 是支配詞,同時在由w1,w3組成的COO關(guān)系中, Δw3 為從屬詞,w1為支配詞,則有 SBV(w1,w2)+COO(w3,w1)=SBV+COO{(w1,w2)(w3,w2)}const,

在構(gòu)建情感詞典時,只考慮情感詞的極性,至于否定詞及副詞都是否定或加強情感詞極性的,所以不予考慮,故把特征觀點對作為依存關(guān)系組合的最終輸出結(jié)果(如表2所示)。

表2依存關(guān)系組合抽取規(guī)則及輸出結(jié)果
續(xù)表2

3.特征觀點對的過濾。為了過濾掉符合以上抽取規(guī)則但又無實際意義的特征觀點對,需要將特征觀點對與產(chǎn)品特征庫中的特征進行匹配,以提高特征觀點對的抽取準確率。由表2可知,特征觀點對(c,w )的特征詞 c 存在復(fù)合詞 (c1+c2) ,因此,特征觀點對的過濾遵循下面三個規(guī)則:

規(guī)則1:若 Ψc 是產(chǎn)品特征庫中的詞匯,即為產(chǎn)品特征庫中的評價特征,則保留當前特征觀點對,否則先把 Ψc 分為 c1 和 c2 兩個詞,再執(zhí)行規(guī)則2;

規(guī)則2:若 c1 是產(chǎn)品特征庫中的詞匯,則保留當前特征觀點對,否則執(zhí)行規(guī)則3;

規(guī)則3:若 c2 是產(chǎn)品特征庫中的詞匯,則保留當前特征觀點對,否則剔除當前特征觀點對

特征觀點對的過濾工作完成后,把特征觀點對按照評價特征所屬實體屬性進行分類整理,最終得到(e,a,w) 三元組。

(三)三元組 (w,o,p) 的構(gòu)建實現(xiàn)

從某實體的屬性 ai 的情感詞集合里選取 2ki 個情感極性較明顯的詞作為種子集,其中正向情感詞ki 個,記為 POS ,負向情感詞 ki 個,記為 NEG 。

定義4:令 ?Lai={(w1,o1)(w2,o2)…(w2ki,o2ki)} 表示屬性 ai 已知情感極性的種子集, o2ki 表示情感詞 w2ki 的情感極性,且 2kii 前 ki 項為正向情感種子集,后 ki 項為負向情感種子集;令 表示屬性 ai 未知情感極性的情感詞集合。

定義5:令wordi是屬性 ai 的 Ui 中的一個情感詞,wordi與屬性 ai 的正負種子集的相似度計算公式分別為:

式中: POSj 與 NEGj 為第 j 個正向種子情感詞與第 j 個負向種子情感詞。

由此,wordi情感強度值 p=S+-S- 。當 pgt;0 時,表示wordi的情感極性為正向,添加入情感詞典;當(2號 plt;0 時,表示wordi的情感極性為負向,添加入情感詞典;當 p=0 時,表示wordi為中性詞,不添加人情感詞典。

最后,以情感詞為紐帶,把三元組 (e,a,w) 和 (w,o,p) 進行有機組合,得到中文領(lǐng)域情感詞典數(shù)學(xué)結(jié)構(gòu)五元組 (e,a,w,o,p) 模型。具體而言,根據(jù)定義 1,(e,a,w) 表示實體 e 、屬性 Δa 和情感詞 w 之間的關(guān)系;根據(jù)定義 2,(w,o,p) 則體現(xiàn)情感詞 w 情感極性 σo 和情感強度 p 之間的關(guān)聯(lián)。先通過分析特定實體及其屬性,識別出與之相關(guān)的情感詞,形成第一個三元組 (e,a,w) ;再對該情感詞進行情感極性和強度的分析,構(gòu)建第二個三元組 (w,o,p) ;最后將兩個三元組中的情感詞 w 作為連接點,合并為一個完整的五元組模型 (e,a,w,o,p) 。這種有機組合方法不僅豐富了情感詞典的內(nèi)容,增強了情感分析的細粒度和準確性,而且為特定領(lǐng)域的情感信息挖掘提供了堅實的理論基礎(chǔ)和數(shù)據(jù)支持。

四、實驗研究

(一)實驗準備

從京東平臺采集電腦、手機和攝影攝像三大領(lǐng)域共計95072條產(chǎn)品評論作為實驗數(shù)據(jù)源,實驗數(shù)據(jù)

源詳細信息見表3。根據(jù)實驗要求,先對實驗數(shù)據(jù)源進行分句、分詞、詞性標注、依存句法分析等處理,后構(gòu)造五元組 (e,a,w,o,p) 模型,從而構(gòu)建領(lǐng)域情感詞典。其中,提取出特征觀點對中的情感詞,組成實驗情感詞庫。

表3數(shù)據(jù)源信息

使用混淆矩陣對實驗結(jié)果進行評估,混淆矩陣評價體系包含三級指標體系(如圖1所示)。

圖1混淆矩陣

一級指標體系包含如下指標:

TP(TruePositive):實際為正向,并且被預(yù)測為正向的數(shù)量;

TN(TrueNegative):實際為負向,并且被預(yù)測為負向的數(shù)量;

FP(FalsePositive):實際為負例,但被錯誤預(yù)測為正向的數(shù)量;

FN(FalseNegative):實際為正例,但被錯誤預(yù)測為負向的數(shù)量。

TP 值與TN值的數(shù)量越多,F(xiàn)P值與FN值的數(shù)量越少,實驗結(jié)果的精度就越高。二級指標包括精確率(Precision)和召回率(Recall),把單純的數(shù)量結(jié)果轉(zhuǎn)變?yōu)榘俜直龋颖阌诜治霰容^。

精確率:在預(yù)測為正的結(jié)果中,預(yù)測對的數(shù)量所占的比重,即: P=TP/(TP+FP) 。

召回率:在所有真實值是正的結(jié)果中,預(yù)測對的數(shù)量所占比重,即: R=TP/(TP+FN),

考慮到情感詞典可能無法覆蓋所有情感詞匯的情況,尤其是情感詞典無法預(yù)測到的正向情感詞匯會對召回率產(chǎn)生影響,修正后的召回率計算公式為: R=TP/(TP+FN+NW) 。

為了綜合考慮實驗結(jié)果的精確性和完整性,利用精確率和召回率可得到混淆矩陣的三級指標F-Measure。F-Measure是精確率和召回率的調(diào)和平均數(shù),計算公式如下:

當 α=1 參數(shù)時,就是最常見的評估指標 F1 。當F1值接近1時,表示模型在精確性和完整性上都表現(xiàn)良好;當F1值接近0時,表示模型在某一方面或兩個方面上表現(xiàn)不佳[31]。

(二)實驗分析

1.實驗1:評估情感詞典的完整性和精確性

實驗?zāi)繕耍涸u估情感詞典在情感詞的情感極性判定任務(wù)中的完整性和精確性,確保情感詞典能夠有效地捕捉文本中的情感詞及情感極性。

(1)評估情感詞典的完整性

隨機從實驗情感詞庫中選擇3257個電腦情感詞、3624個手機情感詞和3705個數(shù)碼相機情感詞作為實驗情感詞集。人工分為三個小組,每個小組由1名教師、2名學(xué)生組成。三個小組獨立完成人工標注分類后,根據(jù)集成規(guī)則綜合考慮三個小組的結(jié)果,以此判定情感詞的情感極性,得到標準的人工標注情感詞集。分別使用領(lǐng)域情感詞典、HowNet和NTUSD匹配實驗情感詞集,以此評估情感詞典的完整性(詳見表4)。

表4人工標注分類集及詞典匹配結(jié)果

說明:HowNet表示HowNet詞典識別出的情感詞數(shù),NTUSD表示NTUSD詞典識別出的情感詞數(shù),NW表既不在HowNet中也不在NTUSD中的情感詞數(shù),領(lǐng)域情感詞典表示領(lǐng)域情感詞典識別出的情感詞數(shù)。

從表4的數(shù)據(jù)來看,HowNet和NTUSD的情感詞平均覆蓋率僅為 22.35% 和 30.05% ,無法識別出的情感詞很多,而領(lǐng)域情感詞典的平均覆蓋率為 86.58% 。說明HowNet和NTUSD在領(lǐng)域情感分析任務(wù)中的適用性受到顯著限制,無法涵蓋或捕捉特定領(lǐng)域中的情感詞。這種情況可以由產(chǎn)品評論的特點、領(lǐng)域性和新興詞匯等因素來解釋。產(chǎn)品評論中常常會出現(xiàn)一些非傳統(tǒng)的詞匯或短語,這些詞匯可能并未包含在通用情感詞典中;不同的產(chǎn)品領(lǐng)域有其特定的術(shù)語和表達方式,而HowNet和NTUSD主要基于標準詞匯資源構(gòu)建,對特定領(lǐng)域內(nèi)的情感詞匯理解有限;隨著社會文化的變遷,新詞匯不斷涌現(xiàn),情感詞匯的使用也可能會隨之變化。在這樣的新環(huán)境下,通用情感詞典已不再是應(yīng)對特定領(lǐng)域情感分析挑戰(zhàn)的有效工具了。

(2)評估情感詞典的精確性

把HowNet、NTUSD 和領(lǐng)域情感詞典對實驗情感詞集的判定結(jié)果與人工標注情感詞集進行比較分析,以評估情感詞典的精確性(詳見表5)。

表5實驗1評估數(shù)據(jù)

從表5的數(shù)據(jù)來看,HowNet和NTUSD的精確率基本都在 90% 以上,有著較好的情感極性判定效果,但是召回率卻比較低。精確率高的原因可能是:HowNet和NTUSD包含了大量常見且情感極性明顯的詞匯,這些詞匯在多種語境下都有明確的情感極性,不容易產(chǎn)生歧義或混淆,以致在文本中出現(xiàn)這些詞匯時,可以較為精確地判斷其情感極性,從而有較高的準確率。召回率低的原因可能是:HowNet 和NTUSD無法覆蓋所有領(lǐng)域、特定語境或者新興詞匯的情感詞,導(dǎo)致在某些情況下無法識別到存在的情感極性;同時有些情感詞受到語境、文化背景或者特定領(lǐng)域知識的影響產(chǎn)生了新的語義或情感,HowNet和NTUSD無法適應(yīng)這種變化,因此在特定情境下的召回率較低。例如,表4顯示HowNet和NTUSD都有很多NW詞沒有匹配到,直接導(dǎo)致覆蓋率低,而這些NW詞又都有明確的情感極性,召回率低就在情理之中了。

領(lǐng)域情感詞典的精確率也都在 90% 左右,表明它在判斷情感詞的情感極性上具有較好的效果。領(lǐng)域情感詞典包含了涉及領(lǐng)域的情感詞匯和情感表達,考慮了領(lǐng)域的語境和上下文約束關(guān)系,能夠更好地理解和識別情感詞的背景和含義,進而提高了情感詞的判斷精確率。領(lǐng)域情感詞典的召回率均在 80% 以上,比HowNet和NTUSD的召回率高,表明領(lǐng)域情感詞典能夠更全面地識別到情感詞。領(lǐng)域情感詞典在構(gòu)建過程中充分考慮了領(lǐng)域語境和上下文約束關(guān)系,能夠更好地適應(yīng)領(lǐng)域中情感詞的多樣性和復(fù)雜性,從而提高了情感詞的識別和召回能力。

綜合評估情感詞典的精確率和召回率,HowNet和NTUSD的高精確率、低召回率,表明它們能夠在判斷情感詞的情感極性時有較少誤判,但會漏掉一些情感詞,所以它們的F1值相對較低,綜合性能不佳。領(lǐng)域情感詞典在精確率和召回率兩個方面都有出色的表現(xiàn),高精確率和高召回率說明它能夠在特定領(lǐng)域內(nèi)準確識別情感詞,不僅能夠避免誤判,也能夠較為全面地覆蓋特定領(lǐng)域的情感詞。因此領(lǐng)域情感詞典的F1值較高,綜合性能較好,在領(lǐng)域情感分析任務(wù)中更為可靠、有效和專業(yè)。

2.實驗2:評估情感詞典的情感分析性能

實驗?zāi)繕?基于情感詞典提取的情感特征,可以用于訓(xùn)練機器學(xué)習(xí)或深度學(xué)習(xí)模型,從而進行文本情感分類,用于判斷文本的整體情感傾向。

首先,從語料庫中篩選出電腦、手機、數(shù)碼相機的產(chǎn)品評論各1000條作為實驗評論集,三個小組獨立完成人工標注后,根據(jù)集成規(guī)則綜合考慮三個小組的結(jié)果,以此確定實驗評論集的情感分類,得到人工標注評論集。

其次,分別把HowNet、NTUSD 和領(lǐng)域情感詞典作為劉玉林等[32]設(shè)計的情感分析方法的詞典庫,對實驗評論集進行情感分析。

最后,以人工標注評論集為評價標準,對比分析HowNet、NTUSD和領(lǐng)域情感詞典的分析結(jié)果(詳見表6)。

表6實驗2評估數(shù)據(jù)

從表6的數(shù)據(jù)來看,HowNet和NTUSD在精確率上表現(xiàn)相似,都在 80% 一 82% 之間,而領(lǐng)域情感詞典的精確率都在 85% 以上,這說明情感詞典普遍能夠準確標注文本情感類別,不論是通用(HowNet、NTUSD)的情感詞典還是專業(yè)的領(lǐng)域情感詞典,但在特定領(lǐng)域內(nèi)進行情感分析任務(wù),領(lǐng)域情感詞典的精確性會更高一些。HowNet在召回率方面略優(yōu)于NTUSD,這是因為HowNet有著更為細致的情感分類結(jié)構(gòu),它不僅有正面情感詞和負面情感詞,還有正面評價詞和負面評價詞,這使得HowNet能夠更全面地捕捉和分類文本中的各種情感。領(lǐng)域情感詞典的召回率都高于HowNet和NTUSD,再次證明領(lǐng)域情感詞典更能識別和區(qū)分受領(lǐng)域或上下文影響的情感詞,也進一步強化了其在特定領(lǐng)域情感分析任務(wù)中的適用性和有效性。綜合評估情感詞典的情感分析性能,領(lǐng)域情感詞典在三個領(lǐng)域都表現(xiàn)出色,其F1值顯著高于通用情感詞典(HowNet和NTUSD),能夠更精準地識別和分類文本中的情感表達,這也反映了領(lǐng)域情感詞典在特定領(lǐng)域情感分析任務(wù)中的專業(yè)性和有效性。

3.實驗3:領(lǐng)域情感詞典構(gòu)建方法對比實驗實驗?zāi)繕耍涸u估和比較不同方法在構(gòu)建領(lǐng)域情感詞典方面的效果和性能。

選擇電腦、手機兩個領(lǐng)域各30000條產(chǎn)品評論,其中25000條用于訓(xùn)練,5000條用于測試(實驗結(jié)果見表7)。

表7實驗3結(jié)果

從表7的數(shù)據(jù)來看,本文方法在兩個領(lǐng)域均有出色的表現(xiàn):一方面在電腦領(lǐng)域,本文方法獲得了高精確度和高 F1值,展示出其對電腦領(lǐng)域情感表達的準確捕捉能力;另一方面在手機領(lǐng)域,本文方法同樣有優(yōu)異的表現(xiàn),特別是在召回率和F1值方面顯著領(lǐng)先于其他方法,表明其在捕捉手機領(lǐng)域特定情感表達的高效性和全面性。相比之下,其他方法在不同領(lǐng)域的表現(xiàn)存在一定差異,但有一個共同特點—精準率高、召回率低。這意味著這些方法能夠準確地識別情感詞匯,但可能錯過了一些情感表達或出現(xiàn)了錯誤分類的情況。綜上所述,本文方法在電腦和手機領(lǐng)域情感詞典構(gòu)建任務(wù)中展示出了穩(wěn)定且優(yōu)越的性能,為情感分析任務(wù)的準確性和實際應(yīng)用效果提供了可靠的解決方案。

五、結(jié)束語

本文通過分析通用情感詞典的特點,發(fā)現(xiàn)它們在領(lǐng)域文本情感分析中存在一定的局限性,尤其是在處理電子商務(wù)平臺等具有特定領(lǐng)域語境的文本。因此,本文提出了一種新的中文領(lǐng)域情感詞典構(gòu)建方法,該方法設(shè)計了一個由實體、屬性、情感詞、情感傾向和情感強度構(gòu)成的五元組模型,并使用依存句法技術(shù)實現(xiàn)了五元組模型的應(yīng)用,以特征觀點對為基礎(chǔ)構(gòu)建了領(lǐng)域情感詞典。實驗證明,領(lǐng)域情感詞典不僅能夠更準確地捕捉情感語義信息,還能夠適用于不同領(lǐng)域的情感分析任務(wù)。

領(lǐng)域情感詞典具有三大優(yōu)勢: ① 能夠更精確地捕捉語義信息中的情感細微變化,提高情感分析的準確性和細粒度性; ② 由于領(lǐng)域情感詞典的結(jié)構(gòu)設(shè)計考慮了實體和屬性的特定關(guān)系,因此可以針對不同領(lǐng)域建立定制的情感詞典,提高情感分析在特定領(lǐng)域的適用性和有效性; ③ 情感詞、情感傾向和情感強度的結(jié)合使得情感分析不再局限于簡單的情感分類,還可以對情感的具體程度進行更深入地分析,增強了情感分析的表達力和解釋性。

當然,領(lǐng)域情感詞典也會有一些缺點: ① 盡管五元組模型可以適應(yīng)不同領(lǐng)域,但建立的領(lǐng)域情感詞典仍然具有一定的領(lǐng)域依賴性,需要針對具體領(lǐng)域進行調(diào)整和優(yōu)化,否則可能導(dǎo)致情感分析效果下降;② 隨著領(lǐng)域知識和語言使用的變化,情感詞典的更新和演化是一個持續(xù)的挑戰(zhàn),特別是當涉及到新興詞匯、新的情感表達方式或者文化變遷時,領(lǐng)域情感詞典的更新會面臨一定的困難。

未來的研究可以進一步探索如何結(jié)合深度學(xué)習(xí)和大數(shù)據(jù)分析技術(shù),提高領(lǐng)域情感詞典的自動構(gòu)建能力和自動擴展能力。此外,還可以考慮如何在其他語種環(huán)境下推廣和驗證所提出的領(lǐng)域情感詞典構(gòu)建方法,以應(yīng)對全球化信息交流的需求。

參考文獻:

[1]Lun-WeiKuandHsin-Hsi Chen.Miningopinionsfromtheweb:Beyondrelevanceretrieval[J].JounalofAmericanSocietyfor Information Scienceand TechnologySpecial Issueon ining Web Resources forEnhancing Information Retrieval,207,58 (12) :1838-1850.

[2]LiJ,SunMExperimentalstudyonsentimentclasificationofChinesereviewusing machineleaming technques[C//In

ternational Conference on Natural Language Processing and Knowledge Engineering.IEEE,2O07:393-400.

[3]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報學(xué)報,2008,27(2):180-185.

[4]楊小平,張中夏,王良,等.基于Word2Vec 的情感詞典自動構(gòu)建與優(yōu)化[J].計算機科學(xué),2017,44(1):42-47,74.

[5]李永帥,王黎明,柴玉梅,等.基于雙向LSTM 的動態(tài)情感詞典構(gòu)建方法研究[J].小型微型計算機系統(tǒng),2019,40(3):503- 509.

[6]Loughran T,McdonaldB.WhenisaliabilitynotaliabilityTextualanalysis,dictionaries,and1O-Ks[J].JouralofFinance, 2011,66(1):35-65.

[7]易劍波.基于文本挖掘的電商用戶評論分析與系統(tǒng)實現(xiàn)[D].南京:東南大學(xué),2017.

[8]劉兵.情感分析——挖掘觀點、情感和情緒[M].北京:機械工業(yè)出版社,2018.

[9]李壽山,李逸薇,黃居仁,等.基于雙語信息和標簽傳播算法的中文情感詞典構(gòu)建方法[J].中文信息學(xué)報,2013,27(6): 75-81.

[10]He Y,LinC,aniAutomaticallyextractng pariteaingtoicsforcoss-ominsentimntcalsificationC/Prdingsofthe49thAnnual Meetingof theAssociationfor ComputationalLinguistics.S.1.]:Asociation forComputational Linguitics,2011:123-131.

[11]Wang Y,YinF,LiuJ,etalAutomaticconstructionofdomainsentimentlexiconforsemanticdisambiguation[J]ultidia Tools and Applications,2020(79):22355-22373.

[12]Zhao C,Zhang P,LiuJ,etal.Research on domain emotiondictionaryconstructionmethod basedonimprovedSO-PMI algorithm[C/roceedingsoftheO215thInternational ConferenceonNaturalLanguageProcessingand InformationRetrieval, 2021:18-23.

[13]Wang Y,HuangG,LiM,etalAutomaticallyonstructingafingrainedentimentlexiconforsntimentanalysis[J]Cognitive Computation,2023,15(1):254-271.

[14]Ren W,ZhangH,ChenM.Amethodofdomain dictionaryconstructionforelectric vehiclesdisassembly[J].Entropy,2,24 (3):363.

[15]蔣昊達,趙春蕾,陳瀚,等.基于改進TF-IDF與BERT的領(lǐng)域情感詞典構(gòu)建方法[J].計算機科學(xué),2024,51(S1):162-170.

[16]張璞,王俊霞,王英豪.基于標簽傳播的情感詞典構(gòu)建方法[J].計算機工程,2018,44(5):168-173.

[17]葉霞,曹軍博,許飛翔,等.中文領(lǐng)域情感詞典自適應(yīng)學(xué)習(xí)方法[J].計算機工程與設(shè)計,2020,41(8):2231-2237.

[18]胡家珩,岑詠華,吳承堯.基于深度學(xué)習(xí)的領(lǐng)域情感詞典自動構(gòu)建——以金融領(lǐng)域為例[J].數(shù)據(jù)分析與知識發(fā)現(xiàn), 2018,2(10):95-102.

[19]蔣翠清,郭軼博,劉堯.基于中文社交媒體文本的領(lǐng)域情感詞典構(gòu)建方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(2): 98-107.

[20]陳俊,席寧麗,李佳敏,等.融合 Skip-gram與R-SOPMI 的教育領(lǐng)域情感詞典構(gòu)建[J].應(yīng)用科學(xué)學(xué)報,2023,41(5): 870-880.

[21]Ding X,LiuB,YuPS.Aholisticlexicon-basedaproachtoopinionmining[C/Proceedingsofthe8 InteationalCoference on Web Search and Data Mining,2008:231-240.

[22]Qiu G,LiuB,BuJ,etal.Expanding domain sentiment lexiconthrough double propagationC]//Twenty-first Interational Joint Conference on Artificial Intelligence,2009.

[23]LuY,Castellnos M,Dayal U,etal.Automaticconstructionofacontext-awaresentimentlexicon:Anoptimizationapproach [C]//Proceedings of the 20th International Conference on World Wide Web,2011:347-356.

[24]Lek H H,PooD C C.Sentix:Anaspectand domainsensitivesentiment lexicon[C]/2o12 IEEE24th International Conference on Tools with Artificial Intelligence.IEEE,2012(1):261-268.

[25]郗亞輝.產(chǎn)品評論中領(lǐng)域情感詞典的構(gòu)建[J].中文信息學(xué)報,2016,30(5):136-144.

[26]Li C,Yan X,Xu G,et al.Khmersentiment lexiconbasedonPUlearning andLabel propagationalgorithm[J].ACMTransactions on Asian and Low-Resource Language Information Processing,2O23,22(3):1-18.

[27]王召義,陳應(yīng)紅,周海燕,等.中文領(lǐng)域情感詞典構(gòu)建研究[J].情報探索,2020(11):48-56.

[28]周知,方正東.融合依存句法與產(chǎn)品特征庫的用戶觀點識別研究[J].情報理論與實踐,2021,44(7):111-117.

[29]Wanxiang Che,YunlongFeng,LiboQin,etal.N-LTP:AnOpen-sourceneurallanguage technologyplatformforChinee]/ In Procedings ofthe 2O21 Conferenceon Empirical Methods in NaturalLanguage Processing:System Demonstrations,2021: 42-49.

Construction Research of Chinese Domain-Specific Sentiment Lexicon Based on Feature-Opinion Pairs

WANG Zhaoyi 1,2 ,CHONG Choy Yoke 2 ,XUE Chenjie 1,2 ,ZHANG Liyuan !1 (1.Anhui Business Collge Faculty of E-commerce,Wuhu,Anhui 241002,China; 2.Multimedia University Faculty of Management,Cyberjaya,Selangor 631OO,Malaysia)

Abstract:Purpose:Toaddress theissueof generalsentimentdictionariesfailing toaccuratelydisceranddifferentiatesentimentinformationinspecificproductdomainsorcontextual environments,therebyreducing semanticambiguityandmisinterpretationofentimentinformation.Method:AnovelapproachforconstructingaChinesedomain-specificsentimentdictionaryispro posed.This metoddesignsastructuralmodelthatencompassesntities,aributes,sentimentwords,entimentorientatios,and sentiment intensities.The modelisconstructedusingdependencyparsingtechniques,withdomainspecificsentimentdictionaries builtuponcoreelementfeature-pinionpairs.Results:Theconstructeddomain-specificsentimentdictionarydemonstratesahigher accuracyincapturingsntimentsemanticinformationandisapplicabletosentimentanalysis tasksacrossvariousdomains.Conclusion:Themethodforconstructingdomain-specificsentimentdictionariescaneffctivelyenhancetheacuracyofsentimentanalysis,particularly in product reviews that exhibit domain-specificity and contextual constraints.

Key Words:Domain-specific sentiment lexicon;Feature-opinionpair;Entity atribute;Sentiment words;Dependency syntax rules

[責任編輯:陳麗華]

猜你喜歡
語義特征情感
如何在情感中自我成長,保持獨立
語言與語義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
如何在情感中自我成長,保持獨立
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产精品久久精品| 最新国产成人剧情在线播放| 狠狠做深爱婷婷综合一区| 欧美在线一二区| 久草中文网| 久久久久亚洲精品无码网站| 99re精彩视频| 国产精品免费福利久久播放| 午夜福利无码一区二区| 亚洲成人福利网站| 三上悠亚精品二区在线观看| 国产成人综合在线观看| 國產尤物AV尤物在線觀看| 久久久精品国产亚洲AV日韩| 欧亚日韩Av| 亚洲精品无码专区在线观看| 国产日韩欧美在线视频免费观看| 久久黄色毛片| 欧美国产视频| 欧美在线免费| 亚洲第一色网站| 亚洲综合极品香蕉久久网| 国产女人爽到高潮的免费视频| 国产在线观看人成激情视频| 欧美日韩精品一区二区视频| 久久男人视频| 精品久久人人爽人人玩人人妻| 国产三级成人| 国产精品99久久久| 国产成人AV大片大片在线播放 | yjizz国产在线视频网| 国产精品亚欧美一区二区| 午夜激情婷婷| 国禁国产you女视频网站| 中文字幕 91| 亚洲国产看片基地久久1024| 欧美成人综合视频| 亚洲天堂久久新| 亚洲香蕉久久| 亚洲第一页在线观看| 亚洲国产精品无码久久一线| 日韩黄色大片免费看| 国产永久免费视频m3u8| 午夜视频在线观看免费网站 | 久久五月视频| 男女男免费视频网站国产| 一本久道热中字伊人| 香蕉蕉亚亚洲aav综合| 亚洲国产综合精品一区| 亚洲综合婷婷激情| 午夜老司机永久免费看片| 久久中文无码精品| 四虎精品黑人视频| 成人午夜视频在线| 国产剧情无码视频在线观看| 亚洲手机在线| 成人国产精品一级毛片天堂| yjizz国产在线视频网| 国产精品免费p区| 国产三级成人| 囯产av无码片毛片一级| 国产sm重味一区二区三区| 日本欧美视频在线观看| 91日本在线观看亚洲精品| 亚洲欧美精品日韩欧美| 综合色在线| 99在线视频精品| 伊人久久福利中文字幕| 中文字幕久久精品波多野结| 亚洲高清无在码在线无弹窗| 国产精品毛片在线直播完整版| 国产精品视频公开费视频| 亚洲第一页在线观看| 少妇精品在线| 国产另类乱子伦精品免费女| 97狠狠操| 岛国精品一区免费视频在线观看 | 日韩a在线观看免费观看| h网址在线观看| 日韩精品无码免费一区二区三区 | 亚洲综合网在线观看| 中文字幕免费视频|