999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體特征的影評細粒度情感分類

2020-06-01 10:55:22侯艷輝董慧芳崔雪蓮
計算機應用 2020年4期
關鍵詞:分類特征情感

侯艷輝,董慧芳,郝 敏,崔雪蓮

(山東科技大學經濟管理學院,山東青島266590)

(?通信作者電子郵箱Coolhyh@126.com)

0 引言

隨著國民經濟水平的提高,電影已經成為一種大眾化的休閑娛樂方式。網絡媒體的發展進一步擴大了電影的影響范圍,繁榮的前景也加劇了電影行業的競爭。如何把握消費者偏好,創作出高質量、受歡迎的影視作品是制片方始終要考慮的重大問題。

與搜索型產品不同,電影屬于體驗型產品,需要體驗過之后才有具體的效用感知。影評作為一種重要的信息載體,傳達了評價者的情感態度,影響著潛在消費者的購買決策。已有研究說明了在線電影短評的研究價值[1-4],這為影評的情感分析奠定了理論基礎。海量的在線影評也為研究分析提供了豐富的數據資源。對影評進行情感分析能夠了解消費者偏好,進而為制片方制片和宣傳提供參考依據,為消費者購票決策提供意見支持。

本文針對影評情感分析中對電影特征關注度不足,對文本粒度和情感強度劃分粗糙的現狀,從特征-觀點對視角,在文本粒度和情感強度兩個方面對中文影評進行情感細粒度分析。

1 相關工作

文本粒度、情感強度、分類算法這三個方面的確定是完成情感分類任務的三個漸進子任務。鑒于此,本文將針對這三個方面的現有研究成果進行述評。

1.1 情感分析中文本粒度

情感分析中文本粒度的研究現狀主要分為兩個層次,分別為基于文檔級、句子級的粗粒度分析和基于評價對象及其屬性的細粒度分析。由于搜索型產品有產品說明書作為屬性參考,所以基于評價對象及其屬性的細粒度分析主要針對搜索型產品的在線評論。在屬性細粒度文本分析的基礎上,尹裴等[5-6]又針對搜索型產品提出了基于本體的特征觀點對的情感分析方法。相對而言,對于體驗型產品在線評論的文本研究粒度遠不如搜索型產品。聶卉等[7]以書評為研究對象借助情感詞典與主題模型LDA(Latent Dirichlet Allocation)方法識別了正負情感傾向;樊振等[8]利用影評數據實現了評論文本的自動標注并提高了情感分類的準確性。但兩者的研究都未涉及屬性特征層面的分析。侯銀秀等[9]利用圖書評論語料實現了用戶對圖書屬性情感偏好的個性化推薦,但研究文本為英文,由于中英文之間的差異,研究成果較難直接應用于中文評論。目前還沒有利用基于本體的特征觀點對的方法對體驗型產品的在線評論進行情感分析的研究。

1.2 情感分析中情感強度劃分

情感分析的另一重要任務是對情感強度的界定,國內外學者已經對情感強度分類進行了深入的研究。這里的情感強度不僅指一種情感上的程度量化(如:開心、比較開心、很開心等),而且指各種情感的分類(如快樂、憤怒、焦慮、悲傷等)。鑒于人類情緒的多維性、多變性,研究通常將情感強度進行離散化,但是并沒有統一的分類標準[10]。在情感強度劃分方面,目前比較有代表性的研究成果如表1所示。

表1 代表性的情感強度劃分對比Tab.1 Comparison of representative emotional intensity classifications

對于搜索型產品評論的情感強度劃分為二分類(正負)和三分類(積極、消極、中性)即可滿足消費者肯定或否定的態度識別;但對于體驗型產品評論而言,此種劃分方式不足以描述消費者豐富的體驗情感。已有學者將更細膩的情感強度與產品評論相結合進行研究,如:劉麗娜等[11]研究了滿意、失望、贊美、譴責、喜愛、討厭6 種離散情感在評論星級中的分布;聶卉等[7]研究了樂、好、怒、哀、懼、惡、驚7 種情感在圖書評論中的分布。因此,對于影評的情感強度劃分也應考慮多分類的情感強度。

1.3 情感分析中分類算法

分類算法的準確性是情感分類任務能否完成的關鍵。對于影評的情感分類問題現有研究方法主要有:基于情感詞典、基于機器學習、基于神經網絡以及算法融合四類研究方法[16]。基于情感詞典的研究方法主要通過擴展情感詞典對影評進行情感分析。如Mishra 等[17]擴展了電影和酒店詞匯資源,提高了分類準確性。基于機器學習用到的方法主要有樸素貝葉斯、決策樹、支持向量機等。如:Anand 等[18]基于聚類方法實現了影評屬性的情感分類;Tripathy等[19]驗證了在影評數據集中支持向量機比樸素貝葉斯算法分類準確度更高;García-Díaz 等[20]在影評數據集上訓練了樸素貝葉斯分類器,提高了情緒分析的準確性。基于神經網絡的方法提升了模型的推廣能力。如:Lee 等[21]基于卷積神經網絡計算了影評中句子整體的情感傾向。基于算法融合的方法相對于單一的算法能夠在一定程度上提高模型的準確率。如:Khan 等[22]融合了機器學習與基于詞匯的方法提高了影評情感分類的準確性;Araque等[23]結合詞嵌入模型和線性機器學習算法實現了基于神經網絡的影評情感分類。由于情感分析具有領域依賴性,不同的模型在不同的任務上有不同的表現,對于方法的優劣不能一概而論。

2 基于本體特征的影評細粒度情感分類方法

2.1 電影本體概念模型構建

本體被人工智能領域引入特指概念化的規格說明。已有國內外學者對電影本體進行了探索。如Pe?alver-Martinze等[24]提出了電影本體概念模型,屬性層面包括電影、導演、演員、影片類型。姜霖等[25]構建了內容、形式、價值的本體模型。但存在如下不足:前者“電影”屬性包含范圍大、概念模糊;后者“內容”屬性符合非專業人士觀影人群的評價認知體系,但部分“形式”屬性、“價值”屬性在短評中較少體現,直接應用現有模型會造成特征混淆和特征稀疏。故本文在前人研究的基礎上,重新構建屬性特征,并驗證特征的有效性。

借鑒尹裴等[5]的研究并加以改進。構建電影本體四元組,即S ={Cid,Cterm,Csynanym,Chyponym}。其中:Cid表示特征唯一標識符;Cterm表示特征;Csynanym為同義詞集;Chyponym為下位詞集。由于影評的特殊性,對于某一個特征詞如“演技”只用來形容人物,“彩蛋”只用來形容劇情,其標識性唯一。因此,去掉隸屬度概念只基于特征構建本體概念模型。電影本體概念模型示例如表2所示。

表2 電影本體概念模型示例Tab.2 Examples of movie ontology conceptual model

利用TF-IDF 算法、TextRank 算法對預處理后的文本提取關鍵詞。為了提高特征的代表性,取關鍵詞的交集作為候選特征詞。再考慮與電影特征有關的其他關鍵詞進行人工篩選,構建電影本體概念模型。電影本體概念模型的特征描述如表3所示。

表3 電影本體概念模型的特征描述Tab.3 Feature description of film ontology conceptual model

利用構建的電影本體概念模型,分析觀影人重點關注的電影特征。由于中性評論難以說明偏好,分析時不考慮中性情感的評論。觀影人對電影特征的關注度如圖1所示。

從圖1 可看出,觀影人對故事(story)屬性關注度最高,其次 是 題 材(theme)、人 物(character)、場 景(scene)、導 演(director)等特征。這說明電影制作、影片宣傳要依次考慮故事、題材、人物、場景、導演五個方面的特征;若資源有限應優先考慮影片故事、題材、人物三個方面的特性,抓住觀影人的眼球。

圖1 觀影人對電影特征的關注度Fig. 1 Viewer's attention to movie's features

至此,本文融合了前人在電影領域的本體概念模型和在搜索型產品領域的本體建模方法,構建了電影本體概念模型。為下一步在電影特征層面識別觀影人電影屬性偏好做好基礎工作。

2.2 情感強度劃分

為細化當前三分類(積極、消極、中性)為主的情感強度劃分現狀,本文借鑒了普魯契克多維度情緒模型,首次將其引入到電影影評的情感偏好研究,以實現情感強度上更細粒度的劃分。

Plutchik被認為是情感研究領域的思想領袖,提出了情緒心理進化理論和一種多維度情緒模型,即著名的“普魯契克情感之輪”[5,15]。本文在考慮情感詞典情感值的基礎上,選取該模型作為情感強度劃分的標準。根據Plutchik 提出的多維度情緒模型,將情感強度(1:積極,0:中性,-1:消極)三分類拓展為(-4~4)八分類,其中(+4:狂喜,-4:悲痛)、(+3:欽佩,-3:厭惡)、(+2:令人驚異,-2:警惕)、(+1:恐怖,-1:憤怒),0代表中性,來進行更細粒度的情感分類。影評的情感態度不同于普通產品評論的情感態度,如:“恐怖”在一般產品評論中為負向情感,而在影評評論中該詞反映了電影的情節吸引力或令人印象深刻的視聽效果,對于一部電影的制作是一種肯定的評價,所以情感值為+1。

2.3 情感分類方法設計

為實現在特征粒度層面和多維度情感強度下的細粒度情感分類模型,本文提出了一個將電影特征屬性和普魯契克多維度情緒模型與雙向長短時記憶網絡融合的算法。具體思路為:利用電影本體概念模型,在情感詞典中匹配特征觀點對,得到電影特征屬性偏好;利用普魯契克多維度情緒模型按2.2 節的劃分標準,將情感值細化為八分類;再利用Bi-LSTM神經網絡進行情感分類。

在此基礎上,為驗證該模型的有效性,文章還設計了單純基于情感詞典、機器學習、Bi-LSTM網絡的3種算法,在整體粒度和三分類情感強度下的分類模型。具體闡述如下:

1)基于情感詞典的方法:采用BosonNLP 情感詞典(玻森情感詞典)匹配特征觀點對。該詞典是從微博、新聞、論壇等數據來源的上百萬篇情感標注數據中自動構建的情感極性詞典,共包括114 767個詞語,滿足日常評論的常用語覆蓋。

2)基于機器學習的方法:本文采用了5 種特征提取算法構建文本特征。其中:①利用詞頻(Term Frequency,TF)計算某一個給定的詞語在該文檔中出現的次數;②利用潛在語義分析(Latent Semantic Analysis,LSA)通過分析文章來挖掘文章的潛在語義;③利用詞頻逆文檔頻率詞頻-逆文檔頻度(TFInverse Document Frequency,TF-IDF)計算一個詞對于文檔集中某個文檔的重要程度;④利用主題模型LDA 計算文檔集中每篇文檔的主題概率分布;⑤利用Doc2Vec 計算句子向量表達,通過計算向量之間的距離來找句子之間的相似性。

3)基于Bi-LSTM 網絡的方法:引入基于人民日報預訓練的詞向量,利用雙向長短時記憶網絡模型進行訓練。Bi-LSTM是長短時記憶網絡的一種改進,能更好地對序列數據進行表達,尤其是有語言順序的文本數據。通過Bi-LSTM 可以更好地捕捉雙向的語義依賴。

3 實驗與評價

3.1 實驗步驟設計

首先,對文本進行預處理;接著,提取電影特征,構建電影本體概念模型;然后,分別從文本粒度和情感強度兩個方面進行粒度細化。其中,文本粒度指影評句子整體和影評特征屬性的不同劃分。實驗基本流程如圖2所示。

圖2 實驗基本流程Fig.2 Basic flowchart of the experiment

3.2 實驗數據與預處理

1)數據獲取:選取國內影響力較大的電影網站——豆瓣電影,以最近熱門電影作為實驗對象。通過網絡爬蟲爬取了201 部電影影評,去掉只有數字和詞數小于2 的評論,最終得到32 762條在線短評數據。

2)標簽標注:以星級評分作為標注信息,將其分為三種情感強度:1、2 星級標注為-1,4、5 星級標注為+1,3 星級標注為0。隨機對其中的6 070 條評論進行人工標注,標注時基于前文構建的本體模型進行情感打分(消極:-1,積極:1,中性:0),以屬性值的線性加和作為本條評論的總體情感傾向。并通過了Kappa 統計量的一致性檢驗,說明了標注信息的無偏性。對標注比例進行統計,其中,中性情感占34.78%,積極情感占44.12%,消極情感占21.10%,說明標注類別基本平衡。

3)預處理過程:分詞(jieba,結巴分詞)→去停用詞(利用自己構建的停用詞表)→詞性標注。

4)實驗環境:Python3.6、Pycharm。

3.3 實驗方法與結果

實驗將數據劃分為75%的訓練集和25%的驗證集,模型評估指標為F1值。下文報告的準確率均為10 折交叉驗證后模型在驗證集上的F1值。

3.3.1 基于影評整體層級的情感分類

實驗1(dic) 利用情感詞典的方法。將預處理后的評論與BosonNLP 情感詞典匹配,以標記信息作為標簽,計算影評整體的情感傾向。

實驗2(ml) 利用機器學習的方法。通過2.3 節中提及的特征工程對預處理后的文本提取電影特征。具體思路如下:提取詞頻特征(TF),利用LDA 主題模型降維為LDA 特征;提取詞頻逆文檔頻率特征(TF-IDF),利用截斷奇異值分解(Truncated Singular Value Decomposition,TSVD)降維為LSA特征;利用Doc2vec 算法將原始數據數字化為Doc2vec 特征。最后,將LDA、LSA、Doc2vec 三種特征進行融合,并將得到的特征轉換為稀疏矩陣,合并到TF-IDF 特征中,完成特征組合。最后,使用LinearSVC(Linear Support Vector Classifier)算法進行分類。

實驗3(nn) 利用神經網絡的方法。引入人民日報預訓練的詞向量,基于kashgari 開源框架,利用Bi-LSTM 模型進行數據訓練。

實驗結果分析:實驗1(dic)的準確率為48.7%。通過實驗發現,僅用情感詞典對影評進行整體粗粒度分析結果很不理想。實驗2(ml)的準確率為55.1%。與實驗1(dic)相比,模型分類的準確率有6.4 個百分點的提升,說明基于機器學習的方法能學習到更多的數據特征,但模型準確率仍不理想。實驗3(nn)的準確率為93.7%;與實驗2(ml)相比,模型分類的準確率有38.6 個百分點的提升,實驗結果較理想,但基于整體層級的影評分析,不能滿足當前市場分析的需求。

3.3.2 基于影評特征層級的情感分類及情感強度細分

由于需要特征屬性情感值的標簽,以下實驗以人工標注的數據集作為實驗數據。

實驗4(dic+tz) 利用情感詞典的方法。在實驗1(dic)的基礎上,利用電影本體概念模型匹配特征觀點對,計算特征層面的情感傾向。

實驗5(nn+tz) 融合情感詞典的神經網絡模型。在整體層級分類表現最好的模型(即實驗3(nn))的基礎上,結合實驗4(dic+tz)匹配到的特征觀點對進行特征層面的情感分析,并設置情感強度為積極、消極、中性三個等級。

實驗6(nn+tz+ei) 情感強度細分實驗。在實驗5(nn+tz)構建的Bi-LSTM 模型的基礎上,根據Plutchik 提出的多維度情緒模型,利用情感詞原有的分值進行情感強度細分,分值所代表的情感按2.2 節的說明進行劃分,情感強度范圍為-4~4,在情感強度層面進行研究。

實驗結果分析:實驗4(dic+tz)的平均準確率為78.5%,與同利用情感詞典方法的實驗1(dic)對比可知,基于特征層級的情感分類比基于整體層級的情感分類準確率提高了29.8個百分點。這不僅驗證了本文構建的本體概念模型的有效性,而且也說明了基于特征層面的細粒度情感分類更容易識別評論人的情感傾向。實驗5(nn+tz)的平均準確率為90.2%,模型準確率雖略小于整體層級的最優結果,但比基于特征層級的情感詞典方法(即實驗4(dic+tz))的準確率提高了11.7 個百分點且分類效果也較理想。基于特征層面的情感分析有利于了解消費者在電影各個特征層級的情感偏好,更有助于市場分析。實驗6(nn+tz+ei)的平均準確率為93.0%。其中,情感強度高的情感詞能被完全識別,相對于情感強度三分類的融合算法(即實驗5(nn+tz))準確率提高了2.8 個百分點。這說明對情感強度細化分類準確率仍有提升空間,即多維情感強度細粒度有利于實現更準確的情感分類。

實驗4(dic+tz)匹配到的特征觀點對的舉例說明如表4 所示,為了便于閱讀,對語序稍作一些調整。實驗4 在特征層級的準確率如表5所示。

從表6所示的實驗結果可看出:

1)實驗3(nn)基于神經網絡對影評整體層級進行情感分類的模型表現最好,但它無法區別電影特征層面的情感傾向。實驗6(nn+tz+ei)分類效果也較理想,并實現了基于影評特征和情感強度的情感細粒度劃分,驗證了研究的理論價值和實踐意義。

2)在相同文本粒度和情感強度水平上,基于情感詞典、機器學習、神經網絡算法的分類準確率逐步提升,如實驗1(dic)、實驗2(ml)、實驗3(nn)的模型分類結果對比,實驗4(dic+tz)和實驗5(nn+tz)的模型分類結果對比。這說明隨著模型復雜度增大,學習到的數據特征越多,分類越準確。

3)在不同文本粒度和情感強度水平上,即使用同一種算法進行處理,其分類準確度也會隨粒度細化得到一定幅度提升,例如:實驗1(dic)和實驗4(dic+tz)的對比,同用情感詞典的方法對不同文本粒度進行分析,結果從48.7%提升到78.5%,準確率提升29.8 個百分點。實驗5(nn+tz)和實驗6(nn+tz+ei)的比對,同用詞典與神經網絡融合的算法對不同情感強度劃分水平進行分析,結果從90.2%提升到93.0%,準確率提升2.8 個百分點。以上兩點再次說明了情感分析任務從文本粒度和情感強度兩個角度對文本進行細化研究的科學性。

表4 特征觀點對(舉例)Tab.4 Feature view pairs(examples)

表5 實驗4特征層級的準確率 單位:%Tab.5 Accuracy in the experiment 4 on feature level unit:%

表6 模型實驗結果匯總表Tab.6 Summary of model experiment results

4 結語

本文以在線電影短評為研究對象,利用基于本體的特征觀點對的研究方法,在不同文本粒度和不同情感強度上進行細粒度情感分類研究,細化了影評情感分類的粒度,有利于制片方電影制作和宣傳,同時為消費者購票決策提供意見參考。本文研究結論如下:

首先,通過構建電影本體概念模型,分析得出:觀影人對電影本體特征的關注度依次為故事(story)、題材(theme)、人物(character)、場景(scene)、導演(director)特征。其次,本文提出了一種針對影評本體特征和融合普魯契克多維度情緒模型的情感分類模型。同時,對比分析了不同文本粒度、不同情感強度、不同實驗方法對分類準確率的影響。實驗結果表明,本文提出的分類模型,不僅具有較高準確率,而且還能提供觀影人對電影本體特征和情感強度的偏好,實現了影評更細粒度的情感分類。

由于時間和人力限制,實驗所用數據集較小,實驗所用方法有限。其次,電影特征中“人物(character)”特征的劃分沒有將表演人員和電影中塑造的人物相區別,希望在未來的研究中能夠加以完善。

猜你喜歡
分類特征情感
分類算一算
如何在情感中自我成長,保持獨立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達“特征”
情感
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
如何在情感中自我成長,保持獨立
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 看你懂的巨臀中文字幕一区二区| 国产精品久久自在自2021| 国产日本视频91| 国产青榴视频| 成人伊人色一区二区三区| 中国精品自拍| 国产av剧情无码精品色午夜| 91免费片| 亚洲国产成人自拍| 国国产a国产片免费麻豆| 亚洲综合亚洲国产尤物| 国产精品理论片| 怡红院美国分院一区二区| 一本一本大道香蕉久在线播放| 精品国产美女福到在线直播| 午夜福利视频一区| 少妇高潮惨叫久久久久久| 成人无码一区二区三区视频在线观看| 99激情网| 国产精品毛片一区视频播| 国产微拍一区二区三区四区| h视频在线观看网站| 久久77777| 亚洲成网站| 成人亚洲国产| 亚洲v日韩v欧美在线观看| www.精品视频| 四虎永久免费网站| 欧美日韩国产一级| 国产精品精品视频| 女人爽到高潮免费视频大全| 婷婷亚洲视频| 国产综合色在线视频播放线视| 97国产成人无码精品久久久| 一本大道香蕉高清久久| 久久午夜夜伦鲁鲁片无码免费| 丝袜亚洲综合| 中文字幕在线免费看| 无码网站免费观看| 欧美视频免费一区二区三区| 日本三级欧美三级| Jizz国产色系免费| 性69交片免费看| 婷婷综合缴情亚洲五月伊| 人妻无码AⅤ中文字| 久久性妇女精品免费| 欧美日韩精品在线播放| 日韩在线第三页| 国产亚洲视频中文字幕视频 | 99久久这里只精品麻豆| 日本91视频| 国产自在自线午夜精品视频| 日韩精品亚洲人旧成在线| 欧美一级视频免费| 中美日韩在线网免费毛片视频| 国产日韩欧美中文| 国产在线观看人成激情视频| 亚洲天堂2014| 尤物精品国产福利网站| 国产成人精品亚洲77美色| h视频在线播放| 国产人人射| jizz国产在线| 中文字幕无线码一区| 日本中文字幕久久网站| 在线精品亚洲一区二区古装| 欧美日韩成人在线观看| 久久9966精品国产免费| 精品久久国产综合精麻豆| 欧美翘臀一区二区三区| av在线5g无码天天| 99在线国产| 国产三级国产精品国产普男人| 自拍中文字幕| 9丨情侣偷在线精品国产| 伊在人亚洲香蕉精品播放 | 国产一级在线播放| 亚洲成av人无码综合在线观看| 日韩无码精品人妻| 日本黄色不卡视频| 国产综合欧美| 精品无码日韩国产不卡av|