黃余 黃欣彬
(宜賓職業(yè)技術(shù)學(xué)院 四川省宜賓市 644003)
根據(jù)CNNIC 數(shù)據(jù),截至2019年6月,中國(guó)網(wǎng)購(gòu)用戶規(guī)模達(dá)6.4億(+12.3%),相對(duì)2018年底增長(zhǎng)0.3 億;網(wǎng)民使用網(wǎng)購(gòu)比例為74.8%,相對(duì)2018年底提升1.2 個(gè)百分點(diǎn)[1],電商已經(jīng)深刻融入人們生活。通過(guò)產(chǎn)品的電商渠道輿論分析,對(duì)優(yōu)化品牌服務(wù)和產(chǎn)品迭代,監(jiān)控用戶對(duì)品牌產(chǎn)品的認(rèn)知和口碑情況;提升品牌的核心競(jìng)爭(zhēng)力和改善自身不足,實(shí)現(xiàn)品牌戰(zhàn)略,是企業(yè)目前迫切需要。
自動(dòng)分析大量用戶評(píng)論的文本內(nèi)容,輸出每條評(píng)論對(duì)應(yīng)的用戶情感類型[2]。通過(guò)對(duì)用戶對(duì)產(chǎn)品的看法和態(tài)度的識(shí)別是對(duì)品牌產(chǎn)品或服務(wù)進(jìn)行情感的關(guān)鍵,其中包括對(duì)評(píng)價(jià)對(duì)象、評(píng)價(jià)觀點(diǎn)、評(píng)價(jià)的文本(品牌社群眾一般為短文本)[3]。對(duì)中文文本進(jìn)行情感分析需要高質(zhì)量的情感詞典[4]。目前情感分析研究大部分是基于已經(jīng)編輯好的情感詞典或詞表判斷情感傾向,比較典型的是使用種子詞、領(lǐng)域詞和WordNet 擴(kuò)展詞表進(jìn)行匹配計(jì)算。在特定的情感基礎(chǔ)上,如何利用語(yǔ)義分析與評(píng)論情感打分模型對(duì)電商評(píng)論文本信息進(jìn)行綜合分析,為商家提供有效的商品口碑信息,是我們一個(gè)重要的研究方向。
本文以電商京東網(wǎng)站上的華為兒童手表評(píng)論作為文本情感分析對(duì)象。使用Google 公司開發(fā)的高效提取網(wǎng)頁(yè)數(shù)據(jù)的Chrome 插件工具Web scraper 進(jìn)行數(shù)據(jù)爬取。
從數(shù)據(jù)獲取結(jié)果中可以看出,爬蟲獲取的評(píng)論數(shù)據(jù)有內(nèi)容較為隨意,可能會(huì)直接影響后續(xù)分析的結(jié)果,因此還需要對(duì)評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,獲得規(guī)范化的評(píng)論數(shù)據(jù)。
中文文本數(shù)據(jù)進(jìn)行情感分析時(shí),情感詞典是最重要的一個(gè)組成部分,通常情感詞典一般由積極情、消極、否定、程度副詞詞典四個(gè)部分組成。高質(zhì)量情感詞典能夠提升情感分析的準(zhǔn)確率,在構(gòu)建情感詞典時(shí)論文綜合使用了Hownet、NTUSD、清華大學(xué)李軍中文褒義、貶義詞典和BosonNLP,將四個(gè)情感詞典中的積極情緒詞和消極情緒詞分別放入兩個(gè)文檔中,然后進(jìn)行操作。并根據(jù)判斷商品評(píng)論文本的分析需要構(gòu)造的否定詞詞典和程度副詞詞典最后,刪除情感詞典中的非文本詞。并分別將積極情緒詞典中的詞權(quán)重設(shè)為1,消極情緒詞典中的情緒詞權(quán)重設(shè)為-1;將否定詞詞典中的否詞權(quán)重設(shè)為1,副詞詞典中依據(jù)程度副詞語(yǔ)氣的強(qiáng)弱將其量化,將其劃分為5 個(gè)等級(jí),為每個(gè)等級(jí)設(shè)定不同的權(quán)重。權(quán)重取值分別為{-0.5,0.5,1.5,2.5,3.5}。
由于在電商評(píng)論領(lǐng)域,評(píng)價(jià)用詞具有隨意性的特點(diǎn),再加之網(wǎng)絡(luò)流行用語(yǔ)層出不窮,我們情感詞庫(kù)還需在進(jìn)一步完善。本研究通過(guò)Word2vec 語(yǔ)詞聚類法從商品評(píng)論語(yǔ)料數(shù)據(jù)中抽取相關(guān)情感詞、評(píng)論詞,來(lái)完善商品評(píng)論的情感詞庫(kù)。如:比如用戶指定輸入“北京”,將顯示訓(xùn)練文本中與“北京”最接近的詞語(yǔ)以及它們之間的余弦距離,進(jìn)而優(yōu)化了情感詞庫(kù)。
特征詞庫(kù)的構(gòu)建采用人工選擇和Word2vec聚類相結(jié)合的方法。第一步從品牌商品的說(shuō)明書和品牌官網(wǎng)商品介紹頁(yè)中人工抽取商品領(lǐng)域特征詞,確定商品的顯式屬性;第二步:是根據(jù)已有的利用Word2vec 語(yǔ)詞聚類法從的用戶評(píng)論數(shù)據(jù)中尋找特征詞關(guān)聯(lián)詞匯,擴(kuò)充完善產(chǎn)品特征詞庫(kù)。
如果能把特征與情感詞庫(kù)建立相應(yīng)的映射關(guān)系,使用產(chǎn)品特征和用戶情感相結(jié)合,對(duì)用戶對(duì)產(chǎn)品認(rèn)知將會(huì)更客觀的效果。本研究將采用python 語(yǔ)言對(duì)評(píng)論語(yǔ)料集構(gòu)建特征-情感概念。具體操作步驟如下:
(1)先利用Python 中“Jieba”中文分詞第三方庫(kù),對(duì)評(píng)論語(yǔ)料庫(kù)進(jìn)行分詞處理。
(2)構(gòu)建如“定位”相關(guān)特征詞表。由于客戶通常在評(píng)論會(huì)對(duì)多個(gè)對(duì)象進(jìn)行評(píng)價(jià),如“外觀”“音質(zhì)”“售后”等。
(3)抽取特征-情感概念對(duì),即特征詞+情感詞的組合詞組。(4)通過(guò)人工審查,篩選和確定特征-情感概念對(duì)。
表1 針對(duì)以上5 種情況,以Sen_score (vp)表示評(píng)價(jià)短語(yǔ)的情感分值;vp 表示評(píng)價(jià)觀點(diǎn)詞;sen 表示情感詞的原始情感值;deg表示程度副詞的權(quán)重,分別計(jì)算評(píng)論情感分值[5]。
結(jié)合語(yǔ)義關(guān)系計(jì)算、分詞和詞性標(biāo)注,從消費(fèi)者評(píng)價(jià)數(shù)據(jù)中得到與屬性特征匹配的情感詞,從而提取評(píng)價(jià)數(shù)據(jù)中的屬性特征-情感詞對(duì)

表1:評(píng)論組合情形

表2:產(chǎn)品特征情感傾向統(tǒng)計(jì)

圖1:特征詞統(tǒng)計(jì)
提取模塊可根據(jù)詞頻統(tǒng)計(jì)結(jié)果,以確定得到商品的屬性權(quán)重。將單組屬性特征-情感詞對(duì)

則某一商品單個(gè)屬性特征的情感得分算法如下:

單個(gè)商品的情感得分如公式如下:

其中,m 表示單個(gè)商品所包含的屬性特征的個(gè)數(shù),n 為該屬性特征中出現(xiàn)的情感詞個(gè)數(shù),為每個(gè)情感詞前出現(xiàn)的程度副詞強(qiáng)烈級(jí)別,表示相應(yīng)程度副詞強(qiáng)烈級(jí)別所對(duì)應(yīng)的系數(shù)值,f 為該情感詞前含否定詞的個(gè)數(shù),μ 表示該情感詞的否定詞得分值,class1-class4 分別為劃分的四種程度副詞強(qiáng)烈級(jí)別,為屬性特征的權(quán)重系數(shù),i 為屬性特征編號(hào),為第i 個(gè)屬性特征的第j 個(gè)情感詞的情感極性基礎(chǔ)得分,βil取值范圍為[-1,1],其中,正負(fù)分別對(duì)應(yīng)積極與消極情感。
若該情感詞前存在否定詞,統(tǒng)計(jì)全部否定詞出現(xiàn)的次數(shù),若為奇數(shù)則在該情感詞的情感極性基礎(chǔ)得分前乘以-1。可將情感值的計(jì)算規(guī)則最終構(gòu)建為:轉(zhuǎn)換情感極性,鑒于雙重否定所占比重較大,本研究?jī)H考慮雙重否定的情形,若出現(xiàn)兩次否定詞,則短語(yǔ)情感分值在上述分值的基礎(chǔ)上再乘以(-2),為。
本研究選取華為兒童手表,京東網(wǎng)站華為兒童手表銷量排名前三的單品為研究對(duì)象,通過(guò)web scraper 爬取收集顧客購(gòu)買后的在線評(píng)價(jià),篩選2020年1-9月份中線評(píng)論進(jìn)入分析環(huán)節(jié)。按產(chǎn)品特征詞分別獲得的其正面、負(fù)面和中性評(píng)價(jià)評(píng)價(jià)數(shù)量,及正面評(píng)論所占的比例。
根據(jù)表2 產(chǎn)品特征的正面評(píng)價(jià)占比可知,華為兒童手表“操作難易“性價(jià)比”“精準(zhǔn)定位”“靈敏度”等特征的口碑表現(xiàn)良好,好評(píng)率在 90% 左右,但是“售后”、“做工質(zhì)量”方面用戶的認(rèn)可度較低,好評(píng)率低于70%。圖1 利用餅圖展示了華為兒童手表產(chǎn)品特征的評(píng)論占比。
電商用戶家庭每月在電商上的花費(fèi)占家庭總支出的21.9%,電商購(gòu)物已成家庭日常消費(fèi)的重要一環(huán)。用戶購(gòu)物之前,會(huì)習(xí)慣性的瀏覽商品描述與用戶評(píng)論,而評(píng)論內(nèi)容對(duì)用戶的購(gòu)買行為有顯著的影響。正面口碑將有助于提高品牌知名度與消費(fèi)者對(duì)產(chǎn)品的認(rèn)可程度以及購(gòu)買意向;而負(fù)面口碑則會(huì)損害品牌形象,使用戶流失。所以新的營(yíng)銷時(shí)代,企業(yè)應(yīng)實(shí)時(shí)動(dòng)態(tài)的對(duì)所屬品牌或服務(wù)網(wǎng)絡(luò)評(píng)論進(jìn)行情感分析,隨時(shí)掌握品牌口碑變化,充分利用好口碑這個(gè)最廉價(jià)的廣告形式。并在負(fù)面口碑出現(xiàn)時(shí),能及時(shí)做好有效的營(yíng)銷應(yīng)對(duì)措施,加強(qiáng)風(fēng)險(xiǎn)管理能力。