陳舒
摘要:通用型情感分析技術(shù)較為成熟,卻有一定的領(lǐng)域局限性。針對時下熱門的網(wǎng)絡(luò)訂餐平臺評論進行挖掘,引入搜狗細胞詞庫,修正錯別字,并對網(wǎng)絡(luò)術(shù)語和顏文字進行轉(zhuǎn)換,在通用HowNet情感詞庫的基礎(chǔ)上,自建網(wǎng)絡(luò)訂餐關(guān)聯(lián)邏輯詞庫,使用TF-IDF加權(quán)算法,最終構(gòu)建出專屬網(wǎng)絡(luò)訂餐情感詞庫,提升了情感評分準確度,同時分析出網(wǎng)絡(luò)訂餐的主要屬性,并對此進行更深層次的意見挖掘。
關(guān)鍵詞:
網(wǎng)絡(luò)訂餐;情感分析;專屬詞庫;意見挖掘
DOIDOI:10.11907/rjdk.172637
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2017)012-0033-03
Abstract:The universal sentiment analysis technology is more mature, but there are certain limitations of the field, this paper reviews the popular nowadays network ordering platform for mining, the introduction of Sogou cell thesaurus, correcting typos, and the network terminology and color text conversion, based on the general emotion lexicon HowNet, self built network ordering logic Association Thesaurus the use of Term frequency–inverse document frequency(TF-IDF)weighted algorithm, and finally construct the exclusive network ordering emotion lexicon, enhance the emotion score accuracy, at the same time analysis of the main attributes of the network order, and make deeper digging opinions.
Key Words:network ordering; sentiment analysis; thesaurus; opinion mining
0 引言
隨著都市生活節(jié)奏的加速和無現(xiàn)金交易的普及,產(chǎn)生了曾紅極一時的團購網(wǎng)站,還有如今的網(wǎng)絡(luò)訂餐平臺,人們的餐飲習慣也被潛移默化地改變著,從最初的自己做飯,到堂食,再到如今的外賣。最新數(shù)據(jù)顯示,僅2017年第二季度,我國外賣餐飲交易量就高達459.5億元。訂餐平臺可為客戶提供對商家滿意度的在線評分和在線評論功能。評分的高低可以給予潛在客戶一定參考,但是并不能讓這些客戶以及商家本身明確了解其優(yōu)勢和不足。另外,大部分外賣依托第三方有償送餐平臺,如達達、蜂鳥等,送餐員服務(wù)良莠不齊,如果不能及時發(fā)現(xiàn)問題,勢必會給商家造成重大損失。餐飲作為第三產(chǎn)業(yè),服務(wù)是其中的重要因素,而在線評論能有效體現(xiàn)出服務(wù)質(zhì)量。依靠傳統(tǒng)的客服專員逐條審閱,已無法應對海量訂單,而日益成熟的情感分析技術(shù)[1],能夠很好地挖掘評論中的有效信息,幫助客戶和商家共建更好的網(wǎng)絡(luò)訂餐市場。然而,目前并沒有網(wǎng)絡(luò)訂餐專用的詞庫,僅依靠通用情感詞庫和飲食類詞庫進行分析[2],結(jié)果不夠理想,需要構(gòu)建專屬情感詞庫。
1 數(shù)據(jù)特征分析
通過網(wǎng)絡(luò)蜘蛛對餓了么(www.ele.me)、美團外賣(waimai.meituan.com)兩個最熱門的外賣美食網(wǎng)站的評論進行抓取分析,評論主要針對以下7個方面,這7個屬性的積極或消極,對最后的情感值計算起到關(guān)鍵作用:①配送方面:配送快/慢,態(tài)度好/差,包裝完整/不完整;②菜品本身:口味合適/不合適,分量足/不足,新鮮/不新鮮,衛(wèi)生/不衛(wèi)生。同時,這7個屬性對商家而言也是最有價值的,所以需要進行更深層的意見挖掘。此外,評論呈現(xiàn)以下幾個特點:
(1)文本較短,錯別字頻繁。個別網(wǎng)站開設(shè)評論激勵機制[3],但大部分會選擇外賣的人,并不愿意多花精力去認真評論。
(2)偏愛網(wǎng)絡(luò)術(shù)語和顏文字。熱衷外賣美食的人群,日常多與互聯(lián)網(wǎng)密不可分,語言習慣勢必受到一定影響,尤其在表達強烈情感時,更喜歡頻繁使用網(wǎng)絡(luò)術(shù)語和顏文字,例如:表達消極情感的“我勒個去”、“( ̄へ ̄)”,表達積極情感的“種草”、“(*^▽^*)”等,而這些十分重要的信號,并沒有體現(xiàn)在情感詞庫中。
(3)通用情感詞庫不適用。一些詞語如“頭發(fā)”、“蟑螂”等食品中的常見異物,本身在通用情感詞庫中沒有情感傾向,但在評論中出現(xiàn),則間接表達了極大的消極情感,在邏輯上和網(wǎng)絡(luò)訂餐評論有著強關(guān)聯(lián),而其它一些不出現(xiàn)或很少出現(xiàn)在網(wǎng)絡(luò)訂餐領(lǐng)域的詞匯,則變成了噪聲。
統(tǒng)計數(shù)據(jù)顯示,網(wǎng)絡(luò)訂餐的主力為80和90后,而80和90后中超過75%的人群使用搜狗輸入法,所以考慮將搜狗細胞詞庫引入本文模型。
2 專屬情感詞庫構(gòu)建
本文基于統(tǒng)計學原理,利用TF-IDF(Term Frequency–Inverse Document Frequency)加權(quán)算法構(gòu)建專屬情感詞庫的流程如圖1所示。
TF-IDF算法的主要思想是:如果某個詞在一類文本中出現(xiàn)頻率較高,但在其它類型文本中不出現(xiàn)或很少出現(xiàn),則認為此詞具有良好的分類能力[4]。
(1)考慮到個人對顏文字和網(wǎng)絡(luò)術(shù)語的不同偏愛,這些新詞出現(xiàn)的頻率成分散狀,為了避免因詞匯低頻出現(xiàn)錯誤的過濾,首先利用搜狗細胞詞庫中的“顏文字”(詞條共600個)和“網(wǎng)絡(luò)術(shù)語”(詞條共489個)對原評論進行轉(zhuǎn)換,例如圖2所示的這些顏文字均轉(zhuǎn)為“高興”一詞,并且為了加強情感,轉(zhuǎn)換后的詞重復出現(xiàn)一次,即圖2顏文字最終轉(zhuǎn)為“高興高興”出現(xiàn)在原評論,以此實現(xiàn)最簡單的加權(quán)。
(2)Hownet通用情感詞庫中,添加搜狗細胞詞庫中的“飲食大全”詞庫(詞條共6 918個)。
(3)添加搜狗細胞詞庫中的“常見錯別詞和短語”詞庫(詞條共466個),對評論中的錯別字進行修正。
(4)使用TF-IDF算法進行自動分類,區(qū)分通用情感詞和專屬情感詞,并對專屬情感詞庫多進行一輪手工篩選。
(5)建立網(wǎng)絡(luò)訂餐邏輯關(guān)聯(lián)詞庫,并添加至專屬情感庫中。
3 邏輯關(guān)聯(lián)詞庫構(gòu)建
參考曾淑琴、吳揚揚[5]“基于Hownet的詞語相關(guān)度計算模型”文章中的算法,在Hownet的基礎(chǔ)上,對外賣評論中的同義詞和邏輯關(guān)聯(lián)詞進行擴展,其中,與前文提出的重要屬性相關(guān)的詞,舉例如下:①配送快:飛快、神速、熱乎、燙;②配送慢:龜速、催促、坨了、冷冰冰;③分量足:好撐、吃不完;④包裝不完整:漏、摔爛、到處都是。
衛(wèi)生與否的屬性除了依靠同義詞判斷外,很大程度取決于是否吃出異物。因此利用網(wǎng)絡(luò)蜘蛛[6-7]腳本對評論中關(guān)鍵詞“吃出”后緊隨的詞語進行抓取,并人工篩除,得出常見的異物名詞如下:頭發(fā)、蟲子、蒼蠅、鐵絲、指甲、老鼠屎、避孕套等。
4 重要屬性意見挖掘
將與上文7個重要屬性相關(guān)的同義詞和邏輯關(guān)聯(lián)詞均替換為相對應的屬性情況,例如,出現(xiàn)上文中提出的“異物”名詞,則直接替換為“不衛(wèi)生”。
統(tǒng)計這些關(guān)鍵詞出現(xiàn)的次數(shù),可反映廣大用戶的真實導向,呈現(xiàn)給商家即可,例如,本地某連鎖飲食店的統(tǒng)計數(shù)據(jù)是:配送快(167)/慢(18),態(tài)度好(194)/差(0),包裝完整(27)/不完整(16),口味合適(82)/不合適(2),分量足(55)/不足(7),新鮮(76)/不新鮮(9),衛(wèi)生(58)/不衛(wèi)生(1)。
5 評論情感值計算
除7個重要屬性外,評論中還包含了不少外賣專屬情感詞,如果按照積極情感詞出現(xiàn)+1和消極詞-1進行統(tǒng)計,可以計算出近似的情感值。但是這種不考慮句式的計算是不妥當?shù)模凑罩形谋磉_習慣,轉(zhuǎn)折句在表述相同內(nèi)容的情感詞時,傳遞出來的情感值更強,而總結(jié)句表示對一段文字的歸納,反映了最直接的情感。因此,在情感值計算中,這兩種句式都應該賦予更大權(quán)重[8-10]。
常見的句式主要有兩種:轉(zhuǎn)折和總結(jié)。代表性關(guān)鍵詞如表1所示。
7 不足與展望
然而,本文設(shè)計依舊存在一些不能被順利分類的情況:
(1)評論中存在方言,表達強烈情感的詞則無法被挖掘出來。
(2)形如:“真!他!媽!難!吃!”或者“好吃到飛”這樣的句式,在分詞分句過程中存在一些問題,也不能繼續(xù)進行正確的情感分類。
此外,在對重要屬性的意見挖掘中,雖然可以統(tǒng)計出頻繁出現(xiàn)的菜品名稱,但無法較好地關(guān)聯(lián)到是否為針對某道菜品的評論,這些將在接下來的研究中繼續(xù)細化。
參考文獻:
[1] 魏韡,向陽,陳千.中文文本情感分析綜述[J].計算機應用,2011,31(12):3321-3323.
[2] 葉強,張紫瓊,羅振雄.面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別方法研究[J].信息系統(tǒng)學報,2007(1):79-91.
[3] 李勝宇,高俊波,許莉莉.面向酒店評論的情感分析模型[J].計算機系統(tǒng)應用,2017,26(1):227-231.
[4] 申劍博.改進的TF-IDF中文本特征詞加權(quán)算法研究[J].軟件導刊,2015(4):67-69.
[5] 曾淑琴,吳揚揚.基于HowNet的詞語相關(guān)度計算模型[J].微型機與應用,2012,31(8):77-80.
[6] 周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計算機科學,2009,36(8):26-29.
[7] 楊定中,趙剛,王泰.網(wǎng)絡(luò)爬蟲在Web信息搜索與數(shù)據(jù)挖掘中應用[J].計算機工程與設(shè)計,2009,30(24):5658-5662.
[8] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848.
[9] 周立柱,賀宇凱,王建勇.情感分析研究綜述[J]. 計算機應用, 2008, 28(11):2725-2728.
[10] 李方濤.基于產(chǎn)品評論的情感分析研究[D].北京:清華大學,2011.
(責任編輯:黃 健)