顧斌++彭濤++車偉
摘 要: 為了有效提高電力企業客戶滿意度及主動服務意識,結合電力客服工單文本特征,構建了電力客服工單情感分析模型。先通過TF?IDF思想進行工單關鍵詞提取,采用word2vec訓練得出每個詞語的詞向量,通過計算余弦相似度將高相似領域詞匯擴充到情感詞典,再進行工單傾向性分析及文本分類。通過實驗分析驗證該方法的有效性,實驗結果表明,相較于原始情感詞典,進行詞典擴充及工單情感傾向性分析方法更具優勢,準確率更高,可為電力企業客戶關系管理提供一定的參考。
關鍵詞: 情感分析; 情感傾向性; 詞典擴充; 電力客服工單; 主動服務
中圖分類號: TN915.853?34; V249 文獻標識碼: A 文章編號: 1004?373X(2017)11?0163?04
Dictionary expansion based sentiment tendency analysis of power customer service order
GU Bin, PENG Tao, CHE Wei
(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)
Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.
Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service
0 引 言
隨著電力體制改革的逐步深化,配電市場競爭不斷加劇,迫切需要供電企業改變傳統的思維方式和工作模式,進一步樹立市場化服務意識,從客戶需求出發,挖掘客戶的潛在需求和內在價值,從而提升客戶滿意度和運營效益。作為與客戶交流、溝通的重要窗口,電力企業95598客服系統記錄了海量的客戶信息,若能徹底挖掘客服工單中的客戶特征、情感信息并了解客戶的關注焦點,對電力企業和客戶都將具有十分重要的意義[1]。
電力客服工單情感傾向性分析可以有效地發掘客戶情感信息和需求,可根據客戶情感傾向性識別潛在的投訴客戶,可根據反饋信息判別某項業務的實施效果等。針對文本情感傾向性分析,現有的理論研究比較側重于文本特征提取以及采用機器學習方法對文本進行分類,但是基于具體業務特征進行情感詞典擴充的研究還比較少,導致情感傾向性計算往往會存在一定的差異,因此,根據電力行業的特點,進行客戶服務工單情感詞典擴充及情感傾向性的研究非常有必要。
情感分析是指利用文本挖掘、機器學習技術分析挖掘隱藏在文本中的情感信息,并將其分類為積極情感態度和消極情感態度[2]。目前,國內外關于文本情感傾向性分析已經進行了較多的研究工作[3?7],文獻[3]基于情感詞間的點互信息和上下文約束,提出一種兩階段的領域情感詞典構建算法,提升了情感詞情感傾向的識別能力。文獻[4]研究了基于矩陣投影(MP)和歸一化向量(NLV)的文本分類算法,實現對商品評價的情感分析,不僅可以有效識別商品評論情感性傾向,而且提升了識別效率。文獻[5]將詞級別向量和字級別向量作為原始特征,采用卷積神經網絡提取文本特征并進行情感傾向性分析,結果表明字級別向量可取得較高的準確率。文獻[6]提出一種詞圖模型的方法,利用PageRank算法得到情感詞的褒貶權值,并將其作為條件隨機場模型特征預測情感詞傾向,提升了具體語境下預測的準確性,但是針對文本數量較大的情況準確率較低。文獻[7]結合句子結構上下文語義關聯信息,提出一種基于深度神經網絡的跨文本粒度情感分類模型,提升了分類準確率,但該方法只適應于特定領域,泛化能力較低。
鑒于以上研究現狀,本文以電力客戶服務領域文本特征為突破口,構建了電力客服工單情感分析模型,基于工單關鍵詞提取對原始的情感詞典進行擴充,并對工單情感傾向性進行分析,最后,通過算例應用驗證了本文所提方法的有效性。
1 相關工作
1.1 情感分類
情感分類技術的主要目標是基于文本數據識別用戶所表達的情感信息,并將文本數據分為正類和負類。當前,針對情感分類的研究,主要從監督學習、基于規則方法、跨領域情感分析等方面展開研究,與此同時,針對文本特征的提取和特征情感判別是情感分類研究的兩個關鍵問題。
1.2 Word2vec介紹
word2vec是Google在2013年開源的一款將詞表征為實數值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即連續的詞袋模型)和Skip?Gram兩種,word2vec采用的是Distributed Representation的詞向量表示方式,經過對輸入集數據進行訓練,可以實現將文本詞匯轉換為維空間向量,然后基于空間向量相似度來表達文本語義相似度,模型輸出結果可用于自然語言處理領域相關工作,比如文本聚類、詞典擴充、詞性分析等。
word2vec生成詞向量的基本思想來源于NNLM(Neural Network Language Model)模型,其采用一個三層神經網絡構建語言模型,假設某個詞的出現只與前個詞相關,其原理示意圖如圖1所示。
圖1中,最下方的為前個輸入詞,并根據其預測下一個詞每個輸入詞被映射為一個向量,為詞語的詞向量。網絡的第一層(輸入層)為輸入詞語組成的維向量網絡第二層(隱藏層)計算為偏置因子,使用激活函數tanh;網絡第三層(輸出層)包含個節點,每個節點表示下一詞的未歸一化log概率,并使用softmax激活函數將輸出值歸一化,最后使用隨機梯度下降法對模型進行優化。
圖1 NNLM原理模型圖
模型的目標函數為:
需要滿足的約束條件為:
2 電力客服工單情感分析模型
本文以某電力公司客服工單數據為研究對象,在深入理解電力業務及工單文本語義特點的基礎上,建立了一種電力客服工單情感分析模型。首先,在進行文本預處理的基礎上,對文本進行分詞處理并且完成關鍵詞提取;然后,采用word2vec訓練工單數據,并基于關鍵詞進行情感詞典擴充,構建電力客服領域專用情感詞典;最后,進行工單情感傾向性分析。
2.1 工單文本預處理
由于工單文本數據中存在大量價值含量較低甚至沒有價值意義的數據,在進行分詞、情感分析中會對結果產生較大的影響,那么在文本挖掘之前就必須先進行文本預處理,去除大量沒有挖掘意義的工單數據。工單文本預處理工作主要包括:刪除未標注業務類型數據、分句處理、文本去重、短句刪除等。
分句處理:將工單數據處理成以句子為最小單位,以句尾標點符號為標志分割,包括“,”,“。”,“;”,“!”等符號。
文本去重:就是去除工單數據中重復的部分,常用的方法有觀察比較刪除法、編輯距離去重法、Simhash算法去重等。
短句刪除:刪除過短的文本,如“還可以”,“非常好”等,設置文本字符數下限為10個國際字符。
2.2 電力客戶服務領域情感詞典構建
2.2.1 分詞
本文采用python的jieba分詞工具對數據集進行分詞,并完成詞性標注和去除停用詞,由于情感分析通常由名詞、形容詞、副詞和連詞等反映出來,因此刪除詞性為動詞的詞匯。jieba中文分詞工具包包含三種分詞模式:精確模式、全模式和搜索引擎模式,綜合分詞效果及后文的研究,本文選擇精確模式進行分詞,三種模式的分詞效果如表1所示。
另外,在實際的分詞過程中,出現了個別分詞結果與實際的語義不符,原因是字典中缺少相關的專有名詞,或者是這些詞語的詞頻較低,比如“客戶/咨詢/抄/表示/數等/信息”,“客戶/查戶/號”,“變壓器/重/過載”,“查/分/時/電價”等,因此,需要對原有詞典進行更新。python中采用jieba.load_userdict(dict.txt)語句添加自定義詞典,其中dict.txt是保存字典內容的文件,其格式為每一行分三部分:一部分為詞語;另一部分為詞頻;最后為詞性(可省略),用空格隔開。
2.2.2 關鍵詞提取
構建電力客戶服務領域專屬情感詞典,需要盡可能保證領域詞典的多樣性,關鍵詞的提取要求一方面能夠盡量反應出這個特征項所屬的類別,另一方面能夠把自身屬于的類別與其他類別有效地區分開來,依據此原理,本文采用TF?IDF思想進行電力客戶服務領域關鍵詞的提取,關鍵詞選取的權重決定了情感詞典的多樣性,為下文情感詞典的擴充做好基礎,算法原理如下。
將工單文檔和特征項構建成二維矩陣,各條工單的特征向量可表示為:
式中:表示第個工單中第個特征中的詞頻。則與為:
式中:表示語料庫中的文件總數;表示包含詞語的文件總數,防止分母為零的情況,通常對分母做+1的處理。因此,的計算公式為:
實際應用中,依據維度的大小確定相應的權重大小,這樣就形成了代表語料特征的關鍵詞集。
2.2.3 基于word2vec進行情感詞典擴充
隨著經濟技術的發展及客戶文化的差異,不同的客戶通常使用不同的詞匯描述同一個對象特征,且電力行業中存在許多專用詞匯,同樣也表達了一定情感,但這些詞脫離于現有的情感詞典,因此,有必要對現有的情感詞典進行擴充,進而提升工單情感傾向性分析的準確性[8]。選取中國知網情感詞集和大連理工大學林鴻飛教授整理和標注的中文情感詞匯本體庫作為基礎的情感詞典,然后依據權重較大的關鍵詞對原有詞典進行擴充[9]。基于上文電力客戶服務工單中提取的關鍵詞,采用word2vec工具對工單數據集進行訓練,根據CBOW模型或Skip?Gram模型訓練出每個詞的詞向量,并通過計算余弦相似度得到文本語義上的相似度,并將相似度較高的詞語加入到情感詞典中。
依據上文分詞后得到的工單文本數據,采用Linux Version2.6環境對數據進行訓練,操作命令如下:
./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1
其中,data95598.txt為輸入數據集;vectors_95598data.bin為模型輸出文件;采用Skip?Gram模型進行訓練,詞向量維度設置為200;訓練窗口大小設置為5;-sample表示采樣的閾值,訓練結果采用二進制方式存儲。這樣,得到的模型文件中就包含了每個詞的詞向量。
采用余弦相似度計算關鍵詞的相似詞,即基于生成的詞向量計算兩個維向量的相似度,因為word2vec本身就是基于上下文語義生成的詞向量,因此,余弦值越大,表明兩個詞語的語義越相似。向量與的余弦計算公式如下:
通過distince命令計算輸入詞與其他詞的余弦相似度,經過排序返回相似詞列表,再經過人工篩選,將這些詞加入到原有情感詞典中,實現對原有情感詞典的擴充。
2.3 工單情感傾向性分析
工單情感傾向性分析是基于構建的情感詞典,計算每個客服工單的情感分值,從而判斷工單的情感傾向性。通過上文處理,每一個客服工單都可以被分割成一個個子句片段,表示為每個子句片段由一系列分詞后的詞語構成,提取每個句子的情感詞、否定詞等,表示為依據情感詞典中給定詞的極性值計算每個子句的情感值,分別計算每個句子的正向和負向情感分值,計算公式如下:
式中:SenSum表示某個客服工單的情感分值;表示第個子句中第個正向情感詞的極性值;表示第個子句中第個負向情感詞的極性值。
在否定子句中,當為偶數時,否定子句情感為正;當為奇數時,否定子句情感極性為負。對所有的子句情感分值求和并求均值,就得到了整個客服工單的情感值,進而判斷客服工單的情感傾向性,若SenSum為正,表示工單情感為正向;否則,工單情感為負向。
3 實驗分析
3.1 實驗數據準備
本文的實驗環境基于Linux系統,采用python語言進行算法的實現,抽取某電力公司95598客服工單數據作為研究對象,運用jieba包進行中文分詞處理,并采用word2vec訓練數據生成詞向量及擴充情感詞典。由于工單數據是按照業務類型生成的,因此選取業務類型為表揚的工單作為正類,選取業務類型為投訴的作為負類,其中,正類和負類數據比例為21,共得到20 000條數據作為實驗數據集,隨后進行情感傾向性分析,隨機選擇70%的數據作為訓練集,30%的數據作為測試集。
3.2 評價指標
當前針對文本分類效果評估有許多方法,本文選擇準確率(precision)、召回率(recall)和值進行文本情感分類效果的評估,準確率是對分類精確性的度量,召回率是對分類完全性的度量,值越大說明分類效果越好,準確率和召回率是一組互斥指標,值是將二者結合的一個度量指標,值越大,分類效果越好,并將通過本文情感分析模型得到的結果與業務員標注的類型做對比分析。它們的計算公式如下:
3.3 實驗結果及分析
本文基于抽取到的客服工單數據,結合設計的電力客服工單情感分析模型,實現對電力客戶服務領域情感詞典的擴充,并基于構建的電力客服領域專屬詞典進行工單情感傾向性分析,70%的數據用于訓練word2vec并進行情感詞典的擴充,30%的數據用于測試工單情感分類的準確性。測試集共包含工單數6 000條,其中正類工單3 895條,負類工單2 105條。將采用本文情感分析模型得到的結果與原始基礎情感詞典得到的結果進行對比分析,見表2。
由表2可知,采用本文構建的電力客服工單詞典針對正向和負向的情感詞都有較高的準確率、召回率和值,由此可知,本文設計的電力客服工單情感分析模型是合理的,且具有明顯的性能優勢。
4 結 語
本文設計了一種電力客服工單情感分析模型,構建了電力客服領域情感專用詞典并進行工單情感傾向性分析。采用word2vec工具對采集到的數據進行訓練,并用測試集數據對本文提出的模型進行驗證分析,結果表明,本文所提方法具有一定的合理性和可行性,可為電力企業客戶關系管理提供一定的參考意義,促進企業客戶滿意度及運營效益的提升。此外,本文主要研究了基于構建的電力客服專用情感詞典進行客戶情感傾向性分析,但是對于無監督性學習方法情感傾向性分析以及情感強度的分析還有待進一步研究。
參考文獻
[1] 李勝宇,高俊波,許莉莉.面向酒店評論的情感分析模型[J].計算機系統應用,2017,26(1):227?231.
[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.
[3] 郗亞輝.產品評論中領域情感詞典的構建[J].中文信息學報,2016,30(5):136?144.
[4] 鐘將,楊思源,孫啟干.基于文本分類的商品評價情感分析[J].計算機應用,2014,34(8):2317?2321.
[5] 劉龍飛,楊亮,張紹武,等.基于卷積神經網絡的微博情感傾向性分析[J].中文信息學報,2015,29(6):159?165.
[6] 黃挺,姬東鴻.基于圖模型和多分類器的微博情感傾向性分析[J].計算機工程,2015,41(4):171?175.
[7] 劉金碩,張智.一種基于聯合深度神經網絡的食品安全信息情感分類模型[J].計算機科學,2016,43(12):277?280.
[8] 黃仁,張衛.基于word2vec的互聯網商品評論情感傾向研究[J].計算機科學,2016,43(z1):387?389.
[9] 張冬雯,楊鵬飛,許云峰.基于word2vec和SVMperf的中文評論情感分類研究[J].計算機科學,2016,43(z1):418?421.