張 林, 鄒亞男, 孫 偉, 宋學官
(大連理工大學 機械工程學院, 遼寧 大連 116024)
隨著經濟的快速發展,高層建筑的數量逐漸增多,電梯慢慢成為了人們生活中不可或缺的工具之一。 電梯使用頻率的增加, 也導致人們對于電梯的性能品質有了更高的需求。 因此,在產品定制過程中,消費者的乘梯體驗顯的尤為重要。構建電梯評價情感分析系統,可以幫助企業直觀的了解用戶的體驗,使電梯產品的開發與創新更加精準與高效。
因具有將海量文本信息量化的優點,目前,文本情感分析技術被廣泛應用于工業、 服務業等。 2003 年Kusha等[1]人開發了第一個情感分析系統“ReviewSeer”,從用戶評論中挖掘產品優劣勢。之后,越來越多的情感分析系統應運而生。 但是,目前還未出現針對電梯領域的情感分析系統。 本文建立電梯用戶評價情感分析系統,為電梯的生產改進提供意見。
用戶乘梯后輸入評價,系統存入評論數據至數據庫。獲得評論語料后劃分句子, 基于依存句法分析定位評價電梯的情感詞,識別表征電梯產品特性的屬性詞,例如,“速度”等。 抽取評價單元后,判斷其情感極性和強度,并將評價單元歸類。 最后,利用可視化技術,直觀表達情感分析結果。 系統流程見圖1。

圖1 系統流程
在句子中,兩個詞語之間的語法關系稱為依存關系[2]。挖掘產品特征,主要關注句子中詞語之間的依存關系及詞性。 文本預處理后, 使用HanLP 包進行依存句法分析,實例如圖2 所示。

圖2 依存句法樹
本文根據句法依存特點, 總結了四類評價單元抽取規則: ①從句子核心詞 (核心關系指向詞)詞性出發。 當核心詞為屬性詞或情感詞,通過限制其詞性和依存關系,提取評價單元;②從核心詞的依存關系出發。限定依存關系,查找出依賴于核心詞的屬性詞或情感詞,從而提取評價單元;③對于前兩步提取的屬性詞和情感詞,查找其依存關系為并列關系的詞語;④對于前面提取的屬性詞和情感詞, 通過限制與其依賴關系和詞語詞性,提取否定副詞、程度副詞等。
基于上述評價單元抽取規則, 隨機選取1000 條分句,抽取示例見表1。 同時進行算法和人工抽取,N正—抽取的正確評價單元數量,N抽—抽取出的全部評價單元數量,N實—評價中實際含有的評價單元數量, 實驗評價結果如下:

表1 評價單元抽取示例

正確率從質量的角度反映系統的分類準確率; 召回率是從數量的角度來考察系統分類的完備性。 本文抽取規則的實驗結果在這兩個指標方面表現均衡。
用戶通過情感詞對電梯特性做出評價,所以,判斷評價單元中評價詞的情感詞極性成為用戶情感分析的關鍵。 本文運用情感詞典、 同義詞林和word2vce 結合的方法,將評價詞的情感極性劃分為積極和消極兩類。
2.2.1 情感詞典構建
情感詞典是文本感情分類的核心部分, 主要由積極情感詞典、消極情感詞典、否定詞典、程度副詞詞典以及領域搭配詞典五部分組成。本文整合HowNet 詞典[3]、中文褒貶詞典[4]和臺灣大學NTUSD 詞典[4]作為基礎詞典。
另外,在電梯行業,“小”形容“噪音”是積極情感,而搭配“空間”則是消極情感。因此,本文建立了電梯領域的搭配詞典,以達到盡可能高的情感分類準確率。
程度副詞來自HowNet 情感詞典,否定詞詞典采用公認的中文否定詞詞典。
2.2.2 基于同義詞林和word2vec 的相似度計算
(1)基于同義詞林的相似度計算。本文采用由朱新華等人改進的同義詞詞林[5],該詞林層次結構關系見圖3。

圖3 同義詞林樹形結構
本文采用朱新華等人提出的基于信息內容詞語相似度計算方法[6],如公式(1)所示,即計算出所有概念組合的相似度后,取相似度最大值作為詞語W1和W2的相似度,公式如(2)所示:

其中,MinDIFF 、MaxDIFF 分別表示C1、C2兩個詞語之間的最小、最大差異值,dis(C1,C2)為Jiang 等[7]提出的計算C1、C2差異性的函數。
(2)基于word2vec 的語義相似度計算。word2vec 是一種將詞表征為實數值向量的單隱層神經網絡模型, 通過訓練實現文本到向量的轉化, 通過計算向量之間的cosine 值來量化文本語義上的相似度。 余弦相似度計算公式如(3)所示:

其中,Xi、Yi代表詞語對應向量。 本文爬取電梯用戶評價3000 條,用于訓練word2vec 模型,計算詞語之間的相似性。
2.2.3 判斷情感詞極性
判斷情感詞極性的算法流程,見圖4。 評價單元首先與詞典匹配,識別含有描述電梯特定屬性的情感評價詞,標記評價詞的情感極性。

圖4 情感詞極性判斷流程
未被匹配的評價單元,利用同義詞林、詞向量和已識別的情感詞進行傾向判斷。 計算與已標記的積極評價詞相似度均值和消極評價詞相似度均值的差值, 判斷評價詞的情感極性。 計算公式如(4)所示,PN、NN 分別為已標記的積極和消極情感詞數量。 S>0 時,標記評價詞情感極性為正面,反之為負面。

從上述抽取規則等到的評價單元中隨機選取200 條數據, 同時進行算法和人工識別, 實驗結果評價如下: 精確率:P=92%; 召回率:R=98%;綜合指標:F=94.9%。
計算評價單元情感強度需考慮詞組中詞語的詞性和位置。評價詞組中,程度副詞和否定詞直接影響詞組的情感極性和強度。 因此,對于程度副詞和否定詞,本文按照詞典中劃分的不同等級進行賦值, 其值分別用ID、IN表示。 另設定積極情感詞權值為1,消極情感詞權值為-1。按照圖5 所示規則計算評價詞組情感強度。

圖5 情感強度計算規則
首先定位評價詞組中情感詞位置, 檢測其前面詞語的詞性類別。 例如,前面僅有一個程度副詞或否定詞時,評價單元的情感權重I 取情感詞權重的ID或IN倍。 最終得到的評價單元權重即為情感強度, 其值為正表示評價單元為正面評價,反之則為負面。
在對電梯某一特性評價時, 可能會出現不同的文本表述,因此本系統對這些不同的評價表達進行歸類,使評價結果更好的展現出來。文本結合項目需求,調整歸納關鍵詞,確定外觀、噪音等12 個評價指標。
利用上文訓練的word2vec 語義相似度計算模型,判斷各評價單元中屬性詞與預先設定指標的相似度, 將相應的評價單元歸類于相似度最大的指標。 隨機抽取200組評價單元, 同時進行算法和人工歸類, 實驗結果評價為:準確率P=86%,滿足系統需求。
本文提出了一種基于文本情感分析技術的電梯用戶評論情感分類與量化方法,并利用Django 與Vue 結合的技術開發了相應的情感分析系統。 用戶輸入評價后,經過后端數據處理,電梯各評價指標評價正負面評價數量、指標得分、電梯總體得分等數據均有直觀展示。該系統具有從大量文本中高效的提取用戶情感并量化為具體數值的功能,定制產品生產過程中為制造商洞察用戶體驗提供便利。