基于文本挖掘技術(shù)的客服投訴工單自動(dòng)分類探討

2017-02-06 06:14:35張吉皓

移動(dòng)通信 2017年23期

李顥，張吉皓

（1.上海郵電設(shè)計(jì)咨詢研究院有限公司，上海 200092；2.中國(guó)電信集團(tuán)公司客服運(yùn)營(yíng)支撐中心，上海 200040）

1 引言

在日常生產(chǎn)經(jīng)營(yíng)中，運(yùn)營(yíng)商每天都能獲取幾百TB的各類數(shù)據(jù)。這些數(shù)據(jù)日積月累，形成了一座巨大的“數(shù)據(jù)寶庫(kù)”。借助傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和工具，已經(jīng)可以實(shí)現(xiàn)針對(duì)結(jié)構(gòu)化數(shù)據(jù)的挖掘和分析，為生產(chǎn)經(jīng)營(yíng)活動(dòng)提供準(zhǔn)確、實(shí)時(shí)、有效的技術(shù)支持（如市場(chǎng)預(yù)測(cè)、業(yè)務(wù)預(yù)警、精準(zhǔn)營(yíng)銷等）。而針對(duì)非結(jié)構(gòu)化數(shù)據(jù)（如投訴內(nèi)容等文本、圖片等）的大量分析仍需要依靠人工配合開展，此外還缺少有效的方法和工具，從而容易造成大量數(shù)據(jù)沉淀在各個(gè)平臺(tái)和系統(tǒng)中的狀況，數(shù)據(jù)價(jià)值難以得到體現(xiàn)。在這種背景下，利用文本挖掘技術(shù)，充分挖掘出文本內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)背后所蘊(yùn)含的信息，將有助于發(fā)揮出數(shù)據(jù)的價(jià)值，從而更好地服務(wù)于日常工作。

基于海量的客戶投訴工單，借助大數(shù)據(jù)工具構(gòu)建基于非結(jié)構(gòu)化數(shù)據(jù)的文本分類模型，可實(shí)現(xiàn)投訴文本的自動(dòng)分類應(yīng)用。此外，利用熱詞可進(jìn)一步挖掘投訴工單中具有普遍性，且客戶關(guān)注度高的熱點(diǎn)問題，及時(shí)獲知用戶對(duì)產(chǎn)品、業(yè)務(wù)和服務(wù)的感知，提煉體驗(yàn)主題。

表1 常見的開源文本分類工具

2 文本挖掘的定義及工具

文本挖掘是對(duì)于非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理、分析及應(yīng)用的技術(shù)的統(tǒng)稱。一般來(lái)說(shuō)，首先利用文本切分技術(shù)，抽取文本特征，將文本數(shù)據(jù)轉(zhuǎn)化為能描述文本內(nèi)容的結(jié)構(gòu)化數(shù)據(jù)，然后利用聚類、分類和關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù)，形成結(jié)構(gòu)化文本，并根據(jù)該結(jié)構(gòu)發(fā)現(xiàn)新的概念，獲取相應(yīng)的關(guān)系。目前在新聞媒體、電子商務(wù)等領(lǐng)域，文本挖掘技術(shù)已得到了廣泛的應(yīng)用[1]。

隨著技術(shù)的發(fā)展，市面上出現(xiàn)了眾多文本分類工具，常見的開源文本分類工具如表1所示。

3 文本分類的應(yīng)用實(shí)踐

本文將結(jié)合運(yùn)營(yíng)商的投訴工單，進(jìn)行文本自動(dòng)分類模型的構(gòu)建以及應(yīng)用探索。

3.1 文本分類應(yīng)用的總體實(shí)施路徑

總體而言，此次文本分類應(yīng)用的實(shí)施路徑分為標(biāo)簽設(shè)計(jì)、模型構(gòu)建以及實(shí)例應(yīng)用3個(gè)階段，如圖1所示。

圖1 文本挖掘及分類應(yīng)用總體實(shí)施路徑

首先基于客戶生命周期以及服務(wù)質(zhì)量差距模型設(shè)計(jì)投訴分類標(biāo)簽，然后將投訴工單樣本打上相應(yīng)的標(biāo)簽，形成模型構(gòu)建所需的訓(xùn)練樣本集，通過多次迭代優(yōu)化，完成分類模型的構(gòu)建。（注：文中涉及建模所用到的投訴工單為某運(yùn)營(yíng)商的“寬帶服務(wù)”投訴工單，投訴工單量為5 757條，其中訓(xùn)練樣本4 665條，測(cè)試樣本1 092條?；诙啻挝谋就诰蝽?xiàng)目經(jīng)驗(yàn)，為保證模型分類效果，每個(gè)分類的最小訓(xùn)練樣本量為200個(gè)，此次文本挖掘?qū)τ?xùn)練樣本量進(jìn)行了適度擴(kuò)展）

后期將該模型部署上線，可用以輔助投訴工單的分析和體驗(yàn)主題的輸出。

3.2 標(biāo)簽設(shè)計(jì)

投訴標(biāo)簽設(shè)計(jì)是為了便于后期分析，重新定義投訴原因的過程。從寬帶服務(wù)的了解、購(gòu)買、交付、使用、付費(fèi)、求助和終止七大服務(wù)環(huán)節(jié)入手，聚焦用戶感知與感知期望的差距，提煉并重新設(shè)計(jì)了12項(xiàng)分類標(biāo)簽，具體如表2所示。寬帶服務(wù)分類標(biāo)簽定義如表3所示。

3.3 文本分類模型構(gòu)建

（1）分類算法選擇

選擇樸素貝葉斯算法來(lái)實(shí)現(xiàn)對(duì)于給定投訴工單的分類。樸素貝葉斯算法具有算法簡(jiǎn)單、分類速度快、開發(fā)難度小、適應(yīng)性強(qiáng)等特點(diǎn)，用通俗的語(yǔ)言可解釋為：

1）對(duì)于一條待分類的投訴工單x，對(duì)其進(jìn)行分詞，假設(shè)該投訴工單有300個(gè)字，可分拆成100個(gè)分詞。

2）標(biāo)簽體系的集合包含多個(gè)分類標(biāo)簽，本文中體驗(yàn)分類標(biāo)簽有12項(xiàng)，則分類標(biāo)簽為y1，y2，…，y12。

3）投訴工單內(nèi)每個(gè)分詞對(duì)應(yīng)這12項(xiàng)體驗(yàn)分類標(biāo)簽各有一個(gè)概率，其概率即為分詞的特征屬性。將投訴工單所包含的100個(gè)分詞對(duì)應(yīng)于某一個(gè)分類標(biāo)簽y1的概率加總，得到投訴工單x對(duì)應(yīng)于該分類標(biāo)簽y1的概率P(y1|x)。同理可以得到P(y2|x)，…，P(y12|x)。

4）選擇概率值最大的P所對(duì)應(yīng)的那個(gè)標(biāo)簽y作為投訴工單所屬的分類標(biāo)簽。

在實(shí)際應(yīng)用的過程中，通常用TF-IDF（Term Frequency-inverse Document Frequency，詞頻-逆文檔頻率）權(quán)重來(lái)代表分詞對(duì)分類的貢獻(xiàn)度，近似地替代分詞的分類概率[2-3]。

（2）分類模型構(gòu)建

基于寬帶投訴工單，通過選定的樸素貝葉斯算法構(gòu)建分類模型，最終實(shí)現(xiàn)給定投訴工單的自動(dòng)分類。整個(gè)模型構(gòu)建分為模型訓(xùn)練以及測(cè)試兩個(gè)步驟：

表2 寬帶服務(wù)分類標(biāo)簽

首先，通過人工識(shí)別的方式，根據(jù)設(shè)定的標(biāo)簽體系分類，給2 545個(gè)投訴工單樣本打上體驗(yàn)標(biāo)簽，形成訓(xùn)練集。運(yùn)用textgrocery軟件，對(duì)訓(xùn)練文本進(jìn)行中文分詞和文本預(yù)處理，然后基于樸素貝葉斯算法自動(dòng)計(jì)算特征向量和分類貢獻(xiàn)度（TF-IDF值），最終輸出形成分類規(guī)則表。則得到共約64萬(wàn)條規(guī)則（53 297分詞×12分類×1個(gè)TF-IDF值=639 564條規(guī)則），模型的初步構(gòu)建完成[4]。模型訓(xùn)練流程如圖2所示，分類規(guī)則示意如表4所示。

其次，將1 092條投訴工單的測(cè)試集（測(cè)試樣本量與訓(xùn)練樣本量之比一般在1:3到1:4之間，此次文本挖掘采用的測(cè)訓(xùn)比為1:4）導(dǎo)入模型，將模型分類結(jié)果與人工分類結(jié)果進(jìn)行比對(duì)，初建模型的準(zhǔn)確率為49%。

表3 寬帶服務(wù)分類標(biāo)簽的詳細(xì)定義

圖2 模型訓(xùn)練流程

影響模型準(zhǔn)確率的因素主要有3類：體驗(yàn)標(biāo)簽的質(zhì)量、訓(xùn)練樣本的質(zhì)量和待預(yù)測(cè)文本的質(zhì)量。

◆體驗(yàn)標(biāo)簽的質(zhì)量：包括完整性、獨(dú)立性和復(fù)雜性3個(gè)維度。

完整性：標(biāo)簽是否覆蓋所有的文本，完整性越好，模型分類越準(zhǔn)確；

獨(dú)立性：分類之間語(yǔ)義邏輯不交叉，獨(dú)立性越好，模型分類越準(zhǔn)確；

復(fù)雜性：分類是否復(fù)雜，分類越簡(jiǎn)單，模型分類越準(zhǔn)確。

◆訓(xùn)練樣本的質(zhì)量：包括準(zhǔn)確性、規(guī)模性、完整性和平衡性4個(gè)維度。

準(zhǔn)確性：人工訓(xùn)練樣本分類越準(zhǔn)確，模型分類越準(zhǔn)確；

規(guī)模性：各分類的訓(xùn)練樣本數(shù)量越多，模型分類越準(zhǔn)確；

完整性：訓(xùn)練的文本是完整的文本，不存在文本截?cái)喱F(xiàn)象，導(dǎo)致語(yǔ)義邏輯缺失；

平衡性：各分類的樣本量越均衡，模型分類越準(zhǔn)確。

◆待預(yù)測(cè)文本的質(zhì)量：主要指差異性。

差異性：待預(yù)測(cè)文本與訓(xùn)練樣本的分詞差異越小，模型分類越準(zhǔn)確。

為了進(jìn)一步提升模型自動(dòng)分類的準(zhǔn)確性，采取了調(diào)整分類體系、擴(kuò)充分類樣本、增加停用詞以及調(diào)整底層算法等方法。其中調(diào)整分類體系是為了保證體驗(yàn)標(biāo)簽的獨(dú)立性，從而提升體驗(yàn)標(biāo)簽的質(zhì)量。擴(kuò)充分類樣本是為了增加訓(xùn)練樣本的規(guī)模，從而提升訓(xùn)練樣本的質(zhì)量。增加停用詞庫(kù)是通過減少無(wú)意義的分詞，從而提升訓(xùn)練樣本的質(zhì)量，以減少對(duì)模型的干擾。調(diào)整底層算法是通過在原有分類之上增加分類層級(jí)，從而使得大類與大類之間、小類與小類之間的樣本量更加均衡，從而提升訓(xùn)練樣本的質(zhì)量。

經(jīng)過8次不同方面的調(diào)整優(yōu)化，最終使模型準(zhǔn)確率達(dá)到61%（具體調(diào)優(yōu)過程如表5所示），但相較于其他文本挖掘模型，還有一定的提升空間[5-7]。

3.4 應(yīng)用實(shí)例

在此基礎(chǔ)上，還自主開發(fā)了文本挖掘應(yīng)用工具，該工具目前已支持通過賬號(hào)遠(yuǎn)程登錄網(wǎng)頁(yè)界面進(jìn)行操作，可用于輔助投訴工單分析和體驗(yàn)主題輸出。

（1）輔助投訴工單分析

通過分類模型輸出給定分類下的投訴工單數(shù)量統(tǒng)計(jì)，如表6所示。一方面，可有效減少人工投入，另一方面實(shí)現(xiàn)了對(duì)分服務(wù)環(huán)節(jié)進(jìn)行月度投訴量的監(jiān)控。同時(shí)，在發(fā)現(xiàn)數(shù)據(jù)異常后，還可以通過分析該分類下的關(guān)鍵詞，快速定位投訴原因。

（2）體驗(yàn)主題輸出

根據(jù)分類標(biāo)簽和熱點(diǎn)關(guān)鍵詞的變化趨勢(shì)發(fā)現(xiàn)新增投訴、異常投訴和高比例投訴，從而確定體驗(yàn)主題，具體操作步驟如圖3所示。

4 結(jié)束語(yǔ)

本文結(jié)合現(xiàn)有的大數(shù)據(jù)以及語(yǔ)義分析技術(shù)，明確了總體實(shí)施路徑，通過設(shè)計(jì)分類標(biāo)簽，探索并構(gòu)建了文本挖掘模型，初步實(shí)現(xiàn)了基于客戶投訴工單中的非結(jié)構(gòu)化數(shù)據(jù)文本的自動(dòng)分類應(yīng)用。

但在對(duì)投訴工單進(jìn)行挖掘的過程中，仍有一些問題值得研究和探討，具體如下：

（1）現(xiàn)有模型的準(zhǔn)確率仍有提升的空間

現(xiàn)有模型準(zhǔn)確率為61%，仍具有一定的提升空間。可以在樣本、工具和算法3個(gè)方面對(duì)模型進(jìn)行優(yōu)化。具體來(lái)說(shuō)，在樣本優(yōu)化方面，增加某一分類下的訓(xùn)練樣本的數(shù)量，進(jìn)而提升模型對(duì)于這類分類下的文本識(shí)別能力，進(jìn)而幫助提升整體的模型準(zhǔn)確率。在工具優(yōu)化方面，可以在textgrocery基礎(chǔ)上繼續(xù)進(jìn)行二次開發(fā)[8]。在算法優(yōu)化方面，可以嘗試其他分類算法，如支持向量機(jī)（Support Vector Machine）算法應(yīng)用于文本挖掘等[9]。

（2）模型具有快速?gòu)?fù)制的優(yōu)勢(shì)

現(xiàn)有模型所涉及的分類算法以及原理對(duì)于非結(jié)構(gòu)化（文本）數(shù)據(jù)的自動(dòng)分類具備一定的通用性，因此可以通過重新定義分類標(biāo)準(zhǔn)，制作訓(xùn)練及測(cè)試樣本集，快速實(shí)現(xiàn)對(duì)于某一特定分類標(biāo)準(zhǔn)下的文本自動(dòng)分

類。這將有助于最大程度地發(fā)揮出模型效能，為企業(yè)的提質(zhì)增效提供有力的工具支撐，這是企業(yè)在人工智能落地應(yīng)用的一次探索。

表6 2016年投訴工單自動(dòng)分類結(jié)果

（3）基于客戶投訴的文本挖掘應(yīng)用可以進(jìn)一步優(yōu)化

目前，自主開發(fā)的文本挖掘應(yīng)用功能相對(duì)單一，后續(xù)可將文本聚類、實(shí)體識(shí)別、情感識(shí)別等功能補(bǔ)充到現(xiàn)有的文本挖掘應(yīng)用中，屆時(shí)應(yīng)用范圍將擴(kuò)展到輿情分析[10-11]、熱點(diǎn)話題識(shí)別、自動(dòng)摘要和趨勢(shì)分析方面；同時(shí)，充分利用數(shù)據(jù)可視化技術(shù)，將文本分析結(jié)果通過標(biāo)簽云、關(guān)聯(lián)關(guān)系、時(shí)間序列的形式進(jìn)行呈現(xiàn)[12]，提高將文本數(shù)據(jù)轉(zhuǎn)化為價(jià)值的效率，更好地支撐企業(yè)運(yùn)營(yíng)。

圖3 體驗(yàn)主題輸出流程

[1] 王國(guó)平,郭偉宸,汪若君. IBM SPSS Modeler數(shù)據(jù)與文本挖掘?qū)崙?zhàn)[M]. 北京: 清華大學(xué)出版社, 2014.

[2] 李丹. 基于樸素貝葉斯方法的中文文本分類研究[D]. 保定: 河北大學(xué), 2011.

[3] 華秀麗,朱巧明,李培峰. 語(yǔ)義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2012,29(3): 833-836.

[4] 劉懷亮,杜坤,秦春秀. 基于知網(wǎng)語(yǔ)義相似度的中文文本分類研究[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2015,31(2): 39-44.

[5] 張鍵鋒,王勁. 基于文本挖掘與神經(jīng)網(wǎng)絡(luò)的音樂風(fēng)格分類建模方法[J]. 電信科學(xué), 2015,31(7): 80-85.

[6] 葉明. 智能手機(jī)電子取證中文本分析的研究[D]. 武漢:武漢郵電科學(xué)研究院, 2014.

[7] 彭杰,石永革,高勝保. 基于對(duì)話內(nèi)容的交互型文本會(huì)話主題挖掘[J].電信科學(xué), 2016,32(9): 139-145.

[8] 張?chǎng)?許鑫. 文本挖掘工具述評(píng)[J]. 圖書情報(bào)工作, 2012,56(8): 26-31.

[9] 崔建明,劉建明,廖周宇. 基于SVM算法的文本分類技術(shù)研究[J]. 計(jì)算機(jī)仿真, 2013,30(2): 299-302.

[10] 黃曉斌,趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報(bào)科學(xué), 2009,27(1): 94-99.

[11] 琚春華,鮑福光,戴俊彥. 一種融入公眾情感投入分析的微博話題發(fā)現(xiàn)與細(xì)分方法[J]. 電信科學(xué), 2016,32(7): 97-105.

[12] 袁海,陳康,陶彩霞,等. 基于中文文本的可視化技術(shù)研究[J]. 電信科學(xué), 2014,30(4): 114-122. ★