李 顥,張吉皓
(1.上海郵電設(shè)計(jì)咨詢研究院有限公司,上海 200092;2.中國(guó)電信集團(tuán)公司客服運(yùn)營(yíng)支撐中心,上海 200040)
在日常生產(chǎn)經(jīng)營(yíng)中,運(yùn)營(yíng)商每天都能獲取幾百TB的各類數(shù)據(jù)。這些數(shù)據(jù)日積月累,形成了一座巨大的“數(shù)據(jù)寶庫(kù)”。借助傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和工具,已經(jīng)可以實(shí)現(xiàn)針對(duì)結(jié)構(gòu)化數(shù)據(jù)的挖掘和分析,為生產(chǎn)經(jīng)營(yíng)活動(dòng)提供準(zhǔn)確、實(shí)時(shí)、有效的技術(shù)支持(如市場(chǎng)預(yù)測(cè)、業(yè)務(wù)預(yù)警、精準(zhǔn)營(yíng)銷等)。而針對(duì)非結(jié)構(gòu)化數(shù)據(jù)(如投訴內(nèi)容等文本、圖片等)的大量分析仍需要依靠人工配合開展,此外還缺少有效的方法和工具,從而容易造成大量數(shù)據(jù)沉淀在各個(gè)平臺(tái)和系統(tǒng)中的狀況,數(shù)據(jù)價(jià)值難以得到體現(xiàn)。在這種背景下,利用文本挖掘技術(shù),充分挖掘出文本內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)背后所蘊(yùn)含的信息,將有助于發(fā)揮出數(shù)據(jù)的價(jià)值,從而更好地服務(wù)于日常工作。
基于海量的客戶投訴工單,借助大數(shù)據(jù)工具構(gòu)建基于非結(jié)構(gòu)化數(shù)據(jù)的文本分類模型,可實(shí)現(xiàn)投訴文本的自動(dòng)分類應(yīng)用。此外,利用熱詞可進(jìn)一步挖掘投訴工單中具有普遍性,且客戶關(guān)注度高的熱點(diǎn)問題,及時(shí)獲知用戶對(duì)產(chǎn)品、業(yè)務(wù)和服務(wù)的感知,提煉體驗(yàn)主題。

表1 常見的開源文本分類工具
文本挖掘是對(duì)于非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理、分析及應(yīng)用的技術(shù)的統(tǒng)稱。一般來(lái)說(shuō),首先利用文本切分技術(shù),抽取文本特征,將文本數(shù)據(jù)轉(zhuǎn)化為能描述文本內(nèi)容的結(jié)構(gòu)化數(shù)據(jù),然后利用聚類、分類和關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù),形成結(jié)構(gòu)化文本,并根據(jù)該結(jié)構(gòu)發(fā)現(xiàn)新的概念,獲取相應(yīng)的關(guān)系。目前在新聞媒體、電子商務(wù)等領(lǐng)域,文本挖掘技術(shù)已得到了廣泛的應(yīng)用[1]。
隨著技術(shù)的發(fā)展,市面上出現(xiàn)了眾多文本分類工具,常見的開源文本分類工具如表1所示。
本文將結(jié)合運(yùn)營(yíng)商的投訴工單,進(jìn)行文本自動(dòng)分類模型的構(gòu)建以及應(yīng)用探索。
總體而言,此次文本分類應(yīng)用的實(shí)施路徑分為標(biāo)簽設(shè)計(jì)、模型構(gòu)建以及實(shí)例應(yīng)用3個(gè)階段,如圖1所示。

圖1 文本挖掘及分類應(yīng)用總體實(shí)施路徑
首先基于客戶生命周期以及服務(wù)質(zhì)量差距模型設(shè)計(jì)投訴分類標(biāo)簽,然后將投訴工單樣本打上相應(yīng)的標(biāo)簽,形成模型構(gòu)建所需的訓(xùn)練樣本集,通過多次迭代優(yōu)化,完成分類模型的構(gòu)建。(注:文中涉及建模所用到的投訴工單為某運(yùn)營(yíng)商的“寬帶服務(wù)”投訴工單,投訴工單量為5 757條,其中訓(xùn)練樣本4 665條,測(cè)試樣本1 092條?;诙啻挝谋就诰蝽?xiàng)目經(jīng)驗(yàn),為保證模型分類效果,每個(gè)分類的最小訓(xùn)練樣本量為200個(gè),此次文本挖掘?qū)τ?xùn)練樣本量進(jìn)行了適度擴(kuò)展)
后期將該模型部署上線,可用以輔助投訴工單的分析和體驗(yàn)主題的輸出。
投訴標(biāo)簽設(shè)計(jì)是為了便于后期分析,重新定義投訴原因的過程。從寬帶服務(wù)的了解、購(gòu)買、交付、使用、付費(fèi)、求助和終止七大服務(wù)環(huán)節(jié)入手,聚焦用戶感知與感知期望的差距,提煉并重新設(shè)計(jì)了12項(xiàng)分類標(biāo)簽,具體如表2所示。寬帶服務(wù)分類標(biāo)簽定義如表3所示。
(1)分類算法選擇
選擇樸素貝葉斯算法來(lái)實(shí)現(xiàn)對(duì)于給定投訴工單的分類。樸素貝葉斯算法具有算法簡(jiǎn)單、分類速度快、開發(fā)難度小、適應(yīng)性強(qiáng)等特點(diǎn),用通俗的語(yǔ)言可解釋為:
1)對(duì)于一條待分類的投訴工單x,對(duì)其進(jìn)行分詞,假設(shè)該投訴工單有300個(gè)字,可分拆成100個(gè)分詞。
2)標(biāo)簽體系的集合包含多個(gè)分類標(biāo)簽,本文中體驗(yàn)分類標(biāo)簽有12項(xiàng),則分類標(biāo)簽為y1,y2,…,y12。
3)投訴工單內(nèi)每個(gè)分詞對(duì)應(yīng)這12項(xiàng)體驗(yàn)分類標(biāo)簽各有一個(gè)概率,其概率即為分詞的特征屬性。將投訴工單所包含的100個(gè)分詞對(duì)應(yīng)于某一個(gè)分類標(biāo)簽y1的概率加總,得到投訴工單x對(duì)應(yīng)于該分類標(biāo)簽y1的概率P(y1|x)。同理可以得到P(y2|x),…,P(y12|x)。
4)選擇概率值最大的P所對(duì)應(yīng)的那個(gè)標(biāo)簽y作為投訴工單所屬的分類標(biāo)簽。
在實(shí)際應(yīng)用的過程中,通常用TF-IDF(Term Frequency-inverse Document Frequency,詞頻-逆文檔頻率)權(quán)重來(lái)代表分詞對(duì)分類的貢獻(xiàn)度,近似地替代分詞的分類概率[2-3]。
(2)分類模型構(gòu)建
基于寬帶投訴工單,通過選定的樸素貝葉斯算法構(gòu)建分類模型,最終實(shí)現(xiàn)給定投訴工單的自動(dòng)分類。整個(gè)模型構(gòu)建分為模型訓(xùn)練以及測(cè)試兩個(gè)步驟:

表2 寬帶服務(wù)分類標(biāo)簽
首先,通過人工識(shí)別的方式,根據(jù)設(shè)定的標(biāo)簽體系分類,給2 545個(gè)投訴工單樣本打上體驗(yàn)標(biāo)簽,形成訓(xùn)練集。運(yùn)用textgrocery軟件,對(duì)訓(xùn)練文本進(jìn)行中文分詞和文本預(yù)處理,然后基于樸素貝葉斯算法自動(dòng)計(jì)算特征向量和分類貢獻(xiàn)度(TF-IDF值),最終輸出形成分類規(guī)則表。則得到共約64萬(wàn)條規(guī)則(53 297分詞×12分類×1個(gè)TF-IDF值=639 564條規(guī)則),模型的初步構(gòu)建完成[4]。模型訓(xùn)練流程如圖2所示,分類規(guī)則示意如表4所示。
其次,將1 092條投訴工單的測(cè)試集(測(cè)試樣本量與訓(xùn)練樣本量之比一般在1:3到1:4之間,此次文本挖掘采用的測(cè)訓(xùn)比為1:4)導(dǎo)入模型,將模型分類結(jié)果與人工分類結(jié)果進(jìn)行比對(duì),初建模型的準(zhǔn)確率為49%。

表3 寬帶服務(wù)分類標(biāo)簽的詳細(xì)定義

圖2 模型訓(xùn)練流程
影響模型準(zhǔn)確率的因素主要有3類:體驗(yàn)標(biāo)簽的質(zhì)量、訓(xùn)練樣本的質(zhì)量和待預(yù)測(cè)文本的質(zhì)量。
◆體驗(yàn)標(biāo)簽的質(zhì)量:包括完整性、獨(dú)立性和復(fù)雜性3個(gè)維度。
完整性:標(biāo)簽是否覆蓋所有的文本,完整性越好,模型分類越準(zhǔn)確;
獨(dú)立性:分類之間語(yǔ)義邏輯不交叉,獨(dú)立性越好,模型分類越準(zhǔn)確;
復(fù)雜性:分類是否復(fù)雜,分類越簡(jiǎn)單,模型分類越準(zhǔn)確。
◆訓(xùn)練樣本的質(zhì)量:包括準(zhǔn)確性、規(guī)模性、完整性和平衡性4個(gè)維度。
準(zhǔn)確性:人工訓(xùn)練樣本分類越準(zhǔn)確,模型分類越準(zhǔn)確;
規(guī)模性:各分類的訓(xùn)練樣本數(shù)量越多,模型分類越準(zhǔn)確;
完整性:訓(xùn)練的文本是完整的文本,不存在文本截?cái)喱F(xiàn)象,導(dǎo)致語(yǔ)義邏輯缺失;
平衡性:各分類的樣本量越均衡,模型分類越準(zhǔn)確。
◆待預(yù)測(cè)文本的質(zhì)量:主要指差異性。
差異性:待預(yù)測(cè)文本與訓(xùn)練樣本的分詞差異越小,模型分類越準(zhǔn)確。
為了進(jìn)一步提升模型自動(dòng)分類的準(zhǔn)確性,采取了調(diào)整分類體系、擴(kuò)充分類樣本、增加停用詞以及調(diào)整底層算法等方法。其中調(diào)整分類體系是為了保證體驗(yàn)標(biāo)簽的獨(dú)立性,從而提升體驗(yàn)標(biāo)簽的質(zhì)量。擴(kuò)充分類樣本是為了增加訓(xùn)練樣本的規(guī)模,從而提升訓(xùn)練樣本的質(zhì)量。增加停用詞庫(kù)是通過減少無(wú)意義的分詞,從而提升訓(xùn)練樣本的質(zhì)量,以減少對(duì)模型的干擾。調(diào)整底層算法是通過在原有分類之上增加分類層級(jí),從而使得大類與大類之間、小類與小類之間的樣本量更加均衡,從而提升訓(xùn)練樣本的質(zhì)量。
經(jīng)過8次不同方面的調(diào)整優(yōu)化,最終使模型準(zhǔn)確率達(dá)到61%(具體調(diào)優(yōu)過程如表5所示),但相較于其他文本挖掘模型,還有一定的提升空間[5-7]。
在此基礎(chǔ)上,還自主開發(fā)了文本挖掘應(yīng)用工具,該工具目前已支持通過賬號(hào)遠(yuǎn)程登錄網(wǎng)頁(yè)界面進(jìn)行操作,可用于輔助投訴工單分析和體驗(yàn)主題輸出。
(1)輔助投訴工單分析
通過分類模型輸出給定分類下的投訴工單數(shù)量統(tǒng)計(jì),如表6所示。一方面,可有效減少人工投入,另一方面實(shí)現(xiàn)了對(duì)分服務(wù)環(huán)節(jié)進(jìn)行月度投訴量的監(jiān)控。同時(shí),在發(fā)現(xiàn)數(shù)據(jù)異常后,還可以通過分析該分類下的關(guān)鍵詞,快速定位投訴原因。
(2)體驗(yàn)主題輸出
根據(jù)分類標(biāo)簽和熱點(diǎn)關(guān)鍵詞的變化趨勢(shì)發(fā)現(xiàn)新增投訴、異常投訴和高比例投訴,從而確定體驗(yàn)主題,具體操作步驟如圖3所示。
本文結(jié)合現(xiàn)有的大數(shù)據(jù)以及語(yǔ)義分析技術(shù),明確了總體實(shí)施路徑,通過設(shè)計(jì)分類標(biāo)簽,探索并構(gòu)建了文本挖掘模型,初步實(shí)現(xiàn)了基于客戶投訴工單中的非結(jié)構(gòu)化數(shù)據(jù)文本的自動(dòng)分類應(yīng)用。
但在對(duì)投訴工單進(jìn)行挖掘的過程中,仍有一些問題值得研究和探討,具體如下:
(1)現(xiàn)有模型的準(zhǔn)確率仍有提升的空間
現(xiàn)有模型準(zhǔn)確率為61%,仍具有一定的提升空間。可以在樣本、工具和算法3個(gè)方面對(duì)模型進(jìn)行優(yōu)化。具體來(lái)說(shuō),在樣本優(yōu)化方面,增加某一分類下的訓(xùn)練樣本的數(shù)量,進(jìn)而提升模型對(duì)于這類分類下的文本識(shí)別能力,進(jìn)而幫助提升整體的模型準(zhǔn)確率。在工具優(yōu)化方面,可以在textgrocery基礎(chǔ)上繼續(xù)進(jìn)行二次開發(fā)[8]。在算法優(yōu)化方面,可以嘗試其他分類算法,如支持向量機(jī)(Support Vector Machine)算法應(yīng)用于文本挖掘等[9]。
(2)模型具有快速?gòu)?fù)制的優(yōu)勢(shì)
現(xiàn)有模型所涉及的分類算法以及原理對(duì)于非結(jié)構(gòu)化(文本)數(shù)據(jù)的自動(dòng)分類具備一定的通用性,因此可以通過重新定義分類標(biāo)準(zhǔn),制作訓(xùn)練及測(cè)試樣本集,快速實(shí)現(xiàn)對(duì)于某一特定分類標(biāo)準(zhǔn)下的文本自動(dòng)分
類。這將有助于最大程度地發(fā)揮出模型效能,為企業(yè)的提質(zhì)增效提供有力的工具支撐,這是企業(yè)在人工智能落地應(yīng)用的一次探索。

表6 2016年投訴工單自動(dòng)分類結(jié)果
(3)基于客戶投訴的文本挖掘應(yīng)用可以進(jìn)一步優(yōu)化
目前,自主開發(fā)的文本挖掘應(yīng)用功能相對(duì)單一,后續(xù)可將文本聚類、實(shí)體識(shí)別、情感識(shí)別等功能補(bǔ)充到現(xiàn)有的文本挖掘應(yīng)用中,屆時(shí)應(yīng)用范圍將擴(kuò)展到輿情分析[10-11]、熱點(diǎn)話題識(shí)別、自動(dòng)摘要和趨勢(shì)分析方面;同時(shí),充分利用數(shù)據(jù)可視化技術(shù),將文本分析結(jié)果通過標(biāo)簽云、關(guān)聯(lián)關(guān)系、時(shí)間序列的形式進(jìn)行呈現(xiàn)[12],提高將文本數(shù)據(jù)轉(zhuǎn)化為價(jià)值的效率,更好地支撐企業(yè)運(yùn)營(yíng)。

圖3 體驗(yàn)主題輸出流程
[1] 王國(guó)平,郭偉宸,汪若君. IBM SPSS Modeler數(shù)據(jù)與文本挖掘?qū)崙?zhàn)[M]. 北京: 清華大學(xué)出版社, 2014.
[2] 李丹. 基于樸素貝葉斯方法的中文文本分類研究[D]. 保定: 河北大學(xué), 2011.
[3] 華秀麗,朱巧明,李培峰. 語(yǔ)義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2012,29(3): 833-836.
[4] 劉懷亮,杜坤,秦春秀. 基于知網(wǎng)語(yǔ)義相似度的中文文本分類研究[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2015,31(2): 39-44.
[5] 張鍵鋒,王勁. 基于文本挖掘與神經(jīng)網(wǎng)絡(luò)的音樂風(fēng)格分類建模方法[J]. 電信科學(xué), 2015,31(7): 80-85.
[6] 葉明. 智能手機(jī)電子取證中文本分析的研究[D]. 武漢:武漢郵電科學(xué)研究院, 2014.
[7] 彭杰,石永革,高勝保. 基于對(duì)話內(nèi)容的交互型文本會(huì)話主題挖掘[J].電信科學(xué), 2016,32(9): 139-145.
[8] 張?chǎng)?許鑫. 文本挖掘工具述評(píng)[J]. 圖書情報(bào)工作, 2012,56(8): 26-31.
[9] 崔建明,劉建明,廖周宇. 基于SVM算法的文本分類技術(shù)研究[J]. 計(jì)算機(jī)仿真, 2013,30(2): 299-302.
[10] 黃曉斌,趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報(bào)科學(xué), 2009,27(1): 94-99.
[11] 琚春華,鮑福光,戴俊彥. 一種融入公眾情感投入分析的微博話題發(fā)現(xiàn)與細(xì)分方法[J]. 電信科學(xué), 2016,32(7): 97-105.
[12] 袁海,陳康,陶彩霞,等. 基于中文文本的可視化技術(shù)研究[J]. 電信科學(xué), 2014,30(4): 114-122. ★