999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘技術(shù)的客服投訴工單自動(dòng)分類探討

2017-02-06 06:14:35張吉皓
移動(dòng)通信 2017年23期
關(guān)鍵詞:分類文本模型

李 顥,張吉皓

(1.上海郵電設(shè)計(jì)咨詢研究院有限公司,上海 200092;2.中國(guó)電信集團(tuán)公司客服運(yùn)營(yíng)支撐中心,上海 200040)

1 引言

在日常生產(chǎn)經(jīng)營(yíng)中,運(yùn)營(yíng)商每天都能獲取幾百TB的各類數(shù)據(jù)。這些數(shù)據(jù)日積月累,形成了一座巨大的“數(shù)據(jù)寶庫(kù)”。借助傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和工具,已經(jīng)可以實(shí)現(xiàn)針對(duì)結(jié)構(gòu)化數(shù)據(jù)的挖掘和分析,為生產(chǎn)經(jīng)營(yíng)活動(dòng)提供準(zhǔn)確、實(shí)時(shí)、有效的技術(shù)支持(如市場(chǎng)預(yù)測(cè)、業(yè)務(wù)預(yù)警、精準(zhǔn)營(yíng)銷等)。而針對(duì)非結(jié)構(gòu)化數(shù)據(jù)(如投訴內(nèi)容等文本、圖片等)的大量分析仍需要依靠人工配合開展,此外還缺少有效的方法和工具,從而容易造成大量數(shù)據(jù)沉淀在各個(gè)平臺(tái)和系統(tǒng)中的狀況,數(shù)據(jù)價(jià)值難以得到體現(xiàn)。在這種背景下,利用文本挖掘技術(shù),充分挖掘出文本內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)背后所蘊(yùn)含的信息,將有助于發(fā)揮出數(shù)據(jù)的價(jià)值,從而更好地服務(wù)于日常工作。

基于海量的客戶投訴工單,借助大數(shù)據(jù)工具構(gòu)建基于非結(jié)構(gòu)化數(shù)據(jù)的文本分類模型,可實(shí)現(xiàn)投訴文本的自動(dòng)分類應(yīng)用。此外,利用熱詞可進(jìn)一步挖掘投訴工單中具有普遍性,且客戶關(guān)注度高的熱點(diǎn)問題,及時(shí)獲知用戶對(duì)產(chǎn)品、業(yè)務(wù)和服務(wù)的感知,提煉體驗(yàn)主題。

表1 常見的開源文本分類工具

2 文本挖掘的定義及工具

文本挖掘是對(duì)于非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理、分析及應(yīng)用的技術(shù)的統(tǒng)稱。一般來(lái)說(shuō),首先利用文本切分技術(shù),抽取文本特征,將文本數(shù)據(jù)轉(zhuǎn)化為能描述文本內(nèi)容的結(jié)構(gòu)化數(shù)據(jù),然后利用聚類、分類和關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù),形成結(jié)構(gòu)化文本,并根據(jù)該結(jié)構(gòu)發(fā)現(xiàn)新的概念,獲取相應(yīng)的關(guān)系。目前在新聞媒體、電子商務(wù)等領(lǐng)域,文本挖掘技術(shù)已得到了廣泛的應(yīng)用[1]。

隨著技術(shù)的發(fā)展,市面上出現(xiàn)了眾多文本分類工具,常見的開源文本分類工具如表1所示。

3 文本分類的應(yīng)用實(shí)踐

本文將結(jié)合運(yùn)營(yíng)商的投訴工單,進(jìn)行文本自動(dòng)分類模型的構(gòu)建以及應(yīng)用探索。

3.1 文本分類應(yīng)用的總體實(shí)施路徑

總體而言,此次文本分類應(yīng)用的實(shí)施路徑分為標(biāo)簽設(shè)計(jì)、模型構(gòu)建以及實(shí)例應(yīng)用3個(gè)階段,如圖1所示。

圖1 文本挖掘及分類應(yīng)用總體實(shí)施路徑

首先基于客戶生命周期以及服務(wù)質(zhì)量差距模型設(shè)計(jì)投訴分類標(biāo)簽,然后將投訴工單樣本打上相應(yīng)的標(biāo)簽,形成模型構(gòu)建所需的訓(xùn)練樣本集,通過多次迭代優(yōu)化,完成分類模型的構(gòu)建。(注:文中涉及建模所用到的投訴工單為某運(yùn)營(yíng)商的“寬帶服務(wù)”投訴工單,投訴工單量為5 757條,其中訓(xùn)練樣本4 665條,測(cè)試樣本1 092條?;诙啻挝谋就诰蝽?xiàng)目經(jīng)驗(yàn),為保證模型分類效果,每個(gè)分類的最小訓(xùn)練樣本量為200個(gè),此次文本挖掘?qū)τ?xùn)練樣本量進(jìn)行了適度擴(kuò)展)

后期將該模型部署上線,可用以輔助投訴工單的分析和體驗(yàn)主題的輸出。

3.2 標(biāo)簽設(shè)計(jì)

投訴標(biāo)簽設(shè)計(jì)是為了便于后期分析,重新定義投訴原因的過程。從寬帶服務(wù)的了解、購(gòu)買、交付、使用、付費(fèi)、求助和終止七大服務(wù)環(huán)節(jié)入手,聚焦用戶感知與感知期望的差距,提煉并重新設(shè)計(jì)了12項(xiàng)分類標(biāo)簽,具體如表2所示。寬帶服務(wù)分類標(biāo)簽定義如表3所示。

3.3 文本分類模型構(gòu)建

(1)分類算法選擇

選擇樸素貝葉斯算法來(lái)實(shí)現(xiàn)對(duì)于給定投訴工單的分類。樸素貝葉斯算法具有算法簡(jiǎn)單、分類速度快、開發(fā)難度小、適應(yīng)性強(qiáng)等特點(diǎn),用通俗的語(yǔ)言可解釋為:

1)對(duì)于一條待分類的投訴工單x,對(duì)其進(jìn)行分詞,假設(shè)該投訴工單有300個(gè)字,可分拆成100個(gè)分詞。

2)標(biāo)簽體系的集合包含多個(gè)分類標(biāo)簽,本文中體驗(yàn)分類標(biāo)簽有12項(xiàng),則分類標(biāo)簽為y1,y2,…,y12。

3)投訴工單內(nèi)每個(gè)分詞對(duì)應(yīng)這12項(xiàng)體驗(yàn)分類標(biāo)簽各有一個(gè)概率,其概率即為分詞的特征屬性。將投訴工單所包含的100個(gè)分詞對(duì)應(yīng)于某一個(gè)分類標(biāo)簽y1的概率加總,得到投訴工單x對(duì)應(yīng)于該分類標(biāo)簽y1的概率P(y1|x)。同理可以得到P(y2|x),…,P(y12|x)。

4)選擇概率值最大的P所對(duì)應(yīng)的那個(gè)標(biāo)簽y作為投訴工單所屬的分類標(biāo)簽。

在實(shí)際應(yīng)用的過程中,通常用TF-IDF(Term Frequency-inverse Document Frequency,詞頻-逆文檔頻率)權(quán)重來(lái)代表分詞對(duì)分類的貢獻(xiàn)度,近似地替代分詞的分類概率[2-3]。

(2)分類模型構(gòu)建

基于寬帶投訴工單,通過選定的樸素貝葉斯算法構(gòu)建分類模型,最終實(shí)現(xiàn)給定投訴工單的自動(dòng)分類。整個(gè)模型構(gòu)建分為模型訓(xùn)練以及測(cè)試兩個(gè)步驟:

表2 寬帶服務(wù)分類標(biāo)簽

首先,通過人工識(shí)別的方式,根據(jù)設(shè)定的標(biāo)簽體系分類,給2 545個(gè)投訴工單樣本打上體驗(yàn)標(biāo)簽,形成訓(xùn)練集。運(yùn)用textgrocery軟件,對(duì)訓(xùn)練文本進(jìn)行中文分詞和文本預(yù)處理,然后基于樸素貝葉斯算法自動(dòng)計(jì)算特征向量和分類貢獻(xiàn)度(TF-IDF值),最終輸出形成分類規(guī)則表。則得到共約64萬(wàn)條規(guī)則(53 297分詞×12分類×1個(gè)TF-IDF值=639 564條規(guī)則),模型的初步構(gòu)建完成[4]。模型訓(xùn)練流程如圖2所示,分類規(guī)則示意如表4所示。

其次,將1 092條投訴工單的測(cè)試集(測(cè)試樣本量與訓(xùn)練樣本量之比一般在1:3到1:4之間,此次文本挖掘采用的測(cè)訓(xùn)比為1:4)導(dǎo)入模型,將模型分類結(jié)果與人工分類結(jié)果進(jìn)行比對(duì),初建模型的準(zhǔn)確率為49%。

表3 寬帶服務(wù)分類標(biāo)簽的詳細(xì)定義

圖2 模型訓(xùn)練流程

影響模型準(zhǔn)確率的因素主要有3類:體驗(yàn)標(biāo)簽的質(zhì)量、訓(xùn)練樣本的質(zhì)量和待預(yù)測(cè)文本的質(zhì)量。

◆體驗(yàn)標(biāo)簽的質(zhì)量:包括完整性、獨(dú)立性和復(fù)雜性3個(gè)維度。

完整性:標(biāo)簽是否覆蓋所有的文本,完整性越好,模型分類越準(zhǔn)確;

獨(dú)立性:分類之間語(yǔ)義邏輯不交叉,獨(dú)立性越好,模型分類越準(zhǔn)確;

復(fù)雜性:分類是否復(fù)雜,分類越簡(jiǎn)單,模型分類越準(zhǔn)確。

◆訓(xùn)練樣本的質(zhì)量:包括準(zhǔn)確性、規(guī)模性、完整性和平衡性4個(gè)維度。

準(zhǔn)確性:人工訓(xùn)練樣本分類越準(zhǔn)確,模型分類越準(zhǔn)確;

規(guī)模性:各分類的訓(xùn)練樣本數(shù)量越多,模型分類越準(zhǔn)確;

完整性:訓(xùn)練的文本是完整的文本,不存在文本截?cái)喱F(xiàn)象,導(dǎo)致語(yǔ)義邏輯缺失;

平衡性:各分類的樣本量越均衡,模型分類越準(zhǔn)確。

◆待預(yù)測(cè)文本的質(zhì)量:主要指差異性。

差異性:待預(yù)測(cè)文本與訓(xùn)練樣本的分詞差異越小,模型分類越準(zhǔn)確。

為了進(jìn)一步提升模型自動(dòng)分類的準(zhǔn)確性,采取了調(diào)整分類體系、擴(kuò)充分類樣本、增加停用詞以及調(diào)整底層算法等方法。其中調(diào)整分類體系是為了保證體驗(yàn)標(biāo)簽的獨(dú)立性,從而提升體驗(yàn)標(biāo)簽的質(zhì)量。擴(kuò)充分類樣本是為了增加訓(xùn)練樣本的規(guī)模,從而提升訓(xùn)練樣本的質(zhì)量。增加停用詞庫(kù)是通過減少無(wú)意義的分詞,從而提升訓(xùn)練樣本的質(zhì)量,以減少對(duì)模型的干擾。調(diào)整底層算法是通過在原有分類之上增加分類層級(jí),從而使得大類與大類之間、小類與小類之間的樣本量更加均衡,從而提升訓(xùn)練樣本的質(zhì)量。

經(jīng)過8次不同方面的調(diào)整優(yōu)化,最終使模型準(zhǔn)確率達(dá)到61%(具體調(diào)優(yōu)過程如表5所示),但相較于其他文本挖掘模型,還有一定的提升空間[5-7]。

3.4 應(yīng)用實(shí)例

在此基礎(chǔ)上,還自主開發(fā)了文本挖掘應(yīng)用工具,該工具目前已支持通過賬號(hào)遠(yuǎn)程登錄網(wǎng)頁(yè)界面進(jìn)行操作,可用于輔助投訴工單分析和體驗(yàn)主題輸出。

(1)輔助投訴工單分析

通過分類模型輸出給定分類下的投訴工單數(shù)量統(tǒng)計(jì),如表6所示。一方面,可有效減少人工投入,另一方面實(shí)現(xiàn)了對(duì)分服務(wù)環(huán)節(jié)進(jìn)行月度投訴量的監(jiān)控。同時(shí),在發(fā)現(xiàn)數(shù)據(jù)異常后,還可以通過分析該分類下的關(guān)鍵詞,快速定位投訴原因。

(2)體驗(yàn)主題輸出

根據(jù)分類標(biāo)簽和熱點(diǎn)關(guān)鍵詞的變化趨勢(shì)發(fā)現(xiàn)新增投訴、異常投訴和高比例投訴,從而確定體驗(yàn)主題,具體操作步驟如圖3所示。

4 結(jié)束語(yǔ)

本文結(jié)合現(xiàn)有的大數(shù)據(jù)以及語(yǔ)義分析技術(shù),明確了總體實(shí)施路徑,通過設(shè)計(jì)分類標(biāo)簽,探索并構(gòu)建了文本挖掘模型,初步實(shí)現(xiàn)了基于客戶投訴工單中的非結(jié)構(gòu)化數(shù)據(jù)文本的自動(dòng)分類應(yīng)用。

但在對(duì)投訴工單進(jìn)行挖掘的過程中,仍有一些問題值得研究和探討,具體如下:

(1)現(xiàn)有模型的準(zhǔn)確率仍有提升的空間

現(xiàn)有模型準(zhǔn)確率為61%,仍具有一定的提升空間。可以在樣本、工具和算法3個(gè)方面對(duì)模型進(jìn)行優(yōu)化。具體來(lái)說(shuō),在樣本優(yōu)化方面,增加某一分類下的訓(xùn)練樣本的數(shù)量,進(jìn)而提升模型對(duì)于這類分類下的文本識(shí)別能力,進(jìn)而幫助提升整體的模型準(zhǔn)確率。在工具優(yōu)化方面,可以在textgrocery基礎(chǔ)上繼續(xù)進(jìn)行二次開發(fā)[8]。在算法優(yōu)化方面,可以嘗試其他分類算法,如支持向量機(jī)(Support Vector Machine)算法應(yīng)用于文本挖掘等[9]。

(2)模型具有快速?gòu)?fù)制的優(yōu)勢(shì)

現(xiàn)有模型所涉及的分類算法以及原理對(duì)于非結(jié)構(gòu)化(文本)數(shù)據(jù)的自動(dòng)分類具備一定的通用性,因此可以通過重新定義分類標(biāo)準(zhǔn),制作訓(xùn)練及測(cè)試樣本集,快速實(shí)現(xiàn)對(duì)于某一特定分類標(biāo)準(zhǔn)下的文本自動(dòng)分

類。這將有助于最大程度地發(fā)揮出模型效能,為企業(yè)的提質(zhì)增效提供有力的工具支撐,這是企業(yè)在人工智能落地應(yīng)用的一次探索。

表6 2016年投訴工單自動(dòng)分類結(jié)果

(3)基于客戶投訴的文本挖掘應(yīng)用可以進(jìn)一步優(yōu)化

目前,自主開發(fā)的文本挖掘應(yīng)用功能相對(duì)單一,后續(xù)可將文本聚類、實(shí)體識(shí)別、情感識(shí)別等功能補(bǔ)充到現(xiàn)有的文本挖掘應(yīng)用中,屆時(shí)應(yīng)用范圍將擴(kuò)展到輿情分析[10-11]、熱點(diǎn)話題識(shí)別、自動(dòng)摘要和趨勢(shì)分析方面;同時(shí),充分利用數(shù)據(jù)可視化技術(shù),將文本分析結(jié)果通過標(biāo)簽云、關(guān)聯(lián)關(guān)系、時(shí)間序列的形式進(jìn)行呈現(xiàn)[12],提高將文本數(shù)據(jù)轉(zhuǎn)化為價(jià)值的效率,更好地支撐企業(yè)運(yùn)營(yíng)。

圖3 體驗(yàn)主題輸出流程

[1] 王國(guó)平,郭偉宸,汪若君. IBM SPSS Modeler數(shù)據(jù)與文本挖掘?qū)崙?zhàn)[M]. 北京: 清華大學(xué)出版社, 2014.

[2] 李丹. 基于樸素貝葉斯方法的中文文本分類研究[D]. 保定: 河北大學(xué), 2011.

[3] 華秀麗,朱巧明,李培峰. 語(yǔ)義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究[J]. 計(jì)算機(jī)應(yīng)用研究,2012,29(3): 833-836.

[4] 劉懷亮,杜坤,秦春秀. 基于知網(wǎng)語(yǔ)義相似度的中文文本分類研究[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2015,31(2): 39-44.

[5] 張鍵鋒,王勁. 基于文本挖掘與神經(jīng)網(wǎng)絡(luò)的音樂風(fēng)格分類建模方法[J]. 電信科學(xué), 2015,31(7): 80-85.

[6] 葉明. 智能手機(jī)電子取證中文本分析的研究[D]. 武漢:武漢郵電科學(xué)研究院, 2014.

[7] 彭杰,石永革,高勝保. 基于對(duì)話內(nèi)容的交互型文本會(huì)話主題挖掘[J].電信科學(xué), 2016,32(9): 139-145.

[8] 張?chǎng)?許鑫. 文本挖掘工具述評(píng)[J]. 圖書情報(bào)工作, 2012,56(8): 26-31.

[9] 崔建明,劉建明,廖周宇. 基于SVM算法的文本分類技術(shù)研究[J]. 計(jì)算機(jī)仿真, 2013,30(2): 299-302.

[10] 黃曉斌,趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報(bào)科學(xué), 2009,27(1): 94-99.

[11] 琚春華,鮑福光,戴俊彥. 一種融入公眾情感投入分析的微博話題發(fā)現(xiàn)與細(xì)分方法[J]. 電信科學(xué), 2016,32(7): 97-105.

[12] 袁海,陳康,陶彩霞,等. 基于中文文本的可視化技術(shù)研究[J]. 電信科學(xué), 2014,30(4): 114-122. ★

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产凹凸一区在线观看视频| 色综合a怡红院怡红院首页| 免费jjzz在在线播放国产| 日本午夜影院| 97在线碰| 亚洲欧美综合另类图片小说区| av无码久久精品| 成人韩免费网站| 色国产视频| 国内精自视频品线一二区| 亚洲第一黄色网址| 毛片在线播放网址| 爽爽影院十八禁在线观看| 日韩视频福利| 毛片网站在线看| 国产成人AV男人的天堂| 青青草91视频| 欧美激情第一欧美在线| 高h视频在线| 国产亚洲精品资源在线26u| 欧美日韩成人| 精品一区二区三区波多野结衣| 日韩精品无码不卡无码| 国产精品女熟高潮视频| 亚洲精品va| 日韩精品一区二区三区免费| 好吊日免费视频| 欧美色视频网站| 国产欧美在线视频免费| 亚洲乱码在线视频| 日韩成人高清无码| 无码中文字幕精品推荐| 国产一级视频久久| 一本色道久久88亚洲综合| 国产精品手机在线观看你懂的| 色婷婷啪啪| 亚洲一区网站| 免费一级无码在线网站| 国产成年无码AⅤ片在线 | 制服丝袜在线视频香蕉| 大香伊人久久| 欧美日韩中文国产va另类| 亚洲日产2021三区在线| 国产亚洲高清在线精品99| 国产成人调教在线视频| 久久久成年黄色视频| 免费国产高清视频| 欧美日韩va| 无码aⅴ精品一区二区三区| 国产精品成人第一区| 婷婷激情亚洲| 国产精品无码翘臀在线看纯欲| aⅴ免费在线观看| 一区二区三区高清视频国产女人| 伊人久久久大香线蕉综合直播| 国产网站免费看| 久久永久精品免费视频| 亚洲伦理一区二区| 在线观看国产黄色| 久青草免费视频| 无码'专区第一页| 看av免费毛片手机播放| 中文字幕在线看| 波多野结衣久久高清免费| 中文国产成人久久精品小说| 日本精品影院| 免费AV在线播放观看18禁强制| 福利一区三区| 欧美亚洲国产视频| 中文字幕欧美日韩高清| 国内精品久久人妻无码大片高| 中国精品自拍| 国产va免费精品观看| 91网在线| 日韩精品一区二区三区大桥未久| 中文字幕在线视频免费| 亚洲美女一区二区三区| 喷潮白浆直流在线播放| 中字无码av在线电影| 国产精品网址在线观看你懂的| 91高清在线视频| 美女内射视频WWW网站午夜|