田 曉,劉勇超,王婧,于相潔,代巖巖國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院
基于文本挖掘的95598客服重復(fù)來(lái)電專題分析
田曉,劉勇超,王婧,于相潔,代巖巖
國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院
重復(fù)來(lái)電工單的挖掘與分析,對(duì)熱點(diǎn)問(wèn)題的及時(shí)發(fā)現(xiàn)與追蹤,起到很重要的作用。目前重復(fù)工單的發(fā)現(xiàn),主要依靠人工,費(fèi)時(shí)費(fèi)力,效率低。本文提出了一種基于文本挖掘的重復(fù)來(lái)電模型,該模型能利用智能高效的算法篩選出重復(fù)來(lái)電工單,對(duì)準(zhǔn)確有效地提高客服的服務(wù)質(zhì)量具有十分重要的現(xiàn)實(shí)意義。
語(yǔ)義分析;文本挖掘;重復(fù)來(lái)電;聚類
近年來(lái),隨著電力業(yè)務(wù)的迅猛發(fā)展,其客戶數(shù)量與業(yè)務(wù)類型隨之增長(zhǎng),客戶來(lái)電反映的內(nèi)容龐雜多樣,如何從巨大的話務(wù)量中尋找有用信息,是客服工作面臨的巨大挑戰(zhàn)。根據(jù)重復(fù)來(lái)電信息分析,對(duì)來(lái)電信息中隱含的語(yǔ)義特征進(jìn)行挖掘,重點(diǎn)關(guān)注重復(fù)來(lái)電次數(shù)多的客戶,對(duì)來(lái)電出現(xiàn)的熱點(diǎn)問(wèn)題及時(shí)發(fā)現(xiàn)與跟蹤,以便能把握處理問(wèn)題的最佳時(shí)機(jī),從而提高處理熱點(diǎn)問(wèn)題的能力和監(jiān)測(cè)能力。
重復(fù)來(lái)電,是指同一用戶(戶號(hào)相同)對(duì)同一事件重復(fù)致電兩次及以上的事件集合。具體描述如下:在查詢周期內(nèi),除表?yè)P(yáng)、訂閱和一次辦結(jié)咨詢、受理內(nèi)容為空的所有非用戶號(hào)碼來(lái)電(例如12345、內(nèi)部撥測(cè)等)以外的業(yè)務(wù)工單,按照來(lái)電號(hào)碼、用戶編號(hào)、受理內(nèi)容等進(jìn)行重復(fù)篩查所得到的重復(fù)事件數(shù)、工單數(shù)、電話數(shù)。
文本挖掘,是指從大量文本中抽取事先未知的、可理解的、最終可用的知識(shí)的過(guò)程,同時(shí)運(yùn)用這些知識(shí)能更好地組織信息以便將來(lái)參考。本文主要利用文本挖掘技術(shù),對(duì)工單的受理內(nèi)容進(jìn)行文本聚類。首先將工單文本中的受理內(nèi)容進(jìn)行分詞,轉(zhuǎn)換成一個(gè)個(gè)詞條。
2.1文本建模
由于工單信息大部分為中文文本,屬于非結(jié)構(gòu)化文本,要進(jìn)行挖掘就必須將文本詞匯轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的語(yǔ)言,所以必須對(duì)文本詞匯進(jìn)行建模,本文使用的是向量空間模型(Vector Space Model,VSM)。
2.2文本相似度計(jì)算
文檔表示成向量后,文本之間的語(yǔ)義相似度就可以通過(guò)空間中的這兩個(gè)向量間的幾何關(guān)系來(lái)度量。在V S M模型中,用空間中的兩個(gè)向量的夾角余弦來(lái)度量文檔之間的相似度,夾角余弦值越大,兩個(gè)向量的夾角越小,表示文檔越相似。
2.3文本聚類
通過(guò)文本之間兩兩相似度計(jì)算,每條文檔都被映射到一個(gè)R維空間的向量中,而R為詞典中詞語(yǔ)的數(shù)量。在此,我們需要使用相似度矩陣來(lái)計(jì)算文檔之間的相似度,并進(jìn)行聚類分組。
本文在提取重復(fù)來(lái)電工單過(guò)程中,首先進(jìn)行數(shù)據(jù)清理,即對(duì)95598工單文本清除異常來(lái)電號(hào)碼,比如[無(wú)故掛斷]、[內(nèi)部撥測(cè)]、[12345]等異常來(lái)電。其次進(jìn)行數(shù)據(jù)預(yù)處理,即根據(jù)關(guān)聯(lián)規(guī)則來(lái)提取來(lái)電相同的工單。再次進(jìn)行文本語(yǔ)義分析,包括中文分詞、特征向量矩陣,相似度計(jì)算,聚類等步驟,對(duì)來(lái)電相同的工單的受理內(nèi)容進(jìn)行文本聚類,提取出同一用戶,來(lái)電內(nèi)容相似的重復(fù)來(lái)電工單,并對(duì)語(yǔ)義特征進(jìn)行分析。
本文利用文本挖掘技術(shù),結(jié)合客服業(yè)務(wù)需求,開展重復(fù)來(lái)電專題研究,大大改善目前人工進(jìn)行重復(fù)來(lái)電分析效率較低的狀況,達(dá)到95598重復(fù)來(lái)電問(wèn)題的智能挖掘與分析的目的。
目前重復(fù)來(lái)電專題,只是從全量工單中通過(guò)詞語(yǔ)相似度計(jì)算分析出重復(fù)來(lái)電工單,并按業(yè)務(wù)類型來(lái)挖掘原因。下一步,還需要探索基于電力知識(shí)圖譜的構(gòu)建以及與業(yè)務(wù)的對(duì)應(yīng)關(guān)系,將非結(jié)構(gòu)化數(shù)據(jù)準(zhǔn)確的轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),以便將來(lái)滿足重復(fù)來(lái)電等其它需要進(jìn)行智能語(yǔ)義分析業(yè)務(wù)需求。
[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002
[2]王永成等.中文信息處理技術(shù)及其基礎(chǔ)[M]上海交通大學(xué)出版社1990
[3]Salton G,Wong A,Yang C S.A vector space model for auto?matic indexiBg[J].Communications of the ACM,1975,18(11):613-620.