999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然語言處理技術(shù)的電力客戶投訴工單文本挖掘分析

2018-09-06 08:33:14吳剛勇張千斌吳恒超顧冰
中國設(shè)備工程 2018年17期
關(guān)鍵詞:特征文本模型

吳剛勇,張千斌,吳恒超,顧冰

(國網(wǎng)浙江省湖州供電公司,浙江 湖州 313000)

隨著配售電市場的不斷開放,新增配網(wǎng)將允許外部資本投資,各地售電公司紛紛成立,將來將成為電力公司的售電競爭者,由此如何減少客戶資源流失將是亟待解決的問題。而保障客戶穩(wěn)固的首要措施是提高客戶滿意度,意味著客戶投訴減少。因此,利用自然語言處理技術(shù)對(duì)客戶投訴工單進(jìn)行文本挖掘分析,了解客戶投訴的主要問題,并針對(duì)性的提高差異化的服務(wù)策略是當(dāng)下提高客戶滿意度,增加客戶粘性的重要舉措。

1 應(yīng)用技術(shù)

1.1 自然語言處理

在計(jì)算機(jī)科學(xué)與人工智能中自然語言處理(NLP)是一個(gè)重要的研究方向。它是一種能實(shí)現(xiàn)在計(jì)算機(jī)與人之間用自然語言進(jìn)行高效溝通的理論和方法。

自然語言處理涉及到多種統(tǒng)計(jì)的方法,并在此基礎(chǔ)上發(fā)展衍生出多種模型:最大熵模型、雙向搜索算法、隱馬爾可夫模型、A?搜索算法、概率上下文無關(guān)語法、貝葉斯方法、n元語法、噪聲信道理論、最小編輯距離算法、Viterbi算法、加權(quán)自動(dòng)機(jī)、支持向量機(jī)等。本文主要對(duì)隱馬爾可夫模型在自然語言處理中的應(yīng)用進(jìn)行介紹。

隱馬爾可夫模型(HMM)是用來描述包含隱含未知參數(shù)的馬爾可夫過程,該模型是關(guān)于時(shí)序的概率模型。隱馬爾可夫模型的狀態(tài)不能直接觀察到,但是,它能夠以觀測向量序列觀察到,每個(gè)觀測向量的各種表現(xiàn)狀態(tài)都是通過概率密度呈現(xiàn)的,每一個(gè)觀測向量是基于相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生。

隱馬爾可夫模型是一個(gè)五元組<S,O,A,B,π>:

S:狀態(tài)集合:由四種狀態(tài)構(gòu)成:詞頭(標(biāo)記為F),詞中(標(biāo)記為M)、詞尾(標(biāo)記為E)、單字成詞(標(biāo)記為 W)。

A:狀態(tài)轉(zhuǎn)移分布,即S中各元素中,兩兩之間轉(zhuǎn)移的概率值。比如當(dāng)前是s2,下一個(gè)狀態(tài)是s9的轉(zhuǎn)移概率為s2,9(小于1)。

B:每種狀態(tài)出現(xiàn)的概率分布。

π:初始的狀態(tài)分布。

按照機(jī)器學(xué)習(xí)方式的不同,求取參數(shù)A、B、π的方法大體上分為兩類,監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)。

(1)監(jiān)督學(xué)習(xí)方法

如果訓(xùn)練數(shù)據(jù)集已經(jīng)給出觀測序列及相應(yīng)的路徑序列:

基于統(tǒng)計(jì)分析,對(duì)每個(gè)句子開頭第一個(gè)字出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),以其統(tǒng)計(jì)數(shù)除以句子總數(shù),即可計(jì)算得到該字的初始狀態(tài)F、W的概率情況。

假設(shè)學(xué)習(xí)狀態(tài)轉(zhuǎn)移矩陣A的子元素為a(i->j),那么,子元素a(i->j)=(由qi狀態(tài)變到qj狀態(tài)的次數(shù))/(狀態(tài)變化總次數(shù))。本文只考慮元素的狀態(tài)變化,而不考慮觀測值變化。

假設(shè)觀測概率分布B的子元素為bj(k),那么,bj(k)=(j狀態(tài)下觀測為k的次數(shù))/(所有狀態(tài)的總次數(shù))。

總而言之,監(jiān)督學(xué)習(xí)方法主要是基于統(tǒng)計(jì)頻數(shù)除以總數(shù),得到相應(yīng)的概率,以此構(gòu)成模型參數(shù)。

(2)非監(jiān)督學(xué)習(xí)方法

由于監(jiān)督學(xué)習(xí)方法需要進(jìn)行人工標(biāo)注,這樣往往會(huì)付出很大的代價(jià),因此,可采用非監(jiān)督學(xué)習(xí)的算法來實(shí)現(xiàn)。

最后基于維特比算法:基于動(dòng)態(tài)規(guī)劃算法挖掘出最優(yōu)路徑,即:從t=1開始遞歸計(jì)算,得出在t時(shí)刻狀態(tài)為i的各條路徑的最大概率,到t=T時(shí)終止,從而實(shí)現(xiàn)最終分詞。

1.2 文本挖掘技術(shù)

近幾年來,數(shù)據(jù)挖掘領(lǐng)域出現(xiàn)了一個(gè)新興分支-文本挖掘,它是以文本類型的數(shù)據(jù)作為特定的分析挖掘?qū)ο蟮闹R(shí)挖掘。本文的挖掘?qū)ο笫腔诔槿〉?5598投訴工單中有效、有用、散布在工單中的有價(jià)值知識(shí),并且利用這些知識(shí)更好的了解客戶需求。對(duì)投訴內(nèi)容進(jìn)行分詞是文本挖掘的要點(diǎn),根據(jù)分詞結(jié)果,從文本數(shù)據(jù)中抽取出客戶投訴特征信息,從而形成文本的中間表示。把原來的非結(jié)構(gòu)化的客戶投訴文本數(shù)據(jù)以結(jié)構(gòu)化的數(shù)據(jù)呈現(xiàn),再利用分類、聚類等數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)化為結(jié)構(gòu)化文本,并根據(jù)該結(jié)構(gòu)化的文本發(fā)現(xiàn)新的概念和相應(yīng)的關(guān)系。

1.3 TF-IDF算法

TF-IDF是一種統(tǒng)計(jì)方法,是通過分析挖掘一字(詞)對(duì)于一個(gè)文件集(語料庫)中的其中的重要程度。字(詞)的重要性與它在文件中出現(xiàn)的次數(shù)成正比例關(guān)系,與它在語料庫中出現(xiàn)的頻率成反比關(guān)系。實(shí)際上TF-IDF是:TF表示詞頻,IDF表示逆向文件頻率,TF表示分詞后的詞匯T在文本中出現(xiàn)的次數(shù)。DF表示的文本頻率,即文本集合中含有的文本頻率。IDF表示的逆文本頻率,公式如下:

式中:n為文本總數(shù)。

對(duì)字詞的重要性進(jìn)行權(quán)重計(jì)算,計(jì)算公式如下:

在實(shí)際應(yīng)用中,需要對(duì)進(jìn)行歸一化處理,

2 實(shí)證研究

基于自然語言處理技術(shù)出發(fā),對(duì)電力客戶投訴工單進(jìn)行深入文本挖掘,利用分詞技術(shù)分析投訴工單中的受理內(nèi)容,對(duì)分詞結(jié)果開展特征選取與降維處理,并進(jìn)行詞頻統(tǒng)計(jì),運(yùn)用詞云分析技術(shù)進(jìn)行分析結(jié)果可視化展示,把控住當(dāng)下電力客戶投訴的主要問題,針對(duì)性的為不同類型的電力客戶提供差異化的服務(wù)策略,從而提高客戶滿意度和忠誠度。如下圖1為文本挖掘過程。

2.1 文本分詞實(shí)現(xiàn)

文本分詞是指使用計(jì)算機(jī)自動(dòng)對(duì)文本進(jìn)行詞語的切分。通過大數(shù)據(jù)軟件Python中的Jieba包,運(yùn)用隱馬爾可夫模型,實(shí)現(xiàn)對(duì)客戶投訴受理內(nèi)容的分詞。分詞結(jié)果如下圖2所示。

圖1 文本挖掘過程

圖2 投訴文本的分詞結(jié)果

2.2 特征選取與降維

(1)特征選取

通過對(duì)255條投訴工單文本數(shù)據(jù)進(jìn)行分詞,將每個(gè)詞作為標(biāo)識(shí)文本的特征,通過對(duì)各特征在整個(gè)文本集合進(jìn)行統(tǒng)計(jì)分析,結(jié)果如圖3所示。

圖3 投訴文本的分詞結(jié)果

(2)特征降維

特征降維主要是為了對(duì)特征進(jìn)行識(shí)別剔除,剔除掉對(duì)文本區(qū)分程度很少的特征,如與電力業(yè)務(wù)關(guān)系不大的特征,以降低后續(xù)文本聚類的算法復(fù)雜度,主要包括以下情形:

①剔除掉幾乎每條文本都出現(xiàn)的詞,如:“客戶”、“來電”、“判定”等在255多條文本數(shù)據(jù)中出現(xiàn)200次以上的高頻無用詞匯。

②剔除掉常用特殊詞,主要包括常見的稱謂詞、結(jié)構(gòu)詞、語氣助詞,如“我”、“你”、“是”、“啊”等與電力業(yè)務(wù)無關(guān)詞匯。

③去除一些詞頻很小的特征,如“導(dǎo)致”、“今天”、“由于”、“周圍”等在255多條文本數(shù)據(jù)中出現(xiàn)次數(shù)少于10的低頻詞匯。

通過對(duì)出現(xiàn)頻率設(shè)定相應(yīng)的閾值(上限,下限)來自動(dòng)實(shí)現(xiàn)特征的降維。

2.3 關(guān)鍵詞頻提取

通過上述對(duì)分詞結(jié)果進(jìn)行特征選取與降維,實(shí)現(xiàn)對(duì)無關(guān)詞匯的過濾,留下與電力業(yè)務(wù)相關(guān)的關(guān)鍵詞。結(jié)合實(shí)際電力業(yè)務(wù),對(duì)現(xiàn)有關(guān)鍵詞進(jìn)一步篩選,通過TFIDF(詞頻-逆文檔頻率)算法計(jì)算關(guān)鍵詞重要性權(quán)重值,提取權(quán)重值大的關(guān)鍵詞頻作為客戶投訴文本挖掘的最終結(jié)果。

2.4 可視化展示

通過Python軟件,運(yùn)用詞云分析實(shí)現(xiàn)投訴工單文本挖掘結(jié)果展示如下圖4。

圖4 投訴文本詞云

由圖可知在客戶投訴中,詞語“營業(yè)廳”、“停電”、“故障”等出現(xiàn)頻數(shù)較多,表明客戶主要對(duì)營業(yè)廳、停電、故障等意見較大,可從這幾個(gè)方面入手,如提高營業(yè)廳服務(wù)水平、減少停電或停電信息通知到位、加強(qiáng)故障檢修減少故障發(fā)生等等措施,從而提高客戶滿意度,改善客戶投訴問題。

3 應(yīng)用價(jià)值

95598投訴工單的深入分析與研究是基于“客戶訴求”出發(fā),深入客戶投訴工單受理內(nèi)容,挖掘客戶的真實(shí)需求與投訴原因。應(yīng)用大數(shù)據(jù)分析技術(shù),采取隱馬爾可夫模型、分詞等分析方法對(duì)投訴工單開展文本挖掘,打破原有對(duì)客戶投訴需求模糊不清的壁壘,把控住當(dāng)下電力客戶投訴的主要問題,針對(duì)性的為不同類型的電力客戶提供差異化的服務(wù)策略,提高客戶粘性和滿意度。

4 結(jié)語

本文利用基于自然語言處理的文本挖掘技術(shù),結(jié)合浙江湖州電力業(yè)務(wù)需求,熱點(diǎn)業(yè)務(wù)工單專題研究,打破了客戶對(duì)用電訴求存在的盲區(qū),提高對(duì)用戶用電需求的管理程度,實(shí)現(xiàn)熱點(diǎn)投訴業(yè)務(wù)工單的原因挖掘。專題的應(yīng)用,將會(huì)提高客服部門的工作效率,為實(shí)現(xiàn)主動(dòng)、精準(zhǔn)的客戶服務(wù)提供決策支持,以提升客戶服務(wù)能力。

猜你喜歡
特征文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 亚洲综合亚洲国产尤物| 91最新精品视频发布页| 国产欧美成人不卡视频| 91系列在线观看| 国产精品亚洲va在线观看| 91精品国产福利| 久久大香伊蕉在人线观看热2| 日韩在线2020专区| 精品夜恋影院亚洲欧洲| 日韩a在线观看免费观看| 国产一区二区三区视频| 色综合久久88| 强奷白丝美女在线观看| 国产高清自拍视频| 久久国产av麻豆| 国产精品亚欧美一区二区| 欧美区国产区| 丰满人妻久久中文字幕| 99视频精品在线观看| 国产精品内射视频| 性激烈欧美三级在线播放| 色网站在线免费观看| 国产精品久久精品| 日韩美女福利视频| 青青草国产精品久久久久| 尤物在线观看乱码| 亚洲全网成人资源在线观看| 国产va免费精品观看| 一级黄色欧美| 91成人在线观看视频| 色综合久久88色综合天天提莫| 毛片在线看网站| 午夜欧美理论2019理论| 青青久久91| 亚洲愉拍一区二区精品| 色婷婷色丁香| 欧美日韩国产精品va| 亚洲福利网址| 国产亚洲精品97AA片在线播放| 白浆免费视频国产精品视频 | 国产午夜在线观看视频| 婷婷六月在线| 一级毛片免费高清视频| 成人av手机在线观看| 四虎精品黑人视频| 欧美成人一区午夜福利在线| www.亚洲天堂| 中文字幕久久亚洲一区| 国产精品综合色区在线观看| 强奷白丝美女在线观看| 在线观看亚洲天堂| 中文成人在线视频| 中文字幕av无码不卡免费| a亚洲视频| 国产微拍一区二区三区四区| 亚洲第一在线播放| 谁有在线观看日韩亚洲最新视频| 久久人体视频| 久久久精品无码一区二区三区| 亚洲精品第一在线观看视频| 成·人免费午夜无码视频在线观看| 国产内射在线观看| 视频一本大道香蕉久在线播放| 欧美成人h精品网站| 国产亚洲一区二区三区在线| 日韩精品久久久久久久电影蜜臀| 91精品国产丝袜| www.狠狠| 久久毛片网| 国产午夜一级淫片| 特级毛片8级毛片免费观看| 无码网站免费观看| 影音先锋丝袜制服| 思思热精品在线8| 欧美视频在线不卡| 久久 午夜福利 张柏芝| 久久亚洲精少妇毛片午夜无码| 第一页亚洲| 久久久久国产精品嫩草影院| 亚洲香蕉在线| 国产丝袜精品| 欧美成人精品欧美一级乱黄|