999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于計算語言方法的95598工單分類優化分析

2021-06-17 08:19:52楊柳林吳柯蓉李宇李娟娟
電子制作 2021年10期
關鍵詞:分類文本內容

楊柳林,吳柯蓉,李宇,李娟娟

(1.廣西大學電氣工程學院,廣西南寧,530004;2.廣西電網公司客戶服務中心,廣西南寧,530004)

1 95598工單分類優化模型

■1.1 工單標簽構建

將以投訴類為例將工單分類標簽形式進行統一,都采用“業務子類”綜合描述方式,從而得到32個唯一分類標識,如表1所示。

表1 投訴工單的分類研究

■1.2 中文分詞

構建模型前要對文本內容即來電內容進行數據分詞處理,對電力客戶投訴工單的“來電內容”進行深度挖掘,將工單中的受理文本信息和處理文本信息切割成單個詞匯,將文本轉化為了數學語言[1]。 斯坦福中文分詞工具[2]是由斯坦福大學自然語言處理組所提供,他們也提供了一系列開放源碼的Java文本分析工具。

■1.3 特征詞提取

構建詞庫后需要構建特征矩陣,常見的文本特征提取方法就是TF-IDF[3](term frequency-inverse document frequency)。TF-IDF是一種基于統計的計算方法,常用來評估在一個文檔中一個詞對某份文檔的重要程度[4]。在一份給定的文件里,詞頻(term frequency,TF)表示指定的詞匯ti在文件中出現的次數,計算公式為:

其中,ni,j為在文件中指定詞出現的次數。

IDF(inverse document frequency)是逆向文件頻率,計算公式為:

其中,n為文件總數。

{d:d?ti}為含有詞匯ti的文件總數。

對詞匯的重要性進行權重計算,計算公式為:

IDFi通常被歸一化以避免它偏向長的文件,則權重計算公式為:

■1.4 聚類算法

這里用來構建工單分類優化模型的聚類算法為無監督聚類算法K-means算法[5]。

能把文本相似程度轉變為文本之間的距離的常見的方法有三種,即距離函數法、余弦法與內積法[6]。采用夾角余弦相似度的計算模型,余弦相似度利用夾角的余弦值即方向來刻畫相似度,更注重維度間相對層面的差異[7]。首先通過文本的向量表示,將文本轉化成為向量集合X= {x1,x2,…xn}。對于歐氏空間中的任意兩個向量x= {x1,x2,…xn}和y={y1,y2,…yn},它們的余弦相似度(Cosine)定義為兩個向量夾角的余弦:

采用K-means算法計算出不同投訴類型間的距離。其中,距離=1-cosine(相似度),從而由該距離值來判斷投訴工單分類的相似度,由此模型進行95598工單分類優化分析。工單分類優化分析流程如圖1所示。

圖1 工單分類優化分析流程

2 實例分析

■2.1 分詞處理

本實例以95598投訴工單數據為對象進行研究分析,采用斯坦福中文分詞工具,對投訴工單的“來電內容”進行分詞處理。

部分原始工單如表2所示。

表2 原始工單(部分)

將其分詞,分詞完成后,去除數字、標點、英文字符、特殊符號,針對剩余的詞庫,再移除停用詞,共得到3510個有效詞語。部分結果如表3所示。

表3 分詞結果(部分)

完成各工單的“來電內容”分詞后整合成一個文本。在python中利用TF-IDF構建分詞矩陣。分詞矩陣的行為特征詞,列為所有工單樣本,部分分詞矩陣如圖2所示。

圖2 分詞矩陣(部分)

如圖2所示,特征詞對應為“1”代表所屬分類那條工單中有該特征詞。“0”即沒有。

■2.2 投訴類型相似度分析

形成分詞矩陣后將同一投訴類型的所有來電內容整合成一個文本,然后利用不同投訴類型的TF-IDF特征值在python中調用K-means算法計算不同投訴類型間的距離。其中,距離=1-cosine(相似度),從而由該距離值來判斷投訴工單分類的相似度,距離越小相似度越高。結果如圖3所示。

圖3 投訴工單分類相似度結果

由圖3可見,取部分距離較小的投訴工單分類匯總如表4所示。

表4 距離較小的工單分類

4 業擴報裝/新裝增容/環節處理問題業擴報裝/新裝增容/業擴信息溝通 0.1 8 2

由上述圖表分析可知:

(1)有可能是設置的分類冗余導致類別間來電內容反應的問題類似,可以考慮后期合并標簽。比如“業擴報裝/新裝增容/環節處理問題”和“業擴報裝/新裝增容/業擴信息溝通”,兩者之間的距離為0.182,距離較小,說明分類基本相同。

(2)有可能是不同類別設計冗余導致類別之間反應的問題相似,可以考慮后期重新整合。比如“抄表計費/抄表催費/抄表”和“抄表計費/電價電費/電費”的來電內容基本相似,甚至相似度比同一類型的“抄表計費/抄表催費/催繳費”還高。

(3)有可能是類別設計所覆蓋的問題本身特點導致在語言描述本身具有相似度,但確實針對的是不同的問題,這些需要考慮后期重新設計類別或者利用“來電內容”以外的其他信息輔助判斷。比如“電網建設/供電設施/輸配電線路建設”和“供電安全/供電安全/安全隱患”。

■2.3 根據來電內容的聚類分析

針對所有的來電內容記錄,計算它們的TF-IDF特征值,然后進行無監督聚類分析。在所有的聚類分析結果中,聚類類型的個數設置與投訴類型相同,為32個。對投訴類型分布進行統計,其中每一聚類類型都是由距離聚類中心的前幾個詞語代表主題,同時統計當前聚類類型中的原投訴類型分布及其數量。統計的部分結果如表5所示。

表5 投訴類型分布統計(#0)

在表5中,分類號#0的聚類類型主題為:“停電,頻繁,客戶,變壓器”。其中大部分來電內容分布在“供電質量/供電可靠性/頻繁停電”中,僅有一條分布在“電網建設/供電設施/農網改造”中。而由原投訴類型相似度分析結果可知兩者距離為3.61,投訴類型距離較大,不屬于相似投訴類型。

另外的少數來自其他類別的來電內容則需要考慮以下因素:

(1)聚類預測結果錯誤;

(2)來電內容原標簽錯誤;

(3)來電內容所講述的需求比較廣泛,屬于多個類別;

(4)其他可能。

這些因素都可以在后期繼續詳盡分析,用來提高聚類分析結果或者改進投訴類型結構設計。

3 結語

工單分類的優化始終是電力公司客戶服務工作的重要內容,本文結合廣西電力業務需求,打破原來對工單數據處理的分析方法,以客戶服務工單的大量數據為基礎,基于計算語言方法深入挖掘95598工單,對其進行工單分類優化分析。利用Python進行大數據分析操作,完成分詞、詞頻統計、關鍵詞提取等,實現了對數據的精確分析,可為客服工作提供準確的輔助信息,有助于提升客戶服務水平。

猜你喜歡
分類文本內容
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产日韩精品欧美一区灰| 国产成人无码综合亚洲日韩不卡| 欧美日韩第二页| 国产香蕉在线| 国产精品九九视频| 中文无码毛片又爽又刺激| 久青草网站| 好吊日免费视频| 亚洲第一在线播放| 国产亚洲成AⅤ人片在线观看| 国产一级毛片yw| 国产成人精彩在线视频50| 国产精品视频公开费视频| 88国产经典欧美一区二区三区| 97免费在线观看视频| 亚洲男人在线天堂| 亚洲va欧美ⅴa国产va影院| 国产欧美综合在线观看第七页| 免费激情网址| 手机在线国产精品| 91在线播放国产| 无码福利日韩神码福利片| 日本久久网站| a在线观看免费| 婷婷色中文| 日本免费一级视频| 伊人成色综合网| 国产精品毛片一区视频播| 九九视频免费在线观看| 国产精品私拍在线爆乳| 日韩在线网址| 亚洲国产精品日韩av专区| 中日韩欧亚无码视频| 欧洲一区二区三区无码| 9久久伊人精品综合| 中文字幕欧美日韩高清| 精品一区二区无码av| 91麻豆国产视频| 91精品在线视频观看| 免费国产黄线在线观看| 国精品91人妻无码一区二区三区| 成人在线第一页| 91免费在线看| 日日噜噜夜夜狠狠视频| 97se综合| 亚洲成a人片77777在线播放| 欧美亚洲国产一区| 久久无码av三级| 欧美激情第一欧美在线| 波多野吉衣一区二区三区av| 九九香蕉视频| 午夜免费小视频| 日本免费精品| 成人日韩精品| 免费大黄网站在线观看| 午夜免费小视频| 色哟哟国产精品一区二区| 日韩中文字幕亚洲无线码| 亚洲午夜片| 亚洲综合狠狠| 久久永久视频| 成人国产精品一级毛片天堂| 在线欧美一区| 亚洲Va中文字幕久久一区| 在线高清亚洲精品二区| 国产精品不卡片视频免费观看| 久久久久人妻一区精品| 男人天堂亚洲天堂| 第一区免费在线观看| 丰满少妇αⅴ无码区| 亚洲欧美不卡中文字幕| 色综合五月婷婷| 丁香五月激情图片| av无码久久精品| 一级毛片免费观看不卡视频| 少妇被粗大的猛烈进出免费视频| 国产成人久久777777| 亚洲AV色香蕉一区二区| 国产91精选在线观看| 国产美女一级毛片| 综合色天天| 91精品免费久久久|