999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本挖掘技術在電力工單數據分析中的應用

2016-04-12 00:00:00鄒云峰何維民趙洪瑩程雅夢楊紅
現代電子技術 2016年17期

摘 要: 文本挖掘技術為文本分析提供了方法和技術支持,以文本挖掘中的文本分類技術為基礎,簡要介紹文本預處理、文本分類器模型構建的方法和過程,并以供電服務過程中客戶通過供電服務中心反映的熱點事件為實例,建立95598工單文本自動分類的模型,通過驗證實現95598工單文本快速精準的自動分類,及時準確地挖掘出隱藏的重要信息,并且為分析供電服務對客戶的用電訴求的影響提供依據和數據基礎。

關鍵詞: 95598工單; 文本挖掘; 文本分類; 自動分類; 用電訴求

中圖分類號: TN915?34; TM711 文獻標識碼: A 文章編號: 1004?373X(2016)17?0149?04

0 引 言

電力客戶服務呼叫中心(即95598業務)作為供電企業與電力客戶交流的窗口,不僅能夠為電力客戶提供優質便捷的服務,而且能直接客觀地反映客戶用電訴求[1]。目前對工單數據的分析,主要是數據分析人員依據坐席人員受理工單時勾選的業務類型,進行統計匯總實現工單的分類分析。該分類結果受坐席人員的主觀判斷影響大:一方面不能及時、客觀地反映散布在不同工單類型中的供電服務熱點事件;另一方面不能完整地反映用電客戶的真實訴求,更不能挖掘出客戶產生訴求的真實原因。因此在電力行業急需一種高效的文本數據挖掘方法對工單中隱藏的內容進行挖掘分析,并為電力營銷服務提供輔助決策。

文本挖掘作為一種有效信息挖掘和文本處理的技術,根據挖掘出的不同知識、模式劃分,可分為文本摘要、文本分類、文本聚類、關聯規則以及趨勢預測等不同類型。其中文本分類作為一種有效的電子文本分類方式,在信息過濾、信息檢索、文本數據庫和數字圖書館等領域得到了廣泛的應用和關注,為深層次的分析提供了技術支持和解決方案。本研究將文本分類技術應用到電力營銷領域,通過一系列的文本預處理技術以及文本分類的方法,對供電服務過程產生的工單信息進行挖掘分析,實現工單文本快速精準的自動分類,并及時準確地挖掘出隱藏的重要信息,為實現有效地分析供電服務對客戶的用電訴求的影響提供依據和數據基礎。

1 文本分類方法研究

文本分類是指將一篇文本歸類到已知的文本類別中,其主要包括文本預處理和分類器模型構建兩個過程,文本分類流程如圖1所示。

2 95598工單文本挖掘實證分析

本研究以江蘇省2013年1月—2015年8月所有工單為數據基礎,從工單受理內容出發進行挖掘分析,工單記錄數共計12 375 270條。

2.1 工單文本預處理

本次研究結合中文分詞研究方法,采用R語言程序對工單文本進行分詞,通過不斷地完善和加入詞庫來優化分詞的效果,最終分詞后得到52 186個詞匯,如表2所示。

將分詞結果經去除停用詞處理后,再進行特征降維。從本研究統計方法出發,結合電力行業特征,從詞性、詞頻、權重以及詞義與詞頻相結合等多方面進行特征選擇,部分特征詞匯如表3所示。

2.2 分類器模型構建

2.2.1 訓練集選取

在電力服務行業中,客戶通過工單反映出的用電問題多種多樣,為統一、準確、詳細地反映客戶的用電訴求,研究以供電服務過程中產生的熱點事件為對象進行研究,如“串戶”、“電表空走”、“表箱問題”等。

本文主要以“串戶”為例進行分析,隨機從全量工單中篩選出部分樣本工單,從受理內容上人工判定是否屬于疑似“串戶”,從判定結果中選出具有代表性疑似“串戶”工單和一定比例非“串戶”工單作為訓練集。

2.2.2 分類器模型確定

通過文本挖掘工具調用文本挖掘算法集中合適的文本挖掘算法,構建多個分類器模型,并對比分析不同分類器的分類效果,對比結果如圖2和表4所示。

由圖2的增益曲線可知,C5樹和SVM分類算法在40%的百分位時就能達到98%以上的增益,因此C5樹和SVM分類算法分類效果最佳;從表4來看,決策樹模型中的C5樹分類模型準確率最高,CR樹分類模型遺漏率最低,C5樹模型遺漏率次之。綜合多方面結果最終選定決策樹C5樹模型作為熱點事件“串戶”的分類器模型。

2.3 分類評估及結果

2.3.1 分類效果評估及調整

將待分類工單輸入C5樹分類器模型進行分類,從分類結果中隨機抽選1萬張工單進行效果評估,評估結果如表5所示。

從表5的分類結果檢驗來看,模型查全率達到92.2%,遺漏率7.8%,基本能識別出疑似“串戶”工單,且遺漏工單較少。但從模型查準率和準確率來看,分別為28.1%和75.2%,意味著該模型盡管能識別出“串戶”工單,但卻也將不屬于該熱點的工單判定為該熱點,因此需要對分類模型進行調整和改進。

模型調整主要從三個方面進行改進:第一,豐富同義詞庫和專業詞庫,使分詞結果更精準;第二,更精準地選定特征詞;第三,調整決策樹模型的深度和葉子節點樹。分類器模型調整后,結果評估見表6。

由表6可知,經過模型調整和改進后,準確率和查準率分別提高至91.6%,91.8%,遺漏率雖略有增高,但仍在業務可接受范圍內。通過驗證認為,調整后的分類器模型能從工單受理內容出發,較為精準地識別出熱點事件工單。

2.3.2 分類結果及應用

利用調整后的分類器模型對全量分類后,共識別出疑似“串戶”工單37 161張,工單業務類型情況如圖3,圖4所示。

從圖3和圖4呈現的結果來看,利用決策樹分類器模型進行文本分類時,可以忽略工單記錄過程中的多級業務類型層級,直接從工單的受理內容出發,識別和挖掘出隱藏在不同類型中的熱點事件疑似“串戶”工單。其中業務咨詢類工單共31 282張,占總疑似“串戶”工單的84.2%,投訴類工單占比5.6%,意見類工單占比6.4%。

以其中的投訴類工單為例進行分析,在原始的工單分類標準中,僅僅統計分析投訴以及投訴下多層子目錄,如服務行為、電能計量等,而用電客戶表達的實際問題往往會被忽略或者隱藏在目錄標題下得不到反映。同時在劃分業務類型時,常常會受坐席人員業務判斷能力以及管理政策的影響,從而使得分類結果更加背離客戶所反映的真實問題。經文本分類后,客戶表達的訴求和反映的問題可直接以熱點事件的形式及時、準確地被挖掘出來,而不受時間、政策以及業務類別準確性的影響。

此外,通過將熱點事件工單與相關的營銷業務活動匹配關聯,還可進一步挖掘出疑似“串戶”訴求的產生主要是由“表計輪換”以及“批量新裝”等業務引起。因此為減少該類問題的產生,則可從營銷服務活動環節出發找出改進方法和有效的解決措施。

3 結 論

本文研究在當前電力呼叫中心工單統計分析不全面的背景下,利用文本挖掘中文本分類的技術,以供電服務過程中客戶反映的熱點事件為例對呼叫中心95598工單進行挖掘分析,通過研究驗證認為:利用文本分類的挖掘方式能快速、高效地實現對工單自動、有效的分類;可從工單實際內容出發,及時、準確地找出隱藏在多種同業務類型中的熱點事件工單,從而減少人為參與辨別時的主觀影響。

此外,從分類后的工單中還能進一步挖掘出供電服務中對客戶產生用電訴求的影響:通過客戶訴求溯源反映出供電服務活動中存在的問題,為供電服務質量的分析提供依據;通過分析營銷業務與熱點事件工單之間的關系,為供電企業進行主動服務以及提升營銷業務管控水平提供指導建議;將分類后的熱點事件工單與營銷業務相關聯進行研究,可分析出不同營銷業務對客戶的滿意度或投訴率的影響情況,以此為營銷業務服務的風險大小以及風險的預警提供基礎。

參考文獻

[1] 吳剛.江蘇電力客戶服務系統研究[J].電力信息化,2004(2):49?53.

[2] 龍樹全,趙正華,唐華.中文分詞算法概述[J].電腦知識與技術,2009,5(10):2605?2607.

[3] 龐觀松,蔣盛益.文本自動分類技術研究綜述[J].情報理論與實踐,2012,35(2):123?128.

[4] 陸玉昌,魯明羽,李凡,等.向量空間法中單詞權重函數的分析和構造[J].計算機研究與發展,2002,39(10):1205?1210.

[5] 楊杰明.文本分類中文本表示模型和特征選擇算法研究[D].長春:吉林大學,2013.

[6] ZHANG W, YOSHIDA T, TANG X. A comparative study of TF* IDF, LSI and multi?words for text classification [J]. Expert systems with applications, 2011, 38(3): 2758?2765.

[7] 李榮陸.文本分類及其相關技術研究[D].上海:復旦大學,2005.

[8] 閆瑞,曹先彬,李凱.面向短文本的動態組合分類算法[J].電子學報,2009,37(5):1019?1024.

[9] 鄭霖,徐德華.基于改進TFIDF算法的文本分類研究[J].計算機與現代化,2014(9):6?9.

[10] 周茜,趙明生,扈旻.中文文本分類中的特征選擇研究[J].中文信息學報,2004,18(3):17?23.

[11] 趙世奇,張宇,劉挺,等.基于類別特征域的文本分類特征選擇方法[J].中文信息學報,2005,19(6):21?27.

[12] 徐燕,李錦濤.基于區分類別能力的高性能特征選擇方法[J].軟件學報,2008,19(1):82?89.

[13] YANG Y M, PEDERSON J O. A comparative study on feature selection in text categorization [C]// Proceedings of 1997 14th International Conference on Machine Learning. Nashville: Morgan Kaufmann, 1997: 412?420.

[14] 蔣良孝.樸素貝葉斯分類器及其改進算法研究[D].武漢:中國地質大學,2009.

[15] 張華鑫,龐建剛.基于SVM和KNN的文本分類研究[J].現代情報,2015,35(5):73?77.

[16] 季桂樹,陳沛玲,宋航.決策樹分類算法研究綜述[J].科技廣場,2007(1):9?12.

[17] 黃曉斌,趙超.文本挖掘在網絡輿情信息分析中的應用[J].情報科學,2009,27(1):94?99.

[18] 胡龍茂.中文文本分類技術比較研究[J].安慶師范學院學報(自然科學版),2015,21(2):49?53.

[19] 何國輝,吳禮發.基于機器學習的文本分類技術的研究[J].計算機與現代化,2009(8):4?6.

[20] 蒲筱哥.自動文本分類方法研究述評[J].情報科學,2008,26(3):469?475.

[21] 石志偉,劉濤,吳功宜.一種快速高效的文本分類方法[J].計算機工程與應用,2005(29):180?183.

[22] 張征杰,王自強.文本分類及算法綜述[J].電腦知識與技術,2012(4):825?828.

[23] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報,2006(9):1848?1859.

主站蜘蛛池模板: 国产欧美亚洲精品第3页在线| 狠狠色成人综合首页| 亚洲国产成人麻豆精品| 中文无码精品A∨在线观看不卡| 亚洲国产精品无码AV| 91小视频版在线观看www| 精品一区二区三区自慰喷水| 国产福利影院在线观看| 男女性午夜福利网站| 全午夜免费一级毛片| 一级毛片无毒不卡直接观看| 在线免费不卡视频| 久久精品亚洲中文字幕乱码| 中文字幕丝袜一区二区| 日韩av电影一区二区三区四区| 日韩AV无码一区| 亚洲欧洲美色一区二区三区| 国产精品部在线观看| 性色生活片在线观看| 热99re99首页精品亚洲五月天| 日本中文字幕久久网站| 欧美在线天堂| 欧美日韩成人在线观看| 欧美激情第一区| 黄色污网站在线观看| 国产在线观看第二页| 国产av剧情无码精品色午夜| 色欲国产一区二区日韩欧美| 日韩在线欧美在线| 亚洲另类国产欧美一区二区| 在线日韩日本国产亚洲| 亚洲综合九九| 特级毛片免费视频| 日韩在线中文| 又污又黄又无遮挡网站| 亚洲欧美人成电影在线观看| 毛片最新网址| 午夜a级毛片| 国产黑丝视频在线观看| 91久久大香线蕉| 67194成是人免费无码| 99无码熟妇丰满人妻啪啪| 国产真实乱子伦精品视手机观看| 午夜高清国产拍精品| 久久久久人妻一区精品| 免费人成网站在线观看欧美| 亚洲一级毛片免费观看| 91年精品国产福利线观看久久| 日韩美毛片| 国产主播在线一区| 亚洲国产无码有码| 亚洲一区二区精品无码久久久| 久久久91人妻无码精品蜜桃HD| 国产精品丝袜视频| 国产xx在线观看| …亚洲 欧洲 另类 春色| 1769国产精品视频免费观看| 国产精品视频第一专区| 香蕉伊思人视频| 久草网视频在线| 黄片一区二区三区| 国产电话自拍伊人| 成人一区专区在线观看| 国产精品美女在线| 中文字幕va| 国产成人综合在线视频| 日韩二区三区| 亚洲一区二区成人| 精品国产Av电影无码久久久| 国产精品欧美日本韩免费一区二区三区不卡| 99一级毛片| 国产1区2区在线观看| 日韩av手机在线| 国产视频自拍一区| 亚洲 日韩 激情 无码 中出| 深夜福利视频一区二区| 亚洲Av激情网五月天| 亚洲国产欧美中日韩成人综合视频| 99精品欧美一区| 国产丰满大乳无码免费播放| 一级毛片在线免费视频| 国产微拍精品|