999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞向量模型的95598工單文本挖掘

2017-12-19 07:57:18國網(wǎng)山東省電力公司電力科學(xué)研究院謝季川宗振國劉宏國張春秋
電子世界 2017年23期
關(guān)鍵詞:分類文本模型

國網(wǎng)山東省電力公司電力科學(xué)研究院 謝季川 宗振國 劉宏國 張春秋 田 曉

基于詞向量模型的95598工單文本挖掘

國網(wǎng)山東省電力公司電力科學(xué)研究院 謝季川 宗振國 劉宏國 張春秋 田 曉

本文結(jié)合電力工單特點(diǎn),提出運(yùn)用神經(jīng)網(wǎng)絡(luò)語言模型進(jìn)行文本挖掘,使用word2vec方法對電力工單文本進(jìn)行訓(xùn)練,生成電力工單詞向量。在電力工單詞向量的基礎(chǔ)上,作為其他模型的輸入,實(shí)現(xiàn)對電力工單進(jìn)一步的文本挖掘分析,幫助客服人員了解客戶訴求,提供更優(yōu)質(zhì)便捷的服務(wù)。

95598工單;神經(jīng)網(wǎng)絡(luò)語言模型;詞向量;文本分類

1.引言

95598客服中心作為電網(wǎng)公司與客戶交流的窗口,每天都要處理大量來自客戶的訴求,形成大量的工單文本數(shù)據(jù)。目前,針對電力工單數(shù)據(jù)的文本挖掘已經(jīng)取得進(jìn)展,但在方法上仍有可以改進(jìn)之處。本文通過分析電力工單文本挖掘的現(xiàn)狀,結(jié)合前沿技術(shù),提出運(yùn)用神經(jīng)網(wǎng)絡(luò)語言模型對工單文本進(jìn)行訓(xùn)練,形成詞向量。在詞向量的基礎(chǔ)上,作為其他模型的輸入,實(shí)現(xiàn)進(jìn)一步的文本挖掘分析,如電力領(lǐng)域詞典、工單分類等功能,幫助客服人員了解客戶訴求,提供更優(yōu)質(zhì)便捷的服務(wù)。

2.電力工單文本挖掘現(xiàn)狀

當(dāng)前電力工單文本挖掘(Text Mining)主要有語料分析、文本分類(Text classification)兩方面,如客戶訴求分析、客戶滿意度預(yù)測[3],電力標(biāo)簽特征詞典、工單自動分類[4]。文本挖掘最基礎(chǔ)的環(huán)節(jié)就是文本表示,電力工單的文本表示多采用LDA主題模型進(jìn)行特征提取。主題模型可以實(shí)現(xiàn)有效的降維,發(fā)現(xiàn)文檔的潛在主題,但是主題模型需要大量的樣本進(jìn)行學(xué)習(xí),訓(xùn)練難度大并且非常耗時,影響了分類的效率[2],而且無法捕捉詞與詞之間的共現(xiàn)關(guān)系。因此本文采用神經(jīng)網(wǎng)絡(luò)語言模型進(jìn)行訓(xùn)練得到詞向量,在詞向量的基礎(chǔ)上進(jìn)行相應(yīng)文本挖掘。

3.詞向量模型

詞向量(word embedding)將每個詞映射成一個固定長度的短向量,既能夠降低維度,又能夠把詞與上下文的聯(lián)系體現(xiàn)出來。詞向量可以通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練語言模型可以得到。神經(jīng)網(wǎng)絡(luò)語言模型(NNLM)由Bengio 等人于2001年正式提出[6],2013年,Mikolov 等人提出了 CBoW( Continuous Bagof-Words)和 Skip-gram 模型。CBoW的優(yōu)化目標(biāo)是:給定詞序列w1,w2,w3,…,wt,最大化下式,

其中,P(wt|wt?c,…wt?1,wt+1…wt+c)采用log-linear(Softmax)模型用于正確分類當(dāng)前詞,通過用t-n+1…t-1,t+1,…t+n-1的word作為輸入,目標(biāo)是正確分類得到第t個word。

而Skip-gram模型相反,通過輸入為當(dāng)前word,經(jīng)過projection的特征提取去預(yù)測該word周圍的C個詞,給定詞序列w1,w2,w3,…,wt,最大化下式:

其中,c是上下文的大小,P(wt+j|wt)采用softmax方程,vw和vTw為對應(yīng)的輸入和輸出詞向量。

本文使用的Word2vec便由Google公司依據(jù)這兩種模型實(shí)現(xiàn),在輸出層采用Huffman 編碼計算層次Softmax,具有模型簡單、訓(xùn)練速度快的特點(diǎn)。

4.電力工單詞向量

對電力工單進(jìn)行文本挖掘,屬于特定領(lǐng)域挖掘,沒有現(xiàn)成的詞向量,因此首先是要訓(xùn)練生成電力工單領(lǐng)域詞向量。本文使用Word2Vec進(jìn)行訓(xùn)練,主要流程有文本預(yù)處理、模型訓(xùn)練、輸出詞向量,其中文本預(yù)處理包括工單文本收集、文本分詞兩步,而模型訓(xùn)練的同時,更新電力特征詞庫反饋提升文本分詞的效果。

4.1 文本預(yù)處理

在進(jìn)行模型訓(xùn)練之前,需要對工單文本進(jìn)行預(yù)處理,主要包含工單文本收集、文本分詞、特征詞庫處理。

4.1.1 工單文本收集

目前營銷系統(tǒng)內(nèi)工單主要被分為故障報修、業(yè)務(wù)咨詢、服務(wù)申請、投訴舉報等12大類,每一大類又分為二級子類、三級子類。

將工單受理內(nèi)容整理到文本中,每一行代表一個工單。工單受理內(nèi)容主要形式是“問題總結(jié)+描述”,例如“【電能表異常】客戶來電反映,戶號為06157*****的電能表異常顯示?,F(xiàn)申請對電表進(jìn)行現(xiàn)場檢查,請相關(guān)工作人員核實(shí)處理”,為大類為“服務(wù)申請”類型的工單受理內(nèi)容。因此下一步進(jìn)行分詞,需要考慮去除停用詞以及電力領(lǐng)域自身特點(diǎn)。

4.1.2 文本分詞

本文分詞屬于特殊領(lǐng)域的分詞,采用jieba分詞對文本工單句子進(jìn)行分詞,形成電力工單語料庫。在分詞是需要結(jié)合電力領(lǐng)域詞典取得更好效果,同時工單受理內(nèi)容存有大量無用信息,可利用停用詞進(jìn)行處理。如上面提到的工單文本內(nèi)容直接用jieba分詞后根據(jù)詞性以及停用詞處理后如下“電能表異常客戶 來電反映戶號電能表異常顯示申請電表進(jìn)行現(xiàn)場檢查相關(guān)工作人員核實(shí)處理”,如“現(xiàn)場檢查”屬于電力領(lǐng)域的特殊詞匯可以通過加入電力特征詞典進(jìn)行處理。前期我們通過專家經(jīng)驗初步形成一個簡單詞典但并不完善,而Word2vec最大的特點(diǎn)恰好就是對于詞性的判斷,在詞向量完成訓(xùn)練的同時可以根據(jù)結(jié)果不斷對電力工單特征詞典的進(jìn)行補(bǔ)充。

4.1.3 模型訓(xùn)練

將經(jīng)過分詞處理的工單文本利用Python工具包Gensim中的Word2vec模型進(jìn)行訓(xùn)練,Word2vec主要參數(shù)為sg-設(shè)置訓(xùn)練算法,size-特征向量的維度,window-上下文窗口最大距離,alpha-學(xué)習(xí)速率,min_count-字典做截斷,詞頻小于不計算等。模型訓(xùn)練完成后,得到vectors.bin這個模型文件。vectors.bin這個文件就是文檔中詞語和其對應(yīng)的向量,向量維度就是之前設(shè)置的,本次設(shè)置為50維。結(jié)果如圖1所示:

圖1 詞向量表示圖

5.詞向量應(yīng)用

在詞向量的基礎(chǔ)上結(jié)合其他方法,進(jìn)行進(jìn)一步的文本挖掘,可以應(yīng)用到電力領(lǐng)域工單詞典構(gòu)建,也可以作為SVM等分類模型的輸出對工單進(jìn)行分類。

5.1 電力工單詞典

電力領(lǐng)域工單詞典前期通過專家經(jīng)驗總結(jié)產(chǎn)生,后面可以通過詞向量找尋與已有詞匯相似的詞補(bǔ)充加入到電力工單詞典中,不斷豐富詞典內(nèi)容。Word2vec本身提供distance的應(yīng)用,讀取模型文件中每一個詞和其對應(yīng)的向量,計算所輸入query的詞,與其他所有詞語的cosine相似度,兩個詞相似度超過閾值便被補(bǔ)充到詞典中,不斷豐富點(diǎn)力領(lǐng)域工單詞典內(nèi)容。

5.2 電力文本工單分類

電力文本工單分類,屬于監(jiān)督學(xué)習(xí)。根據(jù)之前人工分類結(jié)果作為依據(jù),構(gòu)建分類模型。因為文本工單分類需以語句為最小單位作為輸入,所以采用根據(jù)詞頻進(jìn)行賦權(quán)對語句中詞向量相加,來表示句子,構(gòu)造輸入向量,保證向量維度,再結(jié)合SVM進(jìn)行構(gòu)建多分類文本模型。但是這樣做忽略了單詞之間的排列順序即上下文的影響,在文本短時有不錯效果。為處理可變長度文本的總結(jié)性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一個段落向量以外,這個方法幾乎等同于 Word2Vec。因此可以利用電力工單預(yù)料庫,利用Doc2vec進(jìn)行段落向量,直接作為SVM多分類的輸入進(jìn)行訓(xùn)練分類,構(gòu)建分類模型,進(jìn)行文本工單分類。

6.結(jié)語

本文完整描述了運(yùn)用神經(jīng)網(wǎng)絡(luò)語言模型對電力工單文本訓(xùn)練,形成電力詞向量,并在電力詞向量的基礎(chǔ)上進(jìn)行更多進(jìn)一步的文本挖掘的過程,豐富電力文本挖掘分析的方法。但運(yùn)用詞向量在電力領(lǐng)域進(jìn)行深入文本挖掘的效果方面,如工單分類的準(zhǔn)確率,需要進(jìn)一步研究與提升。

[1]閆琰.基于深度學(xué)習(xí)的文本表示與分類方法研究[D].北京科技大學(xué), 2016.

[2]馮貴川.基于Word2vec的文本建模及分類研究[D].深圳大學(xué),2016.

[3]何薇,張劍,于雪霞,吳佐平,張小華,陳晨.基于文本挖掘的電網(wǎng)客戶服務(wù)滿意度評價模型[J].電子世界,2017,(07):81+83.

[4]王震,代巖巖,陳亮,林曉蘭.基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析[J].電子技術(shù)與軟件工程,2016,(22):190-192.

[5]丁麒,莊志畫,劉東丹.基于文本數(shù)據(jù)挖掘技術(shù)的95598業(yè)務(wù)工單主題分析應(yīng)用[J].電力需求側(cè)管理,2016,18(S1):55-57.

[6]Bengio Y,Schwenk H,Senécal J S,et al.A neural probabilistic language model[J].Journal of MachineLearning Research,2003, 3(6):1137-1155.

[7]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.

[8]Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and theirCompositionality[J].Advances in Neural Information Processing Systems,2013,26:3111-3119.

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 老司国产精品视频91| 日韩欧美中文字幕在线精品| 激情综合激情| 亚洲第一视频网站| 青青草a国产免费观看| 四虎精品免费久久| 99精品免费在线| 日韩精品无码免费一区二区三区 | 中文字幕亚洲乱码熟女1区2区| 一级香蕉视频在线观看| 伊人成色综合网| 91人妻在线视频| 在线另类稀缺国产呦| 激情无码视频在线看| 在线无码av一区二区三区| 日韩免费中文字幕| 国产欧美精品一区二区| 欧美日韩一区二区三区在线视频| 久久精品中文字幕少妇| 国产精品欧美亚洲韩国日本不卡| 99久久成人国产精品免费| 久久精品视频亚洲| 91午夜福利在线观看精品| 五月天天天色| 久久精品人人做人人爽电影蜜月| 黄色网在线| 亚洲国产成人久久精品软件| 国产丝袜啪啪| 国产欧美高清| 亚洲91在线精品| 国产日韩精品欧美一区灰| 欧美a√在线| 亚洲成AV人手机在线观看网站| 国产女人在线观看| 国产第一色| 国产美女91呻吟求| 一级香蕉视频在线观看| 国产日韩精品一区在线不卡| 精品人妻一区无码视频| 亚洲无码日韩一区| 国产亚洲欧美在线人成aaaa| 狠狠色噜噜狠狠狠狠色综合久| a亚洲视频| 亚洲天堂区| 国产成人高清精品免费| 在线精品亚洲一区二区古装| 国产偷国产偷在线高清| 在线观看网站国产| 伊人激情综合网| 国产成人福利在线| 国产00高中生在线播放| 97在线碰| 欧美性久久久久| 国产精品所毛片视频| 91久久青青草原精品国产| 香蕉伊思人视频| 亚洲区欧美区| 久久久久久久久久国产精品| 试看120秒男女啪啪免费| 国产黄网站在线观看| 亚洲最新地址| 日韩av在线直播| 久久久精品国产SM调教网站| 国产精品亚洲片在线va| 视频在线观看一区二区| 91网红精品在线观看| 中文字幕亚洲乱码熟女1区2区| 精品一区二区三区波多野结衣| 99久久婷婷国产综合精| 毛片免费视频| 97超级碰碰碰碰精品| 中文字幕av无码不卡免费 | 伊人福利视频| 国产福利在线免费| 国产亚洲精久久久久久无码AV| 69视频国产| 国产性生大片免费观看性欧美| 嫩草国产在线| 国产精品久久国产精麻豆99网站| 激情综合激情| 熟妇丰满人妻av无码区| 日本一区高清|