999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于預訓練BERT模型的客服工單自動分類研究

2020-03-27 07:09:06任瑩
云南電力技術 2020年1期
關鍵詞:分類文本模型

任瑩

(昆明能訊科技有限責任公司,昆明 650217)

0 前言

電網企業業務復雜,企業生產經營中有大量的半結構、非結構化的文本數據,電網企業生產經營過程中有大量的文本數據,涉及到電子、化學、機械、信息等多種專業領域,例如電力中的檢修報告中包含了專業設備有關機械、化學、物理、電子等多個專業領域,涉及到多種專業的知識。此類文本數據屬于低密度價值數據,存在數據量大、結構復雜、缺乏規范等特點,是目前數據分析和挖掘的難點區域之一。

電力客服95598 工單就屬于這種典型數據,這類文本數據中主要采用口語化的描述形式,記錄了大量的電力業務特性,但同時文本中也包含了很多電力專業術語,這類文本數據的格式不統一,內容差異較大,目前主要通過坐席人員的判斷對工單內容進行處理和分類,由于依靠人工的經驗,導致處理及時性較低,分類規則不一致,不能有效發現客戶的真實訴求。因此急需一種有效的文本數據挖掘方法,能夠自動對工單進行自動分類,并進一步挖掘客戶的潛在訴求,對營銷客服水平的提升具有重要的意義。

人工智能、文本挖掘技術逐漸被應用到電力的各種場景中,馬潤澤[1]等采用基于KNN算法對缺陷文本進行歸類計算,構建斷路器狀態綜合評價模型。劉興平[2]等通過引人LDA 主題生成模型,結合工單內容構建工單文本挖掘模型對工單進行篩選、判斷和歸類。鄒云峰[3]等通過建立95598 工單自動分類模型,實現工單快速分類,挖掘其中的重要信息,為分析用戶的訴求提供依據??傮w而言,目前對于電力文本數據的研究大多基于傳統機器學習分類模型,由于缺乏大量的電力業務樣本數據,電力文本分類的準確性都不高,適用范圍較窄。

本文針對電力客服工單數據的特點,圍繞自然語言處理應用中的關鍵技術和核心算法[4],利用預訓練BERT 模型分析工單文本內容,挖掘工單內容上下文規則,將通過大量中文預訓練的模型進行二次訓練,減少電力訓練樣本數量,提高工單自動分類的準確性,為自然語言預訓練模型在電力行業中的應用實踐提供參考建議。

1 工單文本分類理論

自然語言處理是當今大數據、人工智能重點關注的關鍵技術之一,主要的研究內容有詞法分析、語法分析、文本分類、語言翻譯等。目前在互聯網領域,如國外的谷歌、臉書、亞馬遜,國內的百度、阿里、騰訊等公司都把自然語言處理作為重點研究內容,在用戶意圖分析、情緒判定、廣告推送、機器翻譯等方面均取得了很好的應用效果。

文本挖掘的理論研究方面,主要研究方向有文本結構分析、文本語義分析、文本摘要分析、文本自動分類、文本多語言翻譯等。文本挖掘的應用方面,研究成果和應用都比較成熟,文本挖掘已成熟應用微博熱點話題監測[5]、情感分析[6]、用戶評論語義分析[7]、垃圾郵件分類等應用場景中。

1.1 工單自動分類

所謂的工單分類,既是對工單文本內容進行挖掘分析,借助人工智能、自然語言處理技術,在文本中找出字、詞、句的特征、上下文關系、變化規律等,理解文本內容的目的、意義及要素,對文本進行分類,實現工單的自動分類。

1.2 工單情緒分類

工單的情感分析是指通過對文本中的服務、產品、對象等內容進行歸類,對文本中的人物、事件、評價等內容進行歸類,采用情感分類策略,對該文本的意見與該對象的喜好態度進行關聯挖掘分析,從而得到工單文本的情緒分類。工單的情緒分類在電力應用中比較典型的場景是對95598 客服工單內容,結合文本情感分析與文本分類技術,將建議、投訴類工單優先級進行類型劃分,其中優先級較高的工單應當進行優先處理。

1.3 工單文本聚類

文本聚類作為自然語言處理技術中的一個重要技術,在文本挖掘技術的領域占據了不可代替的地位,由于不需要手工標記的樣本數據,不需要人工處理文檔內容,實現的代價較小,能夠快速應用到各類場景,特別是對于像電力這類行業,普遍存在樣本少、數據量大的特點,采用文本聚類可以作為對文本數據分類的預處理技術。

對于電力客服工單的分類,由于客戶的訴求不斷在改變,應對此類變化的最好方式就是采用文本聚類技術,可實時對所有工單進行分析,將同類工單進行歸并,輔助下一步的文本挖掘分析。

2 工單分類方法研究

工單分類算法模型的構建過程即通過相關算法,根據文本處理后的樣本數據進行訓練生成分類模型,并利用該分類模型對新的工單文本數據進行自動分類,常見的文本自動分類算法包括條件隨機場、梯度提升決策樹、卷積神經網絡算法等。

2.1 電力分詞算法

中文句子中的每個詞語之間無類似英文空格類的天然的分隔符,開展中文文本的挖掘分析,中文分詞是開展文本挖掘的基礎工作,自動分詞是建立文本表示模型的首要問題。常用的分詞算法有最大匹配算法、HMM、CRF 等[8]。其中CRF 算法適應性更好、準確度更高,是目前比較成熟的分詞算法。

條件隨機場CRF(Conditional random f ield)分詞算法是一種基于概率圖模型的標注算法,是馬爾科夫隨機場的條件概率約束的一種特殊情況。如果存在隨機變量X、Y,其中隨機變量Y 構成了一個無向圖G=(V,E) 表示的馬爾科夫隨機場,即:

對任意節點γ成立,則稱條件概率分布P(Y|X) 為條件隨機場。式中“ω-γ”表示在圖G=(V,E)中與節點v 有邊連接的所有節點w,“γ~”表示節點v 外的所有節點,YV和YW為節點v、w 對應的隨機變量。

CRF 分詞中所采用的條件隨機場是馬爾科夫隨機場的一種特例,是一種X、Y 具有相同圖結構的線性鏈條件隨機場(linear chain conditional random field)。

設X={X1,X2,X3,…,Xn}、Y={Y1,Y2,Y3,…,Yn}均為線性鏈表示的隨機變量序列,在給定隨機變量序列X 的條件下,隨機變量序列Y 的條件概率P(Y|X)構成了隨機場,i代表序列位置,n代表了序列的長度,即:

在中文分詞標注處理中,X 表示著等待處理的輸入序列,Y 表示著輸出的標記序列。通過對電力文本訓練語料的學習,可得出分詞的隨機場模型的參數,從而得到分詞訓練模型。

2.2 機器學習算法

梯度提升決策樹GBDT 算法是機器學習中應用較廣泛的一類算法,它是基于決策樹的一類分類算法[9],GBDT 對于分類樹的每一次的計算是為了減少上一次的殘差,在殘差減少的梯度方向上建立一個新的模型,從而實現殘差的消除,設F(x,P) 是分類函數,P 是參數集,將加法函數延伸成如下格式:

上式中的h(x;αm)是基函數,h(x;αm)是對輸入變量x 的單參數化函數,其中α={α1,α2,α3,…,αn},對于上式(1)中的兩個參數求解,可通過優化損失函數{βm,αm}來求解,計算公式如下:

針對以上損失函數的求解,可利用Greedy Stagew ise 方法,結果如下:

最后得到最終分類函數:

2.3 深度學習算法

目前深度學習已成為人工智能在行業應用中的主流算法,其中的卷積神經網絡模型是典型代表,它由Lecun 在1989 年提出[10],卷積神經網絡CNN 模型如圖1 所示,模型是具有深度結構的前饋神經網絡,在神經網絡的至少有一層使用卷積計算層代替一般矩陣乘法網絡層。卷積神經網絡具有表征學習、局部感知、權值共享等特點,這樣可極大減少訓練參數的數目,提高網絡計算效率,近年被廣泛應用到計算機視覺、自然語言處理等領域。

圖1 卷積神經網絡模型結構圖

卷積神經網絡CNN 由很多層組成,輸入層可以處理多維數據,其后包含卷積層、池化層和全連接層,其中輸出層的上游通常是全連接層,其結構和原理與前饋神經網絡的輸出層相同,模型各層的結構如下:

輸入層(Input layer):輸入層接收多維數組,用梯度下降算法進行學習,一般輸入特征需要進行標準化處理。

卷積層(Convolutional layer):卷積層包含多個卷積核,其結構類似于一個前饋神經網絡的神經元,每個卷積核的參數都是通過反向傳播算法優化得到,卷積層的目的是提取輸入的多種特征。

池化層(Pooling layer):通常在卷積層之后會得到維度很大的特征,在池化層進行特征選擇和信息過濾,通過最大、最小、平均等計算,得到新的、維度較小的特征。

全連接層(Fully-Connected layer): 全連接層等價于前饋神經網絡中的隱含層,通過把所有局部特征結合變成全局特征,是隱含層的最后部分。

輸出層(Output layer):輸出層使用邏輯函數或歸一化指數函數將結果轉換為分類標簽。

3 自動分類模型構建

谷歌于2018 年發布了基于雙向Transformer大規模預訓練BERT 語言模型,憑借基于預訓練的fine-turning 模型刷新了11 項NLP 任務的最優性能記錄,引起了國內研究熱潮。

3.1 預訓練BERT算法模型

對于預訓練模型的選擇,本文使用基于多頭自注意力機制的預訓練分類模型,模型使用的是預訓練模型中的典型編碼器加解碼器結構,如圖2 所示,其中左邊部分為編碼器,用于將源序列的編碼;右邊部分為解碼器,用于輸出目標序列的解碼。

圖2 預訓練BERT模型基本結構圖

其中,編碼器部分由N 個層堆疊在一起構成,每一層的結構都是相同的,每一層包含了兩個支層:第一個支層由一個多頭自注意力子層(M ulti-Head-A ttention)和一個前饋神經網絡子層(Feed Forw ard)構成;第二個支層由一個簡單的全連接前饋網絡組成。另外,第一個支層和第二個支層的外面都采用殘差進行連接,并對結果進行了層規范化(Add& Normalize)的處理。

模型的解碼器部分也由N 個相同的層堆疊而成。每一層除了沿用編碼器中的兩個支層結構,還加入了第三個支層編碼- 解碼注意力子層(Encode-Decoder A ttention),用于計算編碼器中輸出結果對當前結果的影響。另外,第一個多頭自注意力子層也和編碼器部分的子層不完全一樣,在編碼器基礎上添加了掩碼結構,處理訓練階段屏蔽的詞,解碼器中同樣進行了殘差連接以及層規范化(Add& Normalize)的處理。

3.2 客服工單自動分類流程

電力客服工單中存在較多的標點符號,以及助詞、副詞、介詞、連詞等非功能性的停用詞,模型訓練前需要對文本數據進行預處理,圖3 給出了基于預訓練BERT 算法模型的自動分類流程,分類流程包含文本預處理、模型構建、效果評估三大環節,分類的詳細流程步驟如下:

1)數據輸入:一個工單文本描述作為一條數據,標識為一個數據集Y,得到待訓練向量集合Zy={zy1,zy2,zy3,…,zym};

2)中文分詞:工單文本中詞與詞之間沒有空格的自然分界,本文采用上述所述的CRF 分詞算法,并借助自行編纂的電力專業詞典,對電力文本進行分詞Aij={A11,A12,A13,…,A1m},其中一個工單文本為i,工單文本中的一個分詞為j;

3)數據預處理:剔除無意義的標點符號、表情符號,剔除非功能性的助詞、副詞、介詞、連詞等停用詞;

4)文本表示:采用分布式文本表示,將文本分詞后的每一個詞轉換為向量化的數值,如“變壓器”的向量化表示為[0.50451,0.68607,-0.59517,-0.022801,0.60046,…,0.68229,0.81722];

5)特征構建:構建工單文本分類的特征詞庫矩陣,完成特征提取,可有效降低特征空間維數,提高運行效率、降低復雜度、提高分類準確率,特征矩陣如下:

6)模型訓練:將特征矩陣∑AIJ作為算法模型輸入,其中70%數據訓練集,30%數據測試集,對分類模型進行訓練;

7)效果評估:本文采用準確率、召回率、精度、F1 值四個指標對分類效果進行綜合評價,逐步調整模型參數,指標符合預期為止。

圖3 工單自動分類流程圖

4 實例分析

本文從某供電局營銷部門收集了共35900 條與停電有關的工單。通過數據預處理,除去冗余、重復等意義不大的文本數據,由于本文所采用的分類方法為有監督學習機制,又去除了停復電咨詢、催繳費等無關的數據,取剩余14000 條文本作為實驗樣本。該停電故障集涉及的類別如表1 所示。

表1 停電故障類別

4.1 分布式文本表示

文本的分布式表示最早由Hinton 提出,本文采用的思路是以Bengio 等人提出的NNLM模型為基礎,在對大量客服工單文本數據進行預處理的基礎上,將這些客服工單數據作為語料庫訓練詞的分布式詞向量。通過NNLM 處理后,可得到不同維度的詞的語義,如圖4 表示一個三維的詞向量示例:

圖4 詞向量的分布式表示

圖4 中每一個圓點表示一個詞向量,x、y、z 軸分別表示詞向量的3 個語義維度。采用分布式表示詞向量時,詞義相近的詞對應的詞向量在特征空間中距離也比較接近,而詞義相差較大的詞對應的向量距離也比較遠,例如“潛油泵”和“絕緣化”兩詞的相關性較大,在圖4詞向量分布空間中,也可看出兩詞的特征空間距離比較接近。在電力實際應用中,詞向量維度大小可根據語料庫的大小來進行選定,通常取100~300 維,每個維度代表機器自動學習到的一個詞特征。

4.2 輸入文本的處理

輸入的文本轉換為詞向量后,就可以輸入預訓練BERT 算法模型中,在進行模型的預訓練時,將輸入的詞向量中融入電力客服工單場景的上下文特征,如圖5 是工單文本“進戶線三相電表關閉空開后有電”的預訓練模型中的標準輸入形式。

圖5 電力文本輸入結構圖

文本序列的每個句子首位和末尾都打上特殊標記,首位標記[cls],末尾標記[sep],對于句子分類任務,中間字依此進行標記,最終完成整個句子的表征描述。針對一個段落,算法模型使用兩種手段來使模型區分多個句子:1)用標記[SEP]分隔兩個句子。2)添加段向量到輸入中,段向量采用A 型、B 型、C 型來分別表示多個句子。

針對模型的每一步訓練,例如輸入句子A,有50%的概率選擇句子B 作為下一個連續的輸出,有50%的概率從語料中選擇不連續的句子C 取而代之。圖6 給出了替換的前后對比。

圖6 句子屏蔽前后對比

采用遮蔽詞策略的預測訓練過程,模型輸入序列中的任何一個元素都會被隨機標記[mask] 代替,通過隨機遮蔽詞策略來避免模型學習中的過擬合問題。經過模型的屏蔽編碼后,標記[mask]的最終輸出結果會用來預測被遮蔽詞。另外,在此模型訓練時的輸出除了保證句子本身的完整外,還采用是或否的標簽來判斷多個句子的連續性。

4.3 算法訓練參數

標準的預訓練BERT 模型給出了兩個版本,一個是base 版本,另一個是large 版本,考慮到實驗數據量相對較少,分類結果不是太多的情況,本文選擇的是large 版本,雖然訓練過程相對速度較慢,但能夠從工單文本中學到的特征較多,擬合程度也會更好,分類模型采用的參數如表2 所示:

表2 分類模型參數

4.4 算法模型訓練

算法模型的學習訓練采用有放回重復抽樣的方式來構建訓練集和測試集,其中訓練集和測試集按照70%和30%的比例來劃分。訓練過程中為了訓練出有深度雙向語言向量,需要遮住句子里某些單詞,采用的屏蔽策略為1)80%概率保持這個詞不變;2)10%概率用隨機的一個詞來替換;3)10%概率用mask token 來代替。

本文采用的屏蔽詞策略能夠提升編碼器的泛化能力,由于編碼器不知道哪些詞是需要預測的,哪些詞是被屏蔽為錯誤的,因此編碼器將被迫學習每一個token 的分布向量,由于每個句子中只有20%的詞會被屏蔽標記[mask]遮蓋,保證了模型的泛化能力,為此多付出的性能開銷也不大。

4.5 實驗結果與分析

為合理評價電力客服工單文檔的自動分類效果,我們重點關注分類模型的準確率、召回率、精度、F1 值四個評價指標,指標的定義如下:

■ 準確率(accuracy):

■ 召回率(recall):

■ 精度(precision):

■ F1 值(F1-score):

另外,為了對比預訓練BERT 分類模型與傳統機器學習分類模型的效果差異,本文選取幾種典型的傳統機器學習方法進行對比實驗。文本表示采用分布式向量表示,分類算法采用GBDT 梯度提升決策樹、LSTM 長短期記憶網絡、RNN 循環神經網絡。

采用上述4 種算法模型進行分類訓練,得到的結果按照準確率、召回率、精度、F1 值、耗時進行對比,統計結果如表3 所示。

從表3 的對比可看出,采用GBDT 的模型訓練耗時最小,原因在于GBDT 模型是由多顆決策樹構成,復雜度小,可并行程度高,計算性能要優于其他模型。不過準確率、召回率、精度等其他評價指標都是最低的,整體指標偏低,說明模型對于數據的擬合度不夠,也從側面說明客服工單文本上下文關系、隱含語義較復雜,常用的機器學習模型效果不理想。

預訓練BERT 模型除計算性能低于GBDT模型,其他三個評價指標都是最優的,其中準確率和召回率都明顯要高于其他模型,深度學習類的RNN、LSTM 模型對于樣本量少的電力工單訓練的效果不夠好,預訓練類BERT 模型可以將其他領域訓練的文本特征帶入電力業務場景,能夠顯著提升電力工單文本自動分類的準確度。

5 結束語

在電力客服工單的自動分類處理上通過引入基于預訓練的BERT 模型,并將預訓練模型與常用的機器學習、深度學習模型進行全面對比,通過對各類算法模型的準確率、召回率、精度、F1 值、耗時進行了綜合對比,給出了在電力95598 客服工單文本分類的一種優選方案。

預訓練模型中除了較成熟BERT 模型,目前基于預訓練策略還發展出MASS、XLNET 等一系列更復雜的預訓練模型,可以預計,隨著人工智能、自然語言處理技術的成熟,電力業務中更專業、更復雜的場景必將迎來巨大變更。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: av免费在线观看美女叉开腿| 五月婷婷中文字幕| 国产一区二区在线视频观看| 中文无码日韩精品| 亚洲天天更新| 四虎国产在线观看| 国产jizz| 国产91在线免费视频| 日韩无码视频专区| 久精品色妇丰满人妻| 久夜色精品国产噜噜| 精品91在线| 九九香蕉视频| 久久人人妻人人爽人人卡片av| 亚洲美女久久| 网友自拍视频精品区| 国产精品吹潮在线观看中文| 欧美a级在线| 国产在线精品美女观看| 久久精品娱乐亚洲领先| 曰韩人妻一区二区三区| 久久影院一区二区h| 亚洲人成在线免费观看| 国产精品开放后亚洲| 国产自无码视频在线观看| 亚洲一级毛片在线观播放| 国产高清自拍视频| 久久精品电影| 91青青草视频在线观看的| 亚洲精品无码久久久久苍井空| 一区二区偷拍美女撒尿视频| 一本大道无码日韩精品影视| 性色生活片在线观看| 亚洲人成网址| 亚洲aⅴ天堂| 看你懂的巨臀中文字幕一区二区| 91久久天天躁狠狠躁夜夜| 在线播放精品一区二区啪视频| 狠狠做深爱婷婷综合一区| 福利小视频在线播放| 色偷偷一区二区三区| 亚洲一区色| 伊人婷婷色香五月综合缴缴情| 高清码无在线看| 欧美另类精品一区二区三区| 亚洲日本中文字幕乱码中文| 亚洲第一综合天堂另类专| 久久五月视频| 丰满人妻中出白浆| 国产精品白浆无码流出在线看| 欧美自拍另类欧美综合图区| 成人午夜久久| 片在线无码观看| 亚洲自拍另类| P尤物久久99国产综合精品| h网址在线观看| 国产精品成人AⅤ在线一二三四| 重口调教一区二区视频| 国产精品亚洲片在线va| 在线精品亚洲国产| 成人日韩精品| 在线观看免费人成视频色快速| 国产乱子伦精品视频| 伊人久久婷婷| 国产成人一区| 欧美一级色视频| 亚洲欧美国产高清va在线播放| 国产一在线| 亚洲一区第一页| 91av国产在线| 超碰精品无码一区二区| 国产午夜无码片在线观看网站| 精品免费在线视频| 精品自窥自偷在线看| 久久99国产精品成人欧美| 亚洲免费三区| 欧美日韩专区| 国产成年女人特黄特色毛片免 | 日本在线国产| 国产内射一区亚洲| 国产制服丝袜91在线| 无码aaa视频|