楊波 王瓊 楊仕博
(1.國網甘肅省電力公司信息通信公司 甘肅省蘭州市 730050 2.甘肅同興智能科技發展有限責任公司 甘肅省蘭州市 730030)
智能電網是以新能源戰略與國家地毯經濟為發展要義提出的“電網2.0”,旨在基于集成且高速雙向通信網絡,并通過各類傳感測量設備、技術、方法、系統支持建成的電力資源優化配置管理平臺[1]。自2009年國家電網發布智能電網計劃以來,我國的智能電網發展已開啟人工智能風口下的高速發展。隨之而來的數據規模井噴式增長對智能電網環境下的電力信息快速挖掘利用、科學精準管理提出了高要求。
電網企業作為信息資源密集型企業,其企業數據雖具備規模大、類型復雜、價值密度低、變化快的大數據典型特征,但電網企業積累了大量文本數據及其參考價值高的特點為開展智能化電網信息管理提供了數據來源可靠性與體量充分性,并具有良好的應用前景。
此外,目前先進的自然語言處理、深度學習技術以及電力行業成熟的評估、指導、管理標準為實現電力文本數據挖掘與管理提供了自動化電網數據管理,同時就運行監測、業務評估、人員培訓、企業管理給出關鍵性解決方案。雖然,文本分類技術暫時未在我國電力行業中獲得廣泛性推廣應用,但其在傳媒[2]、醫療[3]、行政[4]事務中的成熟應用為該技術在電力行業的發展提供了重要參考意義。
本文擬對相關研究進行概述,分析電力文本分類的技術特點、常見應用、現存問題,并基于此,預測智能電網環境下的電力文本分類發展趨勢。
作為自然語言處理以及數據挖掘中的重要子任務之一,文本分類(Text classification 或Text Categorization)是按照一定的分類標準或需求對大量的文本通過高效自動分類技術實現的,突破基于經驗的傳統手工限制的針對海量電力文本的標準化快速管理,即將一篇包含信息的文本映射到某一類或某幾類主題的過程。而主題的設置常根據業務需求、應用場景進行預設。目前,文本分類的主要研究內容之一是探索高性能的分類模型。而在電力方面,文本分類的研究則主要在于以業務為導向的技術應用和模型優化的理論探索。但是,面向智能電網的文本分類研究依舊遵循一般性文本分類處理流程,主要涉及文本數據預處理,特征提取以及特征表示,分類器訓練等[5]。電力文本分類系統如圖1所示。
在調研了大量電力業務以及文本后,從數據和方法兩方面入手,我們發現電力文本分類主要存在以下幾個難點。

圖1:電力文本分類系統
1.2.1 數據缺乏
各類文本分類器的訓練大多依賴于大量的訓練數據。然而,由于電力工業也安全時國家安全的重要組成部分,電力企業對于文本數據的管理制度以及保密要求非常嚴格。這為電力文本分類技術研究帶來了巨大的挑戰以及更高的要求。
1.2.2 電力文本特點
和一般性文本相比,電力文本具有其獨有的文本特點。
專業性,電力文本涉及大量專業性詞匯,如果不進行模型訓練或是詞典擴充,那么大量的專業性詞匯是無法被識別并被表示為文本特征的。
語言學弱顯性,電力行業高效快速的行業特征,使得在文本書寫階段,更多考慮內容傳達,而相對忽略語言學規則,因此在某些情況下,無法采用一些基于語法或是上下文的分類方法進行處理。
電力文本形式多樣性。電力文本常為了實現快速的信息傳遞,在一篇文本中出現結構化數據與非結構化數據混合問題。這種無確定形式表達且缺乏機器可理解語言的問題為自動化文本特征抽取與分類提出了更高的要求。
電力文本內容缺陷性。電力設備的日志在電力文本中的占比較大。然而這類文本由于本身由設備或者系統自動生成等原因造成缺陷性文本數目龐大。比如文本中常常缺失設備編號、位置信息、時間等各類問題。在文本分類過程中,這類數據是必須處理的。因此,專門針對電力缺陷文本的處理也是一項非常有意義的課題。
設備運行負載及成本。文本分類技術在電力行業的應用必須按照電網工業生產和安全標準提出的要求。如何使用少量的計算資源、設備資源和存儲資源,在最短的時間內實現快速準確的自動化文本分類是自然語言處理在電力場景下應用的重要課題之一。

圖2:Bi-LSTM 結構圖

圖3:TextRNN 流程
中文分詞[6]作為人機自然語言交互的基礎性工作,是將一個由漢字序列組成的電力文本從語言理解的角度切分成單獨的詞塊。由于中文文本沒有詞界限,因此比起英文來說,分詞的工作就顯得尤為重要。而分詞效果的好壞會直接影響到包括磁性、句法樹在內的后續工作。常用的中文分詞手段主要有基于詞典的分詞算法、基于統計的機器學習分詞算法、基于深度學習的分詞器以及混合方法的分詞手段。
早期基于詞典的分詞算法主要依賴已建成的充分完善的詞典進行詞語匹配,若匹配一致,則識別文本中出現的詞語。常見的具體方法由正向最大匹配、逆向最大匹配以及雙向匹配。這種分詞方法的分詞速度最快,但無法完全滿足電力文本的分詞處理需求。
基于傳統機器學習的方法是目前較為常用的,在Stanford[7]等眾多廣普性分詞工具中獲得了大量的應用。常用的機器學習模型則包括隱馬爾科夫模型、條件隨機場模型、支持向量機模型等。這些方法的思路是通過對訓練數據的標注,從詞頻和時間序列兩個角度進行分詞,從一定程度上解決歧義詞以及未收入詞的識別[8]。
近年來,隨著深度學習的理論探索,基于深度學習和機器學習的混合模型受到了越來越多的應用,如基于雙向LSTM 和CRF 的分詞器[9]取得了良好的效果,且已被驗證該模型同樣適用于中文分詞任務。
而由于電力文本存在專業性強、語言學特征弱顯性等領域性文本常見問題,以及電網運行安全性、高效性、可用性的業務要求,主要提倡采用基于機器學習或者深度學習的分詞模型和詞典結合的形式。
實現對電力文本的特征提取及表示,實現特征到類別的映射是文本分類的關鍵性模塊。特征抽取的四類主要方法分別是基于詞袋模型的特征表示,以循環神經網絡和卷積神經網絡為代表的基于字符的特征抽取,以Word2Vec 嵌入、神經網絡嵌入和圖嵌入為代表的基于embedding 的特征表示,以及基于BagOfWord 的特征抽取方法。
基于詞袋的特征表示方法主要采用TF-IDF,通過統計一個詞語在文本中的出現次數,即詞頻,判評估一個詞的重要程度。這種方法簡單直觀,但無法處理詞義融合問題,如在電網中,某些情況下,“設備”和“計算機”這類意同詞不同的情況。
基于embedding 的特征表示的主要原理是將現有的特征表示營收達到一個新的向量空間中。其訓練方法分為無監督和有監督。其中Mikolov 提出word2vec[10]方法是一種可不依賴手工提取特征的無監督方法。常用的TextCNN 和TextRNN 會根據任務需要進行選取。其中TextCNN 是通過卷積神經網絡(CNN)提取文本中n-gram 信息,引入對詞性的考慮,實現對文本關鍵局部信息的捕捉。TextRNN 則主要通過雙向長短期記憶神經網絡(Bi-LSTM)實現雙向n-gram 信息捕捉,解決TextCNN 無法關注長序列的信息的問題。Bi-LSTM 結構圖如圖2所示,TextRNN 流程如圖3所示。
針對智慧電網中出現的電力文本特征抽取,除了從模型本身的性能考慮,還需要考慮電網業務需求,電力行業特殊性,電力運行安全性可靠性,設備運行壓力,運行時間綜合考慮,進行選取調整,并做改進優化。
目前,文本分類技術的應用研究主要集中于電力設備缺陷,電力檢修,基建施工,客服工單,電力審計,電力調度,電企輿情等方面。
其中,針對電力設備缺陷的文本分類關鍵技術研究是重要的課題之一。浙江大學通過引入BiLSTM-Attention 神經網絡的方法實現對電力設備缺陷文本的自動精準高效分類[11]。張晗等人則重點針對輸變電設備缺陷文本采用4 層神經網絡的形式進行分類[12]。
除此之外,文本分類技術在客服工單上的應用也很廣泛。廖勝蘭等人根據電力業務定義里35 中業務類別標簽,構建了包含9577條用戶問詢語句的數據集[13]。天津信通公司則從層次語義理解的角度入手,以準確定位客服工單內容中的客戶需求為任務導向,采用深度學習的方法實現了對工單文本中詞和字符的建模[14]。顧斌等人則通過詞典擴充的方法結合word2vec 以客服工單中的情感傾向為分類依據展開研究[15]。
而針對電力審計領域的文本具有行業特征明顯、文本特征相似度高、分類邊界模糊的特性,陳平等人提出了增強領域特征的電力審計文本分類方法。通過此方法,垂直領域的文本細粒度分類性能也獲得了顯著提升[16]。
甘肅信通公司還展開了文本分類技術在電企輿情方面的研究[17],通過搭建的基于文本分類技術的企業輿情主題識別實驗平臺幫助電力企業進一步加強輿情管控。
也有越來越多的工作以構建客服人機對話系統,客服問詢知識圖譜為最終任務,前期采用文本分類技術幫助實現知識圖譜或是構建電力設備缺陷用戶畫像。
3.2.1 基于電力文本詞典構建
針對電力領域的本體詞典構建具有重要科研意義。它的構建將不止服務于文本分類任務,而是幫助各類自然語言處理技術引入到對電力文本的應用和研究中。當然此類詞典的構建工作量龐大,涉及內容多,專業要求高。業務部門繁多,工種繁多,電企內部體系復雜以及電企所處地理位置的習慣性表達等原因造成的內容表述方式多樣化也為詞典的構建帶來了巨大的挑戰。
3.2.2 基于數據融合的知識圖譜構建
近年來,知識圖譜技術已引入到醫療、傳媒等各個領域,也帶來了良好的效果。隨著電網2.0 概念的落實,智能電網背景下的知識圖譜的構建勢在必行。然而,電力知識圖譜的構建還處在初步嘗試階段,常見的是針對某一業務的圖譜構建,如設備故障、智能客服故障問詢。事實上,在電網體系中,多平臺,多系統,多類型表達的現狀對知識圖譜的構建提出了更高的基于數據融合的要求。這項工作的展開需要文本分類技術的支撐。
因此,在電網文本問題解決過程中,與自然語言處理相關的各項子任務并非獨立存在的且完全割裂的,而是相互提供技術支持。
近年來,隨著自然語言處理技術的發展為電力文本自動化分類與標準化管理的實現提供了技術條件。以語義理解為基礎,以專業知識為前期支撐,文本分類技術將為我國智能電網的發展提供支持。數據集的構建,針對電力領域的定制化文本分類技術將成為自然語言處理技術在電網行業應用的重要課題之一。