高明 陸宏治 梁雪青

摘 ?要:本文首先簡述了非結構化數據的背景以及電力系統非結構化數據的特點,然后闡述了對非結構化數據挖掘利用時所遇到的問題,回顧了電力系統不同應用層面非結構化數據的處理方法及優缺點。在此基礎上,從非結構化數據處理中的數據提取、數據過濾、數據轉化和利用方面進行歸納和分析。最后根據電力系統戰略規劃,提出了未來非結構化數據處理的發展方向。
關鍵詞:非結構化數據;大數據處理;電力系統;聚類;智能算法
中圖分類號:TM7 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)17-0009-04
Abstract:This paper first briefly describes the background of unstructured data and the characteristics of unstructured data of power system,then expounds the problems encountered in the exploitation of unstructured data,the processing methods and advantages and disadvantages of unstructured data at different application levels in power system are reviewed. On this basis,the data extraction,data filtering,data transformation and utilization in unstructured data processing are summarized and analyzed. Finally,according to the strategic planning of power system,the development direction of unstructured data processing in the future is proposed.
Keywords:unstructured data;big data processing;power system;clustering;intelligent algorithm
0 ?引 ?言
如今,在移動互聯、大數據、人工智能時代背景下,在電力行業中,隨著能源互聯網、智能電網、泛在電力物聯網的建設和發展,各種網絡拓撲變得更加復雜,整個電力行業運營中產生爆炸式增長的多源異構數據。伴隨著移動互聯技術的普遍應用,電力物聯網中復雜的傳感器網絡產生了海量數據,這些數據覆蓋了電力生產、傳輸、銷售等各個環節,并且電力監管和電力資源之間的信息交互數據也會不斷增長。電力行業產生的海量數據將會帶來存儲、傳輸和信息處理等各方面的挑戰,也成為了移動互聯、物聯網及人工智能技術在電網企業融合應用中需突破的實際問題。
在電力系統數據中,結構化數據與非結構化的數據有著不同的應用價值。結構化數據通過統計分析可以用來制定發展策略、預測動向。但實際上,與電力企業內目前用于記錄、統計、控制的顯性結構化數據相比,大量的非結構數據中蘊含了更加持久和影響深遠的價值,包含著大量可以提高企業效益的有利信息。對于電力企業來講,通過再檢索、共享、分析這些數據,可以挖掘其中的隱藏價值,對電力公司的戰略部署、發展方向將會產生深遠影響[1]。
結構化數據主要基于關系數據庫存儲,通過保存不同的業務數據到對應的表中,方便查詢統計、操作便捷、易于維護。而非結構數據占比較高,如設計圖紙、合同、報告、說明書、標書等,這些數據文件格式多樣、內容繁多、不易理解,數據含義比較隱性,無法使用關系數據庫存儲,只能通過不同文件形式存放。鑒于非結構化數據的特點,對這些非結構化數據存儲檢索時難度會比較大。為了獲得其中蘊含的價值,需要在使用這些非結構化數據時,必須根據具體需要對其進行預處理,將其標準化,建立更加智能化的系統來處理這些數據,深入挖掘其中的價值。
1 ?電力系統非結構化數據的特點
根據數據來源以及數據特征結構的不同,電力系統中所產生的數據可以分為結構化、半結構化和非結構化數據,如表1所示。
結構化數據特征表現為可以在固定字段集合中存放并且可以用二維表表示;而半結構化數據雖然說是結構化的,但是數據結構變化大,因此不能像結構化數據一樣簡單地通過建立表來處理,但適合將數據元素用標簽區分,用XML來存儲;非結構化數據本身主要表現為格式和標準多樣,存儲量大且增長速快,可以是任何類型的數字信息形式,如文本、圖片、Web頁面、Office文檔、電子郵件等[2]。非結構化數據內容無法直接獲取,如有些音頻視頻文件需要用相應的方式打開才能讀取,所以難以用數據庫中的二維邏輯表表示,且檢索困難,大部分要借助處理方法或者處理工具才能方便管理利用,但是這些非結構化數據中所蘊含的價值是巨大的。這類數據在電力系統中占80%以上,例如故障錄波、監控視頻、圖像、CIM等數據[3]。
在電力系統中,對非結構化數據的處理上存在以下問題[4-7]:
(1)相比于結構化數據,電力系統中非結構化數據產生速度快、格式多樣化、價值密度較低等導致難以系統化,部門之間的數據交互很多依靠掃描件、郵件、人工傳遞的方式,這就使得數據傳遞效率低下,交互成本高。
(2)非結構化數據的管理無法雙向進行,只能根據業務的需要單向傳遞,由于傳遞缺乏實效性導致更新以及變更后的文檔不能完整及時地傳到用戶那里,而且文檔利用的情況無法及時反饋。
(3)目前非結構化數據的傳輸主要通過數據交互平臺,但是由于傳輸通道的容量較小、傳輸速度較低,通常需要在保證主要信息的前提下,刪除圖片、正文數據信息,導致信息存在失真的情況。
(4)非結構化數據在業務系統間傳遞時,文件標識沒有統一的定義標準,導致更新文件版本時,需要人為定位歷史版本。
2 ?電力系統中非結構化數據的處理方法的現狀
2.1 ?采集提取
非結構化數據的采集提取,是指從一個數據集中抽取一類所需的信息導入對應數據庫的過程,提取技術有很多種,可以根據不同的標準來分類。例如,根據人為參與程度可以分為人工方式、人工輔助方式和全自動方式的提取方法。非結構化數據的提取相對比較復雜,對于文本數據,一般需要采用模糊匹配法匹配行上的字段并逐行進行抽取。數據的抽取涉及到幾個關鍵的問題:數據倉庫需要抽取的數據內容;數據抽取的來源;數據存放在哪個系統的數據庫;根據需要制定各個系統的數據抽取規則;確定所抽取記錄的唯一標示符。
文獻[8]利用聚焦類網絡爬蟲Scrapy構架來采集網頁非結構化數據信息,爬蟲根據提交的查詢表單,尋找選擇合適的Web數據庫,然后把頁面存儲到本地的數據庫中。
文獻[9]提出了一種從數據庫抽取數據的方法,該方法將ODBC用于數據抽取,為了建立數據倉庫,在數據轉換過程中應用轉換規則集,從而有效地提取和管理非結構化數據。此外,文中還采取了虛擬化集群存儲、資源池存儲和容錯機制來方便非結構化數據的抽取。
文獻[10]提出了數據提取的三種方法。方法一:通過應用機器學習歸納算法的包裝器歸納方式來生成抽取規則,抽取規則的制定是基于對語義項上下文描述,通過語義邊界來定位語義項;方法二:基于Ontology方式的信息根據數據本身的描述來實現抽取;方法三:通過Web頁面的定位信息并基于HTML結構實現信息抽取,再將Web文檔解析成語法樹,然后進行信息抽取的同時,還需采用后模式的方式為其添加語義,該方法通過使用大量的樣本進行訓練來提高抽取數據的精確性,以避免抽取到與用戶無關的信息。
2.2 ?過濾清洗
數據的過濾清洗是指對數據進行雜質去除和校驗的過程,主要在于去掉重復信息、糾正錯誤,以及排除非用戶需求的數據等,對于多數據源的數據,還需要對其進行關聯性驗證。
文獻[11]中提到的數據清洗在目前可以通過匹配算法、機器學習算法和相應的數據關聯表進行,文中采用改進后的Skyline算法對數據進行過濾排查,通過找出具有代表意義的點,對這些點進行統計分類處理,然后生成多種統計圖。由于電網中復雜的環境因素,以及設備傳感器的故障、信號的干擾等因素會形成數據的噪聲點并導致數據的缺失,這會影響到接下來對數據分析的結果,文中提到在進行數據清洗過程中,應采取相應方法對噪聲點進行數據的修復,對于缺失的數據通過相應調控進行填補,以減輕清洗過程中數據價值的流失。
文獻[12]中提到對于清洗過程中缺失內容數據的填充可以通過四種方式實現。方式一:人工參與,主要根據專家經驗和專業知識來補充;方式二:對相應字段進行數據計算;方式三:通過字段的組合規律計算分析所缺失的數據;方式四:對于失真嚴重的數據可以通過數據的重新采集,或者從其他渠道獲取對應數據集。
2.3 ?拆分轉換
由于所抽取的非結構化數據格式屬性復雜多樣,難以進行后期的存儲、分析和檢索,需要將非結構化數據創立標準化、轉換為可識別的數據,需要根據目標數據模型或者統一數據模型對數據進行數據格式轉換、關鍵數據重新構建等。
2.3.1 ?非結構化數據拆分
為了提高存儲資源的利用率,優化計算機資源分配,可以把非結構化數據分離為元數據和二進制數據。二進制數據可以直接以數據流的形式存儲在關系表中,元數據以XML格式存入實際數據所在的節點中[13]。
2.3.2 ?非結構化數據的結構化處理
文獻[14]提到在非結構化數據結構化處理過程中,可以使用XML作為轉換媒介,利用XML支持嵌入和鏈接非結構化數據的特征,使用XlLink鏈接非結構化數據,非結構化數據通過XML的過渡最終轉換為結構化數據,由于非結構化數據的文件格式的不同,有文本、圖片、視頻、音頻等,所以必須根據文件格式的不同,采取不同的半結構化轉換方法。
文獻[15]中提出基于規則庫來實現不同格式的非結構化數據的轉換,先對原始數據格式描述,或者定義生成描述然后存入規則庫,最后提取相應規則描述。
文獻[16]中提到在非結構性數據的轉換過程中,還可以依靠相關機器學習算法對非結構化數據進行實體識別和關系抽取,從而獲得構建數據庫所需要的特定的數據對象,如通過K-means聚類算法實現實體的關系抽取,以及通過CRF++工具包實現文本數據的實體識別。
這種逐級轉換是一種典型的思路,可實現非結構化數據到結構化數據的映射,再加上CLM作為電力系統公共信息模型,通過統一的表達方式將CLM與XML鏈接,可以很好地解決電網中大部分非結構化問題。但這種逐步轉化的方式,存在轉換后缺乏通用性、文件元數據難以管理的問題,不具備大量數據轉換的條件,以及對于視頻,音頻等需要打開查看再提取有價值信息的數據只能依靠人工處理等缺點。這就需要創建文件模板表、文件聯系表來建立轉化前后的聯系,通過引入大數據文件解析優化方法,來提高系統轉化容量。
2.4 ?解譯利用
2.4.1 ?語義處理
文獻[17]中引入人工智能和模式識別領域中的向量表示法來描述非結構化文本數據;采用算法提取關鍵詞,用文檔含義和屬性組成的語義向量代替文檔,并且使用語義相似度檢索算法,從而實現非結構化文本數據也可以用傳統的SQL語句來進行檢索。
文獻[18]中提到可以借助統計學習或深度學習算法提取語言特征,通過句法或者語法分析器,實現所查文本的語義的分析,此外文中還提到使用知識圖譜和語義搜索技術對文本進行語義解析,通過文檔關鍵詞提取、自動生成摘要等技術可以進一步提高檢索效率。
文獻[19]中提到可以通過分詞的方法,將字符串變成詞的集合,一般的文本文件通常是連續的字符串流,分詞要根據語言的類型,其中中英文的處理方法并不相同。一般的全文索引工具采用正向最大匹配算法,此外,對于編碼過的文檔類型,則需要另將其解碼成字符串流。
2.4.2 ?文本建模
在對非結構化文本進行預處理后,為了方便對文本進行系統的分類和存儲,通常需要對文本進行建模。很多企業普遍運用混合模型如Hybrid模型來對文檔進行建模。因為相對于單一的模型,此類混合模型對于非結構化文本建模效果較好,通過文本建模,可以把每個文檔映射到多維空間向量中,從而可以進一步進行文檔相似度的計算,方便文本的分類和儲存[20]。
3 ?未來電力系統非結構化數據處理的發展方向
隨著非結構化數據規模的不斷擴大以及行業發展的需要,再加上相關技術的創新,非結構化數據的處理技術也需要不斷改善、創新以適應不同行業的需求。例如,隨著電力數據的爆炸式增長,電力企業的非結構化與結構化數據統一儲存調用系統已經展現出不足,迫于數據庫存儲壓力,新型的非結構化數據存儲系統在不斷研究開發之中,與之相應的非結構化數據的優化管理和處理技術成為未來研究的重點之一。總之,雖然國內外對非結構數據的處理有一定經驗,但是總體來說還處于初級階段,相關技術還不夠成熟,為了滿足未來大數據時代信息價值的充分挖掘,未來非結構化數據處理應該向以下幾個方面發展:
(1)滿足應用范圍不斷拓展。隨著企業信息化程度的不斷加深,以各種文檔、圖像、音頻視頻、報表等為代表的非結構化數據挖掘處理在業務中的需求不斷增大,應用范圍不斷擴大,數據處理作為構建信息化平臺的核心組成要素之一,必須提高非結構化數據處理技術對不同業務的需求,從而保證業務的全面開展。
(2)滿足數據的快速增長。互聯網技術的發展使得網絡信息數據迅速增長,非結構化數據庫也隨之迅速發展起來,這也對信息管理與共享提出了更高的要求。但目前非結構化數據庫的處理主要是通過構建數據庫集中處理,為了適應非結構化數據“爆炸式”的增長,進一步提高非結構化數據的處理性能,滿足分布在網絡中的各類數據同步處理。建立分布式處理體系便是未來非結構化數據處理的重要方向。未來針對非結構化數據需采用更加先進的體系架構、處理技術以滿足分布式存儲和處理大批量數據的需要[21]。
(3)特定方面的技術改進。比如,在數據存儲檢索過程中。雖然可以通過XML統一格式存儲非結構化數據,但是非結構化數據以此方式存儲后在系統的檢索上仍舊比較困難,必須針對非結構化數據庫本身的結構特點,在操作記錄、限制機制以及數據元組方面結合XML的特性加以改進,優化非結構化數據的處理方式,進而提高非結構化數據庫的檢索性能。
(4)智能化處理。隨著人工智能的普及,機器學習是非結構化數據處理的一個重要方面,特別是可以從數據中發現規律和挖掘知識,為基于非結構化數據處理的綜合決策提供基礎。在數據表示層面上,非結構化數據的可視化和特征提取以及數據降維,仍然是研究的重點[22]。
4 ?結 ?論
雖然現在電力企業擁有較為成熟的數據庫管理處理系統,但這僅適用于結構化的數據。在大數據分析挖掘中,非結構化數據的有效處理可以充分挖掘大數據價值。但是在國內外,非結構化數據的處理仍是大數據處理技術的關鍵和難點。非結構化數據處理的核心問題包括數據的采集與表示、數學建模、信息挖掘、知識推理與綜合決策等。未來隨著產業的升級和大數據的擴張,非結構化數據的處理技術迫切需要得到創新與優化,以滿足智能電網和泛在電力物聯網中數據挖掘利用的需要。非結構化數據的處理技術會朝著智能化數據建模與機器學習,特別是非線性高維數據機器學習方面融合發展。此外推進大容量高速率的分布式數據處理與存儲平臺的建設,對于提高電力系統海量非結構化數據的處理能力和處理效率也有著極為重要的現實意義。
參考文獻:
[1] HUANG Y,ZHOU X. Knowledge Model for Electric Power Big Data Based on Ontology and Semantic Web [J].CSEE Journal of Power and Energy Systems,2015,1(1):19-27.
[2] 施超.智能電網大數據相關應用問題研究 [D].廣州:華南理工大學,2015.
[3] 裴珍.國家電網公司非結構化數據管理平臺的設計與實現 [D].天津:天津大學,2016.
[4] 王瑋,劉蔭,于展鵬,等.電力大數據環境下大數據中心架構體系設計 [J].電力信息與通信技術,2016,14(1):1-6.
[5] 李澤江.電力系統多源異構數據優化管理技術的研究及應用 [D].蘭州:蘭州理工大學,2016.
[6] 陳碩,閆春生,王歐,等.國網遼寧全業務統一數據中心分析域關鍵技術組件研究 [A].中國電力科學研究院2017智能電網發展研討會論文集 [C]//中國電力科學研究院:北京市海淀區太極計算機培訓中心,2017:4.
[7] 鄺蘇鵬.國網業務與財務協同平臺數據交換系統設計與實現 [D].哈爾濱:哈爾濱工業大學,2017.
[8] 張瑀.基于非結構化招聘信息的采集與清洗系統 [D].長沙:湖南師范大學,2017.
[9] 劉冬蘭,劉新,馬雷,等.電力系統中數據集成技術關鍵問題研究 [J].山東電力技術,2016,43(11):23-27.
[10] 馬珊.面向Web文本數據倉庫的預處理關鍵技術研究 [D].西安:西安電子科技大學,2011.
[11] 王瑞杰.面向電力調度控制系統的多源異構數據處理方法研究 [D].北京:華北電力大學(北京),2017.
[12] 吳偉波.軌道交通非結構化數據處理與維修決策研究 [D].廣州:廣東工業大學,2018.
[13] 李澤江.電力系統多源異構數據優化管理技術的研究及應用 [D].蘭州:蘭州理工大學,2016.
[14] 萬里鵬.非結構化到結構化數據轉換的研究與實現 [D].成都:西南交通大學,2013.
[15] 張枝令.結構化數據及非結構化數據的分類方法 [J].寧德師專學報(自然科學版),2007(4):417-420.
[16] 馬曉榮.科技云中非結構化數據向結構化數據的轉換方法 [D].西安:西安電子科技大學,2017.
[17] 邱劍.電力中文文本數據挖掘技術及其在可靠性中的應用研究 [D].杭州:浙江大學,2016.
[18] 蘇興華.非結構化生產信息的向量表示提取方法 [J].中國管理信息化,2018,21(23):159-161.
[19] 溫紹楠.非結構化數據處理技術的應用和研究 [D].北京:北京郵電大學,2011.
[20] 李青,陳陽,謝浩然,等.一種基于文本相似度矩陣運算的非結構化海量投訴數據分類算法 [J].計算機工程與科學,2012,34(1):103-107.
[21] 周靜寧.基于XML的非結構化信息存儲系統事務處理模型研究 [D].武漢:武漢科技大學,2004.
[22] 徐宗本,張講社.基于認知的非結構化信息處理:現狀與趨勢 [J].中國基礎科學,2007(6):4-8.
作者簡介:高明(1978-),男,漢族,陜西寧強人,高級工程師,碩士研究生,研究方向:電力信息化;陸宏治(1984-),男,漢族,廣東廣州人,高級工程師,工程碩士,研究方向:電力行業信息化、軟件工程、基于云大物移智技術的共享服務應用;梁雪青(1985-),女,漢族,廣東廣州人,高級工程師,碩士研究生,研究方向:信息技術。