王慧芳 曹靖等
隨著智能電網建設的全面展開,以及電力信息通信與電網企業經營管理的深度融合,電力數據出現爆發性增長。這些數據中隱藏著豐富的關系到電網安全穩定經濟運行的信息,因而成為電網企業寶貴的數據資產。
電力數據挖掘是智能電網的前提
電力大數據雖已成為當前熱點研究對象,然而每年只有少量的數據被挖掘利用,因此電力數據挖掘是智能電網發展迫切需要研究的前沿領域。電網企業是資產密集型企業,電力設備健康狀態管理是其核心任務,利用大數據進行科學管理是必然趨勢。
然而業界普遍認為,電網數據存在體量大、類型多、價值密度低和變化快的特點,較難利用。其中,數據價值密度低,是指絕大部分數據是電網正常數據,只有極少量的異常數據。數據的嚴重偏斜影響基于機器學習、深度學習等人工智能方法的挖掘效果。幸運的是,電力數據類型眾多,其中文本數據,因“重要的事情常常被記錄”而具有價值密度高的特點,挖掘前景好,因此電力文本挖掘是電力設備健康管理重點關注的關鍵技術之一。
當前自然語言處理、人工智能等技術的快速發展,為電力文本挖掘提供了良好的技術基礎;同時電網企業已積累了大量與電力設備健康相關的文本,如缺陷、消缺等短文本,以及試驗、故障分析報告等長文本,具備了文本挖掘的數據條件。
此外,電網企業已建立了諸多與設備健康相關的標準,如分別針對輸變電設備和配電網設備的缺陷分類標準、設備狀態評價導則、狀態檢修試驗規程等,為文本挖掘的應用提供了參照與規則支持。……