高騰飛,門鳳臣,劉寶軍,宋敬霞
(國家電投集團電站運營技術(北京)有限公司,北京 102209)
電力企業安全生產和技術監督是保證電力系統安全、可靠、經濟運行和準確計量的重要技術手段[1-3],國家電力投資集團有限公司每年定期組織火電企業開展春、秋季安全生產和技術監督評價工作。傳統評價工作模式存在信息共享度低、評價隨意性大、報告規范性差、“事中事后”缺乏實時監控、數據綜合分析手段不足等弊端,難以滿足當今工作節奏快、效率高、機制新的管理態勢,無法支撐實現自動化、科學化和精細化的管理。
基于上述原因,擬采用信息化手段,實現安全生產和技術監督評價工作的數據采集記錄和傳輸存儲。另外,評價準備階段需要對大量歷史數據進行分析處理,以對最優專家和重點評價內容做出正確的預測和評估。數據挖掘技術正是以積累下來的歷史數據為研究對象,通過對數據的歸類、分析、處理,從而找出隱藏在其中的有用知識[4-5]。面對數據處理難度的增加,本文研發了基于數據挖掘的火電企業安全生產和技術監督評價系統,為準備、評價、監督和決策提供數據基礎。
數據挖掘指知識發現的過程,通常包括數據清洗、數據集成、數據選擇、數據變換、模式發現、模式評估和知識表示。其采用數據源包括數據庫、數據倉庫、Web、其他信息存儲庫或動態流入系統的數據[6-7]。數據挖掘與傳統的數據分析(如查詢、報表、聯機應用分析)的本質區別在于數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。所得到的信息(或知識)具有先前未知、有效和實用3 個特征[8-9]。
數據挖掘過程是以用戶為中心,開展人機交互的探索。包含數據準備(data preparation)、數據挖掘以及結果的解釋評估(interpretation and evaluation)3 個階段,數據挖掘可以描述為這3 個階段的反復過程。
移動智能終端包括智能手機、筆記本、PDA 智能終端、平板電腦等設備。其擁有獨立的操作系統,功能的擴展性極其靈活,當前市場中的移動智能終端支持數據存貯、信息管理、多媒體、GPS、GIS、無線通信等功能,在電力行業有著廣泛的研究與應用[10-12]。
傳統的火電企業評價工作模式中評價標準往往通過結構化(Excel)或非結構化(PDF)形式存儲,不便于評價流程步驟的電子化,不利于指標數據的量化體現。本文通過OCR 和POI 等相關數據獲取技術徹底解決了上述問題,采用OCR 技術將掃描文本或基于圖像內容的文本轉換為可編輯的文本;采用POI 技術,提取數據基礎信息進行統一管理,通過定義個性化模板,以模板為基準,對不同要素進行量化提取,使數據處理更加精細化、精準化。
火電企業安全生產和技術監督評價系統研發遵循先進、健壯、靈活、穩定、開放、易維護、可擴展、低成本等要求,采用以J2EE 為核心的多層分布式架構[13-14],即在客戶端、應用服務層、數據源層3 層結構基礎上,將應用服務層細分為Web 服務層、界面服務層、業務邏輯層、數據訪問層。客戶端是通過移動智能終端或瀏覽器進行系統訪問,實現人機交互;Web 服務層是通過HTTP 協議傳輸數據,為客戶端提供對應用程序的訪問,實現表現層邏輯封裝;界面服務層為Web 服務層提供瀏覽、處理等服務,實現用戶界面與各業務功能的隔離;業務邏輯層實現系統業務處理;數據訪問層提供對數據庫的鏈接、讀寫等操作服務;數據源層提供數據存儲。這種成熟的B/A/S 結構不但有效縮短開發周期、降低系統維護成本、增強企業對象重復可用性,也大大提升了系統的延展性、執行效率、容錯能力和負載平衡能力。多層分布式架構如圖1所示。
系統后臺及服務基于Java 開發,支持跨平臺部署應用,移動端基于JavaScript 和html5 開發,Web容器采用Tomcat,數據庫采用MySQL。人機交互界面簡潔美觀、功能命名直觀通俗,便于用戶自學習。
火電企業安全生產和技術監督系統以集團公司發布的相關標準為基礎,以歷次電廠自查評價及集團專家評價實踐經驗為指導,以業務流轉及數據監控為核心,提升公司安全生產和設備健康水平。
該系統根據評價工作需要,開發了PC 端和移動端,PC 端包含系統全部功能;移動端輔助PC 端,主要實現生產現場評價工作及業務流程審批工作。功能設計遵循科學的PDCA 循環管理思想[15],實現全方位、全過程動態監控管理以及閉環管理,系統功能模塊劃分如圖2所示,專家評價和問題整改流程如圖3所示。

圖2 系統功能模塊劃分Fig.2 The division diagram of system function modules

圖3 專家評價及問題整改流程Fig.3 The process of expert evaluation and problem rectification
實時的數據管理構建了PC 端和移動端的橋梁,利用數據挖掘技術提供強大的數據推送、檢測推薦、評價匹配功能,面向管理層提供了實時的數據監控和管理手段,使管理者可以及時掌握現場工作及問題整改情況。系統的主要功能模塊如下。
1)基礎管理 對公司、資產、監督類別、專業、人員、設備、參考文件、職稱、版本、參考標準等基礎信息進行配置。
2)評價標準 對各個專業的查評項目、查評標準、評價指標、評價方法、查證方法、查評依據、標準分等評價相關標準進行統一管理。
3)任務執行 主要包含項目管理、項目執行、專家評價、自查評價、檢查報告、任務修改。實現電廠依據標準自行尋找問題、專家開展診斷與指導、報告自動生成等功能。同時,支持標準以外問題的錄入,發揮評價人員專業優勢、彌補標準不足,也為后期標準升版奠定基礎;移動端支持在線數據同步、離線數據執行、語音識別、現場照片同步上傳、二十五項重點要求條款模糊查詢等功能[16-18],增強現場實用性,提高評價效率,具有權限的管理者可實時跟蹤評價進展與質量。
4)問題整改 依據重要程度,對問題先定級后整改,問題分為一、二、三級,分別對應集團公司、二級單位、三級單位驗收;手動或自動開始相應整改驗收流程。單位內部或上級單位對已驗收的問題進行抽查,若不合格,則需重新整改。
5)統計分析 對評價報告中的數據進行整理分析,展現評價數據趨勢圖,為監督人員決策提供數據支持。
2.3.1 推薦專家規則排序算法
專家關聯關系往往表現的比較模糊,本文通過對大量專家規則排序進行分析,發現在準備階段新建項目設置小組時,會根據專家的所學專業、工作經驗、職稱、評價過的單位、歷史發現的問題、整改建議、查評數據統計、整改方案有效率等,推薦最優專家,便于決策者更準確高效的決策。推薦專家規則排序算法流程如圖4所示。

圖4 推薦專家規則排序算法流程Fig.4 The process of recommended expert rule sorting algorithm
本文推薦專家規則排序算法大致包括以下幾個步驟。
1)數據預處理 首先對文本進行關系詞標注,其次對專家、任務、關系詞進行識別,存入專家屬性標簽和任務屬性標簽中。
2)特征提取 建立特征庫,將專家和任務的顯著特征提取出來,便于后續規則匹配。
3)關聯關系 首先建立關聯關系規則庫,如相似經驗匹配規則、工作年限匹配規則、專業匹配規則等;其次,利用關聯關系規則對特征提取過程產生的顯著特征進行匹配;專家顯著特征包含工作年限、崗位、專業、學歷、經驗等,任務顯著特征包含任務重要性、緊急性、難易度、進度、專業、地域等,實現專家關系的初步匹配。
4)相似度匹配 對專家關系的初步結果放入容器中,并對該容器中的顯著特征加權平均進行二次匹配,選取適合的專家。
5)最優專家確定 通過大規模的數據抽取,得到專家之間的所有關系后,最終通過權重占比,計算得分排序,確認最優專家。
2.3.2 基于數據挖掘技術的評價數據分析
基于數據挖掘技術的評價數據分析模型如圖5所示。使用時,首先建立大數據體系,以系統積累的基礎數據作為輸入。如:評價類型、評價單位、監督專業、監督標準、查評得分、問題數量、問題重要程度、問題產生原因、整改情況、風險項等,經過評價數據分析模型,輸出安全監督通病、關鍵評價單位、重點評價專業、專家服務能力評價、評價周期頻次等信息。根據這些信息,在下一次監督評價工作中,可優先推薦重點關注的問題、重點關注的單位、重點關注的專業等信息,便于有效指導后續安全生產和技術監督評價工作。

圖5 基于數據挖掘技術的評價數據分析模型Fig.5 The evaluation data analysis model based on data mining technology
基于數據挖掘技術的評價數據分析模型,將基礎數據從單位評價水平、專業評價水平和其他相關水平3 個維度進行劃分。
1)單位評價水平(U)
單位評價水平指待評單位存在隱患數量的多少、整改情況好壞的程度。其參考的基礎輸入要素有查出問題數量、查評得分、整改情況,由查出問題數量評分、得分率、整改率等數據進行衡量。查出問題數量計算公式為

式中,x為問題數量,y為問題數量對應的評分,系數b為評價滿分標準,系數c為問題數量上限。其中系數a的絕對值越大,表示問題數量與得分的相關性越強。當x>c時,不得分。如可以設定評價標準為100 分,問題數量上限為50 個,當問題數量為0 個時,得分最高100 分,依次遞減,問題數量超過50 個時,不得分。
得分率定義為所選評價項得分情況與所選評價項總分之比。整改率定義為累計整改問題項數與累計查出問題項數之比。單位評價水平高低由查出問題數量評分、得分率、整改率最終確定,計算公式為

式中d為累計整改問題項數。
單位評價水平U按照數值大小進行等級評定:≥85%為A,75%~85%為B,<75%為C。
2)專業評價水平(P)
專業評價水平指評價結果好壞的程度。依據問題的重要程度,評價結果可分為嚴重問題(含告警問題)、普通問題、輕微問題(及時整改)等。專業評價水平以累計查出問題數量評分為主要依據,以嚴重問題數量評分和普通問題數量評分稍作權重,共同決定。其計算公式為

式中,t為累計查出問題數量評分,g為嚴重問題數量評分,n為普通問題數量評分。
按照數值大小進行等級評定:≥85%為A,75%~85%為B,<75%記為C。
3)其他相關水平(O)
其他相關水平高低由專家對此次整體情況評價確定,如被評價單位對本次評價準備程度、配合程度等,屬于靈活調整偏差值,同樣設置A、B、C 3 個等級。
4)綜合評價水平(S)
綜合評價水平由單位評價水平、專業評價水平、其他相關水平三要素共同決定。設定三要素權重比為5:3:2,綜合評價水平計算公式為

綜合評價水平等級表現形式設定為AAA,其中,第1 個字母表示單位評價水平等級為A,第2個字母表示專業評價水平等級為A,第3 個字母表示其他評價水平等級為A,以此類推。綜合評價水平如圖6所示:橫向維度(從左往右),當單位評價水平等級相同時,綜合評價水平隨著專業評價水平的降低而降低;縱向維度(從上往下),當專業評價水平等級相同時,綜合評價水平隨著單位評價水平的降低而降低。

圖6 綜合評價水平Fig.6 The comprehensive evaluation level
從大量的歷史評價數據中,可以挖掘出相關評價規則,評價數據分析模型可依據這些屬性,對評價工作進行分類和預測,系統智能推送安全監督通病、關鍵評價單位、重點評價專業、評價周期頻次等,無需投入大量精力進行人工分析,加強了評價工作的針對性,有效提升了評價效率,提高了運行設備的安全性和可靠性。
本系統已在多家火電企業開展自查評價和專家評價,指導生產運行,也成功支撐了國家電力投資集團有限公司2019年秋季安全生產和技術監督評價工作。涉及93 家火電企業三級單位、20 個監督專業、60 名專家成員,報告審批由線下改為線上,評價耗時由6~7 d/廠縮短至4~5 d/廠,效率提升20%以上,錯誤率低于1%,形成自查評價與專家評價報告近百份。
根據2019年秋季評價工作數據分析,系統應用前后的各項指標對比見表1。系統投入使用后報告自動生成,評價問題自動生成問題庫且實時跟蹤,加強了問題的閉環管理;實現監督過程流程化、現場操作電子化、數據管理信息化、問題治理閉環化,提升了工作效率,成為安全生產和技術監督評價工作有效輔助工具,受到使用人員的一致好評。

表1 系統應用前后的各項指標對比Tab.1 Comparison of indicators before and after the system application
本文利用數據挖掘、移動協同、數據獲取技術,設計推薦專家規則排序算法,構建評價數據分析模型,開發了火電企業安全生產和技術監督評價系統。該系統有效規范了火電企業安全生產和技術監督評價工作,實現了提質增效,確保評價任務新建、任務執行、報告自動生成、問題整改驗收的全過程監控及閉環管理,相關數據查詢、統計分析工作更為方便,形式更為靈活、直觀,能夠為火電企業的安全生產和技術監督評價工作管理、企業決策提供有力數據支撐。同時,有效降低了人力物力財力,保障了機組安全、可靠、經濟運行,產生了較大的直接與間接經濟效益、安全效益。