潘 宇,張林林,潘光麗
(中國長江電力股份有限公司,宜昌 443000)
當前,信息通信技術對中國電力工業的價值貢獻正處于量變到質變的關鍵節點,電力數據正爆發性增長[1],電力大數據技術在電力系統的各領域內都開展了相關研究和探索應用。
電力光纜利用置于包覆護套中多根光纖作為傳輸介質,以光纖通信技術為基礎,傳輸距離遠,單位衰耗低,光特性決定了其不能彎折且接續困難的特點。以電力生產常用的OPGW(光纖復合架空地線)為例,光纖被放置在架空高壓輸電線的地線中,一般不會受到人為損壞,但發生故障時亦不易修復。本次研究的電力光纜數據可分為:光纜監測數據,光纜出廠信息,運維記錄,環境信息等。
光纜監測數據是本次研究的主要數據來源,其數據取自光纜在線監測系統。系統利用光時域反射儀、光開關等設備對重要光纜的空余纖芯中各選一芯進行打光監測。光纜監測數據被保存到數據庫中,數據類型有文本、數值、大字段數據等。
(1)距離信息數據。系統記錄了測試點與到達站點的距離信息,由于光纜在實際布放時多次轉接,故每條數據會包含多段距離信息。
(2)衰耗數據。衰耗數據記錄了監測光纖在傳輸過程中光衰減情況,既包含了總衰耗信息,也包含了某段距離的衰耗值。該數據信息量大,作為非結構化數據保存在二進制大對象BLOB 字段中。
(3)時間數據。光纜在線監測系統一般采用輪回打光的方式運行,也就是定期監測每一條光纜,這種測試方式會記錄時間信息。
(4)參考數據。參考數據是系統建成時根據初期測試形成的經驗數據,是系統判斷光纜運行情況的依據。
光纜出廠信息一般由制造光纜廠商提供,包含了光纜的品牌,應用場景分類、纜芯和內部填充結構、護套類型、規格型號等。各廠商制作光纜的技術水平不等,且不同類型的光纜單位距離的衰耗不盡相同,因此光纜出廠信息可作為光纜數據分析的一項指標。
Hadoop 是一個分布式系統基礎架構,可以在大量中低端的硬件設備搭建的集群上運行應用程序,構建一個具有高可靠性和良好擴展性的并行分布式系統。作為一個開源的平臺,其開發成本低,擴展性高,效率高且具有高容錯能力。
本次分析研究的數據多源化明顯,數據量較大且數據結構復雜,既有大字段非結構化數據、excel,word 類半結構化數據,還有氣溫信息類互聯網數據。要研究電力大數據,錄入分析數據前,需要充分了解研究對象,從而獲取“有用”的數據。
光纜監測系統數據庫中包含了大量的庫表。通過分析光纜監測系統工作模式,收集整理出待分析的數據庫表名、字段等內容,并將相關的數據庫表導出收集的數據庫表包括光纜事件表、光纜曲線表、光纜站點結構表等。有些數據還存在重復和遺漏信息的情況,需要對數據進行重新審查和校驗,糾正存在的錯誤。
算法的設計與用戶需求緊密聯系,其計算結果能給予用戶分析結論。下文介紹本次大數據分析中有代表性的算法研究。
2.3.1 溫度-衰耗相關性研究
在這項研究中,試圖找到光纜所在地的溫度與衰耗間的關聯,設計了相關性判斷算法,即Pearson 相關系數算法:
(1)通過數據匯聚實現每一個衰耗值對應一個氣溫值。
(2)獲取等長度的氣溫數據temperature、衰耗值loss。
(3)計算temperature 和loss 的相關系數:

根據分析結果得到結論,各條光纜的總衰耗值并不受溫度影響,一定程度上印證了本單位電力光纜的可靠性。
2.3.2 光纜的熔接情況研究
光纜經過熔接點時會有單位距離衰耗突然增大的情況,本研究針對這個特點,設計了熔點范圍預測算法。該計算方法分為三個步驟:(1)除噪聲點;(2)平滑數據;(3)利用平滑后的差分值計算熔點區間。通過這個算法,項目組成功預測了部分熔接點的位置及影響范圍。
2.3.3 光纜的運維情況研究
本研究根據讀取多張excel 表格,獲取了光纜故障信息。通過計數算法,獲取關鍵字的出現次數,給與一個初步的分析。該研究能輔助運維人員了解故障高發地點、光纜段等信息。
本文基于大數據技術,提出了一套低成本、易復制、可推廣的大數據分析方法,為電力光纜的運維保障提供了有力支撐,為研究其他電力生產數據提供了研究的新思路,具體表現如下:一是在硬件設備“低投入,零投入”的前提下,可利用現有設備自主搭建Hadoop 大數據平臺;二是大數據平臺可實現電力通信生產數據的分析并得到有價值的結論;三是多元化的數據來源和靈活的算法設計使其可拓展為其他電力生產數據分析,具備在電力企業內推廣的潛力。