袁 奇,鄒翔宇,梅珊珊,孫偉莎,沈 斌,樂保羅,劉 暢
(國網上海市電力公司電纜分公司,上海 200072)
隨著電網負荷的日益增長及城市化水平的不斷升高,空間占用率更低、安全性更高的電力電纜成為城區電網的主要架構[1]。截至2020年底,上海電網在運行110 kV及以上電壓等級電纜回路為1 900余回,電纜總長度已超過3 800 km,研究如何保障中高壓電纜線路的安全運行已然成為電網運維工作的重要內容。
雖然電纜系統故障率遠低于架空線路,但是電力電纜附件敷設通道狹窄,并且電纜設備大多位于市中心區域,當設備出現意外故障時,故障排查定位困難、修復用時長、修復難度大,造成的損失遠大于架空線路[2]。近年來,因市政工程中的不當操作引起的高壓電纜設備故障大量出現,引發了爆炸、火災等重大事件[3]。據統計,2020年因安裝工藝導致的高壓電纜故障占比達35%,對電網的安全運行帶來一定風險。為了減少電力故障,需要將安全防線前移,在電纜敷設安裝過程中嚴格管控施工質量,尤其是管控電纜終端、接頭處的附件安裝工藝。
高壓電纜附件的安裝步驟主要以工藝圖紙的形式呈現,經過嚴格審查后獲得許可的工藝圖紙是電纜公司施工監督的重要憑證。高壓電纜附件的生產廠家眾多,電纜附件種類繁多,各廠家生產出的同批次電纜附件依然存在質量參差不齊的可能性;大量高壓電纜附件在未經長期運行數據驗證其可靠性的同時,多次發現一些廠家附件安裝工藝在電纜公司未告知電纜公司情況下變更了工藝,對后期運行帶來安全隱患;由于沒有形成各廠家附件安裝工藝庫,導致圖紙比對無標準,人工審核工作量巨大且容易出現漏查情況。
本文從簽訂技術協議的源頭上進行管控和把關,建立高壓電纜附件圖紙的數字標準化工藝庫,收集各廠商電纜附件圖紙掃描成像后作為標準附件安裝工藝數據庫;開發具有圖像特征識別技術、光學字符識別(Optical Character Recognition,簡稱OCR)和一致性檢測算法功能的指紋識別系統。在施工過程中,可將高壓電纜附件安裝工藝進行圖像識別,與數據庫中的圖像進行比對,從而快速識別出施工圖紙與數據庫中標準圖紙的差異信息,消除非標準工藝圖紙帶來的安全隱患。
本文主要使用圖像識別技術、OCR技術以及一致性檢測算法,通過高清掃描設備采用光電技術和數字處理技術對高壓電纜圖紙、技術協議等工藝圖掃描后進入工藝庫,將電子版工藝圖紙或工藝文檔進行特征提取和字符識別、與標準工藝庫里固化的廠家模板圖紙進行比對;最終系統根據算法判斷比對的結果從而形成比對報告,主要針對在不同廠家的高壓電纜附件工藝圖紙或文檔上的修改情形進行分析,對圖紙的刪除、新增和修改部分進行系統提示,簡化設計審核人員比對審核圖紙的過程,減少錯漏現象,提高工作效率。
在高壓電纜附件數字化工藝庫中的圖像特征識別技術中,主要涉及到局部二值模式(LBP)算法和方向梯度直方圖(HOG)算法等特征抽取及邊緣檢測算法。在本系統中整個圖像識別部分的流程包含圖像預處理(圖像降噪、圖像增強)、圖像復原(重建圖像,恢復圖像)、圖像編碼與壓縮、圖像分割(劃分不同特征的區域)以及最終的識別。識別流程如圖1所示。

圖1 識別流程
LBP是一種特征描述的經典算法[4],廣泛應用于圖像分析領域,該算子不僅能捕獲豐富的細節信息,而且能壓縮冗余信息。當這種LBP算法的半徑太大時,噪聲的敏感度就會加強。HOG的主要目的是將已經進行過統一、灰度處理工作的工藝圖紙單元進行梯度計算,統計圖像的梯度信息,將圖像劃分成小的細胞單元形成每張圖紙獨有的HOG特征[5],從而實現后續圖紙的比對。
基于高壓電纜工藝化圖紙本身復雜的特性,如對比度、顏色、密度分布的方法都具有局限性,為了獲取更好的特征抽取和分類結果,深入研究現有的LBP算法。針對原算法的不足,利用全局及局部的像素灰度均差來決定自適應閾值的大小,讓數字化工藝庫系統對工藝圖紙的圖紙識別有較強的自適性。
本文運用自適應模式的LBP算法將窗口大小的值與基礎LBP算法相結合,具有自適應分析特征的性能。窗口大小的值由水平和垂直方向的平均強度差來決定。
假設圖像為g(x,y),計算大小為(2k+1)×(2k+1)的活動窗口中的像素平均強度值:
(1)
對于工藝圖像中的每一個像素,分別計算它在水平和垂直方向上互不重疊的窗口之間的像素平均強度差:
(2)
對于每一個像素,能使Ek,h(x,y)或Ek,v(x,y)值達到最大(無論方向)的k值用來設置最佳尺寸:
Sbest(x,y)=2k+1
(3)
由此可知,Sbest(x,y)即為以(x,y)為坐標的像素點的特征基元近似大小。該尺寸與LBP算法的結合,減少了LBP在基元特征提取上的誤差。
圖片的字符識別過程是一整套流程,它包括圖片分析、預處理、字符識別和識別矯正等,每個步驟都關系著最終識別結果的準確性。比如要進行字符識別的圖片越清晰(即預處理做的越好),識別效果往往就越好。字符識別是圖片的字符識別過程中最重要的環節。目前最廣泛使用的字符識別技術是OCR。OCR是針對印刷體字符,采用光學識別的方式將紙質文檔中的文字轉換成為黑白單元構建的圖像,并通過識別軟件將圖像中的文字轉換成文本格式,供文字處理軟件進一步編輯加工的技術[6]。
在OCR識別過程中主要分為4個部分。
(1)圖片預處理。該模塊的功能主要是將樣本圖片進行尺寸統一、分割、灰度化和二值化等預處理,為后續的字符識別做準備。
(2)訓練字庫。利用OCR的開源引擎對目標工藝圖片里的特征字符進行,以提高識別準確率。
(3)字符識別。利用開源OCR識別引擎對圖片進行字符識別。在系統中實現對一張圖片的字符識別只需調用Pytesseract庫里的Image_to_String方法。Text就是識別后返回的字符內容;Lang是自己訓練的字庫或者Tesseract自帶語言包;Img是預處理后的圖片。
(4)識別矯正。對拒識或誤識的圖片字符進行矯正。對于灰度圖可以進行灰度調整,也就是對比度增強。以灰度圖為例,試驗發現增強前拒識,增強后則識別正確。
分形幾何學對自然界出現的一些不規則幾何體給出了數學描述,其本質是“自相似”。用分形理論進行圖像分析的原理是利用圖像的分形維數特征對目標圖像進行處理及分析。分形維數直觀上與物體表面的粗糙度相吻合,圖紙中不同物體的粗糙度有很大差別,因此可用分形維數作為判別兩張圖紙中對應位置的圖形是否一致的參數[7]。
高壓電纜附件工藝圖紙尺寸普遍偏大,本文采用盒維數作為分形維數的計算方式,利用分形維進行圖紙比對。
圖紙比對時,將圖紙分別劃分為P×Q個區域,利用分形維數計算方法進行盒子像素的計算,根據兩張圖紙的分形維數差值絕對值,根據參考閾值來進行判斷,若小于閾值則判定為不一致,反之則為一致,從而實現最終的比對審核和判定[8]。
通過引入圖像識別技術、OCR和一致性檢測算法技術,將高壓電纜附件數字化工藝庫中的圖紙、工藝說明書、技術協議與數據庫中的原始模板進行特征值抽取比對,從而快速識別兩者之間的差異性,比對準確率得到了大大的提升,避免了漏查、誤判,及對高壓電纜附件工藝后續造成的影響。
(1)本文建立了一個基于B/S架構數字化高壓電纜附件工藝庫,錄入所有現有高壓電纜附件的技術協議以及工藝圖紙,MySQL關系型數據庫管理系統的存儲量大大增加,并且更便于檢索,能夠極大程度地保證數據的一致性與完整性,滿足工作人員用戶需求,安全可靠且可共享。
(2)圖形識別利用LBP及HOG特征提取算法提取圖紙中的圖形特征從而獲取局部相似性,并結合分形維數的對比算法與工藝庫中的標準化圖紙進行鑒別比對,最終形成比對報告,協助管理人員實現高效審核。