馬儀,潘浩,周仿榮,何錦強,李銳海,廖永力
(1. 電力遙感技術聯合實驗室(云南電網有限責任公司電力科學研究院),昆明 650217;2. 南方電網科學研究院,廣州 510663)
隨著我國電網朝著高電壓等級、大輸送容量的方向發展,架空線路的桿塔高度和走廊寬度逐漸增加,架空線路遭受雷擊的風險日益增大。統計表明,雷害是架空線路跳閘的最主要誘因之一,南方電網區域110 kV及以上電壓等級線路雷擊跳閘占總跳閘次數的比例高達60.5%[1 - 2]。雷雨天氣多發于每年的4月至10月,雷電活動的強度受氣候、地形地貌等多種因素影響[3 - 6]。
目前,國內外學者對于雷電活動與地表覆蓋類型等地形地貌因素的相關性研究大多基于數理統計法和回歸分析方法,Orville等對美國近10年的雷電活動數據進行了統計,得到了地閃數據隨年、月和日分布的柱狀圖[7]。康鵬等采用數理統計方法來探究青藏鐵路輸電線路近50年的雷電活動特點,認為不同地形或緯度地區的地閃活動有一定差異[8]。趙生昊等采用ArcGIS空間分析和經典數理統計方法來探究重慶市2007—2016年雷電活動與海拔、坡向和坡度之間的相關性,認為雷電流幅值與海拔、坡度之間沒有明顯關聯性,而隨坡向變化有較大的差異[9]。余建華等采用關聯性挖掘方法來探究江西省雷電流幅值均值、地閃密度極大值與地表覆蓋類型之間的相關性[10]。Ezcurra等選用5 km×5 km的網格為統計單元對西班牙巴斯克地區的地閃密度和雷電日進行了分析,得到該區域的雷電隨著地形地貌的分布特征規律[11]。以上研究表明一個地區雷電活動一定程度上依賴于當地的地理環境,且與多個因素息息相關,但使用數理統計與回歸方法難以得到雷擊與地表覆蓋類型等諸多因素之間的定量關系。V.Bourscheidt等[12]比較了巴西南部地閃密度以及海拔、坡度的參數之間的關系,認為該區域閃電密度與海拔高度無關,但與坡度之間存在明顯的線性關系。我國學者司馬文霞、李永福等[13]在2011—2012年通過改進的網格法對地閃密度和雷電流幅值進行了統計分析,優化了傳統網格法存在的空間分辨率不夠和部分雷電參數物理意義不明確的問題。文獻[14]以浙江省為例對雷擊的地閃密度與氣象、地形、地貌等要素進行Pearson相關系數分析,結果表明地閃密度與月均氣溫、降水量、濕度、風速間具有較高的相關性,但并未得出定量的關聯結果。
近年來,數據挖掘技術廣泛應用[15 - 17],包括神經網絡、依賴性分析、遺傳算法、關聯規則等。部分學者嘗試基于關聯規則算法探究雷電活動參數與地形地貌的相關性[18 - 22]。吳巍巍等用聚類算法分析得到雷電地閃活動的聚集點,再結合Alpha Shapes輪廓識別算法分析雷電運動走廊,發現雷電地閃容易聚集于平地、平原或河流等地勢較低的區域,并有沿著河流走向運動的趨勢[23]。潘健利用聚類算法來探究江蘇省雷電流幅值分布特點與地表覆蓋類型之間的相關性,認為林地與大雷電流幅值具有較大相關性[24]。喬飛等利用神經網絡技術模擬輸電走廊沿線地閃密度分布情況,因未充分考慮地理地形、土地類型、季節等因素預測模型效果不佳[20]。Apriori關聯性算法可以從海量的數據中,挖掘出具有研究價值、有代表性的數據,被挖掘出的數據之間存在著一定的關聯關系。其特性可以滿足雷電活動數據與地表覆蓋數據關聯性的分析。
目前關于地表覆蓋類型與雷電活動關聯關系的研究尚未成熟,存在較多爭議。云南省地表覆蓋類型極具多樣化,本文基于云南省2010—2019年雷電定位系統監測數據和地表覆蓋類型數據,采用統計方法和Apriori算法對地表覆蓋類型與正閃比、地閃密度、雷電流幅值、雷電流幅值累積概率分布等雷電活動參數的相關性進行分析,結果對輸電線路建設、桿塔選址、防雷改造等工作具有指導意義。
云南省已建成覆蓋全省的雷電定位系統(lightning location system,LLS),并與相鄰省份實現數據互聯,雷電探測效率超過90%[21]。考慮到太陽黑子活動周期一般為10 a,為減小太陽活動引起的氣候變化對雷電活動的影響,本文選取云南地區2010—2019年的雷電定位系統監測數據來進行雷電活動參數的統計與分析,共17 254 429條雷擊數據,包括雷擊發生的時間,緯度、經度、雷電流幅值以及回擊等參數。
本文選用中國科學院資源環境科學與數據中心發布的2020年版地表覆蓋類型數據。該版數據是基于Landsat-8遙感影像,將地球表面陸地分為6大類和25小類,具體如表1所示。

表1 地表覆蓋類型Tab.1 Types of land cover
云南省的地表覆蓋類型分布情況如圖1所示,可以看到云南省包含大部分地表覆蓋類型,僅不含灘涂、沙地、戈壁和鹽堿地。忽略大類“未利用土地”中的小類“其他”,進一步分類處理,得到云南省地表覆蓋面積的柱形圖,如圖2所示。云南省地表覆蓋類型占地面積最大的是林地,其中有林地、灌木林面積較大,均大于80 000 km2。云南省占地面積最小的地表覆蓋類型是裸土地和沼澤地,兩者占地面積均只有50 km2左右。

圖1 云南省地表覆蓋類型Fig.1 Types of land cover in Yunnan Province

圖2 云南省土地覆蓋類型面積統計圖Fig.2 Statistical areas of land cover types in Yunnan Province
1.2.1 地閃強度
地閃指云內荷電中心與大地和地物之間的放電過程。地閃強度指地閃發生時監測到的雷電流幅值。經統計,正地閃次數遠少于負地閃次數,平均只占總地閃次數的5%左右。按正、負地閃極性分別計算各地表覆蓋類型區域地閃的平均雷電流幅值。
負地閃強度的統計結果如圖3左邊所示,可以看出,云南省負地閃的雷電流幅值分布的方差較小。其中,中覆蓋度草地和裸巖石質地的雷電流幅值絕對值最大,均超過30 kA;沼澤地和裸土地的雷電流幅值絕對值最小,均接近20 kA。
正地閃強度統計結果如圖3右邊所示,可以看出,不同地表覆蓋類型下正地閃強度的差異較大,且正地閃的雷電流幅值比負地閃的雷電流幅值平均值更大。其中永久性冰川雪地和低覆蓋度草地的正雷電流幅值均高于60 kA;雷電流幅值最低的灘地,其正雷電流幅值值也達到了30 kA。

圖3 正、負地閃強度Fig.3 Positive and negative ground flash intensity
對雷電流幅值累積概率分布進行正態分布擬合,大致上服從式(1),使用Matlab軟件采用最小二乘法,對圖4曲線進行擬合來求出參數a和參數b。考慮到曲線擬合需要大量數據來支撐,一級地表覆蓋類型數據量遠大于二級地表覆蓋類型,為保證擬合結果的精確性,本文采用采用6種一級地表覆蓋類型進行曲線擬合,擬合結果表2所示。

表2 地表覆蓋類型對應雷電流幅值a和概率b分布參數Tab.2 Probability distribution parameter of lightning current amplitude of land cover types

圖4 雷電雷電流幅值/kA流幅值雷擊概率曲線擬合Fig.4 Curve fittings of lightning strike probability of lightning current amplitude
(1)
式中:I為雷電流幅值,kA;P(>I)為雷電流幅值超過I的概率;a為待定參數,物理意義為中值電流,即p(>a)=0.5;b為待定參數,物理意義為曲線陡度,b值越大則曲線越陡、衰減越快。
由表2可見,草地雷電流幅值分布較集中,方差較大,雷電流幅值累積概率分布曲線減小得最快;未利用土地雷電流幅值的累計概率曲線減小得最慢,雷電流幅值方差較小,分布更分散。城鄉、工礦、居民用地的中值電流最小,為20.318 7 kA;草地的中值電流最大,為23.235 8 kA。
由于草地出現高雷電流幅值的可能性是最高的,故發生雷擊跳閘事故的可能性是最高的。因此在防雷設計中,建議著重關注穿越草地的輸電線路桿塔防雷措施,以此來減少線路的雷擊跳閘率。
1.2.2 地閃密度
地閃密度指某區域每平方公里每年地面落雷次數,單位為次/(km2·a)。對于每種地表覆蓋類型區域,分別統計落在該區域的雷擊次數,進而計算地閃密度,統計結果如圖5所示。城鎮的地閃密度是最大的,超過了7次/(km2·a),其次較大的有裸土地、其他林地、灌木林等。永久性冰川雪地和裸巖石質地的地閃密度最低,均小于2次/(km2·a)。

圖5 地閃密度分布情況Fig.5 Distribution of lightning density
1.2.3 正閃比
正閃比指正極性雷數量占所有雷擊數量的比例。正閃比例分布情況的統計結果如圖6所示,正閃比最高的地表覆蓋類型是裸土地,達到6.60%,其次為其他林地,達到6.26%。正閃比較低的地表覆蓋類型是沼澤地、永久性冰川雪地、裸巖石質地、城鎮用地、中覆蓋草地等。由于裸土地、其他林地的正閃比較大,因此在裸土地、其他林地附近的輸電線路設計和安裝,建議考慮正閃電對此地區線路防雷的影響。

圖6 正閃比分布情況Fig.6 Distribution of positive flash ratio
本文利用Apriori算法對雷電數據和地表覆蓋類型數據進行深度挖掘,分析雷電參數與地表覆蓋類型間的關聯性,并與統計結果相互對比驗證,進一步說明地表覆蓋類型對雷電活動的影響。
Apriori算法是一種經典的基于關聯規則的挖掘算法,其主要思想是:通過尋找頻繁項集,從海量的數據中,挖掘出具有研究價值、有代表性的數據,被挖掘出的數據之間存在著一定的關聯關系。算法中涉及的具體概念介紹如下。
1)項與項集
項是數據集合中的基本元素,項集是項的集合。項集一般用L表示,滿足最小支持度的項集稱為頻繁項集。
2)事務
事務是指在給定的數據集合中有相同的數據。
3)支持度與置信度
項集A、B同時發生的概率P(A∪B)稱為關聯規則的支持度(也稱相對支持度)dSupport(A∪B), 如式(2)所示。
dSupport(A∪B)=P(A∪B)
(2)
項集A發生,則項集B發生的概率P(A|B)為關聯規則的置信度dConfidence(A?B), 如式(3)所示。
dConfidence(A?B)=P(A|B)
(3)
4)最小支持度和最小置信度
最小支持度min_sup與最小置信度min_conf是用戶或者專家定義的衡量支持度的一個閾值,表示項目集在統計意義上的最低重要性與關聯規則的最低可靠性。
dSupport(A→B)≥dmin_sup
(4)
dConfidence(A→B)≥dmin_conf
(5)
5)強關聯規則
對于同時滿足用戶或專家預設的最小支持度與最小置信度的關聯規則,稱之為強關聯規則。我們一般感興趣的就是強關聯規則。
Apriori算法的挖掘過程主要包含4個步驟[22 - 23]。
1)掃描所有的事務,獲得出現過的每個項,對于每個項都單獨進行數量統計。根據人為設定的最小支持度選擇是否剔除,從而生成頻繁1項集L1。
2)對L1進行連接步驟,產生候補2項集的集合C2,同理,掃描數據庫中的所有事物,對C2每個項集進行單獨計數,再根據最小支持度從C2中刪除不滿足要求的項集,從而獲得頻繁2項集L2。
3)同樣的,再產生頻繁3項集L3。
4)以此類推,對Lk-1經連接步驟產生的集合執行剪枝,產生候補k項集Ck,然后掃描所有事務,對每個項集進行統計數量,再根據最小支持度執行剔除策略,獲得頻繁k項集Lk。這樣,算法迭代完成后就能獲得所有的頻繁項集。算法的流程圖如圖7所示。

圖7 Apriori 算法流程圖Fig.7 Flow chart of Apriori algorithm
利用一個包含10條事務數的簡單數據庫為例進行分析計算,說明算法的原理。算例數據庫如表3所示,包括編號1—10的10條事務數據,a、b、c、d、e、f這6種不同屬性,每條事務包含2種到5種不同的屬性,設定最小支持度為0.4,最小置信度為0.7。

表3 算例數據庫Tab.3 Example database
首先找出1項候選集如表4所示,剔除不滿足最小支持度的候選集,得到頻繁1項集如表5所示。

表4 1項候選集Tab.4 1-candidate set

表5 頻繁1項集Tab.5 Frequent 1-candidate set
由頻繁1項集組合得到2項候選集如表6所示,剔除不滿足最小支持度的候選集,得到頻繁2項集如表7所示。

表6 2項候選集Tab.6 Two-candidates set

表7 頻繁2項集Tab.7 Frequent two-candidates set
以此類推,可以找出所有頻繁k項集,進而計算頻繁項集的置信度,篩選得到我們感興趣的關聯規則。
Apriori算法的運行是事務型數據庫為基礎的,首先利用網格法將云南省劃分為大小相等的矩形網格,并對網格進行編號,統計每個網格的正閃比、雷電流幅值和地閃密度。本文選取的網格均為1 km×1 km大小,既有較高的精度,又可以保證與地表覆蓋類型有較好的對應關系。具體做法如下。
1)對柵格數據進行“柵格轉點”操作,使用了ArcGIS自帶的柵格轉點工具來完成,把柵格數據轉換成了一個個矢量點。每個矢量點的位置是對應柵格的中點。
2)每個柵格的編號取矢量點數據的屬性值,再利用ArcGIS自帶的點轉柵格工具,再把矢量點轉變為柵格數據。
3)再次用ArcGIS自帶的系統工具“extract multiple values to points”,對每條雷電數據進行取屬性值操作,即得到了初始數據庫,示例如圖8所示。

圖8 初始數據庫示例Fig.8 Initial database example
該數據庫建立時注意新增一個名為“柵格編號”的屬性,表明該雷擊位置所處柵格的柵格編號。
輸入Access(Microsoft Office Access)軟件是由微軟公司發布的關系數據庫管理系統,將數據存儲于基于Microsoft Jet Database 數據庫里,還可以直接導入或者連接數據)中進行分類統計,求得每個柵格的正閃比、地閃密度、雷電流幅值3個參數。再拿該表與原數據庫進行連接查詢,得到每起雷擊發生位置所處柵格的正閃比、地閃密度和雷電流幅值。至此,初始的Apriori算法的數據庫就建立完成了。每一條雷擊數據就代表一個事務。
Apriori算法要求輸入的數據為離散化數據,離散化的數據有助于得到有效的布爾型關聯規則。ksdensity函數可用于計算一維或二維核密度或分布估計,本文利用ksdensity函數對正閃比、地閃密度、地閃強度數據的分布情況進行分析,三者均近似呈正態分布,采用分級法把正閃比、地閃密度和地閃強度分別概化為低、中、高3個等級,具體分級標準如表8所示。

表8 正閃比、地閃密度、地閃強度數據概化Tab.8 Generalization of positive flash ratio, ground flash density and ground flash intensity
將20種小類地表覆蓋類型編號為1~20,將正閃比_低、正閃比_中和正閃比_高分別編號為21、22和23,同理也對地閃密度3個等級編號為24、25和26;對雷電流幅值3個等級編號為27、28和29。完成數據預處理后得到能被算法直接調用的事務數據庫,部分數據如表9所示。

表9 Apriori事務數據庫部分數據示例Tab.9 Examples of transaction database in Apriori
表9中每行數據都是一個事務,每條數據包含4個屬性:地表覆蓋類型、正閃比、地閃密度和地閃強度。
利用關聯分析模型開展關聯規則挖掘,由于云南省地表覆蓋類型中城鎮用地、沼澤地等的占地面積較小,故為了防止在算法迭代過程中被剔除,本文設定最小支持度為5%,最小置信度為45%,篩選得到的結果如表10所示,如2.1節所述,規則前件與規則后件同時發生的概率稱為關聯規則的支持度;規則前件發生,則規則后件發生的概率為關聯規則的置信度。

表10 關聯規則結果Tab.10 Association rule results
強關聯規則為:1)城鎮用地→地閃密度_高;2)其他林地→正閃比_高;3)灌木林→地閃密度_高;4)中覆蓋度草地→正閃比_低。也就是說,對規則進一步進行解讀:城鎮用地的地閃密度比其他地表覆蓋類型的地閃密度高的多,應該注意防范城市雷擊災害;其他林地區域普年正地閃發生概率較大,在其他林地的輸電桿塔應注意防范正極性雷擊;灌木林的地閃密度也普遍較高;中覆蓋草地的正閃比顯著低于其他幾種地表覆蓋類型;地表覆蓋類型和地閃強度的關聯性并不大,這是由于各個地表覆蓋類型的雷電流幅值均值分布較為集中。
從表10可以發現,林地地閃密度容易較高。這主要是因為尖端放電原理,在強電場作用下,物體曲率大的地方附近,等電位面密,電場強度劇增,致使這里空氣被電離而產生氣體放電現象,稱為電暈放電。而尖端放電為電暈放電的一種,專指尖端附近空氣電離而產生氣體放電的現象。當雷雨云過境時,云的中下部是強大負電荷中心,云的下墊面是正電荷中心,于是在云與地面間形成強電場。在樹木、山頂草、林木、巖石等尖端附近,等電位面就會很密集,這里電場強度極大,空氣發生電離,因而形成從地表向大氣的尖端放電。
城鎮用地的地閃密度容易較高,其主要受3點因素影響:1)熱島效應。在城市熱島效應下,城市中心空氣不斷升溫,城中區的氣壓降低,導致周圍郊區冷空氣聚集到城市來補足壓強差。城中區的熱空氣上升到一定高度后會下沉到周圍的郊區,來補充郊區的氣流,從而形成了一種氣流循環,即熱島循環。熱島循環使大氣結構極其不穩定,增大了對流產生的概率和強度,容易形成對流云和降水[25];2)城市污染。人類活動使得城市污染加劇,城市空氣中的塵埃顆粒是遠多于郊區的。這些顆粒進入大氣層,有利于水蒸氣的凝結,并且使云層更加容易攜帶電荷而產生雷云;3)同林地分析類似,城市有許多高聳構筑物,雷電具有先導特性,城區中的高層建筑、通信塔等高聳構筑物相較周圍有很強的引雷作用。
基于云南省地表覆蓋類型數據以及多年累積雷電定位系統監測數據,結合統計方法和Apriori算法對地表覆蓋類型與正閃比、地閃密度、地閃強度的相關性進行分析。主要結論如下。
1)中覆蓋度草地和裸巖石質地的負地閃強度較大,雷電流幅值均值均超過30 kA;冰川雪地和低覆蓋度草地的正地閃強度很大,均值均高于60 kA。應注意這些區域線路的防雷工作。
2)由于熱島效應、人類活動以及城區高聳構筑物的影響,城鎮用地的正、負地閃密度均比其他地區要高。
3)林地的正閃比例較高,因此林地區域輸電線路的雷電防護措施需要考慮正極性雷電的影響。