潘健+畢碩本++沈香++陸源++周浩



摘要:首先針對雷電強度空間定量分析不足的問題,利用R語言對江蘇省雷電強度進行聚類分析,得到江蘇省2007—2009年夏半年雷電強度的5個等級,結果發現,占據雷電強度90%以上(31 kA以下)的1、2級組內成員最多,而后3個等級則呈遞減趨勢。為了給實際雷電防護工程提供參考,對江蘇省各市的雷電強度空間變化范圍進行區劃,得出各市相應的強度等級分區。其中,淮安市的雷電強度空間變化最突出,連云港市則是13個地級市中變化最不顯著的。最后探討了雷電強度等級與6種土地利用類型的關系,結果顯示,林地對于雷電強度等級的空間分布影響最大,其余5種地表類型在雷電強度為2級時關聯性最大,隨著雷電強度等級的增大,雷電強度等級的空間分布與這5種土地利用類型的關系逐漸減弱。
關鍵詞:雷電強度;等級;空間分布;江蘇省;R語言;聚類分析;土地利用類型
中圖分類號: S161.9;F323.211文獻標志碼: A文章編號:1002-1302(2017)08-0219-05
雷電學作為氣象領域的重要分支,一直深受國內外專家學者的廣泛關注。江蘇省每年因雷電所引發的直接和間接的經濟損失達數億元,群眾的生命財產也受到嚴重威脅。如何通過科學合理的防護技術手段將這類損失降到最低,是防雷工作者所急需解決的問題。雷電具有隨機性、局域性、分散性、突發性、瞬時性及三維性這些鮮明的特點[1]。現階段,隨著數據的多元化,在通過人工觀測、地基和空基等渠道所獲得的大量資料支持下,對于雷電數據的分析越來越深入。Reap等使用線性逐步回歸法和模式輸出統計法(MOS)分析閃電資料與套網模式(NGM)預報結果[2-3],提出其所研究的區域阿拉斯加地區形成雷暴的先決條件是:要求存在大范圍的層結不穩定以及由局地風場和濕度提供的輻合[4]。馮桂力等利用1998—2000年山東地區雷電探測網獲取的云對地閃電資料,研究山東地區閃電時空分布特征,指出閃電分布與地形和下墊面性質有關[5];李霞等利用蘇州地區2002—2004年閃電定位系統監測資料,分析該地區地閃的月變化、日變化以及強度、閃電密度等特征[6];馮民學等通過對雷暴日數據和地閃數據的分析,研究了近43年江蘇省的雷電分布特征,得出了江蘇省雷電分布的總趨勢并指出江蘇省雷電的多發區分布特征[7];李政在對重慶地區雷電下墊面狀況的研究中分析了重慶市雷電分布的時空規律和雷電分布對應下墊面狀況,但主要分析了雷電發生頻次與下墊面的關系,缺乏對于雷電強度和陡度的系統分析[8];趙偉等利用浙江省電力和氣象部門的相關數據,研究了浙江省雷電的時空分布特征及影響因素,同時得出地閃高密度區的分布,與氣候、地形、地貌、地面大型水體和城市熱島效應具有密切的關系[9];宋曉爽等利用LS800閃電定位系統觀測地閃的2009—2011年資料對上海及周邊地區(120.0°~122.5°E、30°~32°N)的地閃活動特征進行了研究并對上海及其周邊地區雷電的海陸分布差異進行了探討[10]。氣象數據和地理數據都有著數據量大、維度高的結構特點,這使得兩者毫無爭議躋身大數據的潮流之中。在無先驗知識的情況下,數據挖掘技術中的聚類分析方法是用于研究這類數據的有效手段[11]。自聚類算法提出至今,國內外學者結合各自領域的研究需要提出或改進了多種聚類算法,如K-means、OPTICS、DBSCAN、CURE、CLIQUE、DENCLUE等聚類算法[12-18]。聚類分析可以根據樣本相似度對數據進行分組,從而發現對象空間的分布特征[19]。本研究采用的K-means算法是硬聚類算法,是典型的基于原型的目標函數聚類方法的代表。R語言是目前世界上最流行的計算統計軟件之一,該語言具有強大的數學分析功能,是適用于各領域的高質量軟件擴展包,具有出色的可視化效果及很好的兼容性,支持跨平臺運行[20]。本研究對江蘇省閃電定位系統數據進行降維分析,針對前人對于雷電強度定量分析研究的不足,在R語言環境下利用GIS功能,通過聚類算法對雷電強度進行等級分類,并對分類結果進行空間分布分析。本研究同時結合前人研究經驗,考慮到下墊面因素對雷電強度的可能影響,對雷電強度與土地利用類型進行關系分析。
1資料與數據處理
江蘇省架設的ADTD雷電探測儀可提供閃電發生的經度、緯度、時間、強度、極性等資料,本研究采用該設備2007—2009年的地閃資料,根據雷電發生的顯著季節差異,將雷電高發的4—9月定義為夏半年,而同年中的1—3、10—12月則為受雷電影響極小的冬半年。因為對應年份的地閃時空特征[21]已經作出了詳細的探討,本試驗則側重結合數據挖掘的算法在更為高效的架構下深化對應年份夏半年雷電強度的定量研究,并對其與相關下墊面因素的關系進行了探索。
1.1雷電數據分析及預處理
當前對于雷電定位的方式多為2站混合、3站混合、4站算法、磁向和時差聯合法。表1是雷電數據的原始記錄形式,由于本試驗研究的屬性主要是緯度、經度、強度和監測的時間等,其余的屬性諸如定位方式、誤差(雷電電磁波沿復雜地表傳播時,會引起閃電定位系統的定位誤差,進而影響閃電定位系統的定位精度。表對閃電定位精度的影響主要體現在兩個方面,其一,電磁波沿有限電導率起伏地表傳播會使高頻分量衰減;其二,電磁波傳播路徑的延長導致傳播時間的増加。)等不在本試驗重點考慮范圍。雷電強度的正負電荷對于損害程度和預防措施來說沒有區別,所以對于雷電的強度和陡度取絕對值,經過這一系列的數據預處理后得到表2。為了從多變量的雷電數據中確定強度的重要程度,本試驗先采用降維方法中的因子分析法,通過因子分析法中的相關檢驗來判定強度對于雷電的重要程度。
2雷電強度等級的聚類分析
本試驗首先將不同強度的雷電進行聚類等級劃分,再依據不同雷電強度聚類等級進行空間分析。
2.1K-means聚類算法
K-means算法是基于距離劃分的硬聚類方法,也是適用范圍十分廣泛的數據挖掘算法之一。對于處理氣象類的海量級數據集,這個算法具有相對可伸縮和高效性的優點。K-means算法的基本思想是:以空間中K個點為中心進行聚類,對最靠近它們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結果。
算法主要流程描述如下:(1)對于要聚類的數據集適當選擇K個類作為初始中心;(2)通過適當次數的迭代,對任意一個樣本,求其到n個中心的距離,將該樣本歸到距離最短的中心所在的類;(3)利用均值等方法更新該類的中心值;(4)對于所有的n個聚類中心,如果利用(2)、(3)的迭代法更新后,值保持不變,則迭代結束,否則繼續迭代。
2.2K-means的R語言實現
該方法是在RStudio框架下進行R語言的編譯運行。以2008年夏半年數據聚類過程為例,具體編譯運行過程如下:(1)數據調用及加載用于分析的軟件包(RODBC、stats、ggfortify)。本試驗根據聚類對象的數據特點選用基于距離的K-means聚類作為具體的聚類函數。利用R語言在RStudio框架下對雷電的夏半年數據進行K-means聚類。該函數在R中的基本格式為
Kmeans(x,centers,iter.max=10,nstart=1,algorithm=c(“Hartigan-Wong”,“Lloyd”,“For-gy”,“Macqueen”))。(2)
式中:X為進行聚類分析的數據集,本試驗即為處理好的雷電數據集;centers為預設類別數k;iter.max為迭代的最大值,且默認值為10,本試驗根據數據的量級將迭代次數設為1 000;nstart為選擇隨機起始中心點的個數,默認值為1;而參數algorithm則提供4種算法選擇,上述4種算法由不同專家學者在不同時期圍繞算法的本質提出。本試驗選用的“Hartugan-Wong”算法為Hartugan和Wong等2位科學家提出,該算法相較于另外3種算法的優勢在于較高的運算效率。
(2)調節聚類優度。對于K-means聚類算法的關鍵問題是類別數的確定,在R中對于類別參數center的取值也是決定聚類效果的一個重要指標。本試驗通過討論預設置的類別數的組間平方和占總平方和的比值來確定最優類別數。通過遍歷數據來確定類別數,當類別數小于5時,隨著類別數的增加,聚類效果越來越好,組間平方和占總平方和的比值快速提高,其值為89.0%,說明組內差距小,組間差距很大;當類別數超過5以后繼續增加時,聚類效果提高的非常緩慢。因為是約值,本試驗考慮到較小的類別數對于后續的分析更加方便有效,所以取K=5。
2008年夏半年總的樣本數為256 659,5個簇的中心強度值分別為18.216 09、30.552 05、46.637 54、74.920 79、139.792 07 kA,每個簇的組內成員數量分別為96 661、99 197、46 142、12 617、2 042。因為是對于強度這個單一變量進行聚類,所以將結果處理為從弱到強的5級,這樣更方便后續的分析。
2.3聚類結果與分析
通過分別對2007、2008、2009年夏半年雷電強度的聚類,將對應的聚類中心強度值取平均值后,得到表3中各夏半年在不同地閃強度等級上的頻數分布情況。從表3可以看出,占據雷電強度79.64%以上(31 kA以下)的1、2級組內成員最多,而后3個等級則呈遞減趨勢。從時間尺度上看,可以反映出2008年前3個等級強度的發生次數在3年中是最低的,這主要是受當年地閃總頻次低于另外2年的影響。通過整理對應年份的統計年鑒發現,2008年夏半年江蘇省的月平均氣溫為23.2 ℃,低于2007、2009年。由于雷電是一種中小尺度的強對流現象,對氣溫變化較為敏感,所以月平均氣溫的下降有可能是造成2008年雷電總頻次下降的原因。但在雷電強度較大的4、5級中,3年發生雷電的次數則幾乎不受總地閃頻次的影響,呈逐年上升的趨勢。這反映出江蘇省高強度雷電流的發生次數有逐年上升的趨勢。
3雷電強度等級空間分布分析
將在R語言聚類后的數據導入GIS中,利用GIS對5個等級雷電簇組內成員的空間分布進行分析,結果如圖1所示,全省13個地級市在各雷電等級強度上存在著明顯的波動。在雷電強度為1級即聚類中心雷電強度值約為19 kA時,淮安、南京、揚州、鹽城和鎮江為頻次最高的前5位城市,頻次總和占總值的56.38%;在雷電強度等級為2級即聚類中心雷電強度值約為31 kA時,淮安、鹽城、蘇州、徐州和南京分列前5位,占總值的51.40%;在雷電強度為3級即聚類中心雷電強度值約為47 kA時,南京、鹽城、淮安、揚州和蘇州為前5位的城市,頻次總和占總值的50.01%;在雷電強度等級為4級即聚類中心雷電強度值約為75 kA時,蘇州、鹽城、南通、淮安和徐州為排名前5位的城市,頻次總和占總值的53.89%;最后一類即當聚類中心雷電強度值約為138 kA時,鹽城、淮安、宿遷、徐州和南通為占據前5位的城市,且頻次總和占總值的52.71%。從上述統計分析情況可以看出,各等級全省排名前5位的城市的頻次總和均超過了該等級頻次總和的一半以上。這說明各等級排名前5位的城市最具有代表性。
雷電主要通過直擊雷和雷電感應現象威脅人類的生命和財產安全。本試驗將雷電按強度等級進行聚類,并根據聚類結果進行空間分析,其意義在于對某地區進行雷電風險評估,對建筑或服務設備防雷定級時,可以考慮周邊的環境分量。在實際的工程實施中,是否須要提高防護等級、提高到多少,則須要參考當地的雷電強度變化。因此,本試驗通過對雷電強度的聚類,得到反映雷電強度空間分布的5類雷電簇,以此作為防雷工程實施時的參考依據,以期在采用最有效的等級防護措施的同時將成本降到最低。通過對聚類后的結果進行3年5類強度的均值計算,得到全省市1級的雷電強度基本變化情況,并按照其均值對13個地市進行等級區劃,結果如圖2所示,1級區代表該等級內的地級市雷電強度的變化最高,情況最復雜,在施工時應綜合多方因素針對不同等級的設施進行最大化的防護,淮安市屬于這一等級范疇,其數值遠超其他城市,為9 019次,往后各等級區劃所代表的的雷電強度復雜度遞減;鹽城、南京屬于2級,均值分別為7 239、7 053次;徐州、揚州和蘇州屬于3級,均值范圍在5 000~7 000次之間;宿遷、泰州、南通、鎮江、常州和無錫為4級,均值范圍在4 000~6 000次之間;5級區均值最小,為3 136次,該等級僅連云港市。依照上述等級區劃,在江蘇省不同城市進行雷電防護施工時,可參考其所處的雷電強度變率等級區,進行相應的防雷措施的調整,以加大對施工工程有效保護的作用。
4雷電強度等級及與土地利用類型關系的分析
雷電與下墊面因素之間的關系挖掘是研究雷電空間分布的一個重要組成部分。MODIS地表反射率產品(MOD90A1)提供經過大氣校正的地表反射率數據。本試驗對MOD90A1中的1~7波段從可見光到近紅外、短波紅外豐富的光譜信息進行監督分類,將江蘇省土地利用類型劃分成林地、草地、濕地、耕地、建設用地和其他六大類,并與前文中各雷電等級頻數進行分析。
從圖3可以看出,江蘇省4.14%的土地為林地,草地占
0.17%,濕地占15.9%,耕地占56%,建設用地占土地總量的23.72%,其他占0.07%。圖4給出了反演后的江蘇土地利用類型,該圖能夠直觀地反映出各土地利用類型的空間分布狀況。
各雷電強度等級的頻次統計量與各土地利用類型的面積計算進行密度計算后,對照各雷電強度等級,由圖5可知,單位面積上各雷電強度等級發生的概率最大的為林地,其余5個土地利用類型的對應密度分別為1.37、1.23、1.03、0.40、0.02 d/km2,而林地僅占江蘇省土地面積的4.41%。這說明雷電強度與林地的關聯性最大。其余5種土地利用類型與各雷電強度等級的分布趨勢大體一致,值得注意的是該5類并
非同林地曲線一樣呈衰減狀分布,而是在雷電強度為2級,即中心雷電強度為31 kA時,出現拐點并達到峰值,而后才成衰減趨勢。峰值大小依次為0.88、1.13、1.05、1.14、0.93、1.23 d/km2。造成該處拐點原因可能有2個:一是云層在江蘇境內當帶電離子數量達到最佳的泄放量級時,即本試驗2級雷電流強度達到31 kA時的云層電荷結構,最有利于地閃的產生;二是在聚類過程中對第2類的聚類寬度范圍略大于其余幾類,所以造成該雷電簇組內成員數量增多。以上2點認識豐富并完善了文獻[9]的相關結論。林地除對雷電的頻次有影響外,也對雷電的強度分布存在顯著的影響。此外,第2個認識則反映出了地域差異性,即在強度2級時,對除林地外的5種土地利用類型的影響遠大于其他強度,這也反映出雷電強度受土地利用類型影響。
5結束語
本試驗針對雷電強度的空間定量分析不足問題,考慮到雷電強度在雷電防護工程中的重要參考價值。將R語言架構下的數據挖掘技術與GIS技術相結合,通過聚類算法將江蘇省夏半年的雷電進行基于強度等級的聚類。在得到相應的等級區劃后還與土地利用類型的關系進行分析,結果顯示,在2007、2008、2009年夏半年,占據雷電強度90%以上(31 kA以下)的1、2級組內成員最多,而后3個等級則呈遞減趨勢。在雷電強度較大的4、5級中,3年發生雷電的次數則幾乎沒有受到總地閃頻次的影響,呈逐年上升趨勢,這反映出江蘇省高強度雷電流的發生次數有逐年上升的趨勢。雷電強度復雜程度的等級劃分如下:淮安市屬于1級范疇;鹽城、南京屬于2級;徐州、揚州和蘇州屬于3級;宿遷、泰州、南通、鎮江、常州和無錫為4級;5級區為連云港。林地除對雷電的頻次有影響外,對雷電的強度分布也存在著顯著的影響。此外,第2個認識則反映出了地域差異性,即在強度等級為本試驗的第2類時,對除林地外的5種土地利用類型的影響遠大于其他強度,這也反映出雷電強度受土地利用類型的影響。
基于上述研究的成果,本試驗后續將對雷電強度等級的空間尺度進一步細化,得到13個地級市各縣(市)的強度等級劃分,以進一步提高在實際工程中的參考價值;此外,考慮將其他下墊面因素與雷電強度進行分析,以拓展研究內容。
參考文獻:
[1]陳渭民. 雷電學原理[M]. 北京:氣象出版社,2003:112-149.
[2]Reap R M. Climatological characteristics and objective prediction of thunderstorms over Alaska[J]. Weather & Forecasting,1991,6(3):309-319.
[3]Reap R M,Foster D S. Automated 12~36 h probability forecasts of thunderstorms and sever local storms[J]. Journal of Applied Meterology,1979,18(10):1304-1315.
[4]許小峰. 國外雷電監測和預報研究[M]. 北京:氣象出版社,2003:274-278.
[5]馮桂力,陳文選,劉詩軍,等. 山東地區閃電的特征分析[J]. 應用氣象學報,2002,13(3):347-355.
[6]李霞,汪慶森,鞏晴霞,等. 蘇州地區雷電分布規律分析[J]. 氣象科學,2006,26(4):442-448.
[7]馮民學,焦雪,韋海容,等. 江蘇省雷電分布特征分析[J]. 氣象科學,2009,29(2):246-251.
[8]李政. 重慶地區雷電活動規律及下墊面狀況分析[D]. 南京:南京信息工程大學,2011.
[9]趙偉,童杭偉,張俊,等. 浙江省雷電時空分布特征及影響因素分析[J]. 電網技術,2013,37(5):1425-1431.
[10]宋曉爽,鄭棟,張義軍,等. 上海及周邊地區地閃活動特征及海陸差異[J]. 氣象科技,2014,42(1):164-172.
[11]Hand D,Mannila H. Principles of data mining[M]. Beijing:China Machine Press,2003:38-55.
[12]Rodriguez A,Laio A. Clustering by fast search and find of density peaks[J]. Science,2014,344(6191):1492-1496.
[13]Han J,Kamber M,Tung A. Spatial clustering methods in data mining:a geographic data mining and knowledge discovery[M]. London:Taylor and Francis Group,2001:117-211.
[14]Birant D,Kut A. ST-DBSCAN:an algorithm for clustering spatial-temp oral data[J]. Data & Knowledge Engineering,2007,60(1):208-221.
[15]Haralick R,Harpaz R. Linear manifold clustering in high dimensional spaces by stochastic search[J]. Pattern Recognition,2007,40(10):2672-2684.
[16]Dang E K F,Luk R W P,Ho K S,et al. A new measure of clustering effectiveness:algorithms and experimental studies[J]. Journal of the American Society for Information Science & Technology,2008,59(3):390-40.
[17]Kryszkiewicz M,Lasek P. TI-DBSCAN:clustering with DBSCAN by means of the triangle inequality[C]. Rough Sets and Current Trends in Computing Proceedings,2010:60-69.
[18]Zelnik-Manor L,Perona P. Self-tuning spectral clustering[J]. Advances in Neural Information Processing Systems,2004,16:1601-1608.
[19]侯榮濤,朱斌,馮民學,等. 基于DBSCAN聚類算法的閃電臨近預報模型[J]. 計算機應用,2012,32(3):847-851.
[20]Fraley C,Raftery A,Gneiting T,et al. Probabilistic weather forecasting in R[J]. R Journal,2011,3(1):55-63.
[21]焦雪,馮民學,鐘穎穎. 2006—2009年江蘇省地閃特征分析及應用[J]. 氣象科學,2011,31(2):205-210.