999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類分析的流域短期降雨時空分布研究

2024-02-09 00:00:00何朝暉魏勤張凱榮
人民長江 2024年14期

摘要:流域降雨的時空分布是影響洪水形成的重要因素,而聚類算法是分析提取樣本數據典型類型的最常用方法。為定量描述流域的典型降雨時空分布,以雅礱江流域內兩河口以上、兩河口到楊房溝區間、楊房溝到錦屏區間3個不同子流域為研究對象,利用高斯混合模型、譜聚類和K-Means這3種經典聚類算法分別對各個子流域的站點降雨數據進行聚類分析,采用Davies-Bouldin指數對聚類效果進行評價,進而對比分析不同類型聚類算法的適用性,最終得到各流域的典型降雨時空分布。研究結果表明:采用K-Means算法所得到的3個子流域的聚類結果,其平均Davies-Bouldin指數相對譜聚類偏小約34%,相對高斯混合模型偏小約21%,表明K-Means算法相較于譜聚類和高斯混合分布模型對不同流域的降雨數據都有更好的聚類效果。同時基于最優的聚類結果可以得到,在出現概率前80%的條件下,3個子流域分別有4,3,2個典型降雨時空分布類型,通過這些典型降雨時空分布類型的樣本可以定量有效地描述流域降雨在時間和空間維度上的分布特征。

關 鍵 詞:降雨時空分布;Davies-Bouldin指數;高斯混合模型;譜聚類;K-Means;雅礱江流域

中圖法分類號:TV125 文獻標志碼:ADOI:10.16232/j.cnki.1001-4179.2024.S2.011

0 引言

在洪水預報中,降雨總量的大小直接影響預報洪水的總洪量,降雨的時空分布則直接影響著預報斷面洪水的時序過程[1,而任意區域的降雨落區和集中時間通常具有一定的典型分布特征2-3,因此分析和研究流域的降雨時空分布特征有利于了解流域降雨規律,尤其是在難以獲取高時空分辨率的降雨預報時,對于提高洪水預報精度、控制洪水調度風險等方面具有重要意義。

當前短期降雨時空分布的研究方法主要有兩類。一類研究方法是根據描述歷史降雨時間和空間分布的特征值進行間接分析[4,該方法能夠將高維的降雨數據降低到低維,一定程度上降低分析難度,但容易損失部分降雨時空分布特征。例如林木生等5通過次降雨量、暴雨相對中心、暴雨時間變差系數等指標描述了暴雨的時空分布特征,建立了暴雨與洪水的多元回歸關系;鄭彥辰等6基于降雨數據的一階、二階時間空間矩描述降雨的時空分布特征,并通過這些特征值對洪水過程進行了聚類。另一類是直接對歷史降雨時空分布數據進行分析,主要采用對高維數據具有較強分析能力的機器學習方法,這類方法能夠充分利用歷史降雨數據,得出定量的降雨時空分布結果。例如劉媛媛等[7通過機器學習中的動態聚類算法,對北京城區高維時空降雨數據等進行聚類,將該區域暴雨時空分布歸納為3種類型,并提取了各個類型的暴雨特征。這些研究中對降雨時空分布類型的歸納主要都采用了聚類算法。

聚類算法是一種無監督的機器學習方法,常用于挖掘數據的特征、結構和內在性質[8-9。然而針對不同的樣本數據,不同的聚類算法得到的聚類結果有一定的差異,影響最終的聚類分析結果。因此為了得到最準確的降雨時空分布結果,本文采用幾種典型聚類算法提取歸納流域降雨時空分布規律,對比研究降雨時空分布特征分析最適宜的聚類算法,從而得到最優的聚類結果。

1 研究數據

本文以雅礱江流域為研究對象,該流域面積13.6萬km2。由于流域面積較廣,不同區域氣候規律差距較大,而實際生產中主要以各個電站壩址作為洪水預報主要斷面,因此常常將流域劃分為各個子流域進行研究(圖1)。

根據已建成運行電站情況,本文選取兩河口電站以上片區、兩河口電站到楊房溝電站區間和楊房溝電站到錦屏一級電站區間作為研究對象,分別記為LU、LY、YJ流域。其中LY流域由兩河口到牙根一級、牙根一級到楞古、楞古到孟底溝、孟底溝到楊房溝組合而成;YJ流域則是由楊房溝到卡拉、卡拉到錦屏一級組合而成。收集3個流域共81個雨量站點2011~2022年共12 a的逐小時降雨資料進行研究。

為了研究降雨的時空分布,需要根據雨量站歷史降雨數據構建降雨時空分布數據樣本。本文首先對研究區域雨量站歷史降雨數據進行數據清洗,刪除重復、缺失和異常值,得到每日24 h N個站點降雨量組成的樣本集Ω={X1,X2,…,Xd,…,XD},其中Xd為24×N的矩陣,表示為

式中:xt,n表示日內第t個小時第n個站點的雨量數值。

計算每日降雨的面平均雨量Rd,通常面雨量的計算方法有算術平均法、泰森多邊形法等10,算術平均法通常適用于站點分布較為均勻的區域。為了簡化計算,本文以算術平均法進行面雨量計算,其計算公式為

Rd=∑N/n=1∑24/t=1xt,n/N(2)

剔除面雨量為0的日數據后,將各日降雨矩陣Xd轉化為降雨分布比例矩陣Pd,即:

Pd=Xd/NRd(3)

該矩陣描述了第d日內降雨在時間和空間上的分布情況,至此可以得到該區域降雨時空分布的樣本集。

不同降雨量級通常有著不同降雨分布特征。流域小量級降雨樣本數目相對較多,對聚類分析結果的影響較大,然而小量級降雨卻難以在預報斷面產生洪水過程,因此本文僅選取面雨量大于一定閾值的降雨數據進行分析,統計得到的各個子流域的降雨時空分布樣本數目和面雨量四分位數,如表1所列。本文根據表中結果分別選取了LU、LY和YJ流域面雨量在4.6,5.8 mm和5.1 mm以上的樣本進行后續分析。

2 研究方法

2.1 聚類分析算法

常用的聚類算法包括基于概率的高斯混合模型(GMM)、基于距離的K-Means、基于密度的DBSCAN、基于圖論的譜聚類(Spectral Clustering)等[11。這些模型聚類理論不同,需要確定的參數也不同,其中GMM、譜聚類以及K-Means的主要參數均為聚類數目,而DBSCAN需要確定鄰域半徑和鄰域最小樣本數目兩個參數[12。因此,為了便于比較不同算法在降雨時空分布聚類中的適用性,本文選擇GMM、譜聚類以及K-Means這3種經典算法進行對比分析。

高斯混合模型是基于概率的聚類模型[13。高斯混合分布由多個高斯分布組合而成。假設樣本是由K個高斯模型生成,且每個高斯分布模型代表了數據樣本的一個類別14。高斯混合分布的概率密度函數如下:

P(x)=∑K/k=1p(k)p(x|k)=∑K/k=1ΠkN(x|μk,δk)(4)

式中:N(x|μk,δk)表示第k個高斯模型的概率密度函數;p(k)=Πk表示第k個高斯模型的權重,也被稱為選擇第k個模型的先驗概率。通過EM算法求解后可得到高斯混合模型的參數,其中的先驗概率Πk最大的類別即為樣本所屬的類別。

譜聚類是一種基于圖論的聚類方法。該方法把樣本空間中所有的數據看作空間中的點,將這些點兩兩相連,這些連接線成為連接邊,對每個點的連接邊賦予不同的權重,這個權重與該連接邊的長度成反比。對所有數據點組成的圖進行切圖,通過切圖以達到不同子圖間的連接邊權重之和盡可能的小,而子圖內的連接邊權重之和盡可能的大,最終達到聚類的目的[15

K-Means聚類是一種基于距離的聚類方法。該方法一般用歐式距離作為衡量樣本點間相似度的指標,距離越近則越相似,即更偏向于屬于統一類別。算法需要預先指定初始聚類數目,并隨機初始化相應的聚類中心,根據數據對象與聚類中心之間的距離,將樣本數據分配到各個聚類中心的類別中,通過各個類別中的樣本不斷更新聚類中心的位置,直到聚類中心不再變化,由此得到最終聚類結果[16-17

2.2 聚類結果評價方法

聚類模型的聚類效果在高維樣本數據下通常通過各類量化指標進行評價,當樣本類別未知時,常用的評價指標有誤差平方和(SSE)、輪廓系數(Silhouette Coefficient)、Calinski-Harabasz指數(CHI)、Davies-Bouldin指數(DBI)等。其中,SSE指標需要通過肘部法則人為確認聚類模型的損失函數和聚類類別數目K間的關系曲線拐點,對于某些數據該拐點難以直觀確定。輪廓系數是衡量聚類結果中各個類別輪廓清晰度的指標,相對CHI其計算消耗更多,計算時間較長,但輪廓系數和CHI都對于簇結構為凸的數據輪廓系數較高,對于簇結構非凸的輪廓系數較低,不適用于比較不同聚類算法的聚類效果[18-19。本文需要以統一的指標評價不同類型聚類算法的聚類效果,而DBI通過比較類中距離和類間距離來判別聚類效果的好壞,相較其他指標適用范圍更廣[20,因此選擇DBI來對聚類結果進行評價選擇。DBI的計算公式為

DBI=1/M∑M/m=1maxj≠mσim/d(ci,cj)(5)

式中:M為樣本數目;σi為第i個類別中所有點到類別中心的平均距離,表示類別中數據的分散程度;ci為第i個類別的中心;d(ci,cj)為第i個類別中心點到第j個類別中心點的距離。

聚類結果中類別間的距離越大、類別中樣本到中心的距離越小,那么DBI就會越小,相應聚類效果越好。

2.3 典型降雨時空分布類型篩選

根據選擇的最優聚類結果可以將每個降雨時空分布樣本歸類到不同類型,每個類型對應的樣本數目即可代表出現該類降雨的概率。因此為了定量描述該流域降雨的典型時空分布,本文按每個降雨時空分布類型的出現概率由大到小依次選取分布類型,直到累計的概率達到一定閾值為止。

對于選取得到的每個分布類型,計算該類型所有樣本的中心點,該中心點即可作為該流域的一種典型的降雨時空分布。其中,樣本中心點的計算公式為

式中:Ck表示第k類聚類類別的中心點;Mk為第k個聚類類別中樣本數目;pmt,n表示第k個聚類類別中第m個降雨時空分布樣本第t行第n列的值。

3 結果分析

采用GMM、譜聚類和K-Means分別對各個流域降雨時空分布樣本集進行聚類并采用DBI對聚類結果進行評價優選,按累計占比不超過80%為閾值選取該區域的典型降雨時空分布類型,得到的各個流域聚類結果如表2所列。

從表2中不同聚類算法的聚類效果來看,K-Means算法在3個不同流域聚類結果的最優,DBI均明顯小于其他兩種算法,其中K-Means的平均DBI相對譜聚類平均偏小約34%,最大偏小約41%;相對GMM平均偏小約21%,最大偏小約30%。因此K-Means對本文的降雨時空分布數據的聚類效果相對更優于譜聚類和GMM。通過K-Means聚類后得到LU、LY和YJ流域的典型降雨時空分布數目分別為4類、3類和2類。

對于各流域的每一類典型降雨時空分布,其分布特征值如表3所列。其中LU、LY和YJ流域最容易出現的降雨時空分布類型對應的概率分別為28%,31%和49%。以LY流域的降雨時空分布結果為例,將對應的3類典型降雨時空分布類型的樣本中心點繪制時空分布熱力圖、柱狀圖如圖2~4所示。

從圖2~4中可以看出,3種降雨時空分布類型在時間和空間維度上的分布各不相同,但在時間上均為單峰型分布,而空間上則差異較大。其中,類型1的降雨在站點空間上的分布都較為平均,15個站點中雨量占比峰值出現在第11號站點,達到約9.6%,而在時間上主要集中于日內16∶00~23∶00時段,雨量占比峰值出現時間為19∶00。類型2和類型3在站點空間分布上差異明顯,類型2的降雨主要集中在編號1~11站點,雨量占比峰值出現在6號站點,為10.1%,而類型3的降雨則集中在11~15號站點,雨量占比峰值出現在13號站點,為10.4%;在時間分布上,類型2的雨量占比峰值出現時間為23∶00,最大值為13.1%,而類型3的雨量占比峰值時間為20∶00,峰值為9.8%。因此通過對流域典型降雨時空分布類型下的歷史樣本統計,能夠定量描述流域降雨時空分布特征。

4 結論

本文基于雅礱江兩河口電站以上片區、兩河口電站到楊房溝電站區間、楊房溝電站到錦屏一級電站區間3個子流域各站點的歷史降雨資料,基于Davies-Bouldin指數從K-Means、譜聚類和高斯混合模型3種經典聚類算法的聚類結果中選取聚類效果最好的歷史樣本分類結果,最終得到3個流域的典型降雨時空分布類型。主要結論如下:

(1)對于本文所研究的雅礱江3個子流域降雨時空分布對象,K-Means算法的Davies-Bouldin指數相對譜聚類和GMM平均偏低約34%和21%,表現出更好的聚類效果。

(2)雅礱江流域兩河口電站以上片區、兩河口電站到楊房溝電站區間、楊房溝電站到錦屏一級電站區間3個子流域降雨時空分布出現概率在前80%的主要有4,3,2個類型,最常出現的類型對應出現概率分別為28%,31%和49%。

(3)對于聚類提取得到的流域典型降雨時空分布類型,通過對歷史樣本的統計可以定量有效地描述流域的降雨時空分布特征。

參考文獻:

[1] 朱奎,強思遠,母小苗,等.不同降雨特征對徑流過程的影響研究[J].中國農村水利水電,2021(4):33-37.

[2] 李潔,徐強強,王正華.考慮降雨空間異質性的洪水預報模型研究[J].人民長江,2023,54(增1):11-15.

[3] 黃瓊.降雨變異性對水文過程模擬影響研究[D].南京:河海大學,2006.

[4] 謝雅潔,劉曙光,周正正.汶川縣降雨時空分布特征及設計暴雨頻率分析[J].人民長江,2024,55(1):105-112.

[5] 林木生,陳興偉,陳瑩.晉江西溪流域洪水與暴雨時空分布特征的相關分析[J].資源科學,2011,33(12):2226-2231.

[6] 鄭彥辰,李建柱,榮佑同,等.降雨時空分布量化及其在洪水過程分類中的應用[J].水利學報,2022,53(5):560-573.

[7] 劉媛媛,劉洪偉,霍風霖,等.基于機器學習短歷時暴雨時空分布規律研究[J].水利學報,2019,50(6):773-779.

[8] 賀玲,吳玲達,蔡益朝.數據挖掘中的聚類算法綜述[J].計算機應用研究,2007(1):10-13.

[9] 陳茗,胡邊,李靖.基于多源信號融合的燈泡貫流式機組故障特征提取[J].人民長江,2023,54(8):185-189,210.

[10]郭廣芬,杜良敏,肖鶯,等.長江流域夏季極端降水時空分布特征[J].干旱氣象,2021,39(2):235-243.

[11]侯海薇,丁世飛,徐曉.基于無監督表征學習的深度聚類研究進展[J].模式識別與人工智能,2022,35(11):999-1014.

[12]KHAN K,REHMAN SU,AZIZ K,et al.DBSCAN:past,present and future[C]∥The fifth international conference on the applications of digital information and web technologies(ICADIWT 2014),2014:232-238.

[13]HE X,CAI D,SHAO Y,et al.Laplacian regularized gaussian mixture model for data clustering[J].IEEE Transactions on Knowledge and Data Engineering,2010,23(9):1406-1418.

[14]李婧.基于GMM的EM優化算法的應用與研究[D].哈爾濱:哈爾濱工程大學,2019.

[15]NG A,JORDAN M,WEISS Y.On spectral clustering:analysis and an algorithm[C]∥NIPS'01:Proceedings of the 14th international conference on neural information processing systems:natural and synthetic,2001.

[16]楊俊闖,趙超.K-Means聚類算法研究綜述[J].計算機工程與應用,2019,55(23):7-14,63

[17]陶葉輝,趙壽為.面向不平衡數據基于高斯混合聚類的SMOTE改進算法[J].軟件導刊,2022,21(5):110-114.

[18]孫林,劉夢含,徐久成.基于優化初始聚類中心和輪廓系數的K-means聚類算法[J].模糊系統與數學,2022,36(1):47-65.

[19]WANG X,XU Y.An improved index for clustering validation based on Silhouette index and Calinski-Harabasz index[C]∥IOP Conference series:materials science and engineering.bristol:IOP Publishing,2019,569(5):052024.

[20]姜宏維,程雨,段志.基于K均值+Davies—Bouldin指數+PCA法的橋梁結構性能綜合評估算法研究[J].公路,2024,69(4):124-132.

(編輯:謝玲嫻)

主站蜘蛛池模板: 成年网址网站在线观看| 日韩国产一区二区三区无码| 久草青青在线视频| 亚洲成a人片77777在线播放| 国产电话自拍伊人| 日本www在线视频| 无码电影在线观看| 四虎影视8848永久精品| 日韩国产无码一区| 国产黄在线免费观看| 成年人视频一区二区| 素人激情视频福利| 欧美激情视频一区| 成人无码一区二区三区视频在线观看| 青青青视频蜜桃一区二区| 日韩精品成人在线| 白浆视频在线观看| 99精品高清在线播放| 国产靠逼视频| 国产精品成| 激情综合网激情综合| 国产精品人人做人人爽人人添| 成人蜜桃网| 麻豆精品在线视频| 欧洲欧美人成免费全部视频| 亚洲人成网站观看在线观看| 色综合久久无码网| 久久夜色精品国产嚕嚕亚洲av| 色噜噜狠狠色综合网图区| 亚洲精品图区| 国产区成人精品视频| 国产手机在线观看| 91午夜福利在线观看精品| 色网站免费在线观看| 国产色婷婷视频在线观看| 东京热一区二区三区无码视频| 国产成年无码AⅤ片在线 | 99成人在线观看| 亚洲天堂日韩在线| 久久精品视频亚洲| 热re99久久精品国99热| 精品91在线| 欧美亚洲国产一区| 亚洲国产精品VA在线看黑人| 亚洲精品天堂自在久久77| 欧美亚洲国产精品久久蜜芽| 国产成人亚洲无吗淙合青草| 在线精品自拍| 国产成人久视频免费| 亚洲欧美色中文字幕| 国产精品国产三级国产专业不| 亚洲国产成人在线| 亚洲 成人国产| 五月天综合网亚洲综合天堂网| 欧美天天干| 日本在线视频免费| 在线中文字幕网| 国产精欧美一区二区三区| 五月婷婷综合网| 日本AⅤ精品一区二区三区日| 国产精品人人做人人爽人人添| 亚洲无码A视频在线| 色视频久久| 国产丝袜第一页| 国产微拍精品| 波多野结衣一区二区三区AV| 精品国产网站| 成人精品免费视频| 国产a v无码专区亚洲av| 无码国内精品人妻少妇蜜桃视频| 成人午夜精品一级毛片| 在线亚洲小视频| 永久免费av网站可以直接看的 | 天天躁狠狠躁| 亚欧成人无码AV在线播放| 丰满人妻中出白浆| 亚洲激情99| 欧美曰批视频免费播放免费| 精品超清无码视频在线观看| 亚洲日韩Av中文字幕无码 | 日韩黄色大片免费看| 红杏AV在线无码|