吳嘉欣,林凱榮,2,3,劉梅先,2,3,黃利燕
(1.中山大學(xué) 土木工程學(xué)院,廣東 珠海 519082; 2.廣東省海洋土木工程重點實驗室,廣東 珠海 519082;3.廣東省華南地區(qū)水安全調(diào)控工程技術(shù)研究中心,廣東 珠海 519082)
近幾十年以來,隨著全球氣候變化以及不斷加快的城鎮(zhèn)化進程,城市洪澇災(zāi)害愈加頻繁,造成了巨大損失[1,2]。因此,研究城市洪澇災(zāi)害的成災(zāi)機理以及相關(guān)防災(zāi)減災(zāi)技術(shù),在當(dāng)前氣候與城鎮(zhèn)變化條件下顯得尤為重要。目前,評估洪澇災(zāi)害的方法主要包括物理模型、數(shù)值模型和經(jīng)驗方法[3]。物理模型運算復(fù)雜且需要大量觀測數(shù)據(jù)驗證,在應(yīng)用中受到較大的限制[4],數(shù)值模型則可通過大量水文、地形等數(shù)據(jù)來模擬實際過程,因此很大程度上已取代物理模型[5],隨著GIS和遙感的發(fā)展,經(jīng)驗?zāi)P烷_始應(yīng)用于在洪澇災(zāi)害評價中[6]。定量的方法依賴于數(shù)據(jù),定性的方法受限于專家,半定量的多準則決策方法(Multi-Cri‐teria Decision-Making,MCDM)由于結(jié)合兩者的優(yōu)點得到廣泛的應(yīng)用[3],MCDM主要分為層次分析法、網(wǎng)絡(luò)分析方法、模糊邏輯法、逼近理想值排序法等[7],它可以從致災(zāi)因子、孕災(zāi)環(huán)境以及城市本身的承載能力[8]的角度進行綜合分析。如Zhong等[9]結(jié)合云信息擴散模型與層次分析法,建立山洪災(zāi)害風(fēng)險評估模型;Lin[10]等提出一種基于改進層次分析法和最大似然聚類的山洪綜合風(fēng)險評估法,以廣東省為例驗證了該方法的可靠性;黃國如等[1]從危險性、易損性角度選取指標(biāo)建構(gòu)評估體系,對珠三角地區(qū)城鎮(zhèn)化前后城市洪澇風(fēng)險進行分析。
需要指出的是,經(jīng)驗?zāi)P驮u估的準確性取決于洪澇影響因子的選取。然而,在選取影響因子和構(gòu)建指標(biāo)體系時,經(jīng)常依賴于專家知識和專業(yè)文獻。由于不同學(xué)者對災(zāi)害的認知和定義不同[8],相關(guān)評估方法尚未形成統(tǒng)一的標(biāo)準,指標(biāo)評估體系的客觀性和一致性均受到限制。降雨作為洪澇災(zāi)害最直接的驅(qū)動因素,洪災(zāi)的發(fā)生與一定時段內(nèi)降雨總量有關(guān),時段內(nèi)的降雨量對災(zāi)害評估起決定性作用,但目前尚未確定哪個指標(biāo)是評估洪澇災(zāi)害的最佳指標(biāo)。基于此,本文以沿海城市——廣東省湛江市赤坎區(qū)為例,提出了一個基于k-means聚類和Apriori算法的城市洪澇災(zāi)害成因分析框架,采用Apriori算法來分析洪澇災(zāi)害的成災(zāi)機制,選取降雨、高程、坡度、不透水率和距河距離等因素作為指標(biāo)[11,12],探索赤坎區(qū)洪澇災(zāi)害成災(zāi)機制。
以廣東省湛江市赤坎區(qū)為研究區(qū)域(圖1)。湛江市位于廣東省西南部,赤坎區(qū)是湛江市的中心城區(qū),區(qū)域面積6 205 hm2,地勢由西北向東南傾斜,最高海拔43 m,平均海拔19 m,西部、北部為崗丘起伏的臺地地區(qū),東南部為低平的海積平原和島嶼。區(qū)境內(nèi)有8條河溪,多年平均降雨量為1 596 mm。赤坎區(qū)作為湛江市中心城區(qū),城鎮(zhèn)建設(shè)用地多,占全區(qū)土地總面積的63.16%,加之其地處湛江灣西北岸,屬于臺風(fēng)、風(fēng)暴潮多發(fā)地,極易引發(fā)洪澇災(zāi)害。如2015年10月4日臺風(fēng)“彩虹”從湛江坡頭區(qū)登陸,赤坎區(qū)降雨量達300 mm,多處遭遇洪水侵襲,直接經(jīng)濟損失0.64億元。

圖1 研究區(qū)域Fig.1 Maps of the study area
不同持續(xù)時間降雨數(shù)據(jù)來源于廣東省水文站、雨量站共440站的長序列雨量資料。DEM數(shù)據(jù)來源于中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心的遙感影像數(shù)據(jù),分辨率為30 m×30 m。土地利用數(shù)據(jù)來自地理檢測云平臺土地資源類數(shù)據(jù)集(分辨率30 m)。歷史洪水資料來自廣東省洪災(zāi)調(diào)查數(shù)據(jù)。1、3、6、12和24 h多年平均最大降雨通過ArcGIS克里金插值得到,不透水率基于土地利用類型重新賦值[13],距河距離的指標(biāo)使用歐幾里得公式計算。
采用k-means聚類方法對各風(fēng)險指標(biāo)進行分組,其作用是將大數(shù)據(jù)劃分成有意義的幾組(簇),具有“組內(nèi)差異小,組外差異大”的特點。使用Apriori算法對數(shù)據(jù)庫進行挖掘之前,需將連續(xù)指標(biāo)進行離散。k-means聚類算法是根據(jù)觀測距離將x劃分為k個維度,具體步驟為:
(1)隨機抽取k個樣本作為初始質(zhì)心g=1,2,…,k)。
(2)將每個樣本點分配到離它們最近的質(zhì)心,生成k個簇。
(3)對于每個簇,計算所有被分到該簇的樣本點xi的平均值作為新的質(zhì)心,目的是樣本點到其所在簇的質(zhì)心距離最小。對于離散指標(biāo),如不透水率,則按原屬性分為4類。對于連續(xù)指標(biāo),如降雨指標(biāo)、高程、坡度等,使用歐幾里得距離作為計算公式將其分成4類:
(4)重復(fù)以上步驟,當(dāng)質(zhì)心的位置不再發(fā)生變化時,迭代停止,聚類完成。
各風(fēng)險指標(biāo)按以上流程進行聚類,洪澇災(zāi)害等級圖根據(jù)赤坎區(qū)收集的洪澇災(zāi)害清單,通過不同淹沒深度對市民日常生活的影響[14],將其劃為4個等級(表1),其空間分布見圖2,各指標(biāo)分類結(jié)果見表2,風(fēng)險指標(biāo)空間分布見圖3。

表1 赤坎區(qū)城市洪澇等級劃分Tab.1 Classification of urban flood in Chikan district

表2 洪澇災(zāi)害等級與風(fēng)險指標(biāo)分類Tab.2 Classification of flood hazards and the risk indicators

圖2 赤坎區(qū)洪澇災(zāi)害分布圖Fig.2 Distribution of urban flood in Chikan district

圖3 各風(fēng)險指標(biāo)空間分布Fig.3 Spatial distribution of the risk indictors
關(guān)聯(lián)規(guī)則已在商業(yè)、醫(yī)學(xué)和災(zāi)害管理等領(lǐng)域得到廣泛應(yīng)用,關(guān)聯(lián)規(guī)則挖掘是一種重要的數(shù)據(jù)挖掘方式[15],如基于多候選項集的Apriori算法,基于模式增長的FP-growth算法和基于垂直格式的Eclat算法。關(guān)聯(lián)規(guī)則暗示兩個事件之間可能存在的很強關(guān)系,是一種非監(jiān)督學(xué)習(xí)算法。關(guān)聯(lián)規(guī)則表示為:“A→B”,假設(shè)I為數(shù)據(jù)庫中所有項的集合,D為數(shù)據(jù)庫中所有事務(wù)的集合,其中A∈I,B∈I,且A∩B=?,即事務(wù)集D是I的一個非空子集,并且A、B均包含于D中;其中,A是關(guān)聯(lián)規(guī)則的前件,B是關(guān)聯(lián)規(guī)則的后件,“A→B”稱為強關(guān)聯(lián)規(guī)則。“A→B”是否構(gòu)成強關(guān)聯(lián)規(guī)則主要取決于支持度和置信度。
支持度是A和B在數(shù)據(jù)集I中出現(xiàn)的次數(shù)占總數(shù)據(jù)集的比重P(A∪B),它可以表示為:
置信度是A發(fā)生的條件下,B發(fā)生的概率,是一種條件概率P(B|A),A對B的置信度為:
Apriori算法采用一種水平搜索的迭代方法來縮小搜索空間,通過設(shè)置一組最小支持度(minSup)和最小置信度(min‐Conf),從而生成頻繁項集和強關(guān)聯(lián)規(guī)則,主要分為兩個步驟:
(1)頻繁項集的產(chǎn)生。
這一步的目標(biāo)是發(fā)現(xiàn)滿足minSup的所有項集,稱為頻繁項集。
(2)關(guān)聯(lián)規(guī)則的產(chǎn)生。
從第一步產(chǎn)生的頻繁項集中提取所有滿足minConf的規(guī)則,稱為強關(guān)聯(lián)規(guī)則。
研究所提出的流程(圖4)主要分為3個過程:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理和關(guān)聯(lián)規(guī)則挖掘,其中關(guān)鍵在于關(guān)聯(lián)規(guī)則挖掘。首先,整理降雨、高程和洪澇災(zāi)害等數(shù)據(jù),初步獲取各風(fēng)險指標(biāo);將風(fēng)險指標(biāo)進行離散化處理并分組;設(shè)置一組合適的關(guān)聯(lián)規(guī)則閾值(minSup和minConf)進行關(guān)聯(lián)規(guī)則挖掘,先識別最佳降雨指標(biāo),再提取洪澇成因強關(guān)聯(lián)規(guī)則。由于部分災(zāi)害等級事件發(fā)生較少,原閾值無法獲取各等級災(zāi)害的強關(guān)聯(lián)規(guī)則,需要對小概率事件進行抽樣,重新設(shè)置關(guān)聯(lián)規(guī)則閾值,對其進行深層次的分析,獲得研究區(qū)域洪澇成災(zāi)機制。

圖4 基于Apriori算法和k-means聚類的分析框架Fig.4 Framework based on Apriori algorithm and k-means clustering
根據(jù)表1各指標(biāo)構(gòu)建數(shù)據(jù)庫(database 1),初設(shè)關(guān)聯(lián)規(guī)則閾值進行規(guī)則提取,多次試驗并調(diào)整閾值[16,17],直至提取到滿意的結(jié)果,剔除明顯不存在因果關(guān)系的關(guān)聯(lián)規(guī)則。當(dāng)minSup=0.19,minConf=0.42時,可挖掘到較為滿意的結(jié)果,如表3所示。

表3 多降雨指標(biāo)的關(guān)聯(lián)規(guī)則 %Tab.3 Association rules for multiple rainfall indices
其中,規(guī)則1支持度為33.29%,置信度為55.35%,表明包含PD-2(多年平均最大24 h降雨為167.50~167.87 mm)和H2(中度內(nèi)澇)的洪澇事件占33.29%,在PD-2的前提下,發(fā)生H2的概率為55.35%;對于規(guī)則2~11,關(guān)于H2的強關(guān)聯(lián)規(guī)則中,在支持度相近的情況下,包含PD的關(guān)聯(lián)規(guī)則置信度大于55.35%,均高于不含PD的規(guī)則,H2的出現(xiàn)通常伴隨著PD,這表明H2的發(fā)生與PD有著緊密的聯(lián)系。關(guān)于H3(重度內(nèi)澇)的關(guān)聯(lián)規(guī)則12~14前件也均包含PD項集,表明大多數(shù)洪澇災(zāi)害與PD有較高的關(guān)聯(lián)性。
由于中度內(nèi)澇和重度內(nèi)澇的發(fā)生率較高,初次挖掘只提取到關(guān)于H2或H3的關(guān)聯(lián)規(guī)則,對數(shù)據(jù)庫進行抽樣,提取H1(輕度內(nèi)澇)、H4(極重度內(nèi)澇)事件,構(gòu)建新的數(shù)據(jù)庫(database 2),minSup=0.37,minConf=0.80,生成16條強關(guān)聯(lián)規(guī)則,見表4。

表4 深層挖掘多降雨指標(biāo)的關(guān)聯(lián)規(guī)則 %Tab.4 Association rules based on multiple rainfall indices after sampling
由表4可見,這些規(guī)則的前件均包含PD,且置信度均達98%;規(guī)則9~16意味著H4的出現(xiàn),必然伴隨著PD的發(fā)生。然而值得注意的是,規(guī)則前件的降雨指標(biāo)中,災(zāi)害更嚴重的“H4”相比“H1”,降雨量級反而更小,降雨對于災(zāi)害的發(fā)生固然重要,但推動H4的發(fā)生可能還存在其他關(guān)鍵因素。這一結(jié)論與前人的研究成果相符[18],洪澇與一定時間內(nèi)降雨總量有關(guān),幾小時的短歷時強降雨,由于總量較小,一般難以形成大洪水;此外,降雨閾值對于洪水產(chǎn)生至關(guān)重要[19],不同區(qū)域成災(zāi)的降雨歷時不同。結(jié)合表3分析,與其他降雨指標(biāo)相比,PD是分析赤坎區(qū)洪澇災(zāi)害成災(zāi)機制最適合的降雨指標(biāo)。
不同研究區(qū)域的地形地貌、水文氣象和社會經(jīng)濟條件不同,造成洪澇災(zāi)害發(fā)生的機制也不同,單風(fēng)險因素對一個地區(qū)的洪澇發(fā)生影響可能較小,與其他因素耦合則可能產(chǎn)生重要影響。將上一節(jié)最適降雨指標(biāo)PD與環(huán)境因素、歷史洪澇災(zāi)害數(shù)據(jù)結(jié)合構(gòu)成新的數(shù)據(jù)庫(database 3),按照同樣的方法調(diào)試出關(guān)聯(lián)規(guī)則閾值,minSup=0.10,minConf=0.50,如表5所示生成風(fēng)險指標(biāo)的頻繁項集。

表5 風(fēng)險指標(biāo)的頻繁項集 %Tab.5 Frequent item sets for risk indicators
如表5所示,赤坎區(qū)洪澇災(zāi)害的等級主要為中度和重度,結(jié)合圖3可知,赤坎地勢較為平緩,整體起伏不大,城鎮(zhèn)居民用地居多,徑流系數(shù)大導(dǎo)致坡面匯流增加,坡度大小又影響匯流時間,坡度緩容易積水,在臺風(fēng)、風(fēng)暴潮等極端事件的驅(qū)使下,洪澇災(zāi)害發(fā)生的機率將大幅提高。以IR(不透水率)為例,(IR-4,H2)和(IR-4,H3)均為頻繁項集,支持度分別為32.60%和24.13%,表明洪澇災(zāi)害常發(fā)生在不透水率高的地方。
當(dāng)minSup=0.10,minConf=0.50,database 3挖掘到關(guān)于H2的17條關(guān)聯(lián)規(guī)則;為獲取其他等級災(zāi)害的關(guān)聯(lián)規(guī)則,對其抽樣構(gòu)成數(shù)據(jù)庫database 4,新閾值當(dāng)minSup=0.12,minConf=0.55,提取到關(guān)于H3的30條強關(guān)聯(lián)規(guī)則,多指標(biāo)的關(guān)聯(lián)規(guī)則風(fēng)險分布見圖5。圖5(a)規(guī)則前件大部分包含PD-2,其中{PD-2}→{H2}支持度最高,sup=33.29%,conf=55.35%,表明PD-2作為前因與H2一同出現(xiàn)的可能性是最高的,再次證明PD是洪澇事件發(fā)生的最直接驅(qū)動要素;{PD-2,DR-1}→{H2}置信度最高,conf=76.34%,說明環(huán)境因素中,DR-1致中度內(nèi)澇災(zāi)害的作用最大。如圖6所示,設(shè)minSup=0.10,minConf=0.37,獲取的14條關(guān)于H2關(guān)聯(lián)規(guī)則,支持度相差不大的情況下,前件包含PD-2的規(guī)則置信度均有不同程度的提升,提升幅度為7.65%~25.74%,其中DR-1的提升幅度最大,印證PD是中度洪澇事件發(fā)生的最直接驅(qū)動要素,環(huán)境因素中DR-1的致災(zāi)效果最顯著。

圖5 多指標(biāo)關(guān)聯(lián)規(guī)則分布Fig.5 Distribution of multi-factor association rules

圖6 降雨對單指標(biāo)關(guān)聯(lián)規(guī)則的影響Fig.6 Effects of rainfall on association rules for single factors
圖5(b)相較于(a),PD-2作為H2的最直接驅(qū)動要素,在關(guān)于H3的規(guī)則中,其地位有所下降,PD-1和PD-2作為規(guī)則前件,出現(xiàn)的頻數(shù)分別為6次和8次,意味著重度內(nèi)澇發(fā)生機制更為復(fù)雜;規(guī)則{PD-2,DE-1}→{H3}和{PD-2,SD-1}→{H3}置信度較高,分別為86.8%和80.71%,重度內(nèi)澇發(fā)生機制中,DE-1(高程-7~8 m)和SD-1(坡度≤1.72°)更為敏感;由圖5(b)可知,前件無PD的規(guī)則{SD-1}→{H3}和{SD-2}→{H3}支持度相近,隨著坡度的平緩,置信度提高12%,且前件包含SD-1的規(guī)則置信度均超過70%。
總的來說,赤坎區(qū)城鎮(zhèn)居民地區(qū)多,離河距離≤284.61 m是中度內(nèi)澇高發(fā)地,坡度≤1.72°或高程-7~8 m的區(qū)域是重度災(zāi)害的易發(fā)地。究其原因,PD是造成當(dāng)?shù)睾樗闹苯釉颍瑢τ谘睾^(qū)域,持續(xù)時間長的強降雨和風(fēng)暴潮的都是誘發(fā)洪水的重要因素[20],離河較近的地方自然更易受到兩者耦合作用,直接導(dǎo)致沿海洪水。加上赤坎區(qū)內(nèi)部地勢低洼平緩,容易積水,外部潮位影響排水系統(tǒng)[21],海水倒灌,在多因素耦合情況下,易引發(fā)嚴重的洪澇災(zāi)害。
以沿海地區(qū)——廣東省湛江市赤坎區(qū)為例,構(gòu)建了基于kmeans聚類和Apriori算法的城市洪澇災(zāi)害成因分析框架,提取強關(guān)聯(lián)規(guī)則,探索風(fēng)險因素與洪澇災(zāi)害的因果關(guān)系。主要結(jié)論如下:
(1)多年平均最大24 降雨(PD)是分析赤坎區(qū)洪澇災(zāi)害成因最合適的降雨指標(biāo)。降雨作為洪澇災(zāi)害最直接的驅(qū)動因素,關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn),與其他降雨強度指標(biāo)相比,各等級災(zāi)害均與PD指標(biāo)有緊密聯(lián)系。
(2)災(zāi)害多發(fā)生于不透水率高的居民區(qū),沿海區(qū)域由于風(fēng)暴潮原因,更易發(fā)生沿海洪水,潮位影響海水倒灌,地勢平緩低洼地區(qū)容易引發(fā)更嚴重的洪澇災(zāi)害。
(3)PD-2作為中度洪澇事件發(fā)生的最直接驅(qū)動要素,在重度內(nèi)澇成災(zāi)機制中其地位有所下降,環(huán)境因素的重要性可能提升。由于受到資料的限制,數(shù)據(jù)庫未考慮排水管網(wǎng)密度、潮汐等重要因子,后續(xù)的研究可以此進行深入分析,Apriori算法挖掘出的結(jié)論可為城市洪澇成因分析提供參考。