何 歡,陳文惠*,張忠婷
(福建師范大學(xué) 地理科學(xué)學(xué)院,福建 福州)
“十四五”重點(diǎn)流域水環(huán)境綜合治理規(guī)劃提出以飲用水水源地為重點(diǎn),加大污染防治和富營(yíng)養(yǎng)化防控力度,因此要對(duì)水源地水質(zhì)進(jìn)行實(shí)時(shí)監(jiān)測(cè),促進(jìn)水資源規(guī)劃、管理和保護(hù)。傳統(tǒng)水質(zhì)監(jiān)測(cè)通過(guò)布設(shè)采樣點(diǎn)實(shí)測(cè),準(zhǔn)確性高,但時(shí)空上不連續(xù),無(wú)法對(duì)斷面進(jìn)行實(shí)時(shí)監(jiān)測(cè)[1]。而遙感數(shù)據(jù)時(shí)空分辨率高、易獲取、數(shù)據(jù)全面,可以反映空間分布和動(dòng)態(tài)變化,彌補(bǔ)了傳統(tǒng)方法的不足。
國(guó)內(nèi)外學(xué)者針對(duì)海洋、湖泊等不同水域、利用不同數(shù)據(jù)、算法構(gòu)建模型反演水質(zhì)參數(shù)[2]。水質(zhì)參數(shù)是監(jiān)測(cè)水質(zhì)的重要指標(biāo)。其中,Chl-a 可以表征藻類(lèi)生物的生物量[3];濁度反映泥沙含量,也是富營(yíng)養(yǎng)化指標(biāo)[4];COD 可以反映有機(jī)污染程度。目前,統(tǒng)計(jì)回歸模型應(yīng)用廣泛,但精度較低,隨著機(jī)器學(xué)習(xí)的發(fā)展,該類(lèi)模型被廣泛應(yīng)用于水質(zhì)參數(shù)反演[5,6]。近年來(lái),莆田市高度重視東圳水庫(kù)水環(huán)境綜合治理工作,需要對(duì)水庫(kù)水質(zhì)進(jìn)行常規(guī)監(jiān)測(cè)。Landsat 8 遙感影像易獲得,重訪周期短,可以對(duì)水質(zhì)進(jìn)行實(shí)時(shí)監(jiān)測(cè),所以本文以東圳水庫(kù)為研究區(qū),根據(jù)Landsat 8 波段反射率與實(shí)測(cè)的Chla、濁度、COD 的相關(guān)性,構(gòu)建傳統(tǒng)回歸模型、BP 神經(jīng)網(wǎng)絡(luò)模型和XGBoost 模型,選擇最優(yōu)模型反演并分析。
東圳水庫(kù)位于福建省莆田市區(qū)延壽溪中游,庫(kù)心坐標(biāo)為118.954°E,25.485°N。集防洪、灌溉、供水等效益于一體,是當(dāng)?shù)氐摹按笏住焙蜕€工程。水庫(kù)面積約10 平方公里、庫(kù)容量達(dá)4.35 億立方米,年平均供水量3 億多立方米。目前,該水庫(kù)還存在污染和富營(yíng)養(yǎng)化情況,需要進(jìn)行水質(zhì)監(jiān)測(cè)。
選擇與采樣時(shí)間同步或準(zhǔn)同步的4 景Landsat 8衛(wèi)星影像數(shù)據(jù),完整覆蓋東圳水庫(kù)。對(duì)數(shù)據(jù)進(jìn)行輻射定標(biāo)和大氣校正,經(jīng)校正的影像去除了大氣衰減的影響,綠地、水體等地物的波譜曲線趨于正常,并利用水體指數(shù)MNDWI 提取水庫(kù)邊界。根據(jù)野外手持GPS 記錄坐標(biāo),采樣點(diǎn)如圖1 所示,提取每個(gè)采樣點(diǎn)對(duì)應(yīng)影像前7 個(gè)波段的反射率,結(jié)合實(shí)驗(yàn)室理化分析得出水質(zhì)參數(shù)濃度。其中,Chl-a 濃度范圍為1.81~27.82μg/L,濁度濃度范圍為1.86~16.1NTU,COD 濃度范圍為2~5.9 mg/L。本實(shí)驗(yàn)選取83 組數(shù)據(jù)訓(xùn)練模型,另外41 組用于檢驗(yàn)?zāi)P途龋瑸楸WC模型的穩(wěn)定性,每月按比例隨機(jī)選取一定數(shù)量的樣本,避免樣本過(guò)度集中在一兩個(gè)月的情況。

圖1 采樣點(diǎn)位分布圖
模型構(gòu)建的前提是篩選出與水質(zhì)參數(shù)濃度相關(guān)性較高的波段或波段組合。當(dāng)水體中水質(zhì)參數(shù)發(fā)生變化時(shí),水體的反射光譜也會(huì)隨之改變。由于水體信息較弱,所以通過(guò)波段組合增強(qiáng)信息。本研究采用皮爾遜相關(guān)系數(shù)法,來(lái)描述水樣水質(zhì)參數(shù)濃度與各因子之間的相關(guān)性,值越大說(shuō)明相關(guān)性越強(qiáng)。為了篩選適合本研究區(qū)的因子,通過(guò)文獻(xiàn)總結(jié),將b1 ~ b7 各個(gè)波段反射率以加、減、乘積、比值等不同方式進(jìn)行組合,對(duì)3 種水質(zhì)參數(shù)分別統(tǒng)計(jì)了1 266 個(gè)因子。其中,相關(guān)系數(shù)大于0.5 或小于-0.5 的,Chl-a 共有783 個(gè),濁度共有592 個(gè),COD 共有289 個(gè)。
在篩選出的波段組合中,選取4 個(gè)相關(guān)性最高的因子作為自變量,實(shí)測(cè)數(shù)據(jù)作為因變量分別構(gòu)建線性、二次多項(xiàng)式、冪指數(shù)等統(tǒng)計(jì)回歸模型,對(duì)比各個(gè)模型的擬合效果,篩選最優(yōu)模型。構(gòu)建的統(tǒng)計(jì)回歸模型,如表1 所示,因?yàn)楹Y選了潛在特征因子,且采樣點(diǎn)相對(duì)較多,統(tǒng)計(jì)回歸模型R2均大于0.8。

表1 Chl-a、COD、濁度的統(tǒng)計(jì)回歸模型
BP 神經(jīng)網(wǎng)絡(luò)由Rumelhart 等[7]提出,按誤差反向傳播算法訓(xùn)練的多層前饋式網(wǎng)絡(luò),在自適應(yīng)、自學(xué)習(xí)、容錯(cuò)性等方面有很大優(yōu)勢(shì),可以更好地處理非線性關(guān)系,目前被廣泛應(yīng)用于水質(zhì)參數(shù)反演。
XGBoost 算法是一種梯度提升樹(shù)算法,通過(guò)迭代構(gòu)建多個(gè)決策樹(shù)模型,不斷校正預(yù)測(cè)誤差,以提升模型的性能,并引入正則化項(xiàng)和高效的分裂策略,以防止過(guò)擬合并提高模型的泛化能力,同時(shí)通過(guò)梯度提升和二階導(dǎo)數(shù)信息來(lái)加速模型訓(xùn)練,最終通過(guò)多棵樹(shù)模型集成來(lái)提高預(yù)測(cè)模型準(zhǔn)確性。其目標(biāo)函數(shù)如下:
其中,第一項(xiàng)為損失函數(shù),用于描述模型的擬合程度;第二項(xiàng)是正則項(xiàng),用于控制模型的復(fù)雜度,以防止模型過(guò)擬合。其公式如下:
式中:γ 、λ 為正則系數(shù);T、ω 分別為末端葉子節(jié)點(diǎn)的個(gè)數(shù)、權(quán)重。損失函數(shù)泰勒展開(kāi)為:
因此,目標(biāo)函數(shù)簡(jiǎn)化為:
其中,yi為 樣本i 的真實(shí)值;為前t-1 棵決策樹(shù)對(duì)樣本i 的預(yù)測(cè)值;gi、hi分別為損失函數(shù)l 關(guān)于x 的一階導(dǎo)數(shù)、二階導(dǎo)數(shù)。
通過(guò)調(diào)參尋優(yōu)的過(guò)程,使得目標(biāo)函數(shù)的值最小,即模型訓(xùn)練完成。本文以遙感影像7 個(gè)波段的反射率作為輸入因子,水質(zhì)參數(shù)濃度作為輸出因子,分別構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)模型和XGBoost 模型。
為獲取最優(yōu)水質(zhì)參數(shù)反演模型,使用平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)對(duì)模型進(jìn)行精度檢驗(yàn),計(jì)算方法如下:
統(tǒng)計(jì)回歸模型在先篩選潛在特征再建模的情況下,擬合度和精度都有了較大提高,其中,COD 的模型效果最好,R2均大于0.9,MAE 均小于1,說(shuō)明模型能較好地解釋數(shù)據(jù)的變異性且平均誤差較小;Chl-a 和濁度的R2均在0.8~0.9 之間,個(gè)別實(shí)測(cè)值與預(yù)測(cè)值相差較多;通過(guò)調(diào)節(jié)BP 神經(jīng)網(wǎng)絡(luò)模型隱含層的神經(jīng)元個(gè)數(shù)、迭代次數(shù)、誤差閾值、學(xué)習(xí)率等,使效果最好并趨于穩(wěn)定,實(shí)測(cè)值與預(yù)測(cè)值之間的誤差都較小,相比于統(tǒng)計(jì)回歸模型,BP 神經(jīng)網(wǎng)絡(luò)模型擬合度更高,精度也明顯提高,說(shuō)明反演效果相對(duì)更好。但是,該模型也存在一定的局限性,包括容易陷入局部極小值、過(guò)擬合等。所以,考慮到過(guò)擬合的情況,本實(shí)驗(yàn)構(gòu)建了XGBoost 模型,使用貝葉斯優(yōu)化算法尋找模型的最佳超參數(shù)組合。從表2 可以看出,模型的R2有所下降,但MAE 在0.05~0.09 之間、RMSE 在0.07~0.13 之間,說(shuō)明模型的誤差更小,為了保證水質(zhì)參數(shù)反演的準(zhǔn)確性,R2在合理范圍時(shí),較低MAE 和RMSE 的模型可能更好。

表2 BP 神經(jīng)網(wǎng)絡(luò)模型和XGBoost 模型結(jié)果對(duì)比
基于2023 年9 月17 日獲取的遙感影像,選擇最優(yōu)模型分別對(duì)東圳水庫(kù)3 個(gè)水質(zhì)參數(shù)進(jìn)行反演,反演結(jié)果如圖2 所示。從圖中可以看出,庫(kù)心的Chl-a、濁度、COD 濃度都偏低,但是出入水口、岸邊、正下方(嶺下村附近),人口密度相對(duì)較大,易受人為活動(dòng)影響且?guī)靺^(qū)岸線曲折較窄導(dǎo)致水質(zhì)參數(shù)濃度整體偏高。根據(jù)Carlson 和Simpson 的分類(lèi)標(biāo)準(zhǔn)[8],水體Chl-a 濃度在2.6~20g/L 、20~56g/L分別屬于中、富營(yíng)養(yǎng)水體,可以看出2023 年9 月東圳水庫(kù)西部相較于東部Chl-a 濃度更高,整體存在一定程度的富營(yíng)養(yǎng)化。濁度濃度整體小于10NTU,沿岸濃度稍微高一點(diǎn),個(gè)別異常值出現(xiàn)在邊界處。COD 濃度總體較低,根據(jù)地表水環(huán)境質(zhì)量標(biāo)準(zhǔn),東圳水庫(kù)的COD 含量處于Ⅰ類(lèi)水質(zhì)標(biāo)準(zhǔn)。研究區(qū)水質(zhì)良好且整體濃度趨于一致,空間差異性較小,說(shuō)明通過(guò)遙感影像對(duì)水質(zhì)參數(shù)進(jìn)行反演,可以較好地反映其空間分布情況。

圖2 Chl-a、濁度、COD 的XGBoost 模型反演結(jié)果
基于Landsat 8 遙感影像,構(gòu)建了東圳水庫(kù)3 種水質(zhì)參數(shù)的統(tǒng)計(jì)回歸模型、BP 神經(jīng)網(wǎng)絡(luò)模型、XGBoost 模型,并選擇最優(yōu)模型進(jìn)行反演,主要結(jié)論如下:
(1) 本文通過(guò)波段組合變換后,3 種水質(zhì)參數(shù)分別以相關(guān)性最高的因子進(jìn)行構(gòu)建統(tǒng)計(jì)回歸模型,模型擬合度和精度均有所提高。
(2) BP 神經(jīng)網(wǎng)絡(luò)模型效果優(yōu)于統(tǒng)計(jì)回歸模型,但存在過(guò)擬合現(xiàn)象。XGBoost 模型能有效避免模型過(guò)擬合,擬合能力較強(qiáng),且誤差較小,精度更高,適合用于本研究區(qū)的水質(zhì)參數(shù)反演。
(3) 東圳水庫(kù)水質(zhì)參數(shù)濃度值整體上分布較為均勻且波動(dòng)較小,部分區(qū)域出現(xiàn)高值,與沿岸和上游的人類(lèi)活動(dòng)有關(guān)。
雖然遙感反演水質(zhì)參數(shù),可以動(dòng)態(tài)監(jiān)測(cè)水質(zhì)情況,但是水域環(huán)境復(fù)雜以及影像的誤差,各種因素相互影響,建模需要考慮更多的因素。同時(shí),機(jī)器學(xué)習(xí)算法眾多,還需考慮如何選擇出適合研究區(qū)的算法、對(duì)算法進(jìn)行優(yōu)化以及避免出現(xiàn)過(guò)擬合等問(wèn)題。
在下一步研究中,可以將高光譜的波譜分析與水質(zhì)參數(shù)的機(jī)理結(jié)合起來(lái),深入分析不同季節(jié)適合的反演模型,為大型水庫(kù)構(gòu)建更準(zhǔn)確的模型,也為水質(zhì)監(jiān)管提供技術(shù)支持。