



中圖分類號(hào):TP391.4;TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)08-0071-07
Abstract: Deep Learning becomes apowerful tool for runoff prediction,but in ungauged basins,the lack of flow observation data makes model trainingand prediction usuallyrequiretheapproachof Transfer Learning.However,thetarget basinoftendoesnothaveenoughdataforfie-tuning,whichmakes itdiffculttocalibratethemodelparameters.Therefore, this paper proposes anungauged basins runof prediction methodbasedonconditional diffusion model.The method includesa forwardnoisingprocessandareversedenoisingprocessThedenoisingmodelis trainedinthesourebasinandthenthedatais recoveredfromthenoiseintetargetbasinasthepredictionresultInadition,thedenoisingprocesisguidedbytheconditional datancludingmeteorologicaldriversandhistoricalrunoffndtheTrasformerlayerisintroducedintothedenoisingmodelto capture the dependenceof ime andfeatures.Throughthecross-validation experimentontheCAMELS-US dataset,theresults show that the method has superiority.
Keywords: runoff prediction; ungauged basins; Transfer Learning; conditional diffusion model; CAMELS-US
0 引言
徑流量能夠反映特定流域內(nèi)水文、王壤和地質(zhì)特征,是綜合反映流域內(nèi)自然條件和人類活動(dòng)的重要指標(biāo)。徑流量預(yù)測(cè)是一門(mén)重要的學(xué)科,在水文學(xué)領(lǐng)域具有廣泛的應(yīng)用[]。然而,由于地理位置偏遠(yuǎn)、經(jīng)濟(jì)資源有限或數(shù)據(jù)采集技術(shù)不足等原因,目前全球仍然存在許多沒(méi)有或幾乎沒(méi)有徑流觀測(cè)數(shù)據(jù)的流域,這些流域被稱為未測(cè)量流域。流量觀測(cè)值的缺乏可能導(dǎo)致其徑流預(yù)測(cè)模型參數(shù)難以校準(zhǔn),因此未測(cè)量流域的徑流預(yù)測(cè)仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[2]。
遷移學(xué)習(xí)允許在監(jiān)控良好的系統(tǒng)中校準(zhǔn)模型,然后將校準(zhǔn)后的參數(shù)應(yīng)用于監(jiān)控稀缺或不存在監(jiān)控的系統(tǒng)中[3],適合用于處理未測(cè)量流域徑流預(yù)測(cè)任務(wù)。但常用于徑流觀測(cè)的基于遞歸結(jié)構(gòu)的長(zhǎng)短期記憶網(wǎng)絡(luò)
(LSTM)無(wú)法在時(shí)間序列中的任意兩個(gè)點(diǎn)之間建立直接聯(lián)系[4],并且其在進(jìn)行自回歸預(yù)測(cè)的多步預(yù)測(cè)任務(wù)時(shí)可能會(huì)導(dǎo)致誤差累積。基于自注意力機(jī)制的Transformer的提出則有效解決了遞歸結(jié)構(gòu)中記憶局限性的問(wèn)題[5]。Transformer模型可以更全面地考慮位置之間的關(guān)系,并為每個(gè)位置生成來(lái)自所有位置的特征,目前已被應(yīng)用于多項(xiàng)未測(cè)量流域徑流預(yù)測(cè)任務(wù)[6-7]。
近年來(lái),擴(kuò)散模型被嘗試用于解決時(shí)間序列預(yù)測(cè)任務(wù),因?yàn)樵撊蝿?wù)可以被看作一個(gè)條件生成任務(wù)[8]。擴(kuò)散模型最初由Sohl-Dickstein 等[]提出。2020 年,Ho 等[]將其引入時(shí)間序列領(lǐng)域,提出了去噪擴(kuò)散概率模型(DDPM)。其基本原理是用正向擴(kuò)散過(guò)程對(duì)觀測(cè)數(shù)據(jù)進(jìn)行逐步擾動(dòng),然后使用可學(xué)習(xí)的轉(zhuǎn)換核通過(guò)反向過(guò)程來(lái)恢復(fù)數(shù)據(jù)。通常,逆向過(guò)程是由一個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)化的可學(xué)習(xí)的過(guò)程。一旦學(xué)習(xí)了反向過(guò)程,它就可以從幾乎任意的初始數(shù)據(jù)中生成新的樣本,即通過(guò)逐漸去除噪聲來(lái)生成高質(zhì)量的、具有詳細(xì)相干性的復(fù)雜序列。這使得該類模型在不同的數(shù)據(jù)類型和模式中具有很好的靈活性和適應(yīng)性,并且逐步的降噪機(jī)制在糾錯(cuò)方面也具有較好的魯棒性[1]。
在本研究中,我們提出了一種基于條件擴(kuò)散模型的未測(cè)量流域徑流預(yù)測(cè)方法,使用兩個(gè)馬爾科夫鏈實(shí)現(xiàn)其正向擴(kuò)散和反向去噪過(guò)程,在去噪模型部分引入了二維注意力機(jī)制,并利用包含氣象驅(qū)動(dòng)和歷史徑流的條件數(shù)據(jù)來(lái)指導(dǎo)去噪過(guò)程。為清楚起見(jiàn),我們將有資料流域定義為源流域,將僅有少部分近期觀測(cè)的未測(cè)量流域定義為目標(biāo)流域,使用源流域的觀測(cè)徑流訓(xùn)練模型,訓(xùn)練好的模型直接作用于目標(biāo)流域上進(jìn)行多步徑流預(yù)測(cè)。
1 研究方法
本文提出的基于條件擴(kuò)散模型的未測(cè)量流域徑流預(yù)測(cè)方法總體框架如圖1所示。下文將分別介紹條件擴(kuò)散模型的原理、去噪模型的結(jié)構(gòu)和模型性能評(píng)估策略。
1.1條件擴(kuò)散模型原理
條件擴(kuò)散模型主要使用兩個(gè)馬爾科夫鏈實(shí)現(xiàn)正向擴(kuò)散和后向去噪過(guò)程。本節(jié)將分別進(jìn)行介紹。
1. 1.1 正向擴(kuò)散過(guò)程
設(shè)原始觀測(cè)徑流序列為
,通過(guò) N 個(gè)擴(kuò)散步將高斯噪聲添加到
,將
轉(zhuǎn)換為一系列具有擴(kuò)散移動(dòng)核的擾動(dòng)數(shù)據(jù)
,
,…,
具體來(lái)說(shuō),
是通過(guò)用零均值高斯噪聲破壞前一個(gè)迭代
(按
縮放)而生成的:

其中,
(0,1)為每一步噪聲水平變化的超參數(shù),注意其必須為隨 n 遞增的,從而使第一個(gè)擾動(dòng)數(shù)據(jù)
最接近原始數(shù)據(jù)
,而最終的擾動(dòng)數(shù)據(jù)
接近獨(dú)立分布的高斯噪聲。由于轉(zhuǎn)移核是高斯分布的,所以任何擴(kuò)散步 n 處的序列
都可以通過(guò)式(2)直接從
中采樣得到:

其中,
則 n 個(gè)擴(kuò)散步后的擾動(dòng)數(shù)據(jù)為:

其中 ? ~ N( 0 , I ) , 。總的來(lái)說(shuō),正向過(guò)程是一個(gè)逐
漸向數(shù)據(jù)中注入噪聲,直到所有結(jié)構(gòu)都被高斯白噪聲淹沒(méi)的過(guò)程。
1. 1.2 后向去噪過(guò)程
向去噪過(guò)程主要是通過(guò)條件擴(kuò)散模型的反演過(guò)程
將噪聲逐步轉(zhuǎn)換為可信的時(shí)間序列,在每個(gè)擴(kuò)散步n 中,反向過(guò)程從上一個(gè)擴(kuò)散步 n+1 的輸出中去除噪聲。與無(wú)條件擴(kuò)散模型不同,條件擴(kuò)散模型引入了條件數(shù)據(jù) C ,此時(shí)反向轉(zhuǎn)換核被細(xì)化為一個(gè)如下的概率分布:

其中,

為一個(gè)可訓(xùn)練的條件去噪函數(shù),也對(duì)應(yīng)于一個(gè)去噪模型,用于估計(jì)添加到噪聲輸入
中的噪聲向量 ? 。Ho等人證明可以通過(guò)解決以下優(yōu)化問(wèn)題來(lái)訓(xùn)練去噪模型:

模型訓(xùn)練完成后通過(guò)采樣過(guò)程來(lái)進(jìn)行預(yù)測(cè),采樣過(guò)程的起點(diǎn)是一個(gè)隨機(jī)高斯噪聲
。對(duì)于n=N ,N-1,…,1,每個(gè)去噪步驟都從
到 
$X _ { n - 1 } \mu _ { \theta } ( X _ { n } , n \middle | C ) + \sigma _ { \theta } ( X _ { n } , n \middle | C ) \big /$ 當(dāng) n=1 時(shí), ? = 0 ,
0
1.2 去噪模型介紹
去噪模型(圖1中去噪模型部分)參考了DiffWave[12]架構(gòu)。該網(wǎng)絡(luò)是非自回歸的,由多個(gè)殘差層和殘差通道 C 組成,并嵌入擴(kuò)散步長(zhǎng),以保證模型對(duì)不同的擴(kuò)散步輸出不同的
。對(duì)于擴(kuò)散步長(zhǎng) n 我們使用以下的128維嵌入:

使用三個(gè)全連接層并對(duì)其進(jìn)行擴(kuò)展后添加到每個(gè)殘差層的輸入中。此外,模型采用圖2中的門(mén)控激活單元,相比于更標(biāo)準(zhǔn)的ReLU激活,其允許更平滑的信息在多殘差層架構(gòu)上流動(dòng)從而具有更強(qiáng)的經(jīng)驗(yàn)性能。

與DiffWave不同的是,除了
外,我們還將條件數(shù)據(jù)(包括氣象驅(qū)動(dòng)和歷史觀測(cè)徑流)加入以構(gòu)建模型輸入,并通過(guò)卷積得到形狀為
的張量輸入殘差層。此外,為了獲取多元序列的時(shí)間和特征依賴性,我們?cè)诿總€(gè)殘差層中使用了在PyTorch中實(shí)現(xiàn)的一層Transformer編碼器,它由多頭注意層、全連接層和層歸一化組成。由于Transformer本身沒(méi)有時(shí)間和特征標(biāo)簽,因此我們采用可學(xué)習(xí)的時(shí)間嵌入和特征嵌入來(lái)提供位置信息。該二維注意力的架構(gòu)如圖3所示,輸入為一個(gè)具有 K 個(gè)特征、長(zhǎng)度為 L 和C 通道的張量。時(shí)間注意力層以形狀為(1,L,C)的張量和時(shí)間嵌入作為輸入,學(xué)習(xí)時(shí)間依賴性;特征注意力層以形狀為(K,1,C)的張量和特征嵌入作為輸入,學(xué)習(xí)特征依賴性。
1.3 模型訓(xùn)練和預(yù)測(cè)
假設(shè)時(shí)間序列窗口長(zhǎng)度為 L ,預(yù)測(cè)未來(lái)
天徑流,則引入歷史序列長(zhǎng)度為 L -m 。在模型訓(xùn)練階段,我們從源流域中隨機(jī)抽取
天的氣象驅(qū)動(dòng)和徑流觀測(cè),設(shè)其中
天的觀測(cè)徑流為
,先通過(guò)式(3)對(duì)其進(jìn)行正向加噪。然后將
天的觀測(cè)徑流和
天的氣象驅(qū)動(dòng)合并作為條件矩陣c ,與加噪后的擾動(dòng)數(shù)據(jù)通過(guò)零填充合并(如圖1中模型輸入部分)輸入去噪模型,最后通過(guò)噪聲預(yù)測(cè)學(xué)習(xí)來(lái)訓(xùn)練模型。
對(duì)目標(biāo)流域未來(lái)日徑流的預(yù)測(cè)主要是通過(guò)擴(kuò)散模型采樣過(guò)程來(lái)實(shí)現(xiàn)的,將 m 長(zhǎng)隨機(jī)高斯噪聲序列作為初始
和目標(biāo)流域的條件數(shù)據(jù)合并輸入訓(xùn)練完成的去噪預(yù)測(cè)模型
,然后通過(guò)式(7)中的公式進(jìn)行去噪得到
,并將其作為下一次迭代的輸入,重復(fù) N 次迭代過(guò)程得到未來(lái) m 天預(yù)測(cè)徑流
。
1.4評(píng)估指標(biāo)和基準(zhǔn)模型
本文使用以下三種評(píng)估指標(biāo):Nash-Sutcliffe效率系數(shù)(NSE)、均方根誤差(RMSE)和前 2 % 絕對(duì)預(yù)測(cè)誤差(TPE- 2 % )。NSE和RMSE定義為:

其中,
為未來(lái) i 天的徑流觀測(cè)值,
為對(duì)應(yīng)的徑流預(yù)測(cè)值,
為未來(lái) m 天徑流觀測(cè)值的平均值。
TPE- 2 % 衡量峰值流量預(yù)測(cè)的準(zhǔn)確性,其定義為:

其中,
, y ( j ) 為 j 階徑流觀測(cè)值,
為 y ( j ) 的預(yù)測(cè)值, H 表示前 2 % 峰值的數(shù)量。
基準(zhǔn)模型包括Yin等人提出的RR-Former模型和 Xiang等人提出的LSTM-S2S模型[13],前者基于Transformer實(shí)現(xiàn),后者基于LSTM實(shí)現(xiàn)。
2 實(shí)驗(yàn)及結(jié)果分析
2.1 數(shù)據(jù)集
為驗(yàn)證本文方法的有效性,采用與基準(zhǔn)模型相同的CAMELS-US數(shù)據(jù)集,該數(shù)據(jù)集包含美國(guó)671個(gè)流域的每日時(shí)間尺度的氣象驅(qū)動(dòng)、靜態(tài)屬性和徑流觀測(cè)值。每日徑流觀測(cè)和氣象驅(qū)動(dòng)的時(shí)間范圍為1980年10月1日至2014年12月31日。為節(jié)省開(kāi)銷,我們僅使用5個(gè)氣象驅(qū)動(dòng)(日降雨量Prcp、地表入射太陽(yáng)輻射 Srad、日最高氣溫
、日最低氣溫
和近地表日平均蒸汽壓
)作為條件數(shù)據(jù)。
CAMELS-US數(shù)據(jù)集共包含18個(gè)水文單元。在本文中,我們選擇了編號(hào)分別為01、03、11和17的4個(gè)水文單元(表1),這4個(gè)水文單元共包含241個(gè)流域。一方面,這四個(gè)水文單元覆蓋了廣泛的水文條件,因而能夠全面測(cè)試模型的性能;另一方面,相較于使用所有671個(gè)流域,選擇241個(gè)流域可以降低計(jì)算成本。

2.2 實(shí)驗(yàn)設(shè)置
通常,未測(cè)量流域的性能是通過(guò) k 折交叉驗(yàn)證實(shí)驗(yàn)來(lái)測(cè)試的。因此,我們?cè)?個(gè)水文單元上進(jìn)行了兩組不同的 k 折交叉驗(yàn)證實(shí)驗(yàn),即多區(qū)域交叉驗(yàn)證和單區(qū)域交叉驗(yàn)證實(shí)驗(yàn)。在多區(qū)域交叉驗(yàn)證實(shí)驗(yàn)中,我們將4個(gè)水文單元的241個(gè)流域隨機(jī)分為5組,即k=5 。每當(dāng)其中一組作為目標(biāo)流域進(jìn)行7天徑流預(yù)測(cè)時(shí),其余四組將作為源流域?qū)δP瓦M(jìn)行預(yù)訓(xùn)練。而單區(qū)域交叉驗(yàn)證則是分別對(duì)各水文單元中的流域隨機(jī)分成5組進(jìn)行上述交叉驗(yàn)證實(shí)驗(yàn)。
本文基準(zhǔn)模型使用相同的輸入和輸出,即時(shí)間序列窗口長(zhǎng)度 L 為21,其中待預(yù)測(cè)的徑流序列長(zhǎng)度
為7。訓(xùn)練時(shí)間為1980年10月1日至1995年9月
30日,驗(yàn)證集為1995年10月1日至2000年9月30日,測(cè)試集為2000年10月1日至2014年9月30日。并通過(guò)網(wǎng)格搜索方式選定了合適的超參數(shù),即擴(kuò)散步長(zhǎng) N 為50,殘差層數(shù)為4,殘差通道 C 為64,噪聲水平變化超參數(shù)
均勻增長(zhǎng),其中
,
。
2.3 實(shí)驗(yàn)結(jié)果及分析
依照2.2節(jié)中的實(shí)驗(yàn)設(shè)置,同時(shí)使用多區(qū)域交叉驗(yàn)證和單區(qū)域交叉驗(yàn)證實(shí)驗(yàn)來(lái)測(cè)試模型的性能。表2給出了本文方法與基準(zhǔn)模型(基準(zhǔn)1為RR-Former,基準(zhǔn)2為L(zhǎng)STM-S2S)在未來(lái)7天多區(qū)域交叉驗(yàn)證實(shí)驗(yàn)中的結(jié)果,并在圖4中更直觀地展示了它們。



總體預(yù)測(cè)(由NSE和RMSE顯示)和峰值流量預(yù)測(cè)(由 1 P E-2 % 顯示)結(jié)果表明,隨著預(yù)測(cè)間隔的延長(zhǎng),預(yù)測(cè)效果逐漸變差,其中LSTM-S2S的性能下降速度最快。然而,我們的方法在每一步預(yù)測(cè)中的性能都明顯優(yōu)于基準(zhǔn)模型,這體現(xiàn)了其在未測(cè)量流域提前多步預(yù)測(cè)任務(wù)中的優(yōu)越性。
此外,在01、03、11和17四個(gè)區(qū)域上,分別采用本方法與RR-Former進(jìn)行了單區(qū)域交叉驗(yàn)證實(shí)驗(yàn),并與多區(qū)域交叉驗(yàn)證實(shí)驗(yàn)中本方法的結(jié)果進(jìn)行了對(duì)比,統(tǒng)計(jì)圖展示為圖5。需要注意的是,此處僅展示了我們重點(diǎn)關(guān)注的NSE指標(biāo)。
顯而易見(jiàn),由于模型訓(xùn)練數(shù)據(jù)量更大,多區(qū)域交叉驗(yàn)證結(jié)果普遍優(yōu)于單區(qū)域交叉驗(yàn)證結(jié)果。但在
01號(hào)區(qū)域中,第6、第7天本方法單區(qū)域訓(xùn)練的模型性能超過(guò)了多區(qū)域,這是由于01號(hào)區(qū)域雖然流域數(shù)量最少,但各氣象驅(qū)動(dòng)統(tǒng)計(jì)數(shù)據(jù)的標(biāo)準(zhǔn)差也最小,即流域較為同質(zhì),因此僅用本區(qū)域流域訓(xùn)練出的模型性能更穩(wěn)定。雖然03號(hào)區(qū)域流域也較為同質(zhì),但較高的日溫度和蒸汽壓導(dǎo)致部分降水未轉(zhuǎn)化為徑流,因此模型性能普遍較低。而17號(hào)區(qū)域年降水量非常高,濕潤(rùn)流域?yàn)槟P吞峁┝素S富的數(shù)據(jù)支持,因此模型可以更好地學(xué)習(xí)和適應(yīng),從而預(yù)測(cè)的準(zhǔn)確度最高。
最后,由于11號(hào)區(qū)域的流域?qū)傩宰兓^大,從東到西具有高差異和強(qiáng)梯度的特點(diǎn),復(fù)雜的水文條件使得模型的適應(yīng)性受限,因此模型性能最差。此外,本方法受極端流域的影響更大,單區(qū)域訓(xùn)練模型的NSE平均值隨預(yù)測(cè)天數(shù)的增加下降很快,甚至在第6、第7天低于RR-Former。但除此之外,本方法單區(qū)域交叉驗(yàn)證結(jié)果均比RR-Former更佳。

3結(jié)論
在本文中,我們提出了一種基于條件擴(kuò)散模型的未測(cè)量流域徑流預(yù)測(cè)方法,引入了氣象驅(qū)動(dòng)與歷史徑流作為條件數(shù)據(jù),并在去噪模型部分引入了二維注意力機(jī)制,結(jié)合了Transformer強(qiáng)大的特征提取能力。在CAMELS-US數(shù)據(jù)集上進(jìn)行了單區(qū)域和多區(qū)域交叉驗(yàn)證實(shí)驗(yàn),與基準(zhǔn)模型相比表現(xiàn)更佳,說(shuō)明本文方法可以為流域之間先驗(yàn)水文知識(shí)的轉(zhuǎn)移提供更精確、更有效的支持。在未來(lái)的工作中,我們將致力于通過(guò)數(shù)據(jù)預(yù)處理和優(yōu)化模型結(jié)構(gòu)等方式,進(jìn)一步提高其效率和性能。
參考文獻(xiàn):
[1]NGKW,HUANGYF,KOOCH,etal.AReviewof Hybrid Deep Learning Applications for Streamflow Forecasting[J/OL].Journal of Hydrology,2023,625:130141[2024-10-05].https://doi.org/10.1016/j.jhydrol.2023.130141.
[2]BLOSCHLG,BIERKENS MFP,CHAMBELA,et al.Twenty-three Unsolved Problemsin Hydrology (UPH) -aCommunity Perspective [J].Hydrological Sciences Journal,2019,64(10):1141-1158.
[3]IMANM,ARABNIAHR,RASHEEDK.AReviewofDeep TransferLearningandRecentAdvancements[J/OL].arXiv:2201.09679 [cs.LG].[2024-09-26].https://doi.org/10.48550/arXiv.2201.09679.
[4]LIUCF,LIUDR,MUL.Improved TransformerModel for Enhanced Monthly Streamflow Predictionsof theYangtzeRiver[J].IEEEAccess,2022,10:58240-58253.
[5]VASWANIA,SHAZEERN,PARMARN,etal.AtentionisAllYouNeed[J/OL].arXiv:1706.03762[cs.CL].[2024-09-23].https://doi.org/10.48550/arXiv.1706.03762.
[6] YIN HL,ZHU W,ZHANG X W,et al.Runoffpredictions in New-Gauged BasinsUsing Two Transformer-BasedModels[J/OL].JournalofHydrology,2023,622:129684[2024-10-06].https://doi.org/10.1016/j.jhydrol.2023.129684.
[7]YINHL,GUO ZL,ZHANGXW,etal.RR-Former:Rainfall-runoffModelingBasedon Transformer[J/OL].JournalofHydrology,2022,609:127781[2024-10-11].https://doi.org/10.1016/j.jhydrol.2022.127781.
[8]SHENL,KWOK J. Non-autoregressive ConditionalDiffusion Models for Time Series Prediction [J/OL].arXiv:2306.05043 [cs.LG].[2024-10-13].https://doi.org/10.48550/arXiv.2306.05043.
[9]SOHL-DICKSTEINJ,WEISSE,MAHESWARANATHAN N,et al.Deep Unsupervised LearmingusingNonequilibrium Thermodynamics [C]//Internationalconference on machine learning.Lille:PMLR,2015:2256-2265.
[10]HOJ,JAINA,ABBEELP.DenoisingDiffusionProbabilistic Models[J].Advancesin Neural InformationProcessingSystems,2020,33:6840-6851.
[11] YANGY,JINM,WENH,etal.A SurveyonDiffusion Models for Time Series and Spatio-Temporal Data[J/OL].arXiv:2006.11239 [cs.LG].[2024-09-15].https://doi.org/10.48550/arXiv.2006.11239.
[12]KONG ZF,PINGW,HUANGJJ,etal. DiffWave:AVersatileDiffusionModel forAudio Synthesis[J/ OL]. arXiv:2009.09761 [eess.AS].[2024-09-19].https://doi. org/10.48550/arXiv.2009.09761.
[13]XIANGZR,YANJ,DEMIRI.ARainfallRunoff Model With LSTM-Based Sequence-to-SequenceLearning[J/OL].WaterResources Research,2020, 56(1):e2019WR025326[2024-10-17].https://doi. org/10.1029/2019WR025326.
作者簡(jiǎn)介:張文昭(2000—),女,漢族,甘肅定西人,碩士研究生在讀,研究方向:基于深度遷移學(xué)習(xí)的數(shù)據(jù)稀疏流域日徑流預(yù)測(cè)研究;通信作者:嚴(yán)華(1971—),男,漢族,四川達(dá)州人,教授,博士,研究方向:智能信息系統(tǒng)。