999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

點源時間序列數據缺失值的估值方法比較——以小流域氣象和水文數據為例*

2018-03-19 07:29:48周腳根沈健林呂殿青李裕元吳金水
中國農業氣象 2018年3期
關鍵詞:方法

甘 蕾,周腳根,石 錦,李 希,沈健林,呂殿青,李裕元,吳金水

?

點源時間序列數據缺失值的估值方法比較——以小流域氣象和水文數據為例*

甘 蕾1,2,周腳根2**,石 錦2,3,李 希2,沈健林2,呂殿青1,李裕元2,吳金水2

(1.湖南師范大學資源與環境科學學院,長沙 410081;2.中國科學院亞熱帶農業生態研究所亞熱帶農業生態過程重點實驗室,長沙 410125;3.湖南農業大學工學院,長沙 410128)

對點源時間序列數據缺失值進行有效估值能提升其數據質量。為探究不同估值方法對點源時間序列數據缺失值的估值效果及其影響因素,以亞熱帶典型小流域長期定位觀測的每日氣象和水文數據(最高氣溫、最低氣溫、太陽輻射量、降雨量及地表徑流量)為例,以均方根誤差(RMSE)、絕對平均誤差(MAE)和Pearson相關系數(r)為性能驗證指標,比較了線性內插法(LIM)、K-最近鄰插值法(KNNM)、樣條插值法(SIM)、多項式插值法(PIM)和核密度估值法(KDEM)5種估值方法的估值性能差異及其主要影響因素。結果表明:(1)LIM、SIM和KDEM的估值性能總體上優于其它2種方法;(2)5種估值方法對氣象數據(最高氣溫、最低氣溫和太陽輻射量)缺失值估值的RMSE為1.81~6.35,MAE為1.30~4.20,r為0.70~0.98(P<0.05),而對水文數據(降雨量和地表徑流量)缺失值估值的RMSE為12.54~26.28,MAE為3.60~14.21,r為0.07~0.72。可見,各估值方法對氣象數據的估值性能強于對水文數據;(3)上述數據集的變異系數(CV)與估值評估指標(RMSE、MAE及r)線性相關(P<0.05),是影響估值性能的重要因素。

缺失值;估值方法;變異系數;時間序列

時間序列數據是生態環境、水文及氣象等研究領域必不可少的基礎數據,這些領域的相關研究通常需要對環境參數進行長期定位監測采集,但是由于儀器設備故障、環境惡劣或人為操作失誤等原因,采集到的觀測數據難免出現數據缺失問題[1],從而影響觀測數據的質量。有效估算時間序列數據的缺失值,可以完善時間序列數據的質量,提升數據使用效率,是空間分析與統計領域研究的熱點之一[2]。時間序列的估值問題,目前的研究主要涉及兩方面:(1)面源尺度上對未觀測位點環境參數屬性值的估算;(2)點源尺度上對觀測參數缺失值的估算。

由于人力和物力的有限性,面源尺度上環境參數通常通過一定量代表性點源觀測單元獲取,再通過這些點源觀測數據實現觀測數據的面源拓展,是一個用一定量點源觀測數據估算面源上未觀測單元參數值的過程。當前,空間插值方法、GIS技術、估值預測模型等常用于解決該問題。毛洋洋等[3]利用不同日太陽總輻射預測模型對華北地區6個站點的逐日太陽總輻射數據進行估算,其估值效果皆可;郭兆夏等[4]利用GIS技術對陜西年降水量數據進行了較準確的分析與預測;Srebotnjak等[5]利用樣條插值法有效完成了全球尺度上水質監測并實現了水質TN、TP、DO等數據的填充。其中,Kriging空間插值法應用較多,實現了黃土高原區多年降雨量[6-7]、西部地區降雨量[8-9]、黃河流域多年降雨量[10]的空間拓展與分析;最近鄰法、反距離加權法等空間插值方法能很好地預測全國較大區域范圍、湖南復雜地形區的日平均氣溫[11-12];基于模型的空間插值技術對江蘇、安徽逐日氣溫[13]和結合線性回歸分析等的空間插值方法對漢江上游多年平均氣溫[14]的預測效果顯著。而上述方法面向的基本為氣象數據的空間估值拓展,少有涉及對點源時間序列數據的估值。

點源尺度上時間序列缺失值的估值,主要是對一定觀測時間段內缺失的觀測數據進行有效插補。一些研究直接將缺失數據的樣本剔除[15],或采用均值替換所有缺失值[16],雖然操作簡單,但會導致潛在信息丟失,局限性大。鑒于點源時間序列實為二維數據集,實際研究中通常運用線性內插法、樣條插值法等二維曲線擬合的數學方法對缺失數據進行插補。Ferrari等[17-18]證實了線性內插法可對降雨量和溫度數據的缺失值進行有效估算;結合地形等因素,鄭小波等[19]發現薄盤光滑樣條函數法對西南地區溫度和降水數據的插值效果最優。當前國內外對點源時間序列數據缺失值的估值問題關注較少,且常集中于某一種估值方法或技術對特定類型的數據集缺失值的估值分析,缺乏不同估值方法對一類或幾類數據缺失值估值結果的性能差異比較,也少有分析估值方法對不同數據集的性能響應,大多不易推廣和應用到其它類型數據。

為此,本研究選用LIM、KNNM、SIM、PIM和KDEM 5種估值方法,以湖南金井小流域每日氣象數據(最高氣溫、最低氣溫、太陽輻射量)、水文數據(降雨量、地表徑流量)為應用實例,研究上述5種方法對不同數據集的估值性能差異及其影響因素,以期為氣象和水文等領域點源時間序列數據缺失值的估值方法提供選擇,并為提高相關模型預測精度提供參考依據。

1 材料與方法

1.1 數據來源

數據來源于湖南省長沙縣金井河流域,流域總面積134.4 km2,位于27°55N-28°40N、112°56E-113°30' E(圖1),屬亞熱帶濕潤性季風氣候,是典型的亞熱帶紅壤丘陵地貌,年平均降水量為1200~1500mm[20]。

圖1 金井流域水文和氣象觀測站分布圖

所用水文數據為2010-2012年金井河小流域每日降雨量及2010-2014年流域內出水口的每日地表徑流量數據,氣象數據為2010-2013年流域內每日最高氣溫、最低氣溫數據和太陽輻射量數據。地表徑流量數據采用Simpson's Parabolic Rule方法,用螺旋杯式流速儀實測而得,該系統每10min自動采集并記錄流量數據,據此計算流域研究時段內的日地表徑流量。各氣象因子數據,則由小型氣象站(Intelimet Advantage,Dynamax Inc.,美國產)觀測獲得。

所選取的數據集類型皆為流域水文和氣象觀測的基礎類型,且各數據集間差異明顯,整體上水文數據(包括降雨量、地表徑流量)其CV為130.71%~162.57%,較氣象數據(最高氣溫、最低氣溫和太陽輻射量)變異性大(CV為42.82%~67.51%)。

1.2 估值方法

1.2.1 線性內插法

線性內插法(LIM)[21]利用時間與觀測值之間的等比關系近似求解時間序列的缺失值。給定時間序列集t,已知ti、tk時刻對應的觀測值分別為Y(ti)、Y(tk),tj時刻數據樣點值Y(tj)缺失,其中i

由式(1)可見,若數據缺失位點處于時間序列的兩端點,即j=i或j=k,則LIM方法將無法實現預測。

1.2.2 K-最近鄰插值法

K-最近鄰插值法(KNNM)[22]的核心思想是,搜索與待估算點最鄰近的k個觀測點樣本,用這些樣本點觀測值的加權和賦予待估值點。樣點之間的鄰近關系為

時間序列數據的計算則首先給定與tj鄰近的k個鄰近點集,然后估算Y(tj)

1.2.3 樣條插值法和多項式插值法

樣條插值法(SIM)是一種特殊的分段3次多項式插值法。相對普通多項式插值,通常樣條插值方法對數據集的擬合更平滑,輸出的插值誤差更小。給定n+1個不同的觀測時刻ti,并滿足t0<t1<…<tn-1<tn以及 n+1個觀測值Y(ti),樣條插值實質上就是構建一個n階樣條函數Y(t)逼近觀測數據集,即

多項式插值法(PIM)[23]是用多項式對一列數據進行線性擬合,再對給定待估值點進行估值的過程。給定時間序列數據集Y= {Y(t1),Y(t2),…, Y(tn)}和待估值點Y(tj),用多項式函數f(t)=β0+β1t+β2t2+…+βntn對時間序列數據集Y進行線性擬合,以求解最優的參數β=(β0,β1,β2,…,βn)。本研究用最小二乘法求解最優參數β。

1.2.4 核密度估值法

核密度估值法(KDEM)[24]是一種從數據樣本本身出發研究數據分布特征的密度函數近似估值算法,不需要有關數據分布的先驗知識。對給定缺失值Y(tj),核密度估值方法估算式為

式中,K(t)為核函數;h為核函數的帶寬;n為參與估值的觀測值數目。本研究中,核函數K(t)采用高斯核函數;該核函數是一個權函數,離缺失點tj越近的點對函數值的影響越大,其權值也越大;核函數帶寬h統一為缺失點tj到其它觀測點的距離集的中段值。

1.3 缺失值設置及模型校驗

采用的日時間序列數據集(最高氣溫、最低氣溫、太陽輻射量、降雨量和地表徑流量)皆為完整數據集(即無缺失值)。通常,時間序列數據集數據缺失位點以及數據缺失量是隨機的。缺失量的多少在一定程度上會影響估值方法性能評價的客觀性,目前主流研究以20%~30%缺失量作為研究對象用于篩選估值方法[25-26]。為有效評估LIM、KNNM、SIM、PIM和KDEM 5種方法對缺失值的估值性能的差異,本研究隨機抽取每個實例數據集的25%數據樣本點為模擬缺失量。

涉及的LIM、KNNM、SIM、PIM和KDEM的代碼實現以及模型運行均在Matlab2011b軟件平臺完成。其中,LIM、KNNM、SIM和PIM直接調用Matlab2011b軟件的內置包進行運行;KDEM則為自主編碼實現。在運行模型對25%抽樣樣本進行預測前,用交叉校驗方法測試75%的訓練樣本,分別為上述5種方法尋找較優的模型輸入參數。多次試驗證實,采用12~18的鄰近樣本數,LIM、KNNM、SIM、PIM及KDEM的估值性能較優。考慮后期需要多次進行抽樣測試,故對25%測試樣本的估值試驗統一鄰近樣本參數定為15。為消除單次試驗帶來的隨機誤差,每次試驗重復100次。將100次試驗的均方根誤差(RMSE)、絕對平均誤差(MAE)和Pearson相關系數(r)3個指標的平均值作為驗證指標用于評估各方法估值性能的優劣。

2 結果與分析

2.1 小流域水文和氣象時間序列數據集的統計特征

金井河小流域水文和氣象數據類型中25%缺失數據集和75%訓練樣本數據集數據點分布見圖2。由圖可見,所有數據從2010-07-01起始,水文數據(小流域出水口的地表徑流量)至2013-10-20,樣本數據共1206個,訓練樣本數據904個與缺失數據302個隨機分布在取樣時段內,數據點分布趨勢吻合;氣象要素集的降雨量數據共470個,截至2011-10-13;最高和最低氣溫數據共904個,截至2012-12-20;太陽輻射量數據總共632個,截至2012-03-23;缺失數據集均隨機分布在取樣時間段內,總體上與訓練樣本數據集的數據點分布趨勢吻合。

各指標訓練樣本數據集的統計特征見表1。由表可見,所選指標的數據集差異明顯,降雨量數據穩定性差,數值變化范圍大,所選時段內最大降雨量為34.62mm,最小降雨量為0.01mm,變異系數CV最大為162.57%;地表徑流量的主要來源是降雨,基流匯聚形成地表徑流,最大徑流量為41.93m3,數據集的變異系數CV也較大,僅次于降雨量數據,達130.71%;該兩指標均屬強變異水平[27]。最高氣溫、最低氣溫和太陽輻射量數據較穩定,最高氣溫數據集CV最小,為42.82%;最低氣溫和太陽輻射量數據集CV居中,分別為66.96%、67.51%,均屬弱變異水平。

圖2 各觀測數據日值集中訓練數據與缺失數據的分布

2.2 五種方法對時間序列數據集中缺失數據估值效果的比較

由表2可見,5種估值方法對不同數據集的估值性能具有較大差異。對于變異系數較小的氣象數據(最高氣溫、最低氣溫及太陽輻射量),LIM、KNNM、SIM、PIM及KDEM 5種方法皆表現較佳,估算值與實測值相關性強(r為0.64~0.98,P<0.05);其中,LIM估值準確性最佳,估值結果誤差最小,其RMSE、MAE分別為1.81~4.58、1.30~3.43,相關性最高,r為0.78~0.98(P<0.05);KDEM和SIM估值效果居中,KDEM對最高氣溫估值較好,其RMSE、MAE、r為2.91℃、2.12℃、0.95(P<0.05),SIM對最低氣溫的估值效果與LIM相同,同為最佳方法,且對太陽輻射量估值也較好;KNNM和PIM兩種方法表現最差,誤差大,相關性弱。

對于變異系數較大的降雨量數據,LIM、KNNM、SIM、PIM及KDEM 5種方法估值效果皆不佳,RMSE和MAE偏大,估算值與實測值相關性不顯著(r為0.07~0.13),其中,KDEM相對較優,其RMSE、MAE、r分別為16.75mm、9.22mm、0.13。而受降雨影響的地表徑流量數據,SIM的估值性能最優,其RMSE、MAE、r分別為12.54m3、3.40m3、0.72,誤差小且相關系數較大;LIM和KDEM的性能居中,其RMSE、MAE、r分別為12.66m3、3.60m3、0.71和13.47m3、 3.86m3、0.69;KNNM和PIM的性能最差。

總體上,上述5種估值方法對日最高氣溫、日最低氣溫、日太陽輻射量以及日地表徑流量數據的估值結果較為可靠,但對日降雨量的估值精度不高,這可能是因為日降雨量測試數據集的變異系數過大(CV=162.57%)。另外,LIM、SIM和KDEM 3種估值方法對這5種缺失數據的估值效果較好。

表2 五種方法對水文和氣象數據集缺失值的估值效果比較

注:LIM為線性內插法、KNNM為K-最近鄰插值法、SIM為樣條插值法、PIM為多項式插值法、KDEM為核密度估值法;RMSE為均方根誤差、MAE絕對值平均誤差、r為估算值與實測值的Pearson相關系數。表中數據為每種方法重復100次估算結果的平均值±標準誤差。

Note: LIM for linear interpolation method, KNNM for K-nearest neighbor interpolation method, SIM for spline interpolation method, PIM for polynomial interpolation method, KDEM for Kernel density estimation method, while RMSE for root mean square error, MAE for absolute mean error, r for Pearson product-moment correlation coefficient between estimated and measured values. The data in the table were mean±standard error values of estimations of repeated 100 times by each of the interpolation methods.

2.3 原數據集中變異系數對缺失值估算結果的影響

將最高氣溫、最低氣溫、太陽輻射量、降雨量以及地表徑流量訓練數據集的變異系數(CV)與交叉驗證指標值(RMSE、MAE、r)進行線性擬合分析,結果見圖3。由圖3可見,CV與RMSE、MAE、r之間存在明顯的線性相關關系。CV與RMSE呈顯著正相關(P<0.05),線性擬合方程的決定系數R2達0.89;與MAE也呈線性正相關(P<0.05),R2達0.67;與r呈負線性相關(P<0.05),R2達0.79。說明變異系數是影響缺失值估值結果的重要因素,變異系數越大,均方根誤差和絕對平均誤差越大,相關性越小;反之,變異系數越小,誤差越小,相關性越大。進一步分析不同估值方法的估值性能對5種水文氣象數據集CV變化的響應相關性。圖4表明,CV與RMSE和MAE呈線性正相關,決定系數R2分別為0.92~0.95和0.69~0.74;與相關系數r呈線性負相關,決定系數R2為0.78~0.80。這表明在上述應用實例中5種估值方法輸出的估值誤差,超過69%是與數據集固有的變異性有關。因此,在本研究中CV是影響估值方法LIM、KNNM、SIM、PIM及KDEM的估值性能的關鍵因素。數據集的變異系數越大,LIM、KNNM、SIM、PIM及KDEM 5種方法的估值誤差越大,輸出的預測值與實測值的擬合度越小,對估值結果的準確性影響越大[28]。

圖3 各數據集變異系數與缺失值估值評估指標RMSE、MAE和r的相關性

圖4 各觀測數據集變異系數與五種估值方法輸出的估值評估指標的相關性分析

3 結論與討論

3.1 討論

以日最高氣溫、日最低氣溫、日太陽輻射量、日降雨量及日地表徑流量數據為應用實例,模擬和比較了25%樣本缺失量條件下LIM、KNNM、SIM、PIM和KDEM 5種估值方法的性能差異及其主要影響因素。總體上,LIM、SIM和KDEM 3種方法對氣象數據集缺失值的估算性能優于其它兩種方法,對缺失值估算的誤差小且估算值與實測值具有線性相關關系,尤其是對氣溫數據,其RMSE、MAE分別低至1.81℃、1.30℃,r高達0.98。

上述估值方法的性能差異與估值方法本身有一定的關系。LIM運算簡單,適于所有水文氣象數據。不論點源還是面源數據,KDEM僅從樣本本身出發,可以估值任何形狀的缺失值概率密度函數,且連續性好[29]。KNNM估算時難以確定的k值易導致估值變化大,穩定性不高[30]。PIM受數據量大小和運算次數的限制,誤差較大,SIM較PIM更靈活穩定,運算結果精度高,不受數據量大小影響,運算簡便[31]。文獻研究也證實了LIM對點源時間序列數據的估值性能較優。例如,Noor等[32]在估算環境質量PM10數據集的缺失值時所表現的高精度和可靠性佐證了LIM的高性能;Saleem等[18]分析發現LIM對空氣溫度數據缺失值的估值精度最高,r高達0.99以上(P<0.01);唐云輝等[33]基于鄰域特征對重慶市日最高、日最低氣溫數據進行缺失填補的擬合精度高,結果可靠。這可能是氣溫數據時間尺度上變化小,限制因素少,數據集相對穩定的原因。

本研究也發現,對變異系數最大的日降雨量數據缺失值的估值,5種方法均表現不佳,其相關性弱(r在0.02~0.11),預測誤差大。但相對其它4種估值方法,線性插值方法對日降雨量數據的估值相對較好,其RMSE、MAE值分別為8.25mm、5.30mm,但是估值精度低于巴西巴拉那州氣象站[17]和巴基斯坦[18]日降雨量缺失值的估算精度。這歸因于不同研究區域日降雨量的地理差異。

本研究表明,數據集變異系數小,離散程度小,則5種估值方法對數據集缺失值的估值效果較優;反之,數據集變異系數大,離散程度大,5種估值方法的估值效果皆顯著下降。不同估值方法處理后的估值驗證指標對5種水文氣象數據集CV變化的響應關系也表明:不同估值方法處理下數據集CV與RMSE和MAE線性正相關(P<0.05),與r線性負相關(P<0.05)。這充分證實了數據集的變異系數是影響估值方法的估值結果的重要因素,該結論與其它學者研究結果相吻合。例如,趙彥鋒等[34]發現有機質數據變異系數小于10%時對數據集估值結果的準確性最高;Yozgatligil等[35]也證實土耳其降水、溫度數據集CV值越小,對缺失值估值結果越可靠。

綜合上述研究結果,數據集的變異系數顯著影響估值方法的估值性能。依據數據集變異系數CV與估值驗證指標(RMSE、MAE以及r)之間的線性關系,可推斷出:數據集變異系數在不超過45%的情況下,LIM、SIM和KDEM對數據缺失值的估值結果更可靠。

3.2 結論

(1)LIM、KNNM、SIM、PIM和KDEM對點源時間序列數據缺失值的估值效果存在差異,其中LIM、SIM和KDEM的估值性能優于KNNM和PIM。

(2)5種估值方法對氣象數據(最高氣溫、最低氣溫、太陽輻射量)缺失值的估值效果整體上優于水文數據(降雨量、地表徑流量)。

(3)數據集的變異系數CV是影響估值性能的主要因素,且 CV與評估指標RMSE、MAE及r線性相關(P<0.05);當氣象、水文點源時間序列數據集CV不超過45%時,推薦使用LIM、SIM和KDEM估算缺失值。

[1]Kantardzic M.Data mining:concepts,models,methods,and algorithms[M].John Wiley & Sons,2011.

[2]關宏強,蔡福,王陽,等.短時間序列氣溫要素空間插值方法精度的比較研究[J].氣象與環境學報,2007,23(5): 13-16.

Guan H Q,Cai F,Wang Y,et al.Comparison of different spatial interpolation methods for air temperature data of short-time series[J].Journal of Meteorology and Environment,2007,23(5): 13-16.(in Chinese)

[3]毛洋洋,趙艷霞,張祎,等.五個常見日太陽總輻射模型在華北地區的有效性驗證及分析[J].中國農業氣象,2016,37(5): 520-530.

Mao Y Y,Zhao Y X,Zhang Y,et al.Validation and analysis of five general daily solar radiation estimation models used in Northern China[J].Chinese Journal of Agrometeorology,2016, 37(5):520-530.(in Chinese)

[4]郭兆夏,李星敏,朱琳,等.基于GIS的陜西省年降水量空間分布特征分析[J].中國農業氣象,2010,31(S1): 121-123.

Guo Z X,Li X M,Zhu L,et al.Research on spatial distribution of annual precipitation in Shanxi Province based on GIS[J].Chinese Journal of Agrometeorology,2010,31(S1):121- 123.(in Chinese)

[5]Srebotnjak T,Carr G,de Sherbinin A,et al.A global water quality index and hot-deck imputation of missing data[J]. Ecological Indicators,2012,17:108-119.

[6]段建軍,王小利,高照良,等.黃土高原地區50年降水時空動態與趨勢分析[J].水土保持學報,2009,23(5):143-146.

Duan J J,Wang X L,Gao Z L,et al.Dynamics and trends analysis of annual precipitation in the Loess Plateau Region for 50 years[J].Journal of Soil and Water Conservation, 2009,23(5): 143-146.(in Chinese)

[7]馬晶,陳錫云,劉曉燕.地理因素輔助的黃土高塬典型流域面雨量制圖效果比較與評價[J].水土保持學報,2016,30(6): 174-180.

Ma J,Chen X Y,Liu X Y.Comparison and evaluation of areal precipitation mapping effectiveness with consideration of geographic factors in the Loess Plateau[J].Journal of Soil and Water Conservation,2016,30(6):174-180.(in Chinese)

[8]Zhu Q A,Zhang W C,Zhao D Z.Topography-based spatial daily precipitation interpolation by means of PRISM and thiessen polygon analysis[J].Scientia Geographica Sinica, 2005,25(2):233-238.

[9]Gu Z H, Shi P J,Chen J.Precipitation interpolation research over regions with sparse meteorological stations:a case study in Xilingole League[J].Journal of Beijing Normal University (Natural Science),2006,42(2):204-208.

[10]邵曉梅,嚴昌榮,魏紅兵.基于Kriging插值的黃河流域降水時空分布格局[J].中國農業氣象,2006,27(2):65-69.

Shao X M,Yan C R,Wei H B.Spatial and temporal structure of precipitation in the Yellow River Basin based on Kriging method[J].Chinese Journal of Agrometeorology,2006,27(2): 65-69.(in Chinese)

[11]Liu Y,Chen P Q,Zhang W.A spatial interpolation method for surface air temperature and its error analysis[J]. Chinese Journal of Atmospheric Sciences,2006,30(1):146-152.

[12]杜東升,廖玉芳,趙福華.湖南復雜地形下日平均氣溫空間插值方法探討[J].中國農業氣象,2011,32(4):607-614.

Du D S,Liao Y F,Zhao F H.Study on the spatial interpolation method for daily mean air temperature over complex terrain in Hunan province[J].Chinese Journal of Agrometeorology, 2011, 32(4):607-614.(in Chinese)

[13]郭建茂,王錦杰,吳越,等.基于衛星遙感與氣象站數據的水稻高溫熱害監測和評估模型研究:以江蘇、安徽為例[J].農業現代化研究,2017,38(2):298-306.

Guo J M,Wang J J,Wu Y,et al.Research on monitoring and modeling of rice heat injury based on satellite and meteorological station data:case study of Jiangsu and Anhui[J]. Research of Agricultural Modernization,2017,38 (2): 298- 306. (in Chinese)

[14]任利利,殷淑燕.漢江上游近50多年來氣溫變化特征與區域差異[J].農業現代化研究,2013,34(3):348-352.

Ren L L,Yin S Y.Air temperature variation of the upper reaches of Hanjiang River in recent 50 years and its regional differences[J].Research of Agricultural Modernization,2013, 34(3):348-352.(in Chinese)

[15]鮑曉蕾,高輝,胡良平.多種填補方法在縱向缺失數據中的比較研究[J].中國衛生統計,2016,33(1):45-48.

Bao X L,Gao H,Hu L P.Comparative study of various imputation methods in dealing with longitudinal missing data[J].Chinese Health Statistics,2016,33(1):45-48.(in Chinese)

[16]楊軍,趙宇,丁文興.抽樣調查中缺失數據的插補方法[J].數理統計與管理,2008,27(5):821-832.

Yang J,Zhao Y,Ding W X.On imputation methods of missing data in survey sampling[J].Application of Statistics and Management,2008,27(5):821-832.(in Chinese)

[17]Ferrari G T,Ozaki V.Missing data imputation of climate datasets:implications to modeling extreme drought events[J]. Revista Brasileira de Meteorologia,2014,29(1):21-28.

[18]Saleem M U,Ahmed S R.Missing data imputations for upper air temperature at 24 standard pressure levels over pakistan collected from Aqua satellite[J].Journal of Data Analysis and Information Processing,2016,4(3):132.

[19]鄭小波,羅宇翔,于飛,等.西南復雜山地農業氣候要素空間插值方法比較[J].中國農業氣象,2008,29(4):458-462.

Zheng X B,Luo Y X,Yu F,et al.Comparisons of spatial interpolation methods for agro-climate factors in complex mountain areas of southwest China[J].Chinese Journal of Agrometeorology,2008,29(4):458-462.(in Chinese)

[20]孟岑,李裕元,吳金水,等.亞熱帶典型小流域總氮最大日負荷(TMDL)及影響因子研究:以金井河流域為例[J].環境科學學報,2016,36(2):700-709.

Meng C,Li Y Y,Wu J S,et al.Study on total nitrogen TMDL and its contributing factors in typical subtropical watersheds: a case study of Jinjinghe watershed[J].Acta Scientiae Circumstantiae,2016,36(2):700-709.(in Chinese)

[21]李新,程國棟,盧玲.空間內插方法比較[J].地球科學進展,2000,15(3):260-265.

Li X,Cheng G D,Lu L.Comparison of spatial interpolation methods[J].Advance Earth Sciences,2000,15(3):260-265.(in Chinese)

[22]張曉琴,王敏.基于主成分分析的成分數據缺失值插補法[J].應用概率統計,2016,32(1):101-110.

Zhang X Q,Wang M.Imputation of missing values for compositional data based on principal component analysis[J]. Chinese Journal of Applied Probability and Statistics,2016,32(1): 101-110.(in Chinese)

[23]陳林.基于GIS的流域水文數據的時空分析:以格蘭德河流域徑流數據為例[D].青島:山東科技大學,2010.

Chen L.GIS-based spatial-temporal analysis of watershed hydrological data[D].Qingdao:Shandong University of Science and Technology,2010.(in Chinese)

[24]王國榮,俞耀明,徐兆亮,等.數值分析(第三版)[M].北京:機械工業出版社,2005.

Wang G R,Yu Y M,Xu Z L,et al.Numerical analysis(Third Edition)[M].Beijing:Mechanical Industry Press,2005.(in Chinese)

[25]殷杰,石銳.SAS中處理數據集缺失值方法的對比研究[J].計算機應用,2007,27(b6):438-439.

Yin J,Shi R.A comparative study on the method of missing value of data set in SAS[J].Computer Applications,2007, 27(b6):438-439.(in Chinese)

[26]花琳琳,施念,楊永利,等.不同缺失值處理方法對隨機缺失數據處理效果的比較[J].鄭州大學學報(醫學版), 2012,47(3):315-318.

Hua L L,Shi N,Yang Y L,et al.Comparison of different methods in dealing with missing values of missing at random[J].Journal of Zhengzhou University(Medical Sciences), 2012,47(3):315-318.(in Chinese)

[27]蔡浩.地質統計學在地層巖土參數分布規律研究中的應用[D].蘇州:蘇州科技學院,2015.

Cai H.Applications of geostatistics to research on the distribution of the geotechnical parameters[D].Suzhou: Suzhou University of Science and Technology,2015.(in Chinese)

[28]Hong T,Kim C J,Jeong J,et al.Framework for approaching the minimum CV(RMSE) using energy simulation and optimization tool[J].Energy Procedia,2016,88:265-270.

[29]張桂銘,朱阿興,楊勝天,等.基于核密度估計的動物生境適宜度制圖方法[J].生態學報,2013,33(23):7590-7600.

Zhang G M,Zhu A X,Yang S T,et al.Mapping wildlife habitat suitability using kernel density estimation[J].Acta Ecologica Sinica,2013,33(23):7590-7600.(in Chinese)

[30]于力超,金勇進,王俊.缺失數據插補方法探討:基于最近鄰插補法和關聯規則法[J].統計與信息論壇,2015, 30(1): 35-40.

Yu L C,Jin Y J,Wang J.The research of missing data imputation method:based on nearest neighbor imputation and association rules[J].Statistic & Information Forum,2015, 30(1):35-40.(in Chinese)

[31]閻洪.薄板光順樣條插值與中國氣候空間模擬[J].地理科學,2004,24(2):163-169.

Yan H.Modeling spatial distribution of climate in China using thin plate smoothing spline interpolation[J].Scientia Geographica Sinica,2004,24(2):163-169.

[32]Noor N M,Abdullah M M A B,Yahaya A S,et al.Comparison of linear interpolation method and mean method to replace the missing values in environmental data set[J]. Materials Science Forum,2015,(5):10.

[33]唐云輝,高陽華.基于鄰域特征的溫度缺失值的填補方法[J].中國農業氣象,2008,29(4):454-457.

Tang Y H,Gao Y H.Imputation method of missing temperature data based on neighborhood features[J].Chinese Journal of Agrometeorology,2008,29(4):454-457.(in Chinese)

[34]趙彥鋒,陳杰,齊力,等.不同采樣尺度下土壤圖和Kriging法的空間估值精度比較:以砂姜黑土典型地區的研究為例[J].土壤通報,2011,(4):872-878.

Zhao Y F,Chen J,Qi L,et al.The comparison of soil map and Kriging methods for spatially prediction precision of soil properties with different sample spacings:a case of Shajiang black soil area[J].Chinese Journal of Soil Science,2011,(4): 872-878.(in Chinese)

[35]Yozgatligil C,Aslan S,Iyigun C,et al.Comparison of missing value imputation methods in time series:the case of Turkish meteorological data[J].Theoretical and Applied Climatology, 2013,112(1-2):143-167.

Performance Comparison of Different Interpolation Methods on Missing Values for Time Series Data——A Case Study of Meteorological and Hydrological Data in Subtropical Small Watershed

GAN Lei1, 2, ZHOU Jiao-gen2, SHI Jin2, 3, LI Xi2, SHEN Jian-lin2, LV Dian-qing1, LI Yu-yuan2,WU Jin-shui2

(1. College of Resources and Environmental Sciences, Hunan Normal University, Changsha 410081, China; 2. Key Laboratory of Agro- ecological Processes in Subtropical Region, Institute of Subtropical Agriculture, Chinese Academy of Sciences, Changsha 410125; 3. College of Engineering, Hunan Agricultural University, Changsha 410128)

The effective estimation of the missing values of time series data at the scale of point process could improve its data quality. The meteorological and hydrological data sets (daily maximum air temperature, daily minimum air temperature, daily solar radiation, daily rainfall and daily stream flow) were collected through the long-term field experiments in a typically small subtropical watershed in subtropical zone. The performance differences within five interpolation methods of linear interpolation method(LIM), K-Nearest neighbor interpolation method(KNNM), spline interpolation method(SIM), polynomial interpolation method(PIM) and kernel density estimation method(KDEM) were analyzed on the above-mentioned five data sets. The root mean square error(RMSE), absolute mean error(MAE) and Pearson correlation coefficient(r) were selected to evaluate the advantages and disadvantages of the five methods. The results showed that: (1) The estimation performance of LIM, SIM and KDEM was generally superior to the other two methods. (2) The estimation of the missing values of meteorological data (maximum temperature, minimum temperature and solar radiation) produced the varying values of the three evaluation indices with RMSE values of 1.81-6.35, MAE values of 1.30-4.20 and r values of 0.70-0.98 (P<0.05), respectively. In contrast, the estimation of missing values of hydrological data (rainfall and stream flow) had relatively high values of RMSE and MAE which were 12.51-26.28 and 3.60-14.21, respectively, and low values of r (0.07-0.72). So the above-mentioned interpolation methods generally produced better estimation of missing values of meteorological data sets than those of hydrological data. (3) Additionally, the coefficient of variation (CV) of the above data sets linearly correlated with the evaluation indices (RMSE, MAE and r) (P<0.05), and played an important role in affecting the valuation performance of the above-mentioned interpolation methods.

Missing values;Interpolation methods;Coefficient of variance;Time series

10.3969/j.issn.1000-6362.2018.03.007

甘蕾,周腳根,石錦,等.點源時間序列數據缺失值的估值方法比較:以小流域氣象和水文數據為例[J].中國農業氣象,2018,39(3):195?204

收稿日期:2017-07-13

通訊作者。E-mail: zhoujg@isa.ac.cn

國家科技支撐計劃項目(2014BAD14B02);水利部公益性行業科研專項經費項目(201501055);湖南省地理學重點學科建設項目(20110101)

甘蕾(1992-),女,碩士生,主要從事水文生態與環境研究。E-mail:805150477@qq.com

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲午夜福利精品无码不卡 | 国产精品无码AV片在线观看播放| 四虎成人精品| 91久久国产综合精品女同我| 亚洲日韩第九十九页| 亚洲va在线∨a天堂va欧美va| 国产精品久线在线观看| 国产白浆视频| 性视频一区| 免费看久久精品99| 久久大香伊蕉在人线观看热2| 五月婷婷伊人网| 无码精品国产VA在线观看DVD| 免费在线成人网| 色综合久久88| 欧美午夜久久| 亚洲天堂网在线视频| 日本五区在线不卡精品| 91视频精品| 蜜臀AV在线播放| 国产精品欧美日本韩免费一区二区三区不卡 | 91亚瑟视频| 色偷偷男人的天堂亚洲av| 一级毛片在线播放| 精品久久国产综合精麻豆| 中文字幕欧美日韩高清| 亚洲天堂精品在线观看| 国产在线八区| 国产欧美日韩视频怡春院| 91福利免费| 欧美国产精品不卡在线观看| 亚洲一区国色天香| A级毛片无码久久精品免费| 国产自在线拍| 高清码无在线看| 日本人妻丰满熟妇区| 在线欧美a| 亚洲日本一本dvd高清| 欧美不卡视频在线观看| 亚洲欧美一级一级a| 秘书高跟黑色丝袜国产91在线| 欧美精品aⅴ在线视频| 国产99精品视频| 亚洲色欲色欲www网| 欧美精品成人一区二区在线观看| 欧美三级日韩三级| 免费黄色国产视频| 欧美精品黑人粗大| 国产91小视频| JIZZ亚洲国产| 国产成人做受免费视频| 最新亚洲人成无码网站欣赏网 | 国产毛片一区| 四虎永久在线精品国产免费| 亚洲精品国产精品乱码不卞| 污污网站在线观看| 精品无码专区亚洲| 日韩高清中文字幕| 欧美成人二区| 久久夜夜视频| 妇女自拍偷自拍亚洲精品| 日本国产精品一区久久久| 伊人久久婷婷五月综合97色| 国产精品亚洲а∨天堂免下载| 亚洲天堂免费观看| 毛片基地美国正在播放亚洲| 成人免费午夜视频| 精品国产免费观看一区| 国产91在线|日本| 激情亚洲天堂| 国产综合精品一区二区| 免费中文字幕在在线不卡| 国产成人成人一区二区| 老汉色老汉首页a亚洲| jijzzizz老师出水喷水喷出| 国产精品专区第一页在线观看| 性喷潮久久久久久久久| 人妻中文久热无码丝袜| 亚洲人成网线在线播放va| 巨熟乳波霸若妻中文观看免费| 无码啪啪精品天堂浪潮av| 欧美午夜性视频|