周元春,甘孝清,李端有
(長江科學院工程安全與災害防治研究所,武漢 430010)
大壩安全監測數據粗差識別技術研究
周元春,甘孝清,李端有
(長江科學院工程安全與災害防治研究所,武漢 430010)
介紹了目前大壩安全監測數據處理工作中幾種常用粗差識別技術的優缺點及適用范圍,并針對這些常規方法中所存在的不足,采用時空判別技術和基于穩健性處理方法的粗差識別技術,對粗差數據進行判別。其中時空判別技術充分利用了觀測序列本身的時空基本信息,將觀測值與歷史的或相鄰的觀測數據相比較來判別粗差;基于穩健估計算法的監控模型判別法克服了經典的最小二乘法所存在的抗粗差干擾性差這一缺點,在最小二乘回歸的基礎上逐步按殘差大小加穩健化權,迭代求得模型參數的穩健估計,這一估計值最接近于無粗差影響時的正常估值。隔河巖大壩安全監測數據的實例分析表明,這些方法具有較強的粗差識別能力。
監測數據;粗差識別;時空判別法;穩健估計
在大壩安全監測過程中,無論采用多么完善的觀測方法和多么精確的觀測設備,都不可避免地產生觀測誤差,從誤差出現的規律上來看,觀測誤差可分為系統誤差、隨機誤差和粗差3大類。其中,粗差是由于某種過失引起的明顯與事實不符的誤差,亦稱為過失誤差,它主要是由于操作不當,讀數、記錄和計算錯誤,檢測系統的突然故障等疏忽因素而造成的誤差。粗差其實是一種錯誤數據,往往在數值上表現出很大的異常,與合理值明顯相悖。這種數據是不可信的,它能嚴重影響數據處理的結果,并干擾對建筑物安全評價和監控的結果。因此,有效地識別粗差,不僅是數據分析處理的基礎,而且對建筑物有效地實施安全監控都有重要的意義。
本文將介紹目前在大壩安全監測數據處理工作中主要所采用的幾種粗差識別技術,如邏輯判別法、統計判別法、基于最小二乘法的監控模型判別法等,然后針對這些方法中所存在的不足,采用時空判別技術,和基于穩健性處理方法的粗差識別技術,對大壩安全監測數據中的粗差進行識別,以更好地提高監測數據的可靠性。
2.1 邏輯判別法
監測儀器一般都有一個明確的量測范圍,因此,任何測值的量值都必須在其量測范圍內。如果測值超出儀器的量測范圍,則測值必存在粗差。另外,有些儀器雖無明確的量測范圍限制,但被監測物理量的測值一般應有一個邏輯合理范圍。當觀測值超出其邏輯合理范圍時,亦認為測值含有粗差。一般說來,當測值中含有較為明顯的大的誤差時,用邏輯判別法可以作出識別。
2.2 統計判別法
根據彈性力學理論,當建筑物在相同溫度場、相同水位荷載作用下,如果其結構條件、材料性質及地基性質不變,則其變形量應相同。統計判別法就是根據這一理論,將相同工況下的測值作為樣本數據,采用統計方法計算觀測數據系列的統計特征值,根據一定的準則找出其中的異常值。
統計判別法使用的準則有:萊以特準則、羅曼諾夫斯基準則、格羅布斯準則、狄克松準則等[1]。這幾種判別準則的適用條件為:萊以特準則是以觀測次數充分大為前提的,因此這種判別準則可靠性不高,但它使用簡便,故在要求不高時經常應用;對觀測次數較少而要求較高的觀測列,應采用羅曼諾夫斯基準則、格羅布斯準則或狄克松準則,其中格羅布斯準則的可靠性較高,其觀測次數也需在20~100之間時,才能有較好的判別效果;當觀測次數較少時,可采用羅曼諾夫斯基準則;若需要從觀測列中迅速判別含有粗大誤差的觀測值,則可采用狄克松準則。然而,在大壩安全監測工作中,大壩處在相同外部荷載或近乎相同外部荷載下工作的情況不多,因此無法為統計判別法提供足夠的數據樣本。雖然觀測次數較少時可采用羅曼諾夫斯基準則,但少量的數據樣本本身的正確性也無法認定,這為統計判別法的使用帶來了一定的限制。
2.3 基于最小二乘法的監控模型判別法
大壩等水工建筑物經多年變形監測后,可得到一系列監測量的測值,據此,可建立相應的監控數學模型。常用的數學模型有統計模型、確定性模型和混合模型,目前,以統計模型使用最為普遍。建立統計模型所常用的統計回歸法,其原理是經典的最小二乘法,當監測數據誤差服從正態分布,最小二乘估計值具有方差最小且無偏的統計特性。
設被監測量的監控模型為

式中:^y為監測量的模量估計值;H為庫水位因子;T為溫度因子;t為時效因子。
設該模型的剩余標準差為S,當觀測值yi'與回歸值yi之差大于KS時,則認為測值異常。即:

式中:K為系數,它與置信水平α及樣本數m有關。
然而,在大壩安全監測領域,監測數據誤差不一定嚴格服從正態分布,至少從儀器量程上就決定了其誤差是一種有界分布,特別是當數據中含有粗差時,監測數據誤差與正態分布的假定相差更大,這樣所建立的模型將會偏離實際情況,那么將其用于粗差識別也是不可靠的。
大壩安全監測向人們提供的最基本信息就是觀測物理量的時空序列,采用時空評判檢驗法,可將觀測物理量與歷史的或相鄰的觀測數據相比較,找出離群值或異常值,然后結合數據觀測時的外部因素,對所測數據的物理成因進行分析,并與相鄰測點觀測值進行對比分析,判識是否合理,是否為粗差。這一判別方法對某些環境量觀測值,或在大壩首次蓄水期間效應量監控數學模型尚未建立時,具有實際應用價值。觀測數據系列中異常點的識別方法如下。
3.1 基于平滑估計的粗差識別方法[1]
這一檢測異點的基本想法是認為正常數據是“平滑”的,而異點是“突變”的,如果首先作觀測數據的平滑估計,那么設定系數k表示正常數據偏離平滑估計范圍,此時若觀測數據中有的數值超出此范圍,則判斷該數是異點。此法的關鍵在于產生平滑估計和選取k。平滑估計可采用“中位數”方法。
首先從原始數據{yi}(i=1,2,…,N+1)構造一個新序列{yi′}。取yi中前5個數y1,y2,y3,y4,y5,按數值大小重新排列為y(1)≤y(2)≤y(3)≤y(4)≤y(5),取其中位數y(3),記作y3′,然后舍去y1加入y6,取y2,y3,y4,y5,y6的中位數y4′。依此類推得到第5個中位數,最后組成相鄰5個原始數據的中位數序列

再用相似的方法從序列{yi′}構成相鄰3個數據的中位數序列

最后構成序列

k根據實際情況而定。
3.2 基于跳動特征的粗差識別方法
在觀測物理量的過程線上檢索異常值,假設觀測物理量隨時間緩慢變化,對應于觀測時間序列t1,…,tj,…,tn的測值y1,…,yj,…,yn,第j次測量的跳動特征為

當yj為正常測值時,它只包含觀測物理量時間效應的線性偏差及隨機誤差。測次n足夠大后,dj的平均值就趨于某一穩定值

跳動標準差為

異常值yj的必要條件為

一般取k=2或3。
大壩在運行過程中,壩體的變形、應力應變等效應量觀測值在環境量驟變時也會隨之發生突變,此時若采用時空判別法來認定這些突變值為粗差是不合理的,這時可通過建立監控模型來進行粗差識別。基于統計監控模型的粗差判別方法中,當測量數據服從正態分布情況時,最小二乘估計具有最優統計性質,但最小二乘法不具備抗御粗差的能力,對含粗差的觀測量相當敏感,個別粗差就會對參數的估值產生較大的影響。而在大壩安全監測領域的數據,其誤差是不一定嚴格服從正態分布的。穩健估計(Robust Estimation),正是針對最小二乘法抗粗差的干擾差這一缺陷提出的,其目的在于構造某種估計方法,使其對于粗差具有較強的抵抗能力[2]。
穩健性就是指在統計分析中,據以作統計推斷的數據總不免要作理想假定,如獨立性、概率分布模型、無外部干擾(如無粗差、系統誤差等),若實際上原假定條件稍微偏離或有不大的差異時,所采用統計方法的統計推斷結果也只有相應的較小改變,仍基本上具備原有的良好統計特性而不致于失效。對參數估計而言,若借以計算估計量的數據受少量粗差或系統性變化的許多小誤差的污染,稍偏離原假定的概率分布模型,僅使該估計量有相應的小偏差,且不致隨污染誤差增大而背離真實值,稱為穩健估計。
在粗差不可避免的情況下,采用穩健估計,可充分利用觀測數據(或樣本)中的有效信息,限制利用可用信息,排除有害信息,使參數的估值盡可能避免粗差的影響,得到正常模式下的最佳估值。
穩健估計基本可以分為3大類型,即:極大似然估計即M估計、基于順序統計量線性組合的L估計、基于秩檢驗導出線性組合的R估計,其中以M估計使用較多。基于M估計的穩健回歸分析建模方法如下。
設被監測量的監控模型為

寫成矩陣形式為

式中:y=(y1,y2,…,yn)T,β=(β0,β1,…,βn)T,e=(e1,e2,…,en)T,x=xij。最小二乘估計為

對回歸參數β的穩健M估計是使以下準則函數最小化,即

也即回歸參數β滿足M估計方程

式中:ρ為準則函數;Ψ(v)=ρ′(v),vi=yi-為殘差ei的M估計,其標準差為

可見M估計的特性取決于ρ(v)或Ψ(v)的函數形式及其參數的選定。現有M估計的種類很多,常用的M估計有Huber估計、Andrews估計、Hampel估計及IGG法。
穩健回歸的算法可采用加權迭代法,加權迭代法是從給定盡量接近穩健估計的初值開始,在最小二乘回歸的基礎上,逐步按殘差大小加穩健化權,迭代求得β和sv的穩健估計。其中,權函數w與M估計的ρ(v)或Ψ(v)有關,且每一步的權函數值是隨殘差值而改變的,其具體算法和步驟如下:
(1)采用逐步回歸法求得式(10)的最小二乘估計^β和sv,將其作為初值;
(2)按所得殘差{vi}計算標準化殘差ui=vi/sv,并按M估計的有關方法(如Huber、IGG法等),求得穩健權w(ui);
(3)對數據{yi}加權,剔除權為零的觀測值。然后返回(1)。如此反復計算至滿足停算條件:

其中εj按精度要求選定。
5.1 基于平滑估計的粗差識別實例分析
取清江隔河巖大壩1997年1月1日至1998年12月31日的730組氣溫觀測值作為樣本數據進行粗差檢驗,所取樣本的時間間隔是等距的,并在其中的5組觀測值中加了5℃的粗差(如表1中加數據),以對成果進行驗證。通過對平滑估計結果的統計分析,發現平滑估計值與實測值之差,即殘差的絕對值小于1℃的觀測值占71.7%,在1~2℃之間的占19.5%,2~3℃之間的占4.8%,3~3.5℃之間的占1.5%,大于3.5的占2.3%,即:有97.7%的觀測值與估計值的殘差在3.5℃以內,說明殘差小于3.5℃的觀測值的置信水平為97.7%,在這一范圍內的數據是可靠的。
表1所列為平滑估計值與實測值的殘差大于3.5℃時的樣本數據,其中,除了原始實測數據中的幾個異常測值被檢驗出來外,5個人為加入5℃粗差的觀測數據均一一被檢驗了出來,表明基于平滑估計的粗差識別方法有較好的粗差鑒別能力。

表1 基于平滑估計的粗差識別分析成果Table1 Analysis results of identifying gross errors based on smoothing estimation
5.2 基于跳動特征的粗差識別實例分析
取清江隔河巖大壩1998年1月4日至2004年6月22日的51組滲壓觀測值作為樣本數據進行粗差檢驗,觀測點位于15#壩段上游高程122 m處,測點編號為P22-5。采用了2組方案,第一組方案是對原始數據進行粗差檢驗,第二組方案是在1999年3月17日的觀測值中人為加入了0.015 MPa的粗差(如表2中加數據)。分析結果如表2所示。
從表2中可以看出,在未人為加入粗差的第1組方案中,2002年3月26日與2002年4月3日的兩組滲壓觀測值,其跳動特征dj與跳動均值的差,即yj均大于2σ,被檢驗出為異常值,這兩組異常值同樣在第2組方案中被檢驗出。此外,人為加入0.015 MPa粗差的觀測值也在第2組方案中被檢驗出,表明基于跳動特征的粗差識別方法有較好的粗差鑒別能力。
對2002年3月26日與2002年4月3日這2個觀測日期前期的上下游水位變化情況,以及降雨等進行分析,發現這期間的上下游水位、降雨等均無較大變化。對比鄰近觀測點P22-4,P22-6,P22-7,在這期間的觀測值變化也較平穩,因此可認為P22-5觀測點在2002年3月26日與2002年4月3日的2個觀測值存在粗差。

表2 基于跳動特征的粗差識別分析成果Table2 Analysis results of identifying gross errors based on bouncing features

表3 兩種模型的回歸分析成果Table3 Regression analysis results of two models

表4 兩種模型的粗差檢驗結果Table4 Inspection results of gross errors for two models
5.3 基于穩健估計算法的粗差識別實例分析
對清江隔河巖大壩15#壩段高程203.5 m處的垂線測點PL15801的縱向水平位移觀測資料進行回歸分析,所取數據為1997年3月至2006年12月的共153組測值。自變量分別選取水位、氣溫、時效的組合形式,共計12個因子,分別為:壩前水深的一次、二次、三次方,氣溫當天測值,氣溫前10,20,30,60,90,120 d的平均值,距基準日期的觀測天數,觀測天數的對數。建模共采用了2組方案:方案1是采用逐步回歸方法建模,方案2是采用穩健回歸方法建模。回歸分析成果如表3所示。從表3中可以看出,采用穩健回歸方法的模型質量要明顯優于傳統的逐步回歸分析方法。
將2種模型所得的殘差{vi}進行分析,采用3S準則,認為殘差的絕對值大于3S時,測值異常。對測值的粗差分析檢驗結果如表4所示。
從表4中可以看出,利用穩健回歸模型共可檢驗出含粗差測值10組,而逐步回歸模型只檢驗出2組(帶者為未查出點)。在穩健回歸模型檢驗出的10組粗差測值中,2001年12月10日、2002年1月8日、2002年7月10日的觀測值通過統計判別法已驗證其存在粗差。將兩種模型的檢驗結果與之相比較,可以看出2001年12月10日的粗差兩種回歸模型均可以檢出,2002年1月8日、2002年7月10日的粗差逐步回歸模型未能檢驗出,而穩健回歸模型可以檢驗出來,說明穩健回歸模型具備有比逐步回歸模型更好的粗差檢驗能力。
針對目前大壩安全監測數據處理工作中的幾種主要粗差識別技術的不足,采用了時空判別技術以及基于穩健估計算法的監控模型法,對粗差數據進行判別。其中時空判別技術充分利用了觀測序列本身的時空基本信息,將觀測值與歷史的或相鄰的觀測數據相比較來判識粗差;基于穩健估計算法的監控模型判別法克服了經典的最小二乘法所存在的抗粗差干擾性差這一缺點,從給定盡量接近穩健估計的初值開始,在最小二乘回歸的基礎上逐步按殘差大小加穩健化權,迭代求得模型參數的穩健估計,這一估計值最接近于無粗差影響時的正常估值。隔河巖大壩安全監測數據的實例分析表明,這些方法具有較好的粗差識別能力。
[1] 費業泰.誤差理論與數據處理[M].北京:機械工業出版社,2004.(FEIYe-tai.Error Theory and Data Pro-cessing[M].Beijing:China Machine Press,2004.(in Chinese))
[2] 林洪樺.動態測試數據處理[M].北京:北京理工大學出版社,1995.(LING Hong-hua.Dynamic Measure-ment Data Processing[M].Beijing:Beijing Institute of Technology Press,1995.(in Chinese))
[3] 周江文.經典誤差理論與抗差估計[J].測繪學報,1989,18(2):115-120.(ZHOU Jiang-wen.Classic Er-ror Theory and Robust Estimation[J].Acta Geodaetica et Cartographica Sinica,1989,18(2):115-120.(in Chinese))
[4] 姚宜斌.粗差的定性分析[J].測繪信息與工程,2002,27(1):1-3.(YAO Yi-bin.Qualitative Analysis of Outlier[J].Journal of Geomatics,2002,27(1):1-3.(in Chinese))
[5] 劉德軍,趙全麟.隔河巖大壩變形監測資料分析[J].人民長江,2000,(6):39-41.(LIU De-jun,ZHAO Quan-lin.Analysis of Deformation Monitoring Data of Hu-beiQingjiang Geheyan Hydraulic Power Station[J].Yan-gtze Rive,2000,(6):39-41.(in Chinese))
[6] 長江委長江勘測規劃設計研究院.湖北省清江隔河巖水電站竣工驗收文件匯編(第二冊)設計報告[R].武漢:長江委長江勘測規劃設計研究院,1997.(Changjiang Institute of Survey,Planning,Design,Re-search&Design.Report of Hubei Qingjiang Geheyan Hydraulic Power Station[R].Wuhan:Changjiang Insti-tute of Survey Planning Design and Research Design,1997.(in Chinese))
[7] 張保軍,張 漫,李亦明,等.清江隔河巖水利樞紐大壩安全監測資料綜合分析報告(2003年度)[R].武漢:長江科學院,2004.(ZHANG Bao-jun,ZHANG Mang,LI Yi-ming,et al.The Synthetical Analysis Re-port of Safety Monitoring Data of Hubei Qingjiang Gehey-an Hydraulic Power Station(2003)[R].Wuhan:Changjiang River Scientific Research Institute,2004.(in Chinese) )
(編輯:劉運飛)
Research on Gross Error Identification Techniques of Dam Safety M onitoring Data
ZHOU Yuan-chun,GAN Xiao-qing,LIDuan-you
(Changjiang River Scientific Research Institute,Wuhan 430010,China)
The authors introduce a couple of prevailing gross error identification techniques adopted in the process of current dam safetymonitoring data treatment and analyze their respective advantages&disadvantages aswell as their application ranges.In combination with the shortcomings of those techniques,the gross error data were identified by using space-time identification technology and robustness-based technique.Space-time identification technology utili-zes fully the basic space and time information of the data series and compare datawith historical data or adjacent ob-servation data to identify the gross error.The identification approach of robustness-basedmonitoringmodel overcomes the disadvantage of poor gross error interference immunity of traditional least squaremethod and obtains robustestima-tion through iterative calculations with gradual weighted robustness.The estimation figures proved to be the most closely to the normal data without interfering by gross errors.The case analysis of safetymonitoring data of Geheyan Dam verifies that the above approaches are capable of identifying gross errors outstandingly.
monitoring data;gross error identification;space-time identification;robust estimation
P642
A
1001-5485(2011)02-0016-05
2010-03-10
國家科技支撐計劃子課題(2006BAC14B06-02(02));長江科學院中央級公益性科研院所基本科研業務費項目(YWF0723/AQ03)
周元春(1974-),女,湖北武漢人,高級工程師,碩士,主要從事巖土工程安全監測及安全評價等工作,(電話)027-82829879(電子信箱)zhouyc_hb@163.com。