999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種實用海洋浮標數據異常值質控方法

2016-08-15 03:52:14劉首華陳滿春董明媚高志剛張建立武雙全林峰竹國家海洋信息中心天津300171
海洋通報 2016年3期
關鍵詞:檢測方法

劉首華,陳滿春,董明媚,高志剛,張建立,武雙全,林峰竹(國家海洋信息中心,天津 300171)

一種實用海洋浮標數據異常值質控方法

劉首華,陳滿春,董明媚,高志剛,張建立,武雙全,林峰竹
(國家海洋信息中心,天津300171)

針對海洋浮標的波高觀測數據,通過結合格拉布斯準則(Grubbs)、局地異常值檢驗方法和波高觀測誤差控制建立了一種實用的數據異常值質控方法并對波高觀測異常值進行了質控效果檢驗。結果表明,該質控方法由于加入了波高觀測誤差控制,從而避免了將大量正常數據誤判為異常數據,異常數據判斷的準確率達到了較高水準。另外該方法也可以作為一種實用質控方法推廣使用于其他海洋浮標觀測要素。

海洋浮標;異常值;質量控制;格拉布斯準則

我國沿海海域布放了眾多海洋觀測浮標,觀測要素包含了海風、海浪、海流、溫度、鹽度等重要的水文氣象參數。為完成觀測數據的實用化使用,需要對海量觀測數據進行嚴謹而科學的質量控制(質控)。數據質控不僅能剔除數據序列中不正確的數據,也能從不正確數據中推測觀測浮標的情況,便于對觀測浮標進行及時的檢查和維修。海洋浮標數據常用的質控內容包含時間質控、位置質控、范圍質控、異常值質控、數據漂移性質控、梯度質控等(National Data Buoy Center,2009)。數據質控的核心主體是觀測數據序列中的異常值質控。超出儀器觀測范圍的值可以通過范圍控制進行剔除,而對在儀器測量范圍內但又明顯脫離相鄰數據統計特征的數據需要異常值質控剔除。

數據序列中異常值的檢測普遍存在于科學研究的各個領域,其抽象為離群數據的搜索和聚類,常見于數學領域和信息科學領域。關于時間序列異常值的判定,具有較為龐雜的方法分類(黃謨濤等,1999;Hodge et al,2004;李光強,2009),但比較常用且具有共性特征的是基于經典統計理論的離群點檢測方法(王占全,2005)。基本思想是假定已知數據集滿足某種統計分布,通過分析數據點偏離正常統計分布的程度判定數據點是否異常或離群。基于統計理論的異常值檢測方法能夠對多個數據點中的單個異常點做出比較準確的判斷。異常值的出現方式是比較復雜的,經常以連續多個方式或以斑塊方式出現,在局部時間段內甚至超過正常數據的數量。在這種情形下,基于統計理論的異常值檢測方法就難以對這些異常值做出有效的判斷。

對很多時間序列觀測數據而言,有些觀測值在統計方法上判定為異常值,但是這些異常值可能沒有超過儀器本身的觀測誤差,因此這時候判斷的異常值應理解為誤判。不同類型的觀測數據,其異常值都有不同外觀特征及性質,并不存在一種普適性的異常值檢測方法。因此要針對具體的數據給出具體的質控方法。雖然在海洋數據質控方面存在大量研究成果,但內容主要圍繞質控共性理論方法的探討(于婷等,2013;鄭琳等,2014),鮮見針對浮標數據的具有可行性的數據質控方法流程。本文針對浮標觀測數據,通過結合統計檢測方法、局地檢測方法和浮標儀器本身觀測誤差控制,提出了一種實用的浮標數據質控方法及具體流程,并對結果進行了分析。

1 方法介紹

浮標數據為時間序列性觀測數據,誤差來源較為復雜,針對數據序列本身從3個方面對其進行質控。一是基于統計理論的Grubbs準則;二是局地異常值檢驗法;三是浮標儀器觀測誤差的控制。

1.1Grubbs準則介紹

常用的異常值統計判別準則有萊以特準則(3σ準則)、羅曼諾夫斯基準則、奈爾準則、格拉布斯(Grubbs)準則、狄克遜(Dixon)準則等(楊筱,2009)。各個方法的基本原理大同小異,但不同情形下采用的準則有所不同。Grubbs準則是常用的異常值檢測方法。基本思路是根據兩個參數(觀測值與均值的距離、數據序列的標準差)來判斷觀測值脫離數據序列程度。由于其研究對象可以為少量數據,而且不同的數據量具有不同的臨界值參數(異常值判定標準),相比固定判定標準的萊以特準則,Grubbs準則在有限數據量判定上更具有理論上的合理性。因此我們選定該方法作為浮標數據質控方法。

假定浮標觀測數據序列為x1,x2,……,xn,數據序列的均值為。選取其中距離最大的數據xi。則可給出如下理論表達式(Grubbs,1950;國家質量技術監督局,1998;史靜濤等,2011):

其中S為數據序列的標準差,α為顯著性水平,n為數據序列的個數。G(α,n)為格拉布斯臨界值,可以通過查閱Grubbs臨界值表或根據(3)式得到。(3)式中t為自由度為n-2,顯著性水平為α/n的單邊界檢驗t分布的臨界值。測量值是否異常可以通過公式(2)進行判定。

1.2局地檢測方法

統計性的異常數據檢測方法一般具有普適性,應用范圍比較廣泛,但其作為一種統計方法,需要在滿足一定數據量前提下,才具有穩定性和準確性。Grubbs準則在數據量較少情況下難以進行異常值的判定。基于此,引入了局地異常值檢測方法。它主要以幾個數據之間的比較為基礎,具有較大的偶然性,但是具有較為直觀的判斷標準,能夠檢測大多數尖峰異常值。參考了歐洲SeaDataNet組織采用的異常值檢測方法(SeaDataNet,2010)。觀測數據xn的前后數據分別為xn-1和xn+1,則xn是否異常可用如下公式來進行判斷。

其中β是臨界值系數,可以根據不同的觀測要素特點進行設置。該方法具有比較直觀的特點,其隱含假定xn-1和xn+1均為正常數據,通過公式(4)比較認定異常數據。如果xn-1和xn+1中存在異常數據,則xn就會出現誤判,這也是局地檢測方法的一個缺點。

1.3浮標觀測誤差控制

對浮標測量范圍內數據,結合統計性的Grubbs準則和局地異常數據檢測方法對數據進行整體和局部的質控。假定浮標觀測數據具有1位小數,在海況較為穩定的情況下就可能出現一段時間較多數據相同的情況。如果在相同的一段數據中存在一個不同值,不同值與其他數據的差值為0.1。根據Grubbs準則,這個差異數據的統計特征會明顯區別于其他數據,極有可能會被認定為異常值。由于浮標本身存在觀測誤差,如波高的觀測誤差標準一般為±(0.3m+0.1H) (H為波高) (國家海洋局,2011 a,2011 b),因此波高差值在0.1m時,遠低于自身觀測誤差,顯然不能認定為異常值。針對浮標本身的誤差情況,為防止出現過于明顯的誤判,加入了浮標誤差值的控制。

1.4浮標有效波高數據質控算法

以浮標觀測有效波高數據為例,以上面介紹的方法為基礎,介紹浮標有效波高數據的具體質控流程。假定在一段時間內的海洋有效波高要素觀測值集合為Uoriginal:

在針對浮標數據的質控中,首先需要排除浮標測量范圍外的數據。不同浮標的有效波高觀測范圍有所不同,取浮標有效波高標稱范圍值為 [0 25]。進行質控的條件有如下3個:

1)統計性質控條件—Grubbs準則。公式(2)中顯著性水平α取0.05時會導致一些正常數據誤判為異常值。為盡量保留正常值,減少誤判的產生,通過大量實驗得出公式(2)中顯著性水平α 取0.01時會得到相對滿意的結果。數據的統計特征依賴于統計樣本的多少,不同樣本數量對異常值的判定是不同的。尤其是斑塊型異常值(短時間內出現的大量異常值),需要在更長時間尺度對其進行統計特征檢驗。基于此,采用多個尺度對異常值進行質控,對于(2)中n的長度通過如下方式選取:

其中m為總檢測數據的個數,μ為經驗比例系數,本研究取值0.618。n為向0取整的自然數,l為符合n值范圍條件的0和自然數。例如檢測數據個數為1 000,則n分別取 [1 000,618,381,236,145,90,55,34,21,13,8,5],即首先以1 000個數據為一組進行異常值檢測,在遍歷完所有觀測數據后,對檢測的異常值進行剔除。對剩余的數據再以618個為一個組進行異常值檢測,對檢測的異常值進行剔除后再對剩余的數據以381個為一組按照以上方式進行異常值檢測,以此類推,最終形成正常數據集U1。

2)對于集合U1,采取局地奇異值檢測方法,見公式(4)。系數β是依賴于觀測要素的經驗性參數,不同觀測要素需要對應不同的數值,而且不同值會產生不同結果,通過大量對比實驗得出了較為滿意的參數值,本文β取值為1.1。檢測完成后形成正常數據集合U2。

3)對于異常值數據集合Uoriginal-U2,對每個異常值進行檢測,如果異常值與相鄰正常值的差值不超過浮標觀測誤差,則認為該異常值為正常值。假定異常值及相鄰數據分別為xn-1,yn,xn+1,其中yn為異常值。x值為相鄰正常值或異常值。如果x值中存在正常值,那么判定yn是否為正常值采用下式(7)進行判定,如果x值中不存在正常值,則yn判定為異常值。對于誤判為異常值的數據形成集合U3。

綜上最終形成異常值集合為Uoriginal-U2-U3,正常值集合為U2+U3。

2 質控結果討論與分析

選擇國家海洋局QF104和QF201浮標連續的有效波高觀測數據進行質控分析。QF104浮標數據連續性較好,能夠代表一部分浮標觀測情況。QF201浮標觀測連續性相對較差,存在大量斑塊型異常值,也能夠代表一部分浮標的觀測情況。數據及質控情況見表1,圖1,圖3。

進行檢驗的兩個浮標QF104和QF201的數據量分別為97 519個、4 410個。范圍控制 [0 25]排除的數據量分別為5 834個、33個,占總數據量比例為5.98%,0.75%。在排除浮標觀測范圍外數據后,通過人工檢查,發現異常值數量分別為11個和117個,在此作為兩個浮標異常值準確可靠的個數。

采用多種不同的方式對異常數據進行檢測。如果只采用Grubbs準則進行檢測(表1,Grubbs準則檢測),QF104和QF201異常數據數量分別判定為314個和360個,遠大于準確異常值數量,錯判個數分別為303個和254個。圖1(b)和圖3(b)顯示判定的異常值出現在整個時間序列中,與真實異常值(圖1(a)和圖3(a))有較大差別。經分析發現,在一串連續數字中,如果一個數字與其他數字存在一定的統計差別,這個數字在數學上認定為異于其他數據,容易判定為異常數據。如圖2(b),第23 103個數據在統計上異于鄰近數據,在數學上判定為異常數據。對于浮標波浪觀測來說,其波高誤差范圍一般大于0.3 m(國家海洋局,2011 a,2011 b),因此這種數學判定依據對于浮標觀測數據過于嚴格,該數據與鄰近數據相差僅0.1 m,應判定為正常數據。因此異常數據檢測方法中加入觀測誤差控制是必要的。

表1 浮標有效波高數據質控情況

圖1 QF104浮標有效波高數據整體質控情況(a)藍星號為原始數據,紅星號為真實異常數據,紅框號為經Grubbs準則和誤差控制檢測的異常數據,綠圈為局地方法檢測的異常數據;(b)紅鉆石為Grubbs準則檢測的異常數據

在加入浮標誤差控制后(表1,Grubbs準則+浮標誤差控制),QF104異常值誤判數量由303個減為0個。QF201異常值誤判數量由254個減為10個。可見通過浮標觀測誤差控制,可以大幅降低異常值誤判數量。QF104準確異常值的判定率達到100%,QF201的準確異常值判定率為90.6% (106/117),兩者均達到了較高的實用水平。Grubbs準則主要基于數據的統計性進行異常值檢測,本研究限定數據數量不小于5個(公式(6))。作為對數量較少的數據序列中異常值判斷的補充,我們在研究中加入局地性檢測方法,在3個數據中尋找異常數據。這種簡單有效的方法在QF104中檢測出的異常值數量為7個,遺漏4個,錯誤個數為0。QF201中檢測出的異常值個數為84個,其中遺漏39個,錯誤6個。該方法整體來看,存在一些遺漏的異常值,但是錯誤率較低,屬于相對較為可靠的方法。局地檢測方法一共涉及3個相鄰數字(公式(4)),如果檢測數據的前后數據中存在異常值,這就會對異常值判斷造成影響,容易產生誤判。圖4第4 011個數的前后數據均為真實異常值,根據公式(4),第4 011個數也認定為局地異常值,造成誤判。浮標201中存在大量斑塊式異常數據(圖3),有些大的異常數據中間存在正常數據,根據局地判定方法會認定中間數據為異常數據,因而也形成一些誤判異常數據。

圖2 QF104浮標有效波高數據質控局部情況示意圖(a) 藍星號為原始數據,紅星號為真實異常數據,紅框號為經Grubbs準則和誤差控制檢測的異常數據,綠圈為局地方法檢測的異常數據;(b) 紅鉆石為Grubbs準則檢測的異常數據

圖3 QF201浮標有效波高數據整體質控情況(a)藍星號為原始數據,紅星號為真實異常數據,紅框號為經Grubbs準則和誤差控制檢測的異常數據,綠圈為局地方法檢測的異常數據;(b)紅鉆石為Grubbs準則檢測的異常數據。

綜合Grubbs準則、浮標觀測誤差控制和局地質控方法,QF104和QF201形成最終質控結果(表1,Grubbs準則+浮標誤差控制+局地檢測)。其中QF104,檢測異常值個數為11,錯誤數和遺漏數均為0,即與準確異常值個數一致,且完全對應。QF201真實異常值個數為117個,檢測個數為123個,檢測正確個數為106個,遺漏11個,錯判個數17個。如果異常數據為單個孤立型異常數據,Grubbs準則可以做出較為準確的判斷(圖1,圖3)。如果異常數據大量出現,在局部時間內甚至超過正常數據的數量,這種情況下即使人工判斷異常數據都較為困難,所以本文方法也出現了大量的漏判和錯判(郭永幸,1994)。如圖5,第3 980 和3 984個數據經Grubbs準則及浮標觀測誤差控制均認定為異常數據。從該段數據序列來看,數據連續性變化較為異常,有很大可能存在異常數據,但是僅從這些數據本身難以明確判定異常數據位置,因此人工判定時均認為是正常數據,所以對這兩個數據的判定均為誤判。

圖4 QF201浮標有效波高數據質控局部情況示意圖(藍星號為原始數據,紅星號為真實異常數據,紅框號為經Grubbs準則和誤差控制檢測的異常數據,綠圈為局地方法檢測的異常數據)。

圖5 QF201浮標有效波高數據質控局部情況示意圖藍星號為原始數據,紅星號為真實異常數據,紅框號為經Grubbs準則和誤差控制檢測的異常數據,綠圈為局地方法檢測的異常數據

圖6 數據序列 [3.0 4.5 3.3 3.9 4.8]  示意圖

同樣圖5,以4 020到4 030時間段內的波高數據為例。在更長時間范圍內看,第4 024-4028數據與前后時間段的數據變化趨勢不符,觀測值又全部相同,根據經驗判定4 024-4 028數據均為異常數據。由于局部異常數據數量過多,且在長序列數據中統計特征無異常,這些異常數據是無法根據Grubbs準則和局地判定方法進行判斷的。局部異常數據過多,就會導致正常數據成為少數數據,容易判定為異常數據,如4 029和4 030點就誤判為異常數據點。

QF104浮標數據中的異常值點主要為單個孤立點,采用的研究方法能夠比較準確的判定這些異常值點,判定的準確率為100%,遺漏率和錯誤率均為0。QF201中存在較多的異常值點,許多異常值以斑塊形式出現,局部時間段異常值數量超過正常值數量。許多異常值即使人工方式都很難判斷,因此我們采用的研究方法很難對異常值做到精確的判定。判定準確率僅為90.6%(106/117),遺漏率為9.4%。經分析發現,QF201數據中異常值如果較為明顯(人工可明確判定),本文研究方法可以做到絕大部分判定。遺漏和錯誤判定點均出現在異常值不明顯或人工都不能做出明確判定區域。

從QF104和QF201浮標數據質控情況看,Grubbs準則檢測的異常值均包含了局地性檢測方法的結果。Grubbs準則作為統計性檢驗方法,如果數據量為3~4個,容易產生誤判,因此本研究限制數據量最小為5。存在一種異常數據在數據量較大時根據Grubbs準則難以判定為異常數據。如數據序列: [3.0 4.5 3.3 3.9 4.8](圖6),第2個數據4.5在波高連續變化序列中容易認定為異常值,但是根據Grubbs準則不能判定4.5為異常數據。根據局地性判定方法就可以判斷4.5為異常數據。因此盡管這種數據出現情況較少,但在理論上局地性檢測方法仍然可以作為Grubbs準則的有效補充。

3 結論

通過統計質控方法、局地質控方法和浮標觀測誤差控制方法,對中國沿海兩個具有代表性的浮標QF104和QF201進行了質控方法研究。其中浮標觀測誤差的控制可以大幅度降低異常值誤判數量,是一種非常有效的浮標數據質控的控制條件。如果數據序列的異常值較為明顯,該方法可以做出比較準確的判斷。在數據序列的異常值不明顯或者即使人工方式都難以做出判斷時,該方法對于異常值判斷的有效性降低,會出現一些遺漏和錯判。整體來看,本文給出的異常值質控方法是針對浮標數據異常值質控非常有效的方法。根據本文研究分析,得出如下結論:

(1) Grubbs準則對于浮標有效波高時間序列數據中的統計異常值能夠進行準確的質控,但是由于只是數學意義上的質控,會造成大量異常值的誤判。通過加入浮標誤差控制能夠大幅度消減異常值誤判情況,形成對真實異常值的有效質控。該思路同樣可以應用于其他海洋環境參數的質控。

(2)局地性的異常值判定方法是一種簡單有效的異常值質控方法。在保守的臨界值系數(β=1.1)前提下,其在異常值判定的數量上相對較低,但是準確率高,誤判情形少,在理論上可以作為Grubbs準則判定的有效補充。

(3)浮標觀測數據異常值的成因與觀測儀器本身、觀測環境等要素密切相關,因此異常值的出現也具有比較復雜的外觀特征。不存在能夠質控所有異常值數據的理論方法,本文給出的Grubbs準則、浮標誤差控制和局地性異常值判定的方法是簡潔實用的時間序列數據質控方法,具備理論上的可靠性。本文研究方法對于局部區域出現多個連續不明顯異常值時不能進行有效的質控,這也是本方法以后改進的聚焦點。

Grubbs F E,1950.Sample criteria for testing outlying observations.The Annals of Mathematical Statistics,27-58.

Hodge V J,Austin J,2004.A survey of outlier detection methodologies Artificial Intelligence Review,22(2):85-126.

National Oceanic and Atmospheric Administration,2009.Handbook of automated data quality control checks and procedures.Mississippi: NOAA.

SeaDataNet,2010.Data quality control procedures.Greece:SeaDataNet.

郭永幸,1994.試論“格拉布斯準則”的局限性.飛行試驗,10 (2):35-40.

國家海洋局,2011a.HY/T 143小型海洋環境監測浮標.

國家海洋局,2011b.HY/T 142大型海洋環境監測浮標.

國家質量技術監督局,1998.GB 17378.2海洋監測規范第2部分:數據處理與分析質量控制.

黃謨濤,翟國君,王瑞,等,1999.海洋測量異常數據的檢測.測繪學報,28(3):269-277.

李光強,2009.時空異常探測理論與方法.長沙:中南大學.

史靜濤,周智海,2011.海洋站數據質量控制技術探討.海洋技術學報,30(1):114-117.

王占全,2005.基于地理信息系統空間數據挖掘若干關鍵技術的研究.杭州:浙江大學.

楊筱,2009.衛星導航系統數據與信號質量評估技術研究.長沙:國防科學技術大學.

于婷,劉玉龍,楊錦坤,等,2013.實時和延時海洋觀測數據質量評估方法研究.海洋通報,32(6):610-614.

鄭琳,劉艷,崔文林,等,2014.海洋監測數據質量評估研究.海洋通報,33(2):228-234.

(本文編輯:袁澤軼)

A quality control method for the outlier detection of buoy observations

LIU Shou-hua,CHEN Man-chun,DONG Ming-mei,GAO Zhi-gang, ZHANG Jian-li,WU Shuang-quan,LIN Feng-zhu
(Nation Marine Data and Information Service,Tianjin 300171,China)

By combining Grubbs criteria,local outlier detection method and observation error control of wave height,a robust method is constructed for the quality control of wave height data.The results show that the performance of quality control for the buoy data is good,which reaches a relatively high level.By considering the observation error of wave height, the good quality data which are thought to be outlier or unusual by the old method could be detected well.The efficiency for the detection of outlier in the data records is good.And the method proposed by our study could be used in the quality control of other ocean factors observed by the buoy.

ocean buoy;outlier;quality control;Grubbs criteria

劉首華(1983-),男,博士,主要從事海浪、全球氣候變化研究。電子郵箱:huazai950@hotmail.com。

P731

A

1001-6932(2016)03-0264-07

10.11840/j.issn.1001-6392.2016.03.004

2015-06-28;

2015-08-14

國家自然科學基金(41406032)。

猜你喜歡
檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
學習方法
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 中文字幕啪啪| 台湾AV国片精品女同性| 国产成人AV男人的天堂| 久久综合伊人77777| 香蕉蕉亚亚洲aav综合| 久草热视频在线| 欧美一级爱操视频| 强奷白丝美女在线观看| 国产性爱网站| 久久香蕉国产线看观看亚洲片| 午夜色综合| 国产精品对白刺激| 一区二区午夜| 国产激情在线视频| 国产91色| 麻豆精品在线视频| 好吊色妇女免费视频免费| 国产女人18毛片水真多1| 久久综合五月婷婷| 亚洲中文字幕日产无码2021| 精品福利国产| 欧美视频在线第一页| 国产精品美女自慰喷水| 国产福利不卡视频| 国产成人精品高清在线| 久久 午夜福利 张柏芝| 好紧太爽了视频免费无码| 亚洲精品另类| 色婷婷在线影院| 欧美成人影院亚洲综合图| 女人18一级毛片免费观看 | 日韩欧美网址| 婷五月综合| 精品久久久久久久久久久| 久久国产高清视频| 999国内精品久久免费视频| 国产精品精品视频| 国产主播在线观看| 日本AⅤ精品一区二区三区日| 国产黄色片在线看| 最新国产成人剧情在线播放| 中文一区二区视频| 国产成人高清精品免费| 日本欧美视频在线观看| 一区二区欧美日韩高清免费| 国产激情无码一区二区APP | 免费中文字幕在在线不卡| 国产精品永久在线| 欧美曰批视频免费播放免费| 伊人91视频| 国产玖玖视频| 国产在线视频福利资源站| 伊人大杳蕉中文无码| 久久青青草原亚洲av无码| 亚洲精品视频免费| 久草视频中文| 免费大黄网站在线观看| 老色鬼久久亚洲AV综合| 亚洲乱强伦| 极品私人尤物在线精品首页 | 成人国内精品久久久久影院| 日韩亚洲综合在线| 日本高清视频在线www色| 毛片大全免费观看| 999在线免费视频| 青青青草国产| 国产亚洲欧美日韩在线一区| 污视频日本| 无码专区国产精品第一页| a级毛片视频免费观看| 91无码视频在线观看| 蜜桃视频一区二区三区| 无码人妻热线精品视频| 伊人久久福利中文字幕| 国产新AV天堂| 亚洲第一成年网| 国产在线一二三区| 呦视频在线一区二区三区| 亚洲综合二区| 欧美不卡视频在线| 一本无码在线观看| 91po国产在线精品免费观看|