陳 帥 ,王 丹 ,張志迅
(1.海軍潛艇學院衛星遙感軍事應用研究所,山東 青島 266071;2.解放軍92721部隊,浙江 舟山 316000)
WOD09的PFL數據和Argo數據的比較
陳 帥1,王 丹1,張志迅2
(1.海軍潛艇學院衛星遙感軍事應用研究所,山東 青島 266071;2.解放軍92721部隊,浙江 舟山 316000)
WOD09(World Ocean Database 2009)數據庫的PFL(Profiling Float Data)數據集中包含了Argo浮標數據,同樣在中國Argo數據中心也可以下載到Argo浮標數據。這兩個來源的Argo浮標數據由于經過了不同的數據排重和質量控制過程,數據的數量和數據的質量并不完全相同。從多源數據應用的角度出發,首先介紹了對Argo浮標數據必要的排重步驟,接著從數據數量、數據質量兩個方面,分析了PFL數據集的Argo浮標數據和中國Argo數據中心提供的Argo浮標數據的異同,為綜合應用這兩個數據資料提供了理論基礎。
WOD09數據庫;PFL數據集;Argo浮標數據;數據重復;質量控制標記符
目前有很多開放的海洋數據資源,中國Argo數據中心提供的全球Argo浮標數據和美國國家海洋數據中心(National Oceanographic Data Center,NODC)提供的實測資料數據庫WOD09(World Ocean Database 2009)是其中兩個比較常用的數據源。全球Argo計劃是以剖面浮標為觀測手段,數據供世界各國使用的全球海洋觀測計劃。到2011年6月21日,全球已經投放了7 733個浮標,其中活躍浮標數為3 080個[1]。最新的實測數據通過位于法國和美國的兩個全球Argo資料中心(Argo Global Data Assembly Centers,GDACs)在24 h內進行發布,因此可以得到近乎實時的觀測資料[2]。WOD09數據庫將不同來源的數據進行統一的格式轉化、數據排重、質量控制,形成了由海表面數據集(Surface-only Data,SUR)、剖面浮標數據集(Profiling Float Data,PFL)、海洋觀測站數據集(Ocean Station Data,OSD)等11個數據集組成的大型數據庫[3]。WOD09數據庫數據的數量要明顯大于Argo數據,但是該數據資料每3個月更新一次,相對于Argo數據來說更新較慢,不能及時得到最新數據。WOD09數據庫將來源于Argo計劃的數據全部收錄于PFL數據集中,在數據錄入過程中可能對數據進行排重和修改,造成PFL數據集中的Argo浮標數據(以下簡稱PFL)和中國Argo中心提供的Argo浮標數據(以下簡稱Argo)的差異,本文的主要目的是比較兩者的差異,為下一步綜合應用這兩個數據資料提供理論基礎。
本文使用在 WOD09官方網站(http://www.nodc.noaa.gov/OC5/WOD/pr_wod.html)下載的PFL數據集的數據和在中國 Argo數據中心網站(http://www.argo.gov.cn/argo-china/index.asp)下載的Argo浮標數據,地理范圍是0°N~40°N,105°E~160°E,包括中國近海、西太平洋和日本近海。時間范圍為2006—2008年。
數據排重工作是對數據進行分析的第一個步驟。由于Argo資料的特殊性,Argo浮標每隔10d發送一組取自2000m到海面的溫度和鹽度剖面資料[4],同一Argo浮標在一日之內不可能有兩次觀測資料,所以本文應用的排重檢測標準如下:(1)儒略日相差小于1 d;(2)Argo浮標號相同。同時達到上述兩個標準的數據即為重復。
經過上述檢驗,在2006—2008年間的Argo數據中,共發現了157個重復的觀測剖面,占數據總量(29 485個觀測剖面)的0.5%。對重復數據進行如下比較:
首先比較兩個Argo數據文件的表頭部分(以Argo浮標號為2900444,循環號為008和056的數據為例,表1),有以下異同:(1)Argo浮標號(PLATFORMNUMBER)相同,即出自相同的Argo浮標。(2)測量日期(DATE)相同,儒略日(JULIAN DAY)相差32 min,稍有差別。(3)循環號(CYCLE NUMBER)不同,即在不同的循環測得的數據,應當出自不同的觀測時間。(4)數據文件創建的時間(DATE CREATION)不同,循環號大的數據文件創建時間也要晚。(5)經緯度分別相差了0.009°和0.036°,略有偏差。相同的觀測日期卻有不同的循環號,說明數據錄入出現了問題。同時,如果以相同經緯度、相同儒略日為排重標準,將無法檢測到重復。
其次檢查重復數據的Argo浮標號,發現Argo浮標號相對集中,157處重復數據共涉及13個Argo浮標。查看2006年2月中浮標號為2900444的3處重復數據,其中循環號為006的數據與054的重復,007與055重復,008與056重復,都是大的循環號與小的重復,其它月份也有相同的情況(圖1)。
最后比較兩個重復數據的數據體(圖2),數據體并不是完全相同,總是先創建數據文件的(圖2中星號代表的數據)在100~200 m深度范圍內數據缺失。
綜合以上的異同,說明Argo數據重復的原因是Argo浮標一次測得的數據先后錄入了兩次。并且前后兩次的數據體不同,說明數據來源也不同。這與各國資料處理中心向全球資料中心重復傳輸數據,而全球資料中心沒有實施重復檢驗和剔除有很大關系[5]。在PFL中,由于經過了嚴格的排重步驟,只保留了重復數據中的一個,比較數據體(圖3),發現PFL只保留了一個來源的數據,沒有偏好保留數據體較為完整的數據。

表1 Argo重復數據表頭部分字段的比較

圖1 Argo浮標號為2900444,2006—2008年大循環號與小循環號數據的儒略日重復情況
經過排重后Argo與PFL的觀測站位分布見圖4。比較二者在觀測站位數量上的差異,在2006—2008年中,PFL比Argo的觀測站位總共多出了2 406個,占PFL總數(31891個)的7.5%,并且多出的觀測站位平均分布在每個月份中(圖5)。在空間分布上的比較,PFL比Argo多出的觀測站位在日本海分布比較密集,其它海域分布較均勻(圖6)。在仔細檢查PFL數據后發現,其所有的觀測剖面記錄都有一個Argo浮標號,且每個浮標號都可以在Argo數據的元數據(metadata)中找到相應浮標的信息,說明了PFL中數據全部都是Argo浮標數據。雖然PFL和Argo都來源于Argo浮標數據,但是PFL比Argo多出了7.5%觀測站位,這表明中國Argo中心提供的數據并不完整,PFL中有它沒有錄入的Argo浮標數據。

圖2 2006年2月,在Argo中浮標號為2900444的三組重復數據的數據體的比較
數據的質量,即數據的可信度,是使用者在應用數據時最關心的問題之一。錯誤數據對分析結果的影響很大,一個錯誤數據就有可能干擾對結果的分析。Argo有兩個資料質量控制模式:一個稱為“實時(24~72 h以內)質量控制模式”,它包括常規的尖峰檢驗、范圍檢驗、穩定度檢驗以及氣候學檢驗等方法[6],其特點是處理快速、時間短,數據質量不高;另一個稱為“延時(90 d以內)質量控制模式”,該模式主要針對Argo浮標鹽度數據漂移所建立的訂正模式,如Wong等[7]開發的Argo浮標鹽度數據的延時訂正方法。PFL對數據進行了嚴格的質量控制,其中有類似Argo中實時質量控制模式的范圍檢驗和梯度檢驗,還有類似延時質量控制模式的與高分辨率數據比較的過程(表2)。

圖3 2006年2月,分別在Argo和PFL中浮標號為2900444的三組測量數據的比較

圖4 2008年Argo和PFL觀測站位分布圖
Argo中各物理量的每個測量值都有一個質量標記符(Flag),代表了單個物理量的質量情況。在每一個深度測量的所有物理量之后還有總質量標記符(Flag ofall),代表了在一個深度測量的所有物理量的綜合可信度。Argo質量標記符不同值的含義見表3,它反應了數據在質量控制過程中,是否達到質量控制若干標準的情況。在實際使用數據時,單一質量標記符和總質量標記符是剔除問題數據的最直接最有效的標準。在Argo中共發現15條溫度記錄的單一質量標記符為3(有可能被校正的壞數據)或者4(壞數據)。而檢查Argo的總質量標記符,共有8 178條記錄的總質量標記符為3或者4。這說明有些溫度數據的單一質量標記符為1(好數據),但是該測量深度的總質量標記符可能為3或者4。以浮標號為2900325,2006年7月30日測量溫度剖面為例說明這些數據的質量情況(圖7)。圖7中標記的A、B兩點明顯偏離溫度變化的趨勢,是奇異值點,應當剔除。A點溫度的單一質量標記符和總質量標記符都為4,而B點溫度單一質量標記符為1而總質量標記符為4。單看單一質量標記符的值,B點應為好數據,無法剔除,所以在使用Argo數據時還要考慮總質量標記符。單一質量標記符和總質量標記符只要有一項為3或者4都應剔除該數據。

圖6 2008年PFL比Argo多出的測量站位的分布圖

表2 PFL觀測數據質量控制步驟[3]

表3 Argo數據質量控制標記符的含義
PFL的質量標志符分為兩部分:最終標記符(Final Flag)和原始標記符(Original Flag),最終標記符為PFL在進行完范圍檢驗、梯度檢驗等質量控制過程(表2)之后對數據作的標記,標記符數值的含義見表4。而原始標記符保留了Argo浮標數據在入庫前自身的質量標記符。經過數據比對,發現在PFL中有5 471條溫度記錄的最終質量標記符為0(好數據)而原始質量標記符為4(壞數據),占數據總量(2 308 581條記錄)的0.23%。以浮標號為2900325,2006年7月30日測量溫度剖面為例說明這些數據的質量情況(圖8)。圖8中有3個明顯的奇異值點,分別為A、B、C點,其中A、B兩點的最終標記符都為0而原始標記符都為4,C點最終標記符為1(未通過范圍檢驗)而原始標記符4。從最終標記符的數值都為0來看,A、B兩點均通過了PFL的質量控制過程,而C點為1,沒有通過范圍檢驗。應用PFL質量控制標準,對這3點進行范圍和梯度檢驗(表5),其中梯度計算方程為:

式中:v1,v2分別表示當前深度和下一深度的溫度值;z1,v2分別表示當前層和下一層的深度值[2]。從表5可以看出,由于A、B兩點的溫度梯度的絕對值大于閾值0.7℃/m,均未通過梯度檢驗,顯然與它的最終質量標記符為0不符。這說明PFL中存在最終質量標記符與實際數據質量不符的現象。
Argo和PFL各有兩種質量標記符,兩種質量標記符綜合應用才能有效剔除問題數據。單一質量標記符和總質量標記符只要有一項為3或者4都應剔除。在PFL中有些問題數據的最終質量標記符(Final Flag)為0,而原始質量標記符(O-riginal Flag)為4,所以在使用時要確保數據的質量,還要結合原始質量控制符來剔除問題數據。
本文首先介紹了對Argo浮標數據必要的排重步驟,接著從數據數量、數據質量兩個方面比較了中國Argo中心網站提供的Argo浮標數據和WOD09數據庫PFL數據集中的Argo浮標數據的異同。本文的研究時間范圍是2006—2008年,空間范圍 0°N~40°N、105°E~160°E。結論如下:

表4 PFL質量控制標記符的含義[3]

表5 A、B、C三點的溫度、深度和質量檢驗情況

圖7 Argo中浮標號為2900325,2006年7月30日測量溫度剖面的兩個奇異值
(1)Argo每24 h更新一次,而PFL每3個月更新一次。在更新速度上Argo比PFL有優勢。
(2)Argo具有數據重復的問題,分析原因是一個Argo浮標在某一時刻觀測的數據在數據歸檔過程中錄入了兩遍。在利用Argo時需要進行數據排重,標準為:a.儒略日相差小于1 d;b.Argo浮標號相同。PFL沒有數據重復的現象。
(3)在2006—2008年間,PFL的觀測站位總數比Argo多了2 406個,占PFL總數(31 891個)的7.5%,數據量要比Argo豐富。并且多出的站位在日本海分布較密集,其它海域分布均勻。

圖8 PFL中Argo浮標號為2900325,2006年7月30日測量溫度剖面的三個奇異值
(4)Argo有兩種質量標記符:單一物理量的質量標記符(Flag)和同一深度所有物理量的綜合質量標記符(Flag of all)。單一質量標記符和總質量標記符只要有一項為3或者4就是問題數據,應當剔除。在PFL中有些問題數據的最終質量標記符(Final Flag)為 0,而原始質量標記符(Original Flag)為4,所以在應用PFL數據時候要綜合考慮原始質量標記符和最終質量標記符。
[1] 中國Argo資料中心.Argo全球觀測網[EB/OL]http://www.argo.gov.cn/argo-china/index.asp.
[2]Boyer TP,AntonovJ I,Baranova OK,et al.World Ocean Database 2009[EB/OL].ftp://ftp.nodc.noaa.gov/pub/WOD09/DOC/wod09_intro.pdf.
[3] Johnson D R,Boyer T P,Garcia H E,et al.World Ocean Database 2009 Documentation[EB/OL].ftp://ftp.nodc.noaa.gov/pub/WOD09/DOC/wod09readme.pdf.
[4] 楊勝龍,周甦芳,崔雪森,等.Argo數據研究應用現狀與發展趨勢[J].海洋漁業,2007,29(4):355-358.
[5] 薛惠芬,苗春葆,董明媚,等.全球ARGO浮標及其觀測資料狀況分析[J].海洋技術,2005,24(4):23-28.
[6] 許建平.阿爾戈全球海洋觀測大探密[M].北京:海洋出版社,2001:30-33.
[7]WongAP S,Johnson GC,Owens WB.Delayed-mode calibration of autonomous CTD profilingfloat salinitydata by θ-s climatology[J].J Atoms O-ceanic Technol,2007,20:308-318.
Comparison of PFL Data from WOD09 and Argo Data
CHEN Shuai1,WANG Dan1,ZHANG Zhi-xun2
(1.Navy Submarine Academy Satellite Remote Sensing Military Application Institute,Qingdao Shandong 266071,China;2.PLA NO.92721 Troops,Zhoushan Jiangsu 316000,China)
Argo float data is contained in the PFL (Profiling Float Data)dataset of WOD09 (World Ocean Database 2009)and it can be download from China Argo data center’s website.As the two sources of Argo float data conducting different de-duplication and quality control procedures,Argo profiling data from two sources may have some differences.A necessary de-duplication procedure for Argo float data is introduced,followed by comparing differences between the two kinds of Argo float data in order to find out a better way of comprehensively using these Argo float data sources for better quantity and quality.
WOD09;PFL dataset;Argo float data;data duplication;quality control flag
P715;TP274
B
1003-2029(2011)04-0032-06
2011-07-20
陳帥(1985—),男,碩士研究生,研究方向為物理海洋。Email:chendatouha@163.com