張學宏,張緒東,張曉娟
(海軍海洋水文氣象中心,北京 100161)
多源溫鹽資料排重處理的一種方法
張學宏,張緒東,張曉娟
(海軍海洋水文氣象中心,北京 100161)
多源溫鹽資料存在大量重復現象,大大影響了這些資料的融合應用價值。本文根據多源溫鹽資料的重復現象,結合實際業務工作經驗,提出了重復條件組合排重法這一模型(縮寫RRMCRC),并介紹了溫鹽資料排重業務化流程。利用該模型和業務流程,可以有效提高溫鹽資料的排重效率,在其他資料的排重處理中也有重要的借鑒意義。
重復;組合排重;排重判據
海洋環境歷史資料是人們認識海洋、研究海洋的重要基礎,是人類開展海洋科學研究、認識海洋科學規律、從事海洋經濟發展、維護國家和地區海防安全的重要信息源泉。海洋環境資料的應用越來越引起人們的高度重視,對海洋環境的觀測也越來越頻繁和密集,因此對海洋環境歷史資料的科學處理是一項非常基礎性的工作。從19世紀中葉以來,世界上相關國家就開展了海洋環境的觀測工作,我國也在上世紀中葉前后,開始了海洋環境持續監測和資料的獲取工作,截至目前,我們積累了大量的海洋環境歷史資料。除了國內各涉海部門的調查資料外,還有國外數據中心的共享資料、國際間合作調查資料等,但是由這些海量資料組成的數據集在要素數據的時空分布中重復收錄現象普遍,且有數據文件名相同的現象,存在大量的重復記錄,造成資料數據總量不確定和數據質量不穩定等問題,嚴重干擾了這些歷史資料的應用價值,因此必須采用先進的技術手段對這些歷史資料進行排重和質量控制處理。
綜觀海洋溫鹽歷史資料,具有以下鮮明的特點:
(1)格式多樣性。由于資料來源多,觀測方式方法也不盡相同,且資料獲取年代不同所造成的觀測手段、技術規范以及應用目的等方面存在差異,這些因素導致了資料格式具有多樣性的特點;
(2)資料重復性。對每一個數據記錄,從獲取到收入數據集的過程中,由于對資料的應用目的不同,存在資料的重復收錄和針對性的處理,導致了資料的大量重復;
(3)資料質量可靠性。從網絡、國際交換、合作共享等渠道獲取的非國內觀測資料存在數據干擾問題,如數據造假、抽稀、時空換位等特有現象。這些現象的存在,尤其資料的重復現象,嚴重影響了資料在海洋經濟、海洋科學、軍事等方面的應用。但是由于海洋環境資料獲取成本高,每一個記錄都彌足珍貴,因此為了能夠有效利用這些寶貴的資料,發揮其應有的價值,必須采用相關技術方法,對這類資料進行嚴格的排重和質量控制處理,形成具有權威性、科學性和唯一性的高質量標準化數據集,發揮其最大的應用價值。
溫鹽資料重復現象雖然多種多樣,但主要集中在記錄重復,常見如下幾種典型的重復現象[2—3]:
(1)記錄完全相同,而剖面觀測時間和地理位置存在偏差;
(2)剖面觀測時間和地理位置相同,而記錄不同;
(3)位置和觀測時間基本一致,但是記錄數據出現較大偏差;
(4)觀測位置和記錄完全相同,而觀測時間出現跨零點的現象;
(5)觀測時間和觀測位置完全相同,數據記錄的小數位保留的有效數字長度不一致;
(6)數據抽稀造成的數據重復。例如由一個剖面拆分成多個剖面,而數據層數發生變化。
(7)世界時和北京時混用現象。
這些重復現象在來自于國外海洋數據中心的共享數據集中尤為突出,而在來自于國內不同部門的數據集之間也普遍存在;此外,由于來自于國外的共享數據集中收錄了國內相關部門的觀測資料,造成數據集之間的資料重復。因此對溫鹽資料的安全應用,首先要解決資料的重復問題。下面以我們在資料處理業務化工作中出現的實例,來分析上述現象。
(1)記錄完全相同,而剖面觀測時間和地理位置存在偏差
分析:在表1中,兩個剖面資料觀測時間和觀測位置出現偏差,但是剖面的數據記錄完全相同。實際上,在海洋觀測中,即便是同一個儀器,在不同時間或不同位置出現這類現象的可能性極小,因此這類重復數據必須排出,待通過進一步人工審核、分析和確認后,保留真實資料。
(2)觀測時間和位置完全相同,而要素值不同分析:在表2中,剖面的觀測時間和觀測位置完全相同,但是觀測記錄卻不同,而且差異較大,對于出現這種現象的資料,都要作為重復資料排出,待進一步人工審核確認后,保留真實數據。
(3)位置和觀測時間基本一致,但是數據出現較大偏差。

表1 重復現象一實例

表2 重復現象二實例
分析:在表3中,兩個剖面的觀測位置基本重疊,時間相差1 min,但是在記錄中,卻出現了明顯的異常,這類重復現象也要作為重復資料予以排出。
(4)觀測時間跨零點而其他信息完全一致
分析:在表4中的兩個剖面觀測位置和要素記錄完全相同,但是觀測時間的表達出現了異常,一個是1997年11月10日零點26分觀測,一個是1997年11月9日24時25分觀測,實際應是相同時間觀測,只是在表達上出現問題,因此這類資料也作為重復資料排出。
(5)要素值小數位有效數字長度不一致
分析:表5中的兩個剖面的觀測時間、位置完全一致,而數據記錄由于小數位的有效數字長度不一致,造成資料重復。

表3 重復現象三實例

表4 重復現象四實例

表5 重復現象五實例
(6)數據抽稀造成的數據重復
分析:在表6中,剖面一和剖面二的觀測時間和觀測位置完全一致,但是從數據記錄中分析發現,剖面二中的數據完全是從剖面一中抽取的,造成了數據大量重復。
(7)世界時和北京時混用
分析:表7中的兩條記錄來自于兩個不同的部門(兩個數據集),兩條記錄的觀測位置和要素測量值完全相同,而觀測時間相差8 h,第一個記錄應該是北京時間,第二個記錄應該是世界時間,這種資料也要作為重復資料排出。
從上述7類重復現象來分析,溫鹽資料的重復以時間、位置、要素值等信息重復為主,因此在排重程序設計時,應著重考慮這些重復信息下的排重,建立重復信息自由組合條件下的資料排重模型,即重復條件組合排重法。所謂重復條件組合排重法,就是對重復信息自由組合,形成新的排重要件,按照排重要件的重復判據,開展資料排重。

表6 重復現象六實例

表7 重復現象七實例
例如:將時間和空間條件組合形成排重要件,即觀測點之間距離小于限定值,觀測時間相等或誤差小于限定值;將觀測層深、溫度值、鹽度值組合形成排重要件,即每個要素之間的誤差小于相應的限定值;以觀測時間作為主排重要件,其他條件組合形成次排重要件,即時間重復判據收緊,如相等或誤差小于限定值,其他條件重復判據放寬,形成排重條件等多種重復要件。然后利用各重復要件對資料進行排重,將重復資料排出,形成對應條件下的疑似重復資料集。
狹義上資料重復是指資料之間所有對應信息完全相同而出現的重復,而實際上并不盡然。從我們大量的資料處理過程中出現的重復現象分析,廣義上資料重復是在資料之間,由于對應觀測時間、觀測空間位置和觀測記錄等完全相等或者相近而造成的重復。在實際工作中,必須在廣義概念下開展多源資料的排重。由于考慮了重復條件相近或相似的情況,就必須定義重復條件的判據指標。如果判據指標過低,可疑重復資料就會大量增加,本不屬于重復的資料也可能作為重復資料排出;而如果判據指標過高,可疑重復資料量就會大大降低,有些重復資料難以發現和排出。因此重復判據指標的高低,直接關系到資料排重效果的優劣。本文中的重復判據是作者在處理來自于國內外的大中型數據集(十余個數據集,含有幾百萬個剖面)的基礎上總結制定的判據。利用該判據,通過對來自于國內各部門間的資料(13余萬個剖面)排重效果分析,重復資料檢出率高達95%以上,因此該判據具有普遍意義,可為讀者開展相關工作提供基本依據。讀者可以根據待排重的資料量和對資料質量的需求情況,對該判據進行適當的調整。
表8為針對觀測時間、觀測位置空間和記錄信息相似時的重復判據條件,對國外大型數據集資料的排重時,判據可適當放寬,但最高不應超過20%,對來源于國內各部門之間的資料排重時,重復要件信息必須同時滿足以下條件,才可以作為疑似重復資料。
第一,溫鹽資料預處理[1]。
實現溫鹽資料排重,首先要對多源溫鹽資料進行預處理,即在對多源溫鹽歷史資料進行格式梳理、分析和歸類處理的基礎上,制定完整的預處理資料格式,將所有溫鹽剖面資料統一格式處理,同時進行非法碼和范圍檢驗等初步質量控制處理。為了有效降低排重計算工作量,提高重復資料檢出率,對經過預處理之后的所有資料按照海區進行劃分,重新建立以海區為劃分界限的數據集。同時提取每一個數據集中溫鹽剖面的觀測時間、觀測位置和觀測記錄等基礎數據元信息。
第二,采用重復條件組合排重法,對數據集內的資料開展數據排重。
首先進行資料粗放排重。所謂粗放排重就是將重復條件組合排重法中的排重要件重復判據適當放寬,以此獲取相應排重要件下的粗排疑似重復資料集;
其次進行資料詳細排重,詳細排重與粗放排重相對應,就是將重復條件組合排重法中的排重要件的重復判據收緊,針對粗排疑似重復資料集排重,以此獲取細排重復資料集;
再次,針對細排中的重復資料和非重復資料結合人機交互方式,進行分析、審核和確認,最終將重復資料排出。
第三,采用重復條件組合排重法,對數據集間的資料開展數據排重。
采用溫鹽資料排重模型,重復第二步的步驟,開展資料集之間的數據排重,最終形成非重復資料集。
其工作流程圖見圖1。

圖1 重復條件組合排重處理業務流程圖
重復條件組合排重法是作者在大量的實際業務工作中摸索總結出來的一套排重方法和模型,利用該方法和模型,不但可以提高資料的排重效率,而且可以大大提高重復資料的檢出率。該方法不僅針對溫鹽資料排重,在其它資料的排重中也具有重要的參考和借鑒意義。
[1]國家技術監督局.海洋調查規范海洋調查資料處理[S].北京:中國標準出版社,1991:65-66.
[2]許崇金,王凡,代亮,等.國際海洋信息共享與質量控制.http://www.qdio.ac.cn:8000/doc/國際海洋信息共享與質量控制0323.doc.
[3]中科院青島海洋科學研究所,地球科學數據共享政策與規范研究組.海洋科學數據庫建設規范.http://www.qdio.ac.cn:8000/doc/海洋科學數據庫建設規范.doc.
[4]王凡,許崇金,代亮,等.中國近海及毗鄰洋區國際海洋信息管理系統(IODBMS).http://www.docin.com/p-532150.thml.
Aduplicate-filter method for multi-sources temperature and salinity data sets
ZHANG Xue-hong,ZHANG Xu-dong,ZHANG Xiao-juan
(Navy Marine Hydrometeorological Center,Beijing 100161 China)
There are a large amount of duplicated data from the various sources of temperature and salinity data sets,which will affects the converging value of these data in the applications.In this article,a method to filter the duplicated data,is proposed.It is intruduced on how to remove the duplicated temperature and salinity data in the operational processes.The method will increase the efficiency effectively in the operational processes and is a good reference for the other duplicated data field.
duplication;combined duplicate-fliter;duplicate-fliter criterion
P731
A
1003-0239(2012)01-0048-07
2011-01-19
張學宏(1971-),男,高級工程師,主要從事海洋環境產品開發、預報和海洋環境資料處理與應用等工作。E-mail:xuehzhang@Sohu.com