常思思,汪新慶,2,過 劍,劉 夏
(1.中國地質大學 數學地質與遙感地質研究所,湖北武漢 430074;2.中國地質大學 地質過程與礦產資源定量預測國家重點實驗室,湖北武漢 430074)
為了積極開展礦產遠景調查和綜合研究,并科學評估區域礦產資源潛力,為科學部署礦產資源勘查提供依據,國土資源部部署了全國礦產資源潛力預測評價工作。隨之獲得的成果數據,其種類繁多復雜、規模龐大異常。這些數據具有數據源豐富,數據量龐大,數據類型眾多,數據結構復雜,即所謂多源、多量、多類、多維[1]的特點。另一方面,標準定性數據在潛力資源評價中又占了相當數量,對這些數據進行檢查顯得尤為重要。作者在本文中通過建立數據字典,數據標準來檢查標準定性數據,以確保數據的正確性和完整性。
地質數據都具有數量巨大,眾多繁多,結構復雜的特征[1]。地質數據按照其數據意義分為定性數據和定量數據,它們共同描述和反映了地理世界中的實體及地理現象[2]。
其中,定性數據是以字符型數據為主,而字符型數據又可以分為以下二類[1]:
(1)名義型數據。此數據沒有次序之分,僅僅是對對象的客觀描述。比如巖石名稱、巖石組合、圖層名稱、圖元編號、異常編號、地層代號等字段。
(2)有序型數據。此數據相互之間程度有所差異。例如礦石品級、勘探工程密度、構造層次、斷裂規模、蝕變強度等等。
由于數據檢查對象為字符型定性數據,大量數據都是以文本形式存在,計算機難以對這些數據進行有效的檢查。并且在地學上,不少術語一詞多解或者同物異名,這也給檢查帶來了困難。因此在檢查之前,需要對這些數據進行規范化標準處理,將文本內容代碼化[2、3]。代碼便于操作,可提高檢索和查詢的效率,還可增強數據的共享性。因此,在地質數據庫中應該大量使用代碼數據[1]。
對于有序型數據,因為其數據之間有明顯程度上差別(例如“斷裂規模”),其值分為巨型、大型、中型和小型,這樣很容易對其進行編碼。
對于名義型數據,只有那些確定其值的才可以編碼(例如“巖石名稱”)。
“斷裂規模”、“巖石名稱”均為某一些有相同意義數據的集合,數學中稱其為枚舉值;而其它一些如“斷層名稱”對于其值不能事前確定即不是枚舉值,則這些數據不能將其編碼。在實際工作中,將確定數據項其值能夠代碼化的枚舉值稱之為下屬詞。
定性數據在地學數據庫中占有相當大的比例,現以全國礦產資源評價數據庫為例,將所有數據項按數據類型、字段數進行分類統計,統計結果如圖1所示。
從圖1可知,字符串數據的字段數量占總字段量的77.8%,而雙精度數據占字段數量8.15%,其中標準化過的定性數據占整個字段數量的20.6%。由上可知,定性數據在全國礦產潛力資源評價數據中,占有相當大的比例,所以對以描述性文字為主的定性數據做檢查,是一件十分棘手的事情。
再例如對于字符名義型數據,“巖石名稱”其數據值可以為火成巖、橄欖巖、輝石橄欖巖、斜輝橄欖巖、閃長巖、二長巖、安山巖、正長巖等一系列巖石名稱。以全國礦產資源評價數據庫為例,根據《全國礦產資源評價數據模型數據項下屬詞規定分冊》可知,對于“巖石”名稱這個數據項,共有2 446項可填值。在數據的錄入中,由于是手工錄入,很難保證值一定就在2 446項中,而對于這種字符型定性數據檢查,一般都采用普通的文本編輯功能進行簡單的檢查,既費時又費人力。而且地學數據一般以海量計算,這樣往往難以有效地達到對數據進行檢查分析的目的。如何確保這些數據的正確性和完備性,是一個有待解決的問題。作者通過將可代碼化的有序型、名義型數據進行信息編碼,并以此建立標準模式字典,使其標準與數據字典有機的聯系起來,以此來確保數據的正確性和完備性。
對標準化字符型定性數據檢查內容主要有以下三項。
在礦產資源潛力評價應用系統中,數據采集員時常需要對地質礦產分類代碼,進行頻繁地檢索、查證、術語歸屬驗證,以及層次歸并或層次分解等操作。同時,在將地質調查成果入庫時,由于地礦術語的復雜性,在涉及到地礦術語的錄入上,工作人員很容易將錯誤的術語錄入。而且由于各個礦產地建庫標準不一樣,對于同種數據項可能有不同描述,屬性誤差也尤為嚴重。
數據完整性主要是用于檢查有無多余數據或者缺少數據。由于制圖標準不一樣,屬性字段對于標準也就各不相同。對于同一種圖層,礦產區所提交的圖層屬性數據項缺失情況不盡相同。
值域一致性是值對值域的符合程度,此為邏輯一致性其中一種。在礦產潛力資源評價項目中,由于圖層沒有按照《全國礦產資源潛力評價數據模型》來劃分圖層。圖層代碼不規范,屬性字段代碼、類型、長度不一致,都能使提交上來的屬性數據不規范,屬性值不符合數據項值域要求。

圖1 數據類型統計Fig.1 Statistics for data types
對于以上情況光靠人工或者一般方式的程序檢查很難查出錯誤,這樣就導致后期的地礦數據檢查工作變得繁重。檢查內容如表1所示。

表1 檢查內容[4]Tab.1 Checking contents
數據字典(Data Dictionary,DD)也稱為數據目錄或系統目錄[5],是關于數據庫系統中各類數據描述的集合,是進行詳細的數據收集和數據分析所獲得的主要成果。在數據庫設計的第一階段,即需求分析階段,用數據流圖(Data Flow Diagram,DFD)來表達數據和處理的關系,而其中的基礎數據則用數據字典來描述。
利用數據字典將字典的結構設計好,把模型、標準等所有的基礎數據作為一條一條的記錄,放入到相應的數據字典中。用數據字典來管理數據,用戶可以直接操作數據字典,不管數據怎樣變化,只要數據字典的結構不變,程序始終是不變的,因為程序只是針對數據字典的結構來操作。通過操作結構取得數據,而不是像一般的方法那樣直接操作數據,如圖2所示。
從圖2中可以看出,數據字典相當于是一個中間層,程序通過操作固定的字典結構,讀出動態變化的數據,這樣程序就可以不用改變,就可以應對變化的數據,達到不同的效果。這對程序編碼而言是一勞永逸的,大大提高了程序開發的效率,同時也體現出了數據字典的靈活性。

圖2 一般檢查和字典檢查的對比圖Fig.2 Comparison chart of general checking and dictionary checking
基于數據字典和將文字描述的內容代碼化更有利于操作,檢索和檢查的優點。根據1988年由國家標準局頒布了地質礦產術語分類代碼(GB9649-88)[5],以及全國礦產潛力資源評價制定了關于地礦術語定性數據的編碼規則和代碼標準,即《全國礦產潛力資源評價數據模型數據項下屬詞規定分冊》,利用數據庫中特有的數據字典技術,建立數據項下屬詞標準字典ZXDC,即將《數據項下屬詞規定分冊》分類代碼,按照已提供的編碼方式入庫,生成計算機能夠識別的下屬詞數據項編碼,這樣就將下屬詞標準化(下屬詞標準字典如表2所示)。下屬詞數據項將以字典的方式存儲,以供其余數據項調用和檢查。這里利用數據字典技術與質量標準,來檢查數據項下屬詞數據的完整性和一致性。

表2 下屬詞標準字典Tab.2 Standard dictionary of enumeration value
在整個項目中,根據全國礦產資源潛力評價數據模型,建立了圖件、圖層、數據項等數據字典,用來記錄它們之間聯系以及模型信息。其中,在標準模式字典D ICT記錄模型中,描述了所有圖層的屬性字段。通過標準模式字典D ICT[6]根據需要獲取控制參數,然后通過下屬詞標準字典ZXDC來判斷是否符合標準,不符合的既而根據下屬詞標準字典ZXDC修改用戶數據,從而可以很好地控制數據項下屬詞的一致性和完整性。
數據檢查策略如圖3所示。

圖3 下屬詞數據檢查策略Fig.3 Checking strategy of enumeration value
在MAPGIS平臺下,采用數據字典技術實現了符合標準描述的定型數據檢查模塊。流程圖如圖4所示。
首先從圖件中獲取圖層信息,接著利用所取得的圖層信息獲取圖元屬性信息,然后判斷要檢查的屬性字段是否有下屬詞。這時需要到“標準模式字典D ICT”中去,把需要檢查的圖層進入到這個字典中進行核對。通過“FIELD_NAME”,就可以知道這個圖層中有哪些字段了。例如對于字段名為KCAJA I的蝕變強度,接著在“ZXDC”這一項中查看是否有值,如果有值,就表示該字段有下屬詞,從表3可以看出,“蝕變強度”有下屬詞;然后將“ZXDC”中的值讀出,這里是“KCAJA I”;最后在“下屬詞標準ZXDC字典”中,以“ZXDC”中的“KCAJA I”以及“CODE”中的值為關鍵字查找“C_NAME”中的值。如果用戶與其相對應,則說明用戶所錄入的“KCAJA I蝕變強度”中的值為正確;如果沒有查找到,則說明錯誤,同時要把錯誤的檢查結果顯示并輸出出來,以便給用戶進行修改。

圖4 下屬詞檢查流程Fig.4 Checking process of enumeration value

表3 標準模式字典Tab.3 Standard mode dictionary
由于數據在設計的過程中經常會發生變化,一些數據是一開始初定的,但是在后面項目的進行中,還是會有些改變。所以如果用一般的方法來檢查的話,一旦數據發生了變化,用戶的程序都要隨時改變,這樣不但不靈活,而且還會大大降低程序開發的效率。經實踐證明,利用數據字典技術,可以檢查出在定型數據中的隱藏錯誤,很好地控制了數據的完整性。利用標準規范可以有效檢查數據的一致性,并且這樣既保證了數據的變化,也能保證程序的變化達到最小。這比較人工檢查更為準確、更省時省力。
“全國礦產資源潛力預測評價”項目,其規模之大堪稱建國以來地調行業之最。隨之獲得的成果數據,其種類繁多復雜,規模龐大異常,涉及到的部門、人員眾多,要確保這項工作能夠順利進行,首先要保證入庫數據的正確性,這里主要停留在實現了符合標準定型數據的數據項檢查,而對于圖件、圖層數據檢查是以后工作的重點。
致謝:感謝導師汪新慶副教授不遺余力的指導我,并在研究步驟和研究方法的確定上提出了許多寶貴的修改意見。在研究過程中始終得到全國礦產潛力資源評價數據模型管理項目組的支持,得到中國地質大學(武漢)過劍碩士、邵雯碩士的幫助,在此一并表示衷心的感謝。
[1] 吳沖龍,汪新慶,劉剛,等.地質礦產點源信系統設計原理及應用[M].武漢:中國地質大學出版社,1996.
[2] 周姍愛.地質數據模型與數據描述標準化及相關技術研究[D].武漢:中國地質大學(武漢),2007,5:36.
[3] 左仁廣,夏慶霖.礦產預測定型數據不確定性評價[J].金屬礦山,2007,(8):7.
[4] 中國地質調查局地質調查技術標準DD2006-07.地質數據質量與評價[S].2006.
[5] 吳沖龍,汪新慶,劉剛,等.資源信息系統教程[M].武漢:中國地質大學出版社,2001.
[6] 汪新慶,劉剛,袁艷斌,等.地質礦產術語分類代碼在地礦點源信息系統中的應用[J].地球科學,1999,24(5):529.
[7] 戴剛毅,鮑征宇,張錦章.基于GIS的礦山空間數據庫的建立[J].物探化探計算技術,2000,22(1):78.
[8] 宋國耀,張曉華,肖克炎,等.礦產資源潛力評價的理論和GIS技術[J].物探化探計算技術,1999,21(3):199.
[9] 馬小剛,汪新慶,毋麗紅,等.應用數據字典實現多源地質空間數據的通用管理[J].礦業研究與開發,2007,27(1):38.
[10]陳永清,汪新慶,陳建國,等.基于GIS的礦產資源綜合定量評價[J].地質通報,2007,26(2):145.
[11]左仁廣,汪新慶,馬小剛.礦產預測評價基礎數據庫的入庫策略探討與實現[J].國土資源科技管理,2005,1:77.
[12]劉展,王萬銀,黃繼先,等.礦產資源評價系統的地質礦產數據模型[J].西安石油學院學報,2002,17(1):11.
[13]王本洋,余世孝.基于ArcView GIS的數據字典技術研究[J].遙感技術與應用,2003,18(6):429.
[14]吳沖龍.資源信息系統導論[M].武漢:中國地質大學出版社,1998.
[15]李裕偉.空間信息技術的發展及其在地球科學中的應用[J].地學前緣,1998,5(2):337.
[16]孟小紅,王衛民,姚長利,等.地質模型計算機輔助設計原理與應用[M].北京:地質出版社,2001.