馬飛飛,胡麟臻,王成錫,郭慧錦
(1.中國地質大學(武漢)國家地理信息系統工程技術研究中心,湖北 武漢 430074;2.中國地質調查局發展研究中心,北京 100037;3.全國地質資料館,北京 100037)
?
匯交地質資料電子文件原始性保證技術研究
馬飛飛1,2,3,胡麟臻2,3,王成錫2,3,郭慧錦2,3
(1.中國地質大學(武漢)國家地理信息系統工程技術研究中心,湖北 武漢 430074;2.中國地質調查局發展研究中心,北京 100037;3.全國地質資料館,北京 100037)
地質資料的原始性是地質資料真實、可靠的前提,是地質資料匯交過程中急需解決的難題。本文基于目前我國保證地質資料原始性工作的發展歷史與現狀,利用可行時間戳、數字簽名、MD5散列算法三種不同原始性保證技術,并對比這三種方法在匯交地質資料方面的優缺點。通過實踐證明MD5散列算法在地質資料原始性檢驗方面具有操作簡單、成本低、無負擔等優勢,但是由于地質資料保密性和數據格式復雜等原因,MD5散列算法尚需完善。
地質資料;原始性;MD5散列算法
本文所提及的匯交地質資料專指地質工作結束后,由地質資料匯交人按照法律法規和相關技術標準對地質資料進行規范化整理并提交給資料館藏機構的過程。由于地質資料匯交過程歷時長、經手人員多,同時地質資料數據本身具有易纂改和不穩定性,導致了地質數據在資料匯交過程中很難保證其原始性,因此如何利用現代化的高新技術和在地質資料匯交工作實踐中的經驗,保證地質資料數據的原始性是我館急需解決的問題。
地質資料原始性是指在地質資料匯交、轉送、接收、驗收過程沒有被改動,地質資料數據的格式、內容、組織方式等都沒有做過任何改動,可以作為最原始的信息狀態,是由地質資料形成單位提供的一手數據。
我國地質資料采用統一管理的機制,由國家和省兩級管理機構負責資料接收、驗收、保管和提供社會化服務工作。2003年以前,我國匯交地質資料只需交紙質載體的文件,在2002年國土資源部發布了《關于開展成果地質資料電子文件匯交工作的通知》后,地質資料匯交從只提交紙質載體變更為紙質與電子資料同時匯交的模式,這標志著地質資料匯交進入了數字化時代。在電子文件匯交前期,紙質載體還是主要的信息載體,但是,隨著信息化的不斷發展,以及地質工作新技術新方法的應用,地質資料匯交電子文件已經逐漸成為主體,尤其近年來數據庫建設和軟件開發的項目越來越多,這些項目形成的資料無法或很難打印在紙上,電子文件成為信息形態的近乎唯一的表現形式。可以看出地質資料匯交工作目前可以分為三個階段:第一階段是紙質載體匯交;第二階段是以紙質載體為主的紙電匯交;第三階段是以電子文件為主的紙電匯交。
地質資料匯交工作的變化決定了地質資料原始性保證手段的變化。第一階段只匯交紙質載體時,保證資料的原始性相對簡單,這是由其紙質文件自身特點所決定的。首先,紙質地質資料的產生是由資料形成人直接打印,保留著最原始的記錄;其次,紙質資料在流轉過程中不易被修改,即使被修改也容易被發現;最后,紙質資料通過蓋章來保證其原始性,匯交的紙質資料需加蓋形成單位的公章和資料編者的簽名。第二階段以紙質載體為主的紙電匯交階段,地質資料館藏機構人員在驗收資料時,以紙質載體為依據,對照電子文件內容,紙電內容完全一致時就認為其保持了原始性。第三階段以電子文件為主的紙電匯交階段,其中匯交的紙質資料依舊通過蓋章的方式保證其原始性,匯交的電子文件部分內容無法完全呈現在紙質資料之上,紙電內容無法保持完全一致,這樣的情況下就需要采用信息化技術手段來保證地質資料的原始性。
匯集紙質地質資料蓋章信息,如表1所示。

表1 匯交地質資料加蓋公章信息表
2.1 地質資料檔案性決定需保持原始性
地質資料具有檔案性屬性,地質資料的檔案性表現為對地質歷史的記錄,一般資料年代越久遠,其檔案性越強。地質資料的檔案性具有巨大的開發和利用價值,例如全國地質資料館紀念抗日戰爭勝利70周年展覽,就是通過研究抗日戰爭時期形成的地質資料,生動再現日本帝國主義對我國礦產資源有掠奪和我國地質先輩為全面抗戰勝利作出的重大貢獻。地質資料是地質歷史的記錄,所以需要保證資料的原始性才能真實的再現歷史。
2.2 地質資料憑證作用需保持原始性
地質資料最主要的類別為礦產勘查資料,其中的探礦權采礦權資料是礦產投資的重要依據,礦產投資是高風險高回報的產業,涉及到巨大的經濟利益,如果在投資礦產時參考的地質資料有問題,將會導致決策失誤,我國資源安全和人民財產流失,損失不可估計。在司法采信的證據中,作為原件的地質資料是其作為證據的主要因素[1]。館藏機構作為地質資料社會化服務的提供者,需要能回溯地質資料的來源,并能證明地質資料為探采礦的地勘單位提供的原始數據。地質資料的原始性與憑證的真實性是緊密相連的,發揮地質資料的憑證作用必須保持資料的原始性。
2.3 電子文件特性決定需保持原始性
電子文件具有信息的易讀取、易修改和易搬遷性,信息對硬件設備依賴性,信息與載體易分離性[2-3]幾個基本特性,由于電子文件的特性,在其流轉、保管和利用的環節都有可能被修改或者丟失文件,需要通過技術手段保證電子文件的原始性。
2.4 地質資料匯交過程需保持原始性
地質資料匯交是環節復雜過程縝密的工作。地質項目通過專家評審后,進入了資料匯交階段,資料匯交人需向國家或省級地質資料館藏機構提交地質資料,館藏機構在接收資料后進行檢查驗收,驗收不合格的資料退回匯交人進行補充修改,直到驗收合格,驗收合格的資料由負責接收資料的館藏機構轉送相關館藏機構,這是一個完整的資料匯交過程,所以必須保持資料的原始性才能確保資料來源可靠。
2.5 社會化服務需要提供原始數據
地質資料管理的重要的目的之一是社會化服務,全國地質資料館每年發布一系列服務產品,如公開版25萬地質圖數據、全國生態環境地質專題、整裝勘查地質資料等。除提供經過資料開發利用整合后的數據外,全國地質資料館的服務主體是匯交人匯交的原始數據,據全國地質資料館服務量數據顯示,2014年全國地質資料館共為3540人次提供了23572份次的地質資料的服務。地質資料服務工作提出了需要保持資料的原始性才能更好的為用戶提供最真實的服務產品。
全國地質資料館探索試用了可信時間戳、數字簽名、MD5散列算法三種不同的技術來保證資料的原始性,下面將具體介紹每種方法。
經過管理后,觀察組的不良事件發生率為護理安全事故7.41%(2例),護理糾紛為3.70%(1例),不良事件發生率為11.11%(3例)。對照組患者的不良事件發生率為護理安全事故14.81%(4例),護理糾紛為11.11%(3例),不良事件發生率為25.92%(7例)。兩組結果對比,觀察組的不良事件發生率明顯低于對照組,差異有統計學意義(χ2=7.269,P=0.007)。
3.1 可信時間戳
可信時間戳是指由權威、可信時間戳服務中心簽發的一個能證明數據電子文件在某一時間點是已經存在的、完整的、可驗證的,具備法律效力的電子憑證,可信時間戳主要用于電子文件防篡改和事后抵賴,確定電子文件產生的準確時間,是一種符合《中華人民共和國電子簽名法》的技術,能有效證明數據電文(電子文件)產生的時間和內容的完整性,解決了數據電文(電子文件)易被篡改偽造的問題,保證了數據電文的客觀性、真實性[5]。
經驗證可信時間戳技術并不適合于匯交地質資料電子文件原始性的管理。首先,雖然對于單個匯交地質資料電子文件授予可信時間戳其成本較低,但匯交地質資料電子文件數量龐大,全部授予可信時間戳,其總體成本將非常高,操作過程的工作量亦非常大;其次,匯交地質資料電子文件具有一定法律屬性,要求其在必要時刻可作為法律證據,所以不能采用自建時間戳的方式,因此在授予可信時間戳時需和權威時間源綁定,并由國家授時中心(可信任的第三方權威機構)負責授時和守時,以保障并保持時間源的絕對可靠性,并進行實時監測,這就要求匯交地質資料電子文件具有網絡特性,而這和匯交地質資料電子文件的保密特性是相沖突的。
3.2 數字簽名
數字簽名(又稱公鑰數字簽名、電子簽章)是一種類似寫在紙上的普通物理簽名,其使用公鑰加密領域的技術實現,是一種用于鑒別數字信息的方法。一套數字簽名通常定義兩種互補的運算,一種用于簽名,另一種用于驗證。數字簽名是非對稱密鑰加密技術與數字摘要技術的應用[5]。
數字簽名的設計初衷是為了保障電子文件的傳輸安全,雖然數字簽名可以用來驗證電子文件的真實性和完整性,但并不能滿足地質資料電子文件安全管護的全部需要。首先,地質資料組成較為復雜,其包含的電子文件存在文件數量多、文件類型多的特征,數據簽名技術在保障地質資料文件完整上存在缺憾;其次,數字簽名技術過于依賴私鑰安全,在實際操作過程中,私鑰的安全保管和安全使用將成為匯交人和館藏機構的一大負擔。
MD5算法是一種散列算法,可以將一段任意長度報文(數據文件,文本文件或者二進制文件),通過一系列運算壓縮成一段128 位的信息摘要,目前廣泛應用于電子文件數字指紋的提取和校驗。MD5散列算法在電子文件原始性校驗方面的應用是利用了它的單向加密性,即不可逆性,對某一指定電子文件,MD5算法可根據其內容生成一組128位摘要數據,當文件內容發生變化時(增加內容、修改內容和刪除內容),再利用MD5算法運算將得到完全不同的一組128位消息摘要。
通過運算壓縮成一段128位的信息摘要如圖1所示。

圖1 MD5算法示意圖
從理論和邏輯模型上,MD5加密技術相對適用于地質資料原始性校驗的應用。首先,MD5加密技術操作相對簡單,沒有專業技術門檻的要求;其次,MD5加密技術成本低,MD5加密技術在地質資料電子文件原始性審計的使用過程中幾乎沒有額外成本;第三,MD5加密技術不會增加太多附加的管理負擔,MD5算法計算結果只是電子文件本身的一個信息摘要,并不需要匯交人和館藏機構保管多余的秘鑰。因此,相對其他技術,MD5目前較為適宜作為地質資料原始性校驗方法。
由于MD5技術在使用復雜度、應用成本和管理負擔有等方面都具有一定優勢,全國地質資料館在地質資料電子文件原始性保證上使用了MD5技術。
在使用ED-Maker軟件進行地質資料匯交資料包(以下簡稱匯交包)制作時,系統自動提取匯交包中所含電子文件的MD5摘要信息,并將其記錄到匯交包指定的附加文件(A文件)中,待計算和記錄過程完成后,系統再計算A文件的MD5摘要信息,并將A文件的MD5摘要信息記錄到電子文件登記表上,在地質資料匯交時,采用雙套制的匯交辦法,要求紙質電子文件登記表加蓋匯交人單位公章,匯交驗收時要求紙電一致,這樣就能形成地質資料匯交過程中原始性審計的完整閉環。
MD5碼在匯交地質資料中原始性審計流程見圖2。
地質資料原始性驗證時,首先通過紙質電子文件登記表上所記載MD5摘要字符串確認A文件是否被修改,如A文件已被修改,原始性驗證失敗,如A文件未被修改,則A文件記錄信息則可驗證匯交地質資料中所有文件的原始性。

圖2 MD5碼在匯交地質資料中原始性審計流程圖
匯交地質資料原始性驗證流程圖見圖3。
本文通過對地質資料原始性及其保證技術的研究,得出以下結論。
1)地質資料具有保密的特性,在技術的選擇上受到保密的約束,不能采用依附于網絡的技術。
2)地質資料匯交動作由各資料形成單位完成,因此本文把資料原始性技術定位在地質資料入館前。全國地質資料館是資料的保管單位,只需保證資料是形成單位提交的沒有經過修改的,不對資料的內容進行驗證。

圖3 地質資料原始性驗證流程示意圖
3)在實際應用中發現MD5散列算法雖然是最經濟快速的算法,但是由于地質資料的數據量巨大,同類型文件多,文件存儲零散路徑深等特性,會存在電子文件和MD5碼不能做到完全一一對應的情況。MD5散列算法在匯交地質資料的應用上還需要繼續改進。
[1] 蔡學美.數字時代檔案原始性的特征和應對策略[J].中國檔
案,2012(7):68-70.
[2] 張正強.再論對電子文件特性的科學認識[J].檔案學研究,2011(2):4-10.
[3] 楊建軍.電子檔案的原始性和真實性認定及保護[J].數字與縮微影像,2006(4):11-15.
[4] 易彥君.論可信時間戳在電子檔案中的應用[J].云南檔案,2013(8):28-30.
[5] 張先紅.數字簽名原理及技術[M].北京:機械工業出版社,2004:15-98.
Research on protecting aboriginality of electronic geological data
MA Fei-fei1,2,3,HU Lin-zhen2,3,WANG Cheng-xi2,3,GUO Hui-jin2,3
(1.National Engineering Research Center for Geographic Information System,China University of Geosciences(Wuhan),Wuhan 430074,China;2.Development and Research Center,China Geological Survey,Beijing 100037,China;3.National Geological Archives of China,Beijing 100037,China)
The facticity and authenticity of the geological data is attributed to its aboriginality,which has become a difficult issue badly in need of solution.In this paper,based on the review of development history and present status for the work of ensuring the data aboriginality in China,three different aboriginality assurance technologies contains the credible time stamp,the digital signature and the MD5 hash algorithm had been used and compared with each other in the collection of geological date.Finally,the MD5 hash algorithm proved that has the advantage of simple to operation,economical and free of burden in verification of geological data aboriginality.But due to the confidentiality and the complexity of data formats for geological data such as reason,the MD5 hash algorithm still need to be further improved.
geological data;originality;MD5 hash algorithm
2016-07-20
中國地質調查局地質礦產調查評價專項“地質資料資源匯聚與管理”計劃項目所屬子項目“地質資料服務基礎設施建設”資助(編號:1212011220354)
馬飛飛(1981-),女,碩士,2008年畢業于中國地質大學(北京)地球探測與信息工程專業,主要從事地質資料匯交管理方面的工作。E-mail:mafeifei9299@163.com。
胡麟臻(1984-),男,碩士,2009年畢業于中國地質大學(北京)地球探測與信息技術專業,主要從事地質資料電子文件備份管理方面的工作。 E-mail:hlinzhen@mail.cgs.gov.cn。
C931.9
A
1004-4051(2016)11-072-04