宿曉虹 中國地質(zhì)調(diào)查局西安地質(zhì)調(diào)查中心
原始地質(zhì)資料有著保存地質(zhì)調(diào)查工作信息的原始性、詳實性和完整性等特點,原始地質(zhì)資料數(shù)據(jù)集成是地質(zhì)資料信息化工作的重要組成部分。文章介紹了原始地質(zhì)資料管理所面臨的必須從數(shù)字化到數(shù)據(jù)集成變革的原因。同時也進一步說明了原始地質(zhì)資料數(shù)據(jù)化的重要性和數(shù)據(jù)集成進程的必然性,在原始地質(zhì)資料數(shù)據(jù)集成實際過程中存在的現(xiàn)實問題及建議,以及做好原始地質(zhì)資料電子化的重要意義。
伴隨著信息化、大數(shù)據(jù)計算技術(shù)的迅猛發(fā)展,地質(zhì)調(diào)查成果資料信息化也緊跟時代發(fā)展步伐,成為近年來地質(zhì)資料管理關(guān)注的熱點。為進一步滿足社會對地質(zhì)成果資料的需求,需要不斷地發(fā)掘與整合相關(guān)地質(zhì)資料信息資源,開展基于互聯(lián)網(wǎng)的在線化地質(zhì)資料社會化查詢和下載服務(wù)。地質(zhì)資料信息化是地質(zhì)資料進一步擴大社會服務(wù)網(wǎng)絡(luò)化的前提與基礎(chǔ)。國家和省級各地質(zhì)資料館作為地質(zhì)調(diào)查成果信息資源系統(tǒng)的重要組成部分,正面臨著從傳統(tǒng)地質(zhì)資料檔案線下查詢和借閱服務(wù)轉(zhuǎn)向互聯(lián)網(wǎng)線上信息化服務(wù)的挑戰(zhàn)。地質(zhì)資料信息化成果對促進各類地質(zhì)資料館館藏資料管理與便捷的利用,已逐漸被行業(yè)內(nèi)廣大用戶所接受與重視。
伴隨著地質(zhì)資料信息化成果應(yīng)用領(lǐng)域的不斷拓展,國家和省級各地質(zhì)資料館館藏海量原始地質(zhì)資料數(shù)據(jù)集成,成為地質(zhì)資料檔案館信息化建設(shè)工作所面對和迫切需要解決的巨大難題之一,也是地質(zhì)工作“一張圖”平臺建設(shè)所需數(shù)據(jù)的重要來源之一,是地質(zhì)資料管理事業(yè)適應(yīng)信息化時代發(fā)展的必然趨勢。原始地質(zhì)資料數(shù)據(jù)信息化集成成果,對促進館藏地質(zhì)成果資料社會化利用率與潛在價值的提升將起到極大的推進作用。隨著中國地質(zhì)調(diào)查局“地質(zhì)云3.0”平臺在互聯(lián)網(wǎng)上的大力應(yīng)用和推廣,行業(yè)內(nèi)用戶和社會大眾對圖文地質(zhì)資料信息化成果工作的意義也有了全新的認識。但現(xiàn)有紙質(zhì)和部分數(shù)字化的原始地質(zhì)資料數(shù)量和有限的利用率,以及再次利用的復雜性,已遠不能充分滿足地質(zhì)調(diào)查工作整體規(guī)劃和部署的需要,由于地質(zhì)成果資料數(shù)據(jù)集成程度的不足,對區(qū)域資源評價、形勢分析和保障程度論證有較大的分歧,選區(qū)規(guī)劃難以全面制定。
自1999年以來,伴隨著20多年來地質(zhì)調(diào)查工作的全面推進,地質(zhì)勘查中最基礎(chǔ)的第一手地質(zhì)信息即原始地質(zhì)資料,正在以驚人的數(shù)量和速度匯聚在國家和省級地質(zhì)資料館或是地質(zhì)調(diào)查項目實施單位,歸檔的原始地質(zhì)資料絕大多數(shù)是紙質(zhì)和數(shù)字化檔案,數(shù)據(jù)資料歸檔資源所占比例較低,這給原始地質(zhì)資料數(shù)據(jù)集成工作帶來了很大難度。
地質(zhì)科技檔案主要分為原始地質(zhì)資料、成果地質(zhì)資料及地質(zhì)科技資料三大類。原始地質(zhì)資料具有保存信息原始性、系統(tǒng)性、完整性和保存長期性等特點。在有些原始資料中,所涉及到的地質(zhì)、資源數(shù)據(jù)信息,鑒于當時的科學技術(shù)水平限制,未能正確地進行分析、解譯,所得出的結(jié)論可能不夠完整和準確。有些地質(zhì)工作人員或研究人員由于當時觀點認識的不同,忽略了一些重要的地質(zhì)信息,這也可能造成信息遺漏。隨著科學技術(shù)水平的發(fā)展和綜合研究能力的提高,我們在重新查閱以往館藏的原始地質(zhì)資料時,需要提取數(shù)據(jù)信息重新進行綜合分析或研究,可能會得到新的信息、新的認識,取得較大的地質(zhì)調(diào)查或科研理論突破。所以,原始地質(zhì)資料有著長遠的、重要的備查和備考作用,它的再次可利用性越來越受到廣大地質(zhì)工作者的重視。
西安地質(zhì)調(diào)查中心原地調(diào)部從地質(zhì)項目設(shè)立初始階段就制定了地質(zhì)資料管理相關(guān)細則,其中對原始地質(zhì)資料的歸檔內(nèi)容進行了詳細的規(guī)定。隨著時代的變遷,地質(zhì)資料管理的各項規(guī)章制度不斷細化修訂,但是原始地質(zhì)資料一直是地質(zhì)資料的重要組成部分。在以往的歲月里因為各類條件所限,原始地質(zhì)資料歸檔的載體形式多樣,規(guī)格大小不一,并且多以紙介質(zhì)為主,少量數(shù)字化成果,同時地質(zhì)資料本身分類繁多,雖然項目工作周期時間跨度大,數(shù)量繁多,但是地質(zhì)成果資料歸檔管理工作一直延續(xù)從未間斷。
隨著地質(zhì)詳查工作在全國范圍內(nèi)的全面推進,已有地質(zhì)成果資料已不能滿足項目調(diào)查、研究的需求,許多項目需要查閱調(diào)查區(qū)的第一手原始地質(zhì)資料,用以開展工作區(qū)綜合分析,但翻閱歸檔的傳統(tǒng)紙介質(zhì)資料加大了項目工作人員進一步開展工作的繁雜性。另一方面大量的紙介質(zhì)原始地質(zhì)資料匯聚,對各館藏單位的庫房管理也造成了巨大的壓力,原始地質(zhì)資料的數(shù)字化呼聲日益高漲。在此前提下,2008年-2013年中國地質(zhì)調(diào)查局發(fā)展研究中心對重要原始地質(zhì)資料開展數(shù)字化工作,陸續(xù)在天津地質(zhì)調(diào)查中心、沈陽地質(zhì)調(diào)查中心和西安地質(zhì)調(diào)查中心等三家單位進行了試點,同時全國已有部分省級地質(zhì)資料館也開始了原始地質(zhì)資料數(shù)字化,并于2014年制定了相關(guān)標準規(guī)范。但是,全國原有館藏原始地質(zhì)資料數(shù)字化工作因種種客觀原因進展緩慢。
為了實現(xiàn)原始地質(zhì)資料現(xiàn)代化、信息化管理,充分發(fā)揮其在國民經(jīng)濟建設(shè)中的作用,對其進行數(shù)據(jù)集成已是地質(zhì)資料集群化、產(chǎn)業(yè)化大勢所趨。2015年中國地質(zhì)調(diào)查局發(fā)展研究中心就所屬29家單位的成果地質(zhì)資料、原始地質(zhì)地質(zhì)資料等館藏資料進行文件級目錄的摸底工作,為地質(zhì)資料的數(shù)據(jù)集成、信息化工作的開展打下基礎(chǔ)。隨著2019年地質(zhì)調(diào)查在線化工作全面開展,數(shù)據(jù)資料成為近兩年來原始地質(zhì)資料歸檔的主體,但是原有大量館藏紙介質(zhì)和數(shù)字化資料是原始資料數(shù)據(jù)集成工作面臨的巨大瓶頸。由于原始地質(zhì)資料載體的局限性和信息提取的難度較大,截止2018年地質(zhì)信息產(chǎn)品和數(shù)據(jù)的研發(fā)多以成果地質(zhì)資料數(shù)據(jù)集成為基礎(chǔ)。本文結(jié)合西安地質(zhì)調(diào)查中心館藏的原始地質(zhì)資料情況,借鑒西安地質(zhì)調(diào)查中心原始地質(zhì)資料數(shù)據(jù)集成前期的工作經(jīng)驗和認識,淺談對原始地質(zhì)資料數(shù)據(jù)集成工作面臨的問題和建議。
西安地質(zhì)調(diào)查中心從上世紀60年代至今積累了海量的紙介質(zhì)原始地質(zhì)資料,從大量紙質(zhì)資料中進行數(shù)據(jù)集成所要耗費的時間和人員在2-3年內(nèi)都無法完成。因此原始地質(zhì)資料的數(shù)字化資源是原始資料數(shù)據(jù)快速集成的基礎(chǔ)。截止2015年底,西安地質(zhì)調(diào)查中心完成了館藏715檔原始地質(zhì)資料共計1578幅(也)地質(zhì)圖件的圖文數(shù)字化,僅占館藏紙介質(zhì)原始地質(zhì)資料的19%,資料圖文數(shù)字化程度較低。
基于傳統(tǒng)觀念地質(zhì)資料管理部門在單位所處的地位和人員配置一直是地質(zhì)資料數(shù)據(jù)集成工作的掣肘。資料管理人員不僅配置嚴重不足,結(jié)構(gòu)也不甚合理,素質(zhì)亟待提高。原始地質(zhì)資料的數(shù)據(jù)集成是一個非常龐大的系統(tǒng)工程,它需要基礎(chǔ)工作人員將紙介質(zhì)資料數(shù)字化,專業(yè)人員根據(jù)上層地質(zhì)信息產(chǎn)品和數(shù)據(jù)的設(shè)計進行信息提取、數(shù)據(jù)庫建設(shè)以及開發(fā)多樣化的利用形式。但是在地質(zhì)信息產(chǎn)品和數(shù)據(jù)研發(fā)方面3-4人的團隊配置是遠遠無法完成這些繁瑣而大量的工作。受人員編制和其他原因所限,在引進人才方面與其他部門相比處于劣勢。
西安地質(zhì)調(diào)查中心在2013-2015年連續(xù)三年開展的地質(zhì)資料數(shù)字化工作,是在中國地質(zhì)調(diào)查局發(fā)展研究中心下達了資料管理方向的地質(zhì)調(diào)查項目經(jīng)費支撐下開展的。彼時為了解放出專業(yè)技術(shù)人員用來梳理出需求量大的原始地質(zhì)資料,返聘了四個有多年工作經(jīng)驗的資料員,還委托了符合資質(zhì)的專業(yè)數(shù)字化團隊才完成了715檔原始地質(zhì)資料的數(shù)字化工作。2016年后經(jīng)費調(diào)整再未設(shè)立相關(guān)項目,資料管理經(jīng)費由中心統(tǒng)籌支付,僅能維持資料的接收、驗收、借閱、存儲和庫房管理等日常工作運行,資料數(shù)字化工作已全面停滯。
現(xiàn)有館藏的原始地質(zhì)資料因當時接收人員的原因,部分歸檔文件存在一定的問題,如部分野外記錄和圖件著墨不規(guī)范,部分文字或圖上的標識已經(jīng)脫墨,模糊不清。部分圖件因使用頻繁,老化破損嚴重,需要搶救性修復等問題。這些原因都增加了原始地質(zhì)資料圖文數(shù)字化的困難,阻礙了進程。在2013年的試點工作中西安地質(zhì)調(diào)查中心特意做了圖文數(shù)字化的時間記錄測試,選擇2005年以后歸檔區(qū)域地質(zhì)、礦產(chǎn)調(diào)查及水工環(huán)資料各1檔共計9851張(頁),資料中有部分文字和圖件歸檔了電子版本,節(jié)約了不少時間。盡管如此仍然專人專事工作了27天,如下圖所示:

隨著社會的發(fā)展,地質(zhì)資料定密等級的依據(jù)一直在修訂完善,因此不同時期歸檔的原始地質(zhì)資料中同一種資料確定的密級相差甚遠。要將現(xiàn)有的館藏原始地質(zhì)資料數(shù)字化,首先就要根據(jù)新的制度重新認定密級,這是一項龐大的工作任務(wù)。
原始資料數(shù)據(jù)集成的理想狀態(tài)是根據(jù)自然資源部和中國地質(zhì)調(diào)查局的區(qū)域規(guī)劃,專業(yè)技術(shù)人員結(jié)合本單位所轄研究區(qū)和現(xiàn)有資料策劃開發(fā)市場需求的集成成果?,F(xiàn)在所面臨困境是,上層負責的成果集成設(shè)計的人員不是數(shù)據(jù)集成團隊的成員,策劃的產(chǎn)品只考慮已有資料的擁有范圍和市場的需求,不了解底層的資料數(shù)字化程度處于較低狀態(tài),有效數(shù)據(jù)信息提取程度有限,根本無法滿足上層策劃的數(shù)據(jù)集成要求。任務(wù)下達后底層的技術(shù)人員再向上反饋所面臨無法完成任務(wù)的原因及可完成的部分內(nèi)容,申請修改上層策劃或部分完成成果集成。這樣的事情時有發(fā)生,嚴重影響了地質(zhì)資料信息服務(wù)的進程。
原始地質(zhì)資料的數(shù)據(jù)快速集成的第一步必然是圖文資料的數(shù)字化,然而大部分的館藏地質(zhì)資料尚未實現(xiàn)數(shù)字化。應(yīng)采取以下措施加快館藏地質(zhì)資料圖文數(shù)字化工作。一是加大資金和人員投入。應(yīng)設(shè)立專項資金,才可組織擴大專業(yè)團隊,快速開展原始地質(zhì)資料的圖文數(shù)字化;二是要加強技術(shù)研究,如柵格圖件矢量化技術(shù)研究,資料老、舊、破修復技術(shù)研究等,縮減圖文數(shù)字化時間。
人才在地質(zhì)資料數(shù)據(jù)集成工作中始終處于主導地位。一是借助地質(zhì)資料管理的信息化建設(shè),引入更多的、高素質(zhì)的專業(yè)技術(shù)人員,同時讓數(shù)據(jù)集成人員有話語權(quán),充分開發(fā)和利用已有原始地質(zhì)資料數(shù)據(jù)信息資源結(jié)合上層規(guī)劃,研發(fā)企業(yè)、科研人員和公眾地質(zhì)資料需求的服務(wù)產(chǎn)品,擴大數(shù)據(jù)集成的影響力,從而提升原始地質(zhì)資料數(shù)據(jù)集成工作的重要性,為原始地質(zhì)資料的數(shù)據(jù)化集成工作全面開展奠定基礎(chǔ)。二是有了好的工作局面就可以集結(jié)更多方面的人才,原始地質(zhì)資料各專業(yè)的數(shù)據(jù)集成才可分工明確,信息提取準確、可靠,區(qū)域面積自然資源數(shù)據(jù)的綜合集成才可無障礙進行,原始地質(zhì)資料中存儲的寶貴知識財富才可充分利用。
發(fā)揮原始地質(zhì)資料資源的作用,針對熱門資料借取需求,分課題、專業(yè)提供進行成果集成,定期跟蹤服務(wù)。利用第一手資料的優(yōu)勢,多提供綜述、述評、研究報告等深層次的二次文獻。
原始地質(zhì)資料是地質(zhì)勘查,科學研究工作中取得的第一手數(shù)據(jù)資料,是研究地質(zhì)科學,編寫最終成果——地質(zhì)報告的基礎(chǔ)和依據(jù),包含著整個項目的工作周期所有的調(diào)查成果。原始地質(zhì)資料信息內(nèi)容豐富,數(shù)據(jù)準確,極為寶貴。地質(zhì)資料數(shù)據(jù)集成工作是一項復雜的系統(tǒng)工程,需要長期細致的工作,在數(shù)據(jù)集成過程中進一步提高認識,加快數(shù)據(jù)集成步伐已成為必然。原始地質(zhì)資料數(shù)據(jù)集成是地質(zhì)資料信息化工作的重要組成部分,把傳統(tǒng)的檔案信息管理與網(wǎng)絡(luò)化數(shù)據(jù)化管理相結(jié)合,提高原始地質(zhì)資料的利用率,是地質(zhì)檔案工作者今后一個時期的重點工作。把開展原始地質(zhì)資料數(shù)據(jù)化服務(wù),填補地質(zhì)資料館藏信息化內(nèi)容方面的空白,拓寬地質(zhì)資料服務(wù)渠道,為地質(zhì)檔案行業(yè)更好的的開展社會化服務(wù)提供數(shù)據(jù)支撐工作。