吳曉文+孫杰+楊帆
摘 要:“大數據”時代,結合業務需求剖析海洋檔案管理的背景和現狀,分析應用大數據挖掘技術開展海洋檔案管理工作的必要性,以海洋檔案管理實踐為基礎,研究大數據挖掘技術在檔案管理中的應用,為提升海洋檔案館建設能力和服務水平做出有益探索,更好的推動我國海洋檔案事業的發展。
關鍵字:海洋檔案管理;數據挖掘
本文為2016年國家海洋局東海分局青年科技基金“大數據技術與海洋檔案數據挖掘應用研究”(項目編號:201615)和東海信息中心課題“國家海洋局東海分局海洋檔案數據庫建設項目”的研究成果。
海洋檔案匯聚了海洋工作最根本、最豐富的信息資源,作為海洋事業發展真實、全面的歷史記錄,在維護國家海洋主權、海洋科學研究、海洋資源開發等方面越來越顯示出其重要性。在建設海洋強國的時代背景下,海洋檔案信息的利用需求不斷增加,但是現有的檔案管理模式無法滿足海洋事業快速發展的需求,豐富的檔案資源未能有效的開發和利用。如何改變現有的開發利用模式,有效地開發利用海洋檔案資源為海洋事業發展服務是海洋檔案管理工作的重要任務。
1 研究背景
《全國檔案事業發展“十三五”規劃綱要》從大數據的視角,描繪出2016-2020年我國檔案大數據發展和信息化建設的開放、創新的前景和路向,打破小數據管理定勢、探索與大數據技術的融合已勢在必行。海洋檔案事業要發展,必然需要應用大數據技術改變傳統的海洋檔案管理模式。
國家海洋局東海分局是我國東海區綜合性海洋檔案管理部門,負責接收東海區機關和下屬事業單位的海洋檔案。以東海檔案館為例,目前館藏檔案1萬余卷,涵蓋機關文書、船舶與飛機、調查與觀(監)測、防災減災、環境保護、海洋執法、基建等類型。自2011年開展檔案數字化和數字檔案管理工作,館藏數字化程度僅為85%,檔案信息查詢系統的建設提高了檔案管理水平和效率。但受到管理體制、信息保密以及系統功能的限制,現有的檔案信息系統僅能用于檔案初步查閱利用,檔案管理模式仍然沿用人工管理的方式,海洋檔案管理現狀也處于資源豐富但利用率低,利用手段原始,信息挖掘和利用程度低,開放和共享程度受限的階段[1]。當前,結合海洋業務需求的海洋檔案數據挖掘研究剛剛起步,要實現檔案數據的深度挖掘,需要完成大量檔案的數據化和結構化處理,并依托大數據技術實現智能管理和利用。
2 大數據挖掘技術應用于海洋檔案管理的必要性
我國海洋事業發展邁入了前所未有的戰略機遇期,海洋檔案管理工作的內涵不斷擴展,技術手段不斷創新,檔案的類別與載體不斷豐富,業務需求不斷增加。新的發展需求引導新的發展理念,從海洋檔案本身和檔案管理工作兩方面來看,將大數據挖掘技術引入海洋檔案管理工作中,是非常必要的。
2.1 輔助海洋行政決策
海洋管理部門在海洋生態文明建設、海洋科技創新、維護國家海洋權益等重大決策中需要大量有效信息作為依據。智慧海洋建設離不開海量的檔案數據和信息作為資源,而豐富的海洋檔案恰恰可以提供這種需要。如何將海量數據變成“活資源”,更有效的輔助海洋行政重大決策是應用大數據挖掘技術的首要理由。
2.2 完善海洋檔案存儲結構
海洋檔案從傳統的紙質載體,逐漸發展為紙質為主、電子檔案為輔的載體結構。到大數據時代,這些海量的信息資源僅僅采取目前傳統的存儲方式是不夠的,海洋檔案存儲方式應更加多元,而要采取新的存儲方式,比如云存儲、虛擬存儲、網格存儲等,考慮到海洋檔案總量、檔案數據增加的速度、檔案數據類型的多樣化以及數據復雜程度等要素的影響,引入大數據挖掘技術實現存儲結構的完善是當前的不二選擇。
2.3 創新海洋檔案服務方式
海洋事業的發展必然要求海洋檔案服務工作不僅要“跟得上”,更要發揮預見性功能。大數據時代建設“智慧海洋”,意味著海洋檔案工作要具有智慧屬性,海洋檔案服務將朝著社會化、多元化、開放性發展,突破現有格局,為海區乃至全國海洋事業全局化、個性化的需求為導向,提供網絡化、智慧型的服務,這些都需要大數據挖掘技術作為支撐。
2.4 轉變海洋檔案的功能和作用
隨著時代的發展,海洋檔案的功能和作用也發生了深刻的變化,從最初的服務于國防安全和海洋科技轉變為服務于國民經濟和社會發展、國家安全和權益維護、海洋經濟創新發展、海洋生態文明建設等,從長期以來的“重保管、輕利用”轉變為通過運用先進的大數據技術手段,來發現和提取有效的信息,為國家、社會、企業創造價值[2]。
3 大數據挖掘技術在海洋檔案管理中的應用
3.1 海洋檔案信息收集中的應用
在較為成熟的大數據挖掘技術的應用實例中,“淘寶”的大數據應用最為典型。“淘寶”后臺收集了海量用戶信息及店鋪訪問深度、停留時間、寶貝轉化率、跳失率等符合常規購物習慣的數據,對其進行深度挖掘,成功進行信息管理、定向推廣、客戶維護等工作,使用戶獲得很好的購物體驗。
借鑒這樣的思路,在海洋檔案管理的數據挖掘中,首要任務就是對歷史的檔案管理行為數據及相關檔案數據庫中的信息予以分析,以全新的描述方式描述已知的數據集合,并建立起模型概念,按照模型對各種對象進行合理分類。因此,可認為檔案信息的收集是檔案管理其他個性化功能實現的前提。諸如在已建成的“東海數字檔案管理系統”中已經可以實現個人用戶自助借閱并進行流程審批,通過對個人信息及查詢習慣的分析,可以確定向不同類別的用戶提供符合其需求的服務,一旦有類似信息的用戶輸入,則能依據分類提供其可能的檔案利用服務,可明顯提高檔案查全、查準率;通過對用戶行為的進一步分析,可以對檔案的收集起到促進作用,判斷是否有應歸未歸的檔案,是否需要通過修改歸檔范圍進一步擴大檔案的收集面等。
3.2 海洋檔案分類中的應用
通常檔案分類方法有年度分類法、組織機構分類法、問題分類法等。目前我國現行檔案分類法是1997年正式發行的《中國檔案分類法》第二版,其中對海洋行業的分類描述甚少,歸納在19個大類中的一個二級目錄中,篇幅僅占其中薄薄一頁且偏于理論,對海洋檔案管理工作實踐指導作用較弱。因海洋檔案分類體系復雜、難度較大,海洋檔案分類研究和實踐工作至今仍然進展緩慢。endprint
海洋檔案分類體系影響海洋檔案管理效率,進而影響檔案本身資源挖掘,而應用大數據挖掘技術,可有效跨越這一障礙,管理者只需根據海洋檔案特點,在進行檔案信息化工作時將現有檔案分為數據類檔案和描述類檔案兩大類別,即可通過不同的大數據挖掘技術(如語義檢索技術、非結構化數據庫存儲技術等)進行檔案深度服務,提高檔案的檢索有效率和檢索速度。
3.3 海洋檔案預測中的應用
目前海洋檔案管理系統已經能夠實現自動保留訪問者的基本信息與訪問日志。大數據挖掘技術通過基本信息、搜索間隔的時間、停留時間、訪問下載的次數,發現使用者的興趣點。再對檔案內容進行分類與用戶興趣點關聯,為用戶提供有效、準確、個性的推薦信息。更能夠進一步的對用戶需求作出預測,以推算出用戶未來的需求。
研究分析2008-2012年通過“在線+離線”方式采集的檔案借閱登記信息,對分局45周年局慶時期檔案的借閱情況等相關數據進行總結分析,發現在局慶前有關分局歷史、沿革的機關文書檔案及重大時間或照(膠)片、錄像(聲音)帶等各種載體形式檔案都會被大量地查閱。由此可以預測出下一次局慶活動開展時,這種形式的檔案必然要被大量查閱,在之后的檔案工作中要注重收集和管理,同時應提前整理好以備查閱,甚至提前做好編研以備使用。此外,在東海實物檔案展館的建設過程中,通過對一般訪問者的需求行為數據進行數據挖掘,提前編研或整理分局發展歷程、東海分局船舶飛機發展史等文字、圖片材料,以供布展使用,得到較好反響。
3.4 海洋檔案信息整合開發中的應用
《海洋檔案管理》規定是海洋檔案工作的總規定,其中第二章第九條明確提出要“積極做好檔案信息的開發利用和服務工作”。挖掘海洋檔案信息本質上就是為了更有效地利用,不開發不整合,檔案信息就成不了“活資源”[3]。海洋檔案工作要主動靠近海洋事業核心工作,不能“邊緣化”。檔案人員要有強烈的參與意識和效益意識,發揚“擠”和“鉆”的精神,及時根據海洋工作需要開發檔案信息資源,盤活館藏,主動為海洋管理和業務提供有用的檔案信息服務。
例如,將科研檔案和東海分局科技管理平臺關聯起來,利用數據挖掘的信息整合功能,通過關聯檢索將成果報送與實際歸檔內容對比和算法分析,可以反映科研工作者在實際科研工作中的真實權重,進一步提高海洋科技管理水平,在一定程度上純凈科研學術氛圍。再如,東海分局正在開展的東海檔案數據庫建設項目,即是海洋行業內應用大數據技術開展海洋檔案管理的“先行者”。一方面,海洋檔案中很大一部分是非結構化的數據,建設海洋基礎數據庫要進行檔案的電子化、數字化處理;另一方面,以大事記和機關文書、榮譽檔案等例,對非結構化檔案進行了數據挖掘探索。大事記以記載大事見長, 多以編年體為主,以紀事本末體為輔,以時間為主線,以大事為主體。東海分局大事記目前編撰至2004年,在東海檔案數據庫建設項目中,首先,將已編撰完成的大事記文本與機關文書檔案中的出處、榮譽檔案目錄信息條目三者進行關聯,將時間、地點、人物、事件等要素進行關聯,實現任意相關檢索詞均可查找到檔案的功能,使利用者能快速地獲取較為全面的、有效性高的信息集合;其次,采用分類、關聯分析、聚類分析、語義檢索等技術,選用常用的數據挖掘工具(如K-Miner),提高大事記的編撰效率和志書編撰能力,有助于逐步開展重大事件(專題)大事記、海洋船舶大事記、海洋名人傳記等編撰工作。
4 結束語
大數據挖掘技術的發展是信息技術高度發展的必然,其在社會各行業中的探索應用也表明了大數據挖掘技術有著重要的現實意義。大數據挖掘技術在海洋檔案管理工作中的運用,能夠創新海洋檔案管理模式,顯著提升海洋檔案館建設能力和服務水平。因此,在海洋檔案管理的未來發展趨勢中,應用大數據挖掘技術要朝著實用技術方向拓展,加大數據挖掘技術在海洋檔案領域中的研究力度,更好的推動我國海洋檔案事業的發展,推進海洋智慧檔案館建設,促進海洋檔案“模塊化”、“數字化”、“信息化”、“智能化”發展。
參考文獻
[1]沈東芳.多種類型海洋檔案的信息集成研究[J].浙江檔案,2017(7):23.
[2]蔡利劍.大數據背景下的檔案管理問題研究[J].西北工業大學學報(社會科學版,2016(3):105.
[3]孫杰,吳曉文.信息化手段下海洋檔案信息資源的整合與共享[J].檔案與建設.2016(7):22-24.
作者簡介
吳曉文,女,漢族,山東,國家海洋局東海信息中心,工程師,研究生,主要從事海洋檔案管理、數據挖掘方向。endprint