方曉麗

引言
2019年年末新型冠狀病毒肺炎(以下簡稱“新型肺炎”)疫情在中國爆發,再次引起人們對突發公共衛生事件的關注。突發公共衛生事件是指突然發生,造成或者可能造成社會公眾健康嚴重損害的重大傳染病疫情、群體性不明原因疾病、重大食物和職業中毒以及其他嚴重影響公眾健康的事件[1]。在突發公共衛生事件(以下簡稱“突發事件”)中形成了大量的文字、聲像、電子等各種載體的檔案資源,真實記錄了社會各個行業、階層同疾病災害英勇抗爭的全過程,對于突發事件過程的回顧、經驗教訓的總結都有著極其重要的作用。建設檔案數據庫是比較常用的一種突發事件檔案管理方式。它能將傳統的紙質檔案信息轉化為數字化信息,即將檔案實現虛擬化,從而使檔案信息與實體相分離,從這個層面上來講就是將檔案信息更好地實現網絡共享,便于利用者進行復制、收集、整理以及利用,一定程度上促進了檔案事業的發展。
關于突發事件檔案數據庫的研究,蔡盈芳[2]、曹燕紅[3]、趙鑫強[4]、黃新榮[5]等人分別從數據庫的內容、功能、組織、建設策略等方面進行了相關探索。蔡盈芳對突發事件檔案專題數據庫的內容、建設步驟及利用方案進行了具體的探討。曹燕紅提出建立突發事件專題數據庫來解決同一突發事件檔案資料分散管理、利用不方便的問題,并對突發事件檔案專題數據庫的在線檢索功能進行分析。趙鑫強從用戶需求、平臺建設、信息安全、動態維護、建設標準等五個方面提出建立新型冠狀病毒疫情檔案專題數據庫的具體策略。黃新榮建議在進行專題數據庫的組織時對數據庫的數據進行分層:基礎層——原始數據、中間層——聚合加工數據、展示層——作品故事。與上述作者的思路不同,本文從大數據技術的角度出發構建突發事件檔案數據庫系統框架。
一、突發事件檔案數據庫概述
檔案數據庫是以檔案的本體管理為基礎,兼顧數據庫設計和應用發展的需要,將包括檔案實體信息、管理信息、應用環境信息在內的各種類型數據按照特定數據模型進行組織的數據集合[6]。突發事件檔案數據庫則是將在突發事件過程中直接形成的,具有保存價值的文字、圖像、聲像、影像等不同載體和形態的原始數據按照特定數據模型進行整合的數據集合,實現突發事件檔案資源在不同專業領域、基層檔案部門的資源匯集,并為突發事件檔案資源在全國范圍內的有效整合提供可能。
突發事件檔案數據庫的建設應具有特色性、安全性、可擴展性和服務性。其中,特色性是指在建設突發事件檔案數據庫過程中,要緊緊圍繞突發事件開展工作,精準選材,要充分考慮到突發事件檔案的作用和用戶的利用需求,突出數據庫的特色,避免盲目性;安全性是指突發事件檔案數據庫的建設要以數據安全和系統安全為基本前提,保障突發事件檔案數據的安全和完整;可擴展性是指突發事件檔案數據庫在系統設計、功能延展、數據更新等方面預留一定的擴展和優化空間,提高數據庫的動態管理能力;服務性是指突發事件檔案數據庫應以實現突發事件檔案的社會價值、滿足公眾服務需求為重要導向,要確保界面友好、實用可靠、功能齊全,保證突發事件檔案的查全率和查準率,提升用戶的服務體驗。
二、突發事件檔案數據庫建設的意義
1.釋放檔案價值,支撐應對處置工作
突發事件檔案數據建設的目的之一就是實現一定區域或者全國范圍內突發事件檔案資源的優化整合,所謂整合就是將各個機構部門在突發公共衛生事件中形成的檔案資源進行優化選擇、整理、組合,使其一體化、系統化。突發事件檔案資源的整合利用可以使有關部門短時間、高效率開展應急管理工作,減少不必要的人員傷亡,降低國家經濟損失。比如,新冠肺炎疫情爆發后,10天建成的武漢火神山醫院就是在2003年北京小湯山醫院建設施工圖紙檔案的基礎上進行建設。此外,在疫情期間雷神山醫院的配套供電項目建設中,建設團隊利用2019年世界軍運會專題檔案中相關供電路徑圖等檔案資料,快速制定了供電方案,助力雷神山醫院以3天3夜的超快速度完成了配套供電工程建設任務;洪山體育館、武漢體育中心等被確定為“方艙醫院”的重點場所,也是通過查閱軍運會“一戶一案”電子檔案,借鑒其中的有益實踐經驗,為節約醫院改造時間、挽救病人生命創造了有利條件[7]。大數據時代,突發事件檔案資源跨主體、跨地區的整合利用不僅能夠及時充分釋放檔案價值,使相關部門短時間、高效率開展應對處置工作,減少不必要的人員傷亡,降低國家經濟損失,同時為今后突發事件的應對工作積累大量經驗,具有重要的參考和借鑒價值。
2.發揮檔案作用,正確引導社會輿論
面對突發事件,公眾只有及時獲得了權威可靠的信息,才能消除不必要的顧慮,更好配合政府的應急工作。在社交網絡平臺快速發展的今天,信息傳播十分便捷,各種或真或假的消息在網上網下傳播,給突發事件的應對工作帶來許多阻礙。在被繁雜信息轟炸的情況下,公眾需要來自專業機構、權威部門的系統完整、真實可靠的信息,幫助他們科學正確應對突發事件。譬如,擁有龐大用戶量的社交平臺——新浪微博在新冠肺炎疫情期間建立“抵制疫情謠言,助力科學防控”的微博辟謠話題,針對在微博上傳播的關于疫情的虛假信息進行澄清并私信推送給每位微博用戶,有利于減輕社會恐慌感。檔案作為人類活動中直接形成的原始記錄,其真實性、客觀性、原始性等特點符合公眾獲取信息的要求。安全管理檔案,保證檔案的原始性、真實性是檔案部門的職責所在。突發事件檔案數據的存在,可以有效實現突發事件檔案的提供利用工作,及時向有關部門提供真實的檔案資源,阻斷相關謠言的傳播,起到正確引導社會輿論的效果。
3.構建集體記憶,展示集體抗疫精神
檔案本身是不可再生的記憶資源,蘊含豐富的社會記憶[8]。突發公共衛生事件檔案資源包括醫護人員的請戰書,各地制作的宣傳橫幅、宣傳單,親歷者的日記、回憶錄,公眾在特殊時期的生活影像等等。這些檔案資源全面記錄了各省、市在突發事件中的應對處置工作及公眾的生活狀態,是特殊時期的重要記憶。對國家以及個人而言,突發事件都是十分重要、不能忘卻的集體記憶。檔案是建構集體記憶的不可替代要素,檔案工作是建構集體記憶的受控選擇機制,檔案工作者是建構集體記憶的能動主體[9]。此外,在應對突發公共衛生事件的過程中,從醫務工作者到人民子弟兵,從公安民警到基層干部,從志愿者到快遞人員……他們用行動展現了不怕犧牲、勇于擔當、甘于奉獻的抗疫精神,他們的英雄故事被檔案所記錄。構建突發事件檔案數據庫不僅可以極大豐富記憶資源,發揮檔案在構建集體記憶中的重要作用,同時公眾通過對記憶的深化和思考,被抗疫英雄的故事觸動和鼓舞,深刻感受和學習他們的抗疫精神,引發情感認同與共鳴,進一步增強民族凝聚力。
4.推動檔案開放,滿足公眾信息需求
大數據時代,隨著“數據開放”、“數據共享”成為社會討論熱點,公眾的信息需求也發生了變化。面對突發事件,公眾不僅想知道應對處置狀況、自我保護知識、國家相關政策等,還想獲得權威可靠、詳細全面、更新及時的數據。比如在新冠肺炎疫情期間,公眾最關注的就是國家衛生健康委員會等相關部門每天公布的肺炎疫情數據,即各省、市、區(縣)的確診病例、疑似病例等等。在“開放是原則、不開放是例外”的社會環境下,圍繞公眾迫切、多元的信息需求,依托信息技術,采用科學的方法,在保證不危害國家安全、個人隱私等情況下開放突發事件檔案數據,使公眾不受限制地獲取、再利用和再開發檔案數據,實現檔案數據供給側與需求側的直接對接,既能滿足公眾知情權,實現信息惠民,又能提升政府公信力,消除公眾恐慌,維護社會穩定。同時,公眾也可以根據自己的專業知識對開放數據進行深層次挖掘和利用,獲得的研究成果反過來可以幫助政府解決一些問題,節省資金和人力資源。當前,檔案部門需要及時建設突發事件檔案數據庫,提高突發事件應對能力,進一步推動檔案開放,滿足公眾信息需求,從而提高檔案公共服務水平。
三、突發事件檔案數據庫的系統框架
當前,人們對大數據已經形成基本共識:大數據源于互聯網及其延伸所帶來的無處不在的信息技術應用以及信息技術的不斷低成本化,具有海量性、多樣性、時效性及可變性等特征,需要可伸縮的計算體系結構以支持其存儲、處理和分析[10]。大數據時代,突發事件檔案數據價值的實現不再僅限于數據本身,而是擴展到數據組合;突發事件檔案的收集從被動的數據收集變為主動的數據采集;突發事件檔案的存儲管理從記錄管理變為海量數據集合存儲管理;突發事件檔案的提供利用服務從被動式滿足用戶查詢需求變為主動式服務提供,服務內容從查詢擴展到統計、建立平臺等多項內容?;诖髷祿夹g,筆者提出了突發事件檔案數據庫的系統框架,如圖1所示。
1.檔案數據采集層
大數據背景下,突發事件檔案數據的內容逐漸多元化,顆粒度更細,來源渠道呈現出復合化特點。當前,數據采集是實現突發事件檔案數據存儲管理的基礎。數據采集又稱數據獲取,是指從傳感器和其它待測設備等模擬和數字被測單元中自動采集信息的過程。數據采集技術包括數據源篩選與高質量數據采集、多源數據的有效識別和數據的詳細解析、數據自動清洗與修復、數據演化和對數據的溯源管理、數據加載技術、數據傳輸技術等。從技術層面來看,電子檔案的收集和對紙質檔案的數字化處理是檔案數據采集的主要途徑。
突發事件檔案資源不僅包括現代記錄設備產生的數字資源,還有大量的紙質文獻資源、實體資源以及存儲于縮微膠片、磁帶、錄像帶中的資源。前者的原始狀態為數字形態,按照一定的標準規范進行數據采集即可。對于后者,需要先進行資源的數字化轉型。一般而言,資源載體類型不同,數字化的方式也不一樣。針對紙質文獻資源,目前主要使用相應的掃描設備進行數字化,但對于著錄項的標注采用的是手工錄入的方式。對于實體資源可采用拍照、數字圖像處理等方式進行數字化,譬如,手稿檔案可利用類似于Carbo抓圖處理軟件的手寫信息數字化采集及識別軟件來進行數字化處理,圖紙檔案可采用圖形處理軟件以及工程制圖軟件(CAD制圖)對圖紙進行數字化處理[12]。存儲于縮微膠片、磁帶、錄像帶中資源的數字化處理方式主要利用模數轉換器等類似設備將模擬信號轉換為數字信號。完成突發事件檔案數字化工作后,即可按照預先設定的策略,選擇數據采集工具,開展數據采集工作,對數據信息展開有目的的收集,整合與突發事件相關的數據,為數據分析和應用打下基礎。
2.檔案數據存儲層
檔案數據存儲是實施突發事件檔案開發利用的首要條件。面對海量數據,突發事件檔案存儲需要解決容量擴充、容災備份以及數據安全等問題。目前,檔案數據存儲可采用Hadoop HDFS實現。HDFS的設計思想是將大文件、大批量文件分布式存放在大量服務器上,以便于采取分而治之的方式對海量數據進行運算分析。在大數據系統中可以為各類分布式運算框架提供數據存儲服務。HDFS可提供高吞吐量訪問應用程序的數據,適合突發事件檔案大數據集的應用系統,支持大文件存儲,同時滿足文本信息以及圖片、視頻等媒體信息的存儲需求[13]。
為了加強對突發事件檔案數據的安全存儲,系統可采用MD5算法以及數據湖技術、數據加密技術等。MD5算法的典型應用是對一段信息產生信息摘要,以防止被篡改。采用MD5算法對采集的檔案數據進行檢測,生成唯一的數字摘要用于數據校驗,保證存儲的有效數據不被篡改。數據湖是一種新型的數據存儲架構,通過原生格式對原始數據進行保存,能涵蓋各類結構化數據以及非結構化數據,在數據需要被使用的情況下可對數據進行處理[14]。數據加密技術可以將存儲在數據庫內的數據設立特定存儲空間,通過安全套接層協議層將數據加密處理,保護數據庫與其中的應用程序,既能實現突發事件檔案數據的高效流通和移動,又能夠保護所有隱私數據,為數據下載和上傳帶來防護功能,避免數據受到網絡攻擊[15]。
3.檔案數據應用層
突發事件檔案數據庫系統建立的目的就是檢索利用檔案數據。數據應用層包括數據挖掘、數據分析、數據可視化。數據挖掘技術可以從檔案專題數據庫中快速找到有用或者有價值的信息,在數據進行模糊表達或者數據呈現的含義不清時,還可以對數據進行深層次的剖析,以便完全掌握數據想要表達的內容。通俗的來講數據挖掘就是從數據中發現知識,將非凡的、隱含地、事先未知的、具有潛在用途的人們感興趣的模式或者知識從大規模的海量數據中抽取出來[16]。突發事件檔案資源具有內容復雜、類型多樣的特點,正好符合數據挖掘技術的應用條件。
數據分析是整個數據流程最為核心的部分。“相關性”分析是大數據技術重要的思維模式,通過對數據彼此關聯性的分析,能夠更清楚地看到隱藏在背后的看似不相關的數據之間彼此的密切聯系,使檔案數據挖掘從常規分析向廣度、深度分析轉變[17]。同時,用戶在突發事件檔案數據庫系統查詢檢索所需檔案時,利用“相關性”分析對檔案檢索情況、檢索記錄等進行分析,為檔案部門提供科學、合理的分析報告和預測報告,可以為改進數據庫系統的管理方法以及提高服務水平,提供前提條件和決策依據。
突發事件檔案數據庫系統中的數據呈現形式較為豐富多樣,其中很多是可視化數據,比如視頻、圖片等等。因此在提供數據檢索服務時,可以使用數據可視化工具,如WIDAS工具、Echarts2.0等,將檢索結果通過可視化的形式展現出來,給用戶提供更加全面、直觀的檢索結果,提高用戶體驗感。此外,在運用大數據進行數據檢索過程中,數據庫系統會自動對用戶的檢索行為進行追蹤記錄,其中必然會涉及一些用戶的個人信息。因此就必須運用隱私保護技術,對一些數據進行篩選和處理,避免在檢索結果中出現涉及用戶隱私的信息。
參考文獻:
[1] 中華人民共和國國務院.突發公共衛生事件應急條例[EB/OL].(2003-03-38)[2020-02-25].http://www.gov.cn/zhengce/content/2008-03/28/content_6399.htm.
[2] 蔡盈芳. 關于建立國家突發事件檔案專題數據庫的設想[N]. 中國檔案報,2020-02-20(003).
[3] 曹燕紅.突發事件檔案的收集與管理——以新型冠狀病毒肺炎突發事件檔案為例[J].黑龍江檔案,2020(04):32-33.
[4] 趙鑫強,方路.新型冠狀病毒疫情檔案專題數據庫建設初探[J].檔案管理,2020(05):56-57.
[5] 黃新榮,楊藝璇.從抗擊新冠病毒肺炎疫情檔案的收集看專題檔案的建設——基于國內31個省級檔案館的網絡調研[J].檔案與建設,2020(06):4-9.
[6] 錢毅.檔案數據庫的規范和質量控制[J].檔案學通訊,2007(05):53-56.
[7] 周峰.建立檔案應急服務機制? 支撐突發事件應對處置[N].中國檔案報,2020-03-16(003).
[8] 丁華東,張燕.論新媒體傳播與檔案記憶的意義再生產[J].檔案學通訊,2018(03):62-67.
[9] 徐擁軍.在戰“疫”中做一名有溫度的檔案工作者[N].中國檔案報,2020-02-13(003).
[10] 梅宏.大數據發展現狀與未來趨勢[J].交通運輸研究,2019(05):1-11.
[11][15] 王維,靳瑞霞,朱云峰.教育大數據開放和共享安全戰略研究[J].軟件,2020,41(01):121-124.
[12] 龐莉.手稿與圖紙檔案數字化過程比較研究[J].檔案與建設,2018(01):26-29+51.
[13] 楊菲菲.基于Hadoop的面向信管專業的數據分析與數據挖掘課程群的構建研究[J].電腦知識與技術,2018,14(28):95-97.
[14] 曾中原.新時期工程建設項目檔案數據采集與存儲對策研究[J].城建檔案,2019(06):88-89.
[16] 姚娜.大數據時代的數據挖掘技術與應用分析[J].電腦編程技巧與維護,2019(12):127-128+152.
[17] 張文元,張倩.大數據技術與檔案數據挖掘[J].檔案管理,2016(02):33-35.
作者單位:河北大學管理學院