藺文卓
摘 要:長期以來,檔案的編研工作尤其是歷史檔案部分的編研工作信息量大、難出成果,一直成為檔案編研工作的難點。與整個檔案工作相比相對滯后。目前信息化、數據化時代的到來,為歷史檔案編研工作帶來了全新的機遇。筆者從數據化的本質出發,將數據化引入到檔案編研工作中來,提出了建立歷史檔案數據庫,運用數據化、數據追蹤、智能分析等手段開展歷史檔案編研的全新路徑。
關鍵詞:歷史檔案;編研滯后;運用智能;全新途徑
DOI:10.12249/j.issn.1005-4669.2020.26.079
歷史檔案一般是指明清以來,直至中華人民共和國新中國成立前所形成的具有保存價值的檔案。它反映了我國近6百年的發展歷史,由于歷史時段長、資料數量大,人們在歷史檔案編研時,總是在浩如煙海的歷史資料中,耗時、耗人、耗材的苦苦搜尋,在歷經幾多艱難后,方能查到一些有價值的資料。這種傳統的資料查找和檔案利用方式已嚴重制約了歷史檔案的編研工作。所以為破解這一難題,為檔案的編研工作探尋更便捷的工作方式,筆者從數據化的入手,重新審視歷史檔案編研工作,提出了基于數據化,采用挖掘技術,建立數據化追溯數據庫,實現檔案資料文本、片段數據化等方法,打開服務編研工作的新路徑。
1 歷史檔案編研現狀
目前我國檔案管理機構已經普遍開展了檔案數字化工作,并且實現了部分歷史檔案的數字化。但是,數字化工作的有效開展,并不意味著編研工作進入了快車道,因為從遼寧省縣級以上檔案管理機構看,大多檔案數字化只是將原有的檔案實現了全文掃描,只是形成了一張具有編號、目錄,而且是計算機編目下的圖片,只能實現在知道本頁基本信息的情況下的一種基本調閱。還沒有開展運用數據化技術。所以我們很有必要掌握,運用數據化技術,推進檔案編研工作發展的速度。檔案數據化是指,將檔案信息化轉化為計算機可以閱讀的檔案信息資源的過程,并實現計算機自動分析、理解和處置檔案信息,將利用檔案的途徑由“頁面閱讀”轉變為“內容控制”“信息開發”,并可以進一步轉化為可制表分析的數據態檔案。就是說簡單的圖片模式的數字化不是數據化,只有可智能識讀、可分析的數據信息,才是真正意義上的數據化。也就是說目前各個檔案機大多數沒有進行歷史檔案編研數據化工作。
2 實現歷史檔案數據化編研的新路徑
1)建立可追溯檔案數據庫。實現歷史檔案的數字化,是進行數據化編研的首要條件。根據實際工作與研究預測,只有在實現了全文數字化之后,才能建立以數字化為基礎的全文數據化數據庫。這就需要我們以數字化為基礎,建立歷史檔案數據庫,這是實現檔案數據化編研的第一步。對于歷史檔案的數字化圖片,只要將其圖像承載的內容進行著錄并輸入計算機,并按照一定的編碼規律歸類,并利用OCR技術對圖片中的文字加以識別,轉變為數字化的可處理的格式,從而實現歷史檔案從數字化到數據化的根本轉變。
2)采用挖掘技術,實現文字片段的數據追蹤。文字片段的數據追蹤,是數字化的終極目標。因為在數字化階段,雖然我們的存量檔案已經存入了電腦,但是在數字化圖片模式下,計算機對其是不能識讀的。當利用者要查找某一內容時,當輸入關鍵字后,計算機并不會將相關的文字片段全部呈現在屏幕上。只有當你知道它在那本書上,這種檢索才是準確有效的。正如黃強在《數字化與數據化》(見《住宅與房地產》2020年5期)一文中指出的那樣,只有采用“能識別數字圖像的光學字符識別軟件來識別文本的字、詞、句和段落,如此一來,書頁的數字化圖像就轉化成了數據化文本。通過檢索和查詢,我們可以對它進行無窮無盡的文本分析;也可以揭示一個詞以及詞組第一次出現的時間及其成為流行詞的時間,據此發現幾百年來人類思維發展和思想傳播的軌跡。”對于歷史檔案編研工作而言,多年來,檔案工作者都是采用人工翻閱的模式開展編研工作,每篇文章、每部作品的出爐,由于資料的查找難度大,總要花費幾個月甚至幾年的時間。如果歷史檔案全部實現數據化,要想開展某個專項的研究,只要在計算機的搜索欄里輸入關鍵詞或某個文本片段,文獻中關于這方面的內容就會全部顯示在屏幕上。這樣,我們查找資料就不再難了,編研工作也就輕松了許多,同時會節約大量的人力、物力。
3)建立智慧數據模型和流程模型。智慧檔案館建設的核心是建設以數據為核心,以數據化為根本的檔案資源體系和網絡運行體系。在大數據時代,只有加強這兩個模型的建設,才能更加有效地發揮檔案的利用效果,才能使利用的社會化和最大化成為現實。這兩個模型的建立,將使國家檔案局原局長關于數字化的“圖片轉化為電腦可以識讀的字,變成電腦可以任意檢索的數據,讓它和其他的大數據一樣,進入到大數據系統,可以任意檢索、主動的推送、深度的挖掘,變成人工智慧、人的外腦” 的規劃藍圖變為現實。為了實現上述目標,作為檔案工作者,在進行歷史檔案管理的過程中,就是要實現五個智慧——智慧數據導入、智慧識讀、智慧檢索、智慧文本字句段利用、智慧整理數據。
4)以數據列表追溯歷史淵源。對跨度較大且在歷史上曾多次發生的事件的產生、發展和演變的歷史進程的研究,一直是困擾檔案編研人員的瓶頸,使得人們對某一事件的認識始終不能完全徹底。隨著大數據和檔案數據化時代的到來,困擾人類幾百年甚至上千年的難題將迎刃而解。在歷史檔案全面實現數據化之后,如果我們想了解明清至1949年的580年間黃河決口和黃河遷移的歷史,只要手指輕輕一動,在計算機上輸入“黃河決口”之類的字段,關于黃河的字、詞、句和段落等內容將全部顯示在屏幕上,只要我們對取得的數據進行全面的梳理,形成規律性的編研信息就完成了一次十分有意義的編研。
3 結束語
歷史檔案編研具有資料浩繁,工作難度大、出成果慢,是困擾檔案編研工作的歷史性難題。將數據化引入歷史檔案編研工作中,不失為破解這一難題的有效途徑。筆者通過數據化應用原理的分析,概括總結了歷史檔案數據化編研的實現路徑和優勢,提出了行之有效的辦法。雖然這一構想還處在理論探討階段,但我們深信,在數字技術不斷完善的未來,歷史檔案數據化編研將成為歷史的必然,而被檔案界所廣泛采用,并取得累累碩果。