劉建國
(北京經濟管理職業學院 北京 102602)
無論對于國家還是企業而言檔案都是一種重要的資源。作為一種原生性信息資源,檔案既記錄了事務的發展歷程,又能夠對未來的規劃決策具有指導和借鑒意義。在大數據時代,檔案數據量飛速增長,并且檔案數據的種類不再僅限于文字檔案,更多的是圖片、音頻、視頻等數字化格式的資料,檔案資料媒介格式的發展必然對檔案管理模式和應用模式提出更高的要求。
檔案數據不一致主要是關聯數據存在矛盾造成的,它形成的原因之一是檔案數據形成的過程中,由于數據采集和登錄過程中未按照要求登錄或者數據要求不明確,造成檔案數據不符合邏輯或者不完善甚至出現的檔案之間相互矛盾。另外,關聯檔案數據沒有同步更新,造成同一個數據在不同存儲位置出現不一致(不排除人為因素)也是問題產生的誘因之一。高質量的檔案需要具有嚴肅性和權威性,檔案數據的不一致影響了檔案在實際應用中的價值和意義。
檔案存在的最終目的是應用,是為國家建設、企業發展和個人證明服務。但是,檔案形成一般沒有為檔案的最終應用做好準備,而只是把檔案安全存放[1]。不能及時提供部門或者個人需要的相關檔案。另外,檔案管理部門更加關注檔案的存儲,對于主動應用檔案進行研究或者進行展示的工作有明顯不足。
部分檔案由于種種原因存儲在不同單位或不同部門,存放位置上的檔案分離屬于物理性質的檔案孤島。另外,還存在邏輯性質的檔案孤島,檔案數據雖然屬于共享數據,但是不同部門對于同一檔案數據的定義和理解存在差異,描述同一主題的數據被賦予了不同的含義[2]。兩種性質的檔案數據孤島造成檔案的憑據作用和參考依據作用明顯降低。孤島問題對職能部門開展業務工作也會產生消極影響,主要體現在應用過程中出現相悖的結論,降低檔案應用依據的價值。
一般對于紙質等有形的檔案擁有了比較完善的安全存儲和保管的方法,但是隨著數字技術得到廣泛應用,電子檔案和非電子檔案成為檔案的兩種共存形式,并且電子檔案逐漸取得了優勢,這種情況所帶來的是對檔案安全的新要求。不同于有形檔案的防霉變、防損壞等措施,對于電子檔案要考慮存儲介質、訪問的安全性等問題。另外,電子檔案的有效性需要進一步加強,對于有形檔案在入檔前已經經過審核,其有效性得到了認可,電子檔案在這方面需要進行提升。
隨著數字技術的發展,檔案數字化是一種必然趨勢。一項重要的工作就是有形檔案的數字化,其中文獻檔案的數字化包括文獻檔案的拍照保存及文字內容的提取等方面,通過數字技術與模式識別技術,這部分工作已經能夠在電腦輔助下完成。圖片、錄音、膠片檔案數字化也是一項緊迫的任務,由于這部分檔案的介質存放有一定要求和年限,對這些檔案的數字化能夠最大限度地保存歷史原貌,在數字化的過程中還需要對這些檔案修復,即去除錄音檔案中的雜音,以及完成對膠片劃痕的修復和聲音的修復等工作[3]。有形檔案的數字化是在大數據環境下應用這些檔案的基礎,也是對原始檔案存儲和應用的一種必然方式。
檔案數字化必須建立相應的完善的標準體系,明確檔案數據的采集、清洗、存儲的標準,建立明確的檔案從產生、存儲、遷移、應用至廢除的生存周期。由于用于數字檔案存儲的設備和載體不斷更新,數據存儲格式也不盡相同,檔案容易出現在一種環境下應用出現不兼容的問題。標準體系建設不僅要包括檔案本身的管理標準,也包括用于存儲和應用的硬件和軟件介質的管理標準,以及檔案管理人員的操作檔案設備、檔案處理流程的相關標準。關鍵工作就是保證文檔格式的一致性、檔案管理規范的一致性,實現數字檔案的高可靠性和高可用性。
大數據技術的重要意義在于由數據的有限抽樣分析轉變為對全部數據的分析,避免抽樣過程中數據提取造成的偏差,從而提高分析的客觀性[4]。
大數據算法中的聚類算法可以根據檔案的相似性把檔案歸入同一個類別。根據分類設計可以把檔案分為不同的幾個類別,不同的計算方法可以得到不同的檔案分類結果。一般情況下,聚類算法易于理解也易于實現,適合檔案管理人員用來借助進行檔案數據分類。應用聚類算法需要預先進行數據清洗,數據清洗不完善會造成分類結果不理想;在聚類過程中會剩余少量噪聲數據或孤立點,這些偏離分類的數據需要進一步分析,探尋孤立點背后隱藏的信息。
借助關聯算法可以通過檔案進行預測性分析,主要應用于檔案的不同數據集之間可能被忽略的相關的細節信息,發現規律性的關聯模式。模式中的數據關系邏輯意義上的因果關系可能尚不明確,只是不同數據集之間有一定的依賴程度,發現的模式需要進一步分析和解釋。當然,也可以根據對檔案數據的設想進行關聯挖掘,用挖掘結果證明設想是否成立。
檔案的一項重要功能就是為決策提供依據,通過決策樹算法可以應用檔案數據為決策的分支提供定量和定性的分析支持。決策樹算法實際上就是一種是或否的路徑方案選擇,在方案選擇上選取最有利或權重最大的路徑。決策樹算法產生的決策基于數據的量化分析結果,更具有科學性和客觀性。應用檔案資源的決策樹分析是提出的具有參考性的建設性方案。
應用大數據挖掘算法處理檔案數據實際上是一種知識發現的過程,挖掘算法還包括趨勢分析、文本挖掘等,作為檔案管理者應該針對不同的需求應用不同的算法進行挖掘,挖掘結果要摒棄繁復細節,突出簡潔高效,并適當對結果進行解釋。
檔案資源的可視化能夠給用戶帶來更良好的體驗。明確一個檔案展示的主題,通過分析展示的對象、展示的內容、展示的講述者等問題,讓檔案敘述的故事更直觀和生動。檔案數據的可視化是把檔案數據的每一項數據作為單獨的圖形元素進行展示,多個數據項就是檔案數據多維度的表示,幫助用戶掌握直觀信息、發現問題、探尋答案、作出決策。
數據可視化的工作重點是明確數據集和選擇圖表。根據主題確定的數據集是可視化的基礎,必須選取有代表性的數據并進一步提煉。數據之間的不同關系決定采用不同的圖表。折線圖展示一類數據隨另一類數據改變而相應變化的趨勢;柱狀圖應用于離散的檔案數據,用于說明不同類別之間的比較;散點圖適合表示檔案的兩種數據的相關性及兩個數據變量可能的函數關系;餅狀圖適合表示一組數據在整個數據和中的占比等。檔案數據的可視化以設計理念為先導,選取最合適的形式表現數據的內涵信息。數據可視化的目的是幫助理解數據,在圖表、顏色搭配等應選擇對數據分析、應用最直觀和最有效的方式。
檔案數據具有共享性和分散性兩個特征,分散性的特征影響了檔案共享性,檔案使用者不能及時獲得完整的檔案信息[5]。為增加檔案數據的可用性,以大數據技術為基礎的平臺是必然的選擇。建立交互式的檔案信息服務平臺,實現分散信息的有效整合,對檔案數據深入挖掘,及時提供時事熱點的背景檔案信息。數字化平臺兼具檔案查詢、檔案展示、文化傳播的多重功能。以大數據技術為基礎的數字化平臺需要及時維護和更新,保持平臺的吸引力和新鮮度。大數據平臺的架構以數據庫為后臺,以網頁為前臺,屬于動態網站訪問模式。通過統一的平臺界面,不同的用戶根據平臺注冊信息擁有自己不同的訪問界面,可以通過自己獨立的平臺界面查詢檔案信息,并且在平臺得到查詢的反饋結果。根據權限用戶獲得瀏覽、下載、打印等服務功能。平臺的建設必須做到界面友好,方便用戶的訪問,同時注意保護用戶的信息。大數據平臺是檔案信息的一個窗口,也是提高檔案服務性的必要手段。需要建立規范的管理流程,以更好地發揮服務作用。平臺建設完成不是檔案管理的終點,而是檔案管理的新起點,需要專門的負責人進行維護和完善[6]。
檔案安全是檔案管理最重要的工作,檔案管理應用大數據技術,安全工作需要進一步加強。首先檔案的數字化信息在訪問、遷移、使用中必須保持其權威性、可靠性和可信任性[7]。所有的訪問必須經過授權和認證,防止接觸檔案過程中泄露和篡改信息;做好檔案的分級管理,不同級別訪問的權限也不相同,保證只有最高權限用戶訪問核心的檔案信息。在數字檔案遷移中做好數字加密工作,保護隱秘信息不被泄露,保證應用過程中的真實性。同時,可以應用時間戳記錄檔案從起點到終點的遷移軌跡,保證檔案遷移每一個環節的可追溯。其次,做好存儲載體的安全,根據載體的使用期限、兼容性及存取特性,開展合理的檔案數據載體的管理和更新。再次,非數字化檔案現在已經基本實現了條碼管理,通過條碼可以對非數字化檔案的基本信息做到數字化管理。在管理過程中,應該實現檔案基本信息提取的內容和格式的標準化、規范化,保證非數字檔案信息完整、準確地反映在數字化存儲中。非數字化檔案的更新需要及時地更新數字化檔案內容,這是人工參與的過程與數字化信息自動處理的過程相結合,往往由于人工的疏忽沒有對數字化存儲的基本信息進行同步更新,造成檔案查找及應用的困難。因此,必須堅持規范操作,避免信息不一致的發生,建立完備的檔案數據管理的規范制度,保證管理制度的貫徹和執行。
數據檔案的大數據人才屬于復合型人才,既具備檔案數據管理的理論和技能,又具備大數據技術的應用能力。根據一般檔案管理經驗,應該是加強數據檔案管理人員的大數據技術技能,管理人員更熟悉檔案數據的管理流程和應用領域,但是缺乏應用大數據技術管理檔案的技能。培訓管理人員使用大數據工具管理檔案更具有針對性、時效性,能夠帶著檔案管理中的問題去學習,在學習中提升工作效率,改善工作效果。當然,也需要大數據專業人才深入檔案管理一線服務。掌握大數據技術的檔案管理人員容易與大數據專業人才進行有效的溝通,大數據專業人才有效地理解檔案管理的具體需求和困難,專業知識才會在檔案管理中發揮作用。
檔案數字化發展不意味著非數字化檔案的消失。紙質檔案、視頻膠片、聲音磁帶等有形檔案有一項數字檔案不可比擬的優勢就是它們的歷史性和原始性,是可以觸摸的歷史,在研究和考證歷史方面具有重要意義。發展數字檔案不是摒棄非數字的傳統檔案,而是應用現代的科技手段實現傳統檔案的數字化應用和展示,讓傳統檔案在新時代繼續發揮作用。數字檔案和傳統檔案的共存可以相互印證和相互促進,合理利用兩種檔案并進行有效地管理,才能實現檔案工作的合理展開。
檔案管理的數字化及大數據的應用帶來了用戶訪問和應用檔案的便利,尤其是大數據技術具有的數據挖掘分析功能,為揭示檔案數據尚未發現的信息提供了方便。在實際應用過程中,必須注意大數據算法的應用安全,避免形成對算法的過度依賴。算法本身的安全性需要海量的數據集進行測試,避免使用具有傾向性的數據進行檢測,并且應用前需要在模擬的檔案處理環境中進行充分驗證,在實際應用中對算法產生的結果進行充分分析。算法產生的結果是否揭示了檔案信息真實的內涵,必須經過人工分析和審核以確定算法產生結果的合理性和有效性。同時,需要避免算法的自動化對用戶使用檔案的心理產生不必要的干預,算法本身是為用戶服務和使用的,而不是誘導性地暗示用戶進行某一種檔案的使用行為。檔案管理人員和用戶對算法的理解很重要,知道算法采用的基本理論,能夠明確應用算法處理某一類數據是否合理及符合要求。對算法的理解不是理解算法本身的語句,而是理解算法的功能,這是管理人員和用戶判斷算法是否合適應用的基礎。便捷性不應以犧牲安全性為代價,算法應用是實現以安全為基礎的檔案管理的便利。
大數據技術對檔案管理效率和效果的提升提供了支持,也使檔案得到更充分、更合理的應用。信息數字化是社會管理的必然趨勢,檔案管理應用數字技術、大數據技術以至于人工智能技術適應了數字化發展的客觀規律。由于硬件升級和軟件應用中尚需要進一步的整合,在推進檔案管理數字化進程中,要克服一蹴而就、一勞永逸的觀念,循序漸進地推動檔案管理工作建設,邊推進,邊使用,敢于嘗試,勇于接受新技術、新觀念,采用多種方法改進檔案管理,更好地服務社會、服務大眾。