孔媛媛 張舒 王愛


摘 要:不斷開發創新當前的檔案信息資源共享平臺,提升其數據處理能力,方能滿足龐大的檔案信息資源需求。文章從必要性方面對構建檔案信息服務體系進行了論述,并提出大數據背景下應該更多地采用多源異構檔案數據整合法,通過構建檔案信息服務體系,優化設計相關的方案。
關鍵詞:多源異構;檔案信息;服務體系;構建;優化
大數據是指互聯網、物聯網等現代網絡渠道在日常運營中生成、累積和廣泛收集產生的海量數據。而大數據時代是指在大數據的基礎上對信息進行存儲、提煉、智能處理和展示的信息爆炸時代[1]。大數據時代隨著新用戶的增多,加之信息資源使用頻率提升,檔案信息資源數據也呈指數級增長。對大規模檔案信息資源進行精確分析、有效管理、安全利用等,對于檔案管理部門是一大挑戰。以大數據來推動企業創新業務,實現檔案融合,構建新型檔案信息服務體系[2],達到智能化體系的發展階段,實現安全性和快捷性,這也是當前急需解決的問題。
1. 檔案信息服務需求增多
構建檔案信息服務體系,必須遵循“親民、公正”原則,更新服務理念,變革服務形式,從而提升檔案信息服務的用戶體驗。在大數據時代,提升檔案信息服務的質量和水平日漸成為檔案利用者迫切需求,檔案部門必須轉變服務理念,堅持用戶為中心。檔案館作為信息儲存的公共機構,一方面要提升硬件設施,另一方面要加強專業化人才的培訓,從而在檔案信息服務方面由提供信息向提供知識轉變。隨著大數據時代的發展,館藏資源更多地以服務大眾為出發點,要在新的社會背景下充分發揮出其原本價值,必須由被動服務轉向主動服務。不僅要提升信息服務質量,還要提高服務效率,檔案部門可以利用電視、網絡等各種渠道將公開信息公布給社會,以供公眾了解和使用。
2. 檔案數據的多源異構特征
公眾對于檔案信息的個性化需求改變了信息獲取方式,但原始的檔案數據收集工作還停留在紙質文檔和部分電子文檔的匯編和轉存階段。隨著大數據應用,大量的多媒體異構檔案數據應運而生。主要的數據來源如下:
一是物聯網盛行下的電郵數據、社交數據。其以文本居多,是重要的非結構化數據。這些電郵和社交數據是檔案數據的重要來源[3],具有重要的參考價值,但如何有效利用這些新型媒體數據將是檔案信息化過程中的一個難題。
二是在大數據基礎上產生的決策數據、統計報表。早期的檔案數據量有限,數據類型單一,普通的信息管理系統完全可以處理。隨著大數據盛行,檔案數據量呈指數級增長,大數據中蘊含了大量有價值的決策數據和統計報表,當企業需要進行重要決策時,這些數據都是重要的參考。因此有效利用和融合這些決策數據和統計報表對企業構建決策支持系統具有重要意義。
三是實現電子政務后出現的氣象環境、社會保障、食品安全等民生信息資源。隨著電子政務的發展,產生了一系列形式多樣的信息資源,這些信息資源涉及氣象、社保、食品等方方面面。這類民生數據資源對社會發展、提升民生事業的信息化水平具有重要的參考價值。
四是電商環境發展下產生的物流數據、訂單數據等。隨著電商事業蓬勃發展,如京東、淘寶、亞馬遜等電商平臺的盛行,產生了大量用戶交互數據、物流數據以及訂單數據等。這些電商數據為檔案管理和檔案研究提供了豐富的數據資源,保障了檔案數據的智能化與個性化分析。
檔案數據從不同維度出發可以有不同的分類形式:從文件格式上進行劃分,可以分為圖像、視頻、音頻、圖形和文本等;從數據形式上進行劃分,可以分為Web服務數據、關系型數據、數據包數據、接口數據等。這些不同格式、不同系統、不同來源的檔案數據從不同角度、不同粒度提供了大量可靠有用的信息,但目前最重要的是對信息進行有效利用,提高管理檔案信息的水平,這是構建一個功能完善、高效易用的檔案信息服務體系必須首要解決的底層問題。公眾要想公正地獲取資源,需要加強對多源異構檔案的信息化處理。融合多源異構檔案數據,設計一個合適的檔案體系架構,更加有利于多源數據檔案信息服務平臺的設計與研發,是當下檔案信息化建設的重要研究方向。
1. 異構檔案信息資源內涵
異構檔案信息資源是指由來自不同渠道、具有不同存儲格式、具有獨特數據特征的信息資源構成的數據集合。其主要的特點是具有異構性。這種異構性表現在以下五個方面:
一是計算機組成的異構。每臺計算機具有不同的物理特性,如指令系統不同等。這些物理特性決定了不同的存儲體系架構,因此不同的計算機具有不同的物理存儲結構,經典物理存儲結構包括順序存儲、索引存儲以及鏈接存儲等。
二是操作系統的異構。操作系統是用戶和硬件交流的媒介,具有作業管理、存儲管理、文件管理、設備管理等功能。處理來源于不同操作系統的數據,首先要考慮的就是如何將不同數據存儲形式的數據進行標準化和統一化。典型的操作系統包括ios、Windows、MacOS X等。
三是數據格式異構。不同的工具軟件和信息存儲平臺使用過程中會根據實際數據處理的特點選擇不同的數據模式,即不同的數據格式。數據格式的形式多樣,存儲和讀取不同格式數據的方式是不一樣的。比如常見的一些數據庫管理系統,包括SQL Server、DB2、DM、MY SQL等,這些數據庫管理系統使用二維表格存儲數據,因此被稱為關系型數據庫系統;還有一些文本數據,由于涉及讀寫操作,因此存儲為文件型數據會更合適,包括TXT、CXV、XLS等。
四是數據存儲地點異構。在一些大型檔案系統中,由于數據是分散在全國乃至全世界的,因此無法統一對數據進行集中存儲和管理。可以使用分布式技術對此類數據進行存儲,如各地醫保檔案都分別存儲在本地醫保局系統中。這時就需要使用分布式數據存儲的相關技術和原理。
五是數據邏輯模型異構。在維護大規模數據時,同一意義的數據具有不同的表達形式。由于目前各個企業都具有自己的人力資源管理平臺,每個平臺的底層數據存儲模型是不同的,會出現對同樣的信息采用不同的邏輯模型來存儲的現象,這樣就會導致信息合成時的數據不一致等問題,這也是實現多源異構數據融合面臨的重要問題。
2. 基于SVM的多源異構檔案數據融合方法
多源異構數據融合中,主流方法有神經網絡、深度學習、SVM等。針對檔案數據類別和分類層次較為固定的特點,選擇SVM模型進行數據的融合可以較好地完成模型的訓練,且分類精度較高,模型訓練誤差較小,有助于提升檔案信息服務體系構建的時效性。
SVM是由模式識別中廣義肖像算法(Generalized Portrait Algorithm)發展而來的分類器,其早期工作來自前蘇聯學者Vladimir N. Vapnik和Alexander Y. Lerner在1963年發表的研究 。兩位學者對廣義肖像算法進行了進一步討論并建立了硬邊距的線性SVM。它可以根據結構風險的最小化來設計新型機器學習理論。由于檔案數據具有海量性,目前已在多個領域有所應用,將SVM技術應用于檔案數據異構融合,從而避免維數災難現象的出現,在研究小樣本和小概率事件上有很大的優勢。SVM理論通過將輸入的向量用函數映射到一個高維的特征空間,從而實現最優分類超平面。結構如圖1所示。


多源異構的檔案數據是檔案信息服務體系最關鍵和最底層的部分,對其進行有效融合標準化是構建出適用性強、數據處理效率高的檔案信息服務體系的重要基礎。除底層數據的高效融合以外,在頂層架構設計上要考慮各個組件的交互方式,考慮組件間的無縫對接,以及新型檔案數據的可擴展性。需要從實際情況出發,以檔案數據處理流程的合法性、規范性、可操作性等方面作為評判標準,構建出一個底層結構穩健,頂層結構合理的檔案信息服務體系,從而實現檔案數據管理的長久方便利用。
1. 總體思路
在傳統管理模式下,檔案都是由各部門來收集,通過人工管理和標注檔案信息,對一些電子檔案數據進行檢索查詢。這樣的服務模式具有服務結構單一、數據處理效率低下的缺陷。在大數據時代,應利用大數據技術對海量的檔案信息進行數據實時、自動歸集的操作,利用云平臺來分析計算工作,實現檔案信息的管理。利用云平臺來架構檔案信息服務體系可以為使用者提供智能分析、實時發現與精準預測等功能,可以更有效地融合企業檔案并創造其潛在價值,實現個性化定制信息加工服務,滿足用戶對檔案數據的精準化和個性化需求。
2. 具體方案
檔案信息服務平臺建設應該從以下三個方面來開展,分別為數據庫模型、處理平臺、數據展示。
(1)數據庫模型
檔案信息服務體系結構應以水平和垂直的綜合模式來構建數據庫模型,從而滿足數據管理的智能化和自動化發展目標。水平模式保證了數據之間的模塊具有獨立互斥的特性,滿足數據庫設計的低耦合特性。垂直模式保證了下層模塊可以為上層模塊提供服務,而上層模塊可以調用底層模塊的功能,滿足了數據庫設計的高內聚特性。
(2)處理平臺
可用于開發檔案信息服務處理平臺的成熟軟件有Hadoop、Spark等,在企業檔案信息服務方面,當前主要采用的是文本分析、自然語言處理,再結合搜索引擎、多源異構數據采集等多種非結構化數據處理技術。可以通過Iterative Algorithms、Realtime Queries、MapReduce、Stream Processing 等數據處理模型來實現大數據平臺的開發。海貝(Hybase)大數據管理平臺可以用于管理企業的檔案信息服務。該平臺主要包括了大數據管理集成平臺、企業級檢索平臺和企業級NoSQL等常用功能模塊,并且該框架下的各個子模塊是可以定制和配制的,因此被稱為彈性可擴展的數據存儲檢索系統。這樣的多源異構數據倉庫能夠實現跨結構處理模式,比如能夠以結構化來處理非結構化數據,也能夠以非結構化來處理結構化數據。所以如何提高搜索引擎檢索模式的匹配速率,使得檔案數據管理平臺具有更強大的便捷性,提升數據應用可靠性、安全性和易用性是檔案信息服務體系架構平臺設計的主要目標。在技術領域,高度新型非結構大數據管理系統是一種非結構化的大數據應用處理平臺,其基礎為非結構化數據管理系統,并且通過與索引分片、多引擎機制、多副本機制、自然語言處理、Hadoop/HDFS 等技術融合,提升平臺處理數據的能力。
(3)數據展示
設計數據模型來存儲多源異構數據,通過處理平臺的設計實現了大數據平臺的開發問題,而后檔案數據需要經過一定的處理加工進行信息和數據的展示。數據展示主要包括了信息加工、電子文件歸檔、數字檔案館等環節。其中信息加工就是對信息進行二次組織,以滿足用戶檢索查詢等響應請求;電子文件存檔就是數據的存儲環節。平臺支持多種文件格式的讀取任務,并能實現將各類文件按類別進行分類存儲;數字檔案館可以實現對各類電子文檔進行查詢和智能檢索等服務,方便查詢者個性化查詢檔案數據,實現面向用戶的檔案數據檢索與展示服務。
檔案信息服務平臺不僅要從頂層設計上進行合理架構,設計出優化的數據庫模型,使用高效的大數據管理工具進行開發,而且要對平臺進行優化。主要包括使用用戶瀏覽器緩存、采用CDN技術的前端數據優化和針對數據庫中采用存儲過程的后臺數據優化。
1. 前端數據處理優化
檔案信息資源服務平臺的前端主要包括檔案信息檢索頁面、檔案信息管理和維護頁面、用戶管理頁面。由于前端是面向用戶的,所以其中對于檢索頁面的使用最為頻繁。針對檢索頁面的數據處理優化,可以將CSS、JavaScript進行壓縮存儲并將其功能頁面中的圖片進行合并。當用戶請求時,一次就可以完成CSS、JavaScript以及頁面樣式圖片的獲取。在檔案信息資源服務平臺上,將CSS、JS以及圖標這些靜態資源文件緩存在瀏覽器中,這樣可以提升平臺的訪問效率,當用戶進行資源請求時就可以直接讀取瀏覽器上的緩存內容,實現了以最短路徑實現資源訪問,從而加快了平臺的訪問速度,減輕了檔案信息資源服務平臺服務器的負載。
2. 后臺數據處理優化
不同于前端數據優化方案,后臺數據方案要從如何減少數據訪問量、提高存儲的安全性以及如何提高查詢效率等方面著手。因此后臺數據處理優化主要采用以下方式:
首先,減少檔案信息資源服務平臺檔案檢索頁面中數據來回訪問的數據量,設計詳細的檔案檢索條件并提交到后臺進行數據檢索,數據庫檢索成功后將結果返回給用戶,通過該方式極大地提升系統檢索的性能,并且減少數據訪問量。
其次,為了減少前后臺的數據交互,可以采用存儲過程技術實現將過程數據處理邏輯封裝到存儲過程中,這樣就不會出現網絡重復的數據交互,減少數據交互頻率。當檔案檢索過程中涉及復雜的數據提取時,此方法非常有效,因為此時檔案數據可以通過存儲過程處理并統一反饋給用戶。并且由于存儲過程采用參數的方式傳入檢索請求信息,不僅可以提升瀏覽器的檢索性能,還極大地提升了平臺的安全性。
最后,為提高檢索效率,可以采用索引技術。在檔案信息最頻繁使用的檢索點上創建索引,確保訪問檢索信息的快速性。索引的創建大大提升了查詢效率,但也會引入一些不利因素。比如對檔案數據進行增刪或者修改表中數據時,也需要同步更新索引文件,因此對于頻繁需要更新的檔案數據應盡量避免使用索引,減少信息變動帶來其他功能問題。
檔案信息化建設是時代發展的趨勢,檔案工作也要適應當前的大環境,滿足新時代發展的需要。大數據背景下檔案信息服務平臺的建設也要滿足新技術、新時代的要求。將計算機學科與檔案學科有效融合,提升信息管理效率,推動智慧檔案建設工作順利進行。
注釋與參考文獻
[1]曹筠慧,管先海,孫洋洋.基于大數據時代的檔案價值及其開發利用探究[J].檔案管理,2017(1):27-29.
[2]郭立.基于信息服務生態系統的社區檔案管理研究[J].山西檔案,2018(3):137-139.
[3]魏扣,李子林, 郝琦. 社交媒體應用于檔案知識服務的SWOT分析[J].檔案學研究, 2019(1):71-76.