文·李燕 耿麗 劉亞娟
大數據是數據科學的一個分支,是數據、技術和應用三者的統一體。2015年8月,國務院印發《促進大數據發展行動綱要》,系統部署了大數據發展工作。《綱要》提出,要加強頂層設計和統籌協調,大力推動政府信息系統和公共數據互聯開放共享,加快政府信息平臺整合,消除信息孤島,完善法規制度和標準體系,科學規范利用大數據,切實保障數據安全。因此,對于高校來說,采集大數據、研究大數據、應用大數據,實現大數據時代推動教育模式、人才培養模式、決策模式等多方面的創新,具有非常重要的意義。
大數據時代給我們的是一種全新的思維方式,大數據思維方式包含三層意思,簡單地說,就是更多、更亂、關聯。
為了從海量數據中獲取隱含在其中的有用信息和知識,首先需要獲得大量數據,因此,進行數據采集是首要的。但是采集的海量的原始數據中,存在著大量雜亂的、重復的、不完整的數據,嚴重影響到獲取知識的執行效率,有可能導致結果的偏差,特別是目前開放的信息資源沒有實現集成,信息結構不統一,數據不系統、不完整、不共享。更為嚴重的是沒有形成一個統一的能夠描述數字資源的格式規范和建設基礎數據庫的標準方法、資源的整合、組織與存儲的技術方案和行之有效的建設思路;另外,還由于建設基礎數據庫的關鍵技術(如海量、非結構化的數據存儲解決方案)、基于知識管理的數據倉庫和數據挖掘等技術尚未得到廣泛應用,大大降低了大數據庫建設的速度和質量,致使各類信息資源難以形成一個統一的資源庫整體,限制了大數據的深層次挖掘和廣泛利用。因此建立大數據采集方案、確立采集范圍是非常有必要的。
檔案信息數據是大數據系統不可或缺的重要組成部分。隨著當今社會步入大數據時代,大數據與檔案工作已逐漸融為一體、密不可分。美國檔案學者杰拉爾德?漢姆先生曾指出:檔案應該記載“人類生活的方方面面”,要“創造一個反映普通百姓生活喜好、需求的全新的文獻材料世界”,檔案館藏是反應“人類生活的廣闊領地”。由此可見,實現檔案信息資源的集成化管理和共享化利用是檔案貼近公眾、服務社會的最佳解決方案。檔案資源惟有回歸社會,得到最大限度的利用,才能體現檔案保管的價值和作用。因此,在開展大數據建設的過程中,首先應當利用高質量的檔案基礎數據庫,充分利用數據挖掘、數據分析工具提供快速檢索與服務,實現檔案信息資源的社會化共享,真正體現檔案保存的價值與意義。
目前,我國大數據發展的核心挑戰體現為三個關鍵詞,共享、開放和安全,這也是《促進大數據發展行動綱要》的三大著力點。充分利用現有企業、政府數據資源和設施平臺,統籌建立低成本、高效率的大數據基礎設施和區域性、行業性、數據匯集平臺,避免盲目建設和重復投資,注重對現有傳統數據中心及服務資源的綜合改造和利用,避免造成損失浪費。
大數據采集是一個長期的、復雜的系統化工程,包括各類標準規范的制定、信息的組織與存儲、資源的整合與集成、數據存儲服務器和提供數據檢索服務的軟硬件平臺的建設、開展基礎數據庫建設的組織與團隊及其長效服務機制的形成。其中,標準規范與數字資源的滾動建設則是最基本也是最重要的內容,完整、系統、準確、及時、安全是大數據收集的基礎性工作,因此,必須做到以下幾點。
(一)真實準確。指對數據的內容、結構和背景信息進行鑒定后,確認其與形成時的原始狀況一致。所有數據要實事求是,保持數據原始性,確保準確無誤,禁止出現任何的夸大、縮小或扭曲等現象。
(二)齊全完整。指數據內容、結構、背景信息和元數據等無缺損。完整性要求數據的覆蓋面要全面齊全,涉及的內容要廣泛深入,禁止出現殘缺短少,漏報少報、掛一漏萬的現象。
(三)系統規范。系統性要求數據采集標準口徑統一,數據之間保持有機聯系、前后呼應,禁止出現貪多求全、不計標準地零亂堆砌、濫收亂報現象。
(四)及時迅速。指數據即時更新、問題數據及時糾正或重新上報,數據及時更新至指定時間并做好必要的日志記錄。及時性要求各單位各部門相關人員要按照數據采集時間進度要求,克服工作頭緒多、事務忙的矛盾,及時完成數據的收集、整理,不得出現延誤現象。
(五)安全可靠。安全性要求既要保證各類數據的實體安全和密級安全,力求不受損失、不失密,又要保證各類數據保存、傳輸使用中的安全,免遭意外破損。
首先,根據大數據采集方案的基本原則與要求,以檔案館“歸檔范圍表”為基礎建立大數據采集方案是行之有效的方法。“歸檔范圍表”的內容是根據各歸檔部門的職責和任務制定的,涵蓋了本單位的所有工作活動中產生的具有參考價值的、各類載體的原始記錄。“歸檔范圍表”是檔案館收集檔案的依據性文件,而且是根據長期的檔案管理工作中所積累的大量的數據資源和先進的管理經驗形成的,為數據采集方案的制定打下了堅實的基礎。
其次,根據檔案工作規范制定大數據采集的業務規范和制度,明確接收數字化信息和開展館藏檔案數字化加工的工作要求。主要包括數字化檔案的收集、歸檔、移交、接收的工作制度和內容、范圍、方式、方法及安全保障的要求;開展館藏數字化加工的全過程工作方法、安全制度、保密措施、人員要求等;大數據的滾動建設與完善制度和工作要求。各單位各部門主要負責人是檔案工作的第一責任人,也應該作為本單位數據采集工作的第一責任人,要把數據采集與檔案工作同時列入議事日程。立卷單位的兼職檔案員同時具體負責本單位的數據采集工作,嚴格按照“四同步”管理原則,切實執行“三納入”工作制度,加強規范化管理,強化基礎業務建設,提升大數據采集工作水平。
大數據采集其實是一個集成化過程,就是將工作中各階段、各層次相關聯的數據協調起來,實現信息流和業務流的不間斷連續運行。而在檔案管理中,檔案從形成、整理、移交、保管到最終被利用,跨越了多個階段、多個單位和部門,每個階段和每個部門都包括多項業務,各個階段的各項業務之間都存在信息和流程的集成問題。因此,基于“歸檔范圍表”的大數據采集方案可以實現所有單位與部門在同一系統中完成數據資源的采集工作。
總之,以“歸檔范圍表”為基礎建立大數據采集方案,可以對包括學校檔案資料數據在內的各類數據信息的收集保管和開發利用具有重要意義。最重要的是,大數據工作利用檔案管理基礎開展工作,可以更快更好地提高師生重視程度,完善管理手段,加大宣傳力度;補充數據的總量,暢通采集途徑;完善數據平臺,實現數據共享,優化開發利用效果,加快推進覆蓋全校師生員工的大數據建設,更好地為高校建設發展和廣大師生的教學科研服務。
●
[1] 國務院.促進大數據發展行動綱要,國發〔2015〕50 號
[2] 溫孚江.大數據農業[M]. 北京:中國農業出版社,2015.
[3] 薛四新.檔案館信息化與檔案管理變革[M].北京:機械工業出版社,2008.
[4] 雷昌玲.新時期高校檔案歸檔范圍與保管期限表編制問題研究[J].云南檔案,2010(9).