賀冰花
【摘要】高校檔案機構應用大數據探索新的工作模式是現階段的研究熱點,文章根據高校檔案數據的特點分析其與大數據間的矛盾,指出高校檔案工作在大數據背景下不宜盲目跟風,需保持理性,從容應對。
【關鍵詞】大數據;高校檔案;數字化
“大數據”和“大數據時代”概念提出后,以“BAT”三大網絡巨頭為首的強大基礎上得以快速的發展,不管是云計算、社交網絡,還是物聯網、移動互聯網和智慧城市,要全面應用大數據,不僅給其他IT業以及大中小型企業帶來了嚴重的沖擊與挑戰,對政府與學術界亦影響深遠,同樣給檔案信息化工作帶來了新理念、新技術,也帶來了新的機遇與挑戰。那么,大數據背景下,高校檔案發展方向,如何迎接新的機遇與挑戰,我們檔案工作者需深入探討。
一、大數據在檔案工作中的發展現狀
以“大數據”和“檔案”為主題在中國知網上進行檢索時,從2012年到2019年,共獲得4380篇相關文章,其中以2012年作者施永利的《大數據時代背景下的檔案利用服務探討》為先驅,2013年檢索到52篇,從2014年開始呈現爆發性增長的趨勢,檢索到219篇,2018年1153篇,截至2019年9月,已經有968篇。研究內容從大數據的概念、內涵及特點,到檔案數據挖掘、數字檔案建設、檔案大數據的產生、存儲、管理和應用等,以及檔案大數據的價值、檔案工作機遇與挑戰、服務方式轉變等,甚至包括大數據對檔案學科影響的分析,涉及內容廣泛。相關研究主要局限于宏觀層面的探討,缺乏系統分析和技術可行性研究,檔案機構和學術界也缺乏相應的法律、政策法規配套方面的系統論述和指引。
二、高校檔案與大數據間的矛盾分析
IT行業中大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產,其符合IBM提出的“5V”特點:大量(Volume)、高速(Velocity)、多樣(Variety)、低價值密度(Value)、真實(Veracity)。而高校檔案大數據與IT大數據有本質的區別,具體為以下幾點:
(一)高校檔案數據的滯后與IT大數據的高速相矛盾。高校檔案是學校從事教育事務而直接形成的歷史記錄,具體包括已經辦理完畢的文件和教學過程中形成的教學檔案,而非“實時”“在線”的數據;IT大數據強調數據的動態性、實時性以及數據高速增長,而非數據量上的“大”。可見,高校檔案數據雖然數量巨大,但與IT大數據的快速增長、動態采集、實時獲取等性質相差甚遠,不可偷換概念。
(二)高校檔案的穩定性與IT大數據的多樣性相矛盾。高校檔案機構每年都要收集涵蓋高校一切活動的十一大類檔案,包括黨群、行政、教學、科研、產品、基建、設備、出版、外事、財會、人物等,信息資源穩定。檔案信息化建設主要是電子文件的歸檔和紙質檔案數字化的工作,形成的數據結構單一;而IT大數據的多樣化體現在數據結構的多樣化,包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分。
(三)高校檔案的憑證作用與IT大數據的低價值密度相矛盾。高校檔案機構在收集整理檔案的過程中嚴格把關,其資源信息具有真實性、原始性、關聯性等其他信息不可比擬的優勢。而IT大數據的數據量在不斷增加,無意義的冗余、垃圾數據也會越來越多,而且其增長的速度比數據信息更快,尋求的重要數據信息或客觀真理往往會被龐大數據所帶來的噪聲所淹沒。
三、大數據背景下高校檔案工作發展的對策
(一)保持理性,緊抓高校檔案的特點和任務。提供證據、給予公眾解惑是檔案的核心功能,高校檔案的利用者可按身份進行劃分,包括:學生及校友、教工、企業和專業機構。學生及校友對高校檔案利用并不頻繁,需求簡單,一般是遇到問題才會進行查詢,但是一旦有利用需求,必定與自身利益密切相關,所以他們對高校檔案信息服務的要求是能簡單、快速、高效地解決問題,并獲得滿意的服務。教工對高校檔案的查閱利用則非常專業,他們需要第一手的資料和原始數據,如基建人員需要學校建設招投標計劃書、方案、圖紙、施工報告、竣工驗收報告等專業資料;科研人員需要科研活動中形成的、有價值的文字材料、計算數據、實驗數據、圖紙、圖表、照片、聲像等全面、系統的數據資源進行分析研究;行政管理人員需要學校行政管理活動中形成的文件、資料、報告、批件、證書、圖片、聲像及電子檔案和榮譽實物等檔案材料。所以教工對檔案信息服務的要求是能夠提供豐富的檔案信息資源,并確保這些資源分類合理、全面系統,便于查找利用,且查詢到的資料具有真實性、系統性、有效性、完整性。企業和專業機構對高校檔案的查閱利用多為常規工作所需,他們只關注與其工作相關的信息,如對新入職員工的學歷學位資格審查、在校情況調查等。因此,他們對高校檔案信息服務的要求是能夠簡單、快捷地獲取真實、實用的資料供其參考。在大數據時代背景下,雖然高校用戶信息需求增加,但歸檔過程中對高校事務產生的大數據是有甄別的,只有真實可靠、具有保存價值的原始性、憑證性的信息才屬于歸檔范圍。因此,大數據技術并未對檔案的保存和應用造成翻天覆地的變化,不能因為數據多了,技術高了,就否定傳統的檔案管理方法。目前雖然數字檔案館已經如火如荼開展了幾年,但大多停留在對紙質檔案的電子掃描、目錄檢索查詢索引等輔助工作,對于專業的數據庫服務器、檔案管理系統、校內或校際檔案部門間交叉訪問等還存在著很多不足。我們應認識到這些不足,并通過軟硬件的建設,更加科學規范地管理檔案,建立起真正意義上的數字檔案,逐步向大數據檔案模式轉變。
(二)正確定位,勿盲目跟風。大數據應用于高校檔案是比較新的大膽的嘗試,面對高校檔案目前館藏結構單一、功能簡單、管理及推廣落后的現狀,高校檔案機構首先需要端正態度,充分認識到高校檔案應用大數據技術是為了提供更加優質、方便的服務,而不是為了跟風,一味追求新鮮事物。應用大數據技術、建立高校數字檔案需要軟硬件平臺的建設和專業化技術人員的支持與指導,不是一朝一夕能完成的簡單工作,需要打一場持久戰。一定要避免建立了軟硬件平臺之后,缺乏技術人員,疏于管理,久而久之變得無人管理,無人訪問。目前我國的檔案信息化建設中的技術類工作如軟硬件基礎設施、軟件系統開發、檔案數字化掃描等大多采用招標和外包的形式,檔案工作人員對于大數據的概念只停留在了解的層面。大數據技術目前是以“BAT”三個IT巨頭應用于商業預測與支持和交通領域的交通規劃管理,對于檔案大數據的研究和應用要理性認識、研究“怎么用”大數據技術實現檔案資源利用最大化的問題,而不是“大數據技術去實現檔案大數據”,切忌盲目跟風建設,緊盯著檔案數字化建設中數字資源總量的膨脹,而忽略大數據的本質特性。
(三)高校檔案館的發展策略。不可否認,大數據時代,網絡實時和動態數據使檔案數據迅速擴張,這些數據中隱含的信息稍縱即逝,因此,檔案歸檔范圍勢必擴大,如何實時鑒別捕獲有歸檔價值的電子文件,如何實現檔案數據實時、自動歸集將是我們首要關注的問題。另外,我們依然要大力發展檔案信息化建設,對于基礎性的工作依然要堅守前任留下的優秀的經驗和理論。只有擁有足夠的有價值的數據積累,才能為大數據的數據分析和數據挖掘提供基礎性的數據源,為檔案大數據的發展奠定基礎。檔案部門在新興技術方面不具有優勢,信息化專業人才缺失,建設水平不高,因此,檔案館的跨領域、跨機構、跨部門的合作非常重要,在信息技術和數字化建設方面可以與校內信息管理處合作建立牢固的技術支持,與軟件信息公司建立長短期合作,聘請專業技術人員指導大數據平臺的搭建,加強與其他高校檔案機構、檔案協會的聯動與合作,推動檔案信息資源的優化配置、成果共享。
四、結論
高校檔案信息化建設的過程中,在大數據技術的影響下,其工作模式和服務方式必然會發生變革和創新,如何抓住大數據技術快速發展的契機,創新檔案管理技術、提升高校檔案服務水平是我們面臨的新挑戰。在變革和創新的過程中,應正確定位,勿盲目跟風,削足適履,而是應該根據當前檔案數字化的程度,結合檔案信息的特點,在做好目前傳統工作和數字化工作的基礎上,適當拓展,以尋找適合自己發展的新路徑。
【參考文獻】
[1]于英香.檔案大數據研究熱的冷思考[J].檔案學通訊,2015(2):4-8.
[2]李進.大數據背景下的模式演變[J].新聞戰線,2014(4):68-70.
[3]程建設,段世剛,崔航,等.大數據平臺建設及其在媒體融合中的應用[J].中國報業,2015(5):84-85.
[4]藏萌.高校檔案OTO服務發展模式探究[J].檔案管理,2017(2):54.