張佳+冉虎+崔杰
[摘 要] 本文在探究了大數據時代下高校檔案面臨的問題及應對思路的基礎上提出一個高校電子檔案管理模型。模型將高校內各個系統和高校檔案云平臺作為數據源,利用數據挖掘與云存儲技術,支持檔案查詢、檔案推薦和檔案公開,有效解決了大數據時代檔案工作面臨的問題。
[關鍵詞] 大數據;高校;電子檔案;信息化
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 21. 067
[中圖分類號] G270.7;TP311.13 [文獻標識碼] A [文章編號] 1673 - 0194(2017)21- 0156- 03
0 引 言
高校電子檔案是指高校在日常事務、教學、科研等過程中形成的對國家和社會具有保存價值并歸檔保存的電子文件,和傳統的紙質檔案相比,電子檔案能夠有效地讓工作變得更加快捷、方便。大數據時代,信息化得到深入發展,高校電子檔案工作面臨許多挑戰,如何在大數據背景下管理電子檔案是一個值得研究的問題。
1 高校電子檔案工作面臨的問題
在大數據時代,高校師生對信息的需求更加多樣,而傳統的檔案提供模式已經不能有效滿足需求,高校電子檔案工作面臨著利用不充分、公開程度低、服務方式落后和歸檔需求增大等問題。
1.1 電子檔案歸檔需求增大
大數據時代,高校檔案用戶信息需求呈現出多元化、個性化的發展趨勢,內容涉及教育教學、科研管理及基礎建設等各個方面,檔案來源渠道也由原來單一的由歸檔部門提供電子版檔案擴大到學校管理中的學生管理系統、OA系統、圖書管理系統等每一個信息系統。隨著電子檔案種類及來源渠道增多,電子檔案的數量也相應增多。大數據時代下高校電子檔案多種類、多渠道、多數量的特點對現有的檔案信息系統在服務方式、軟件質量和硬件設備上都提出了更高的要求。
1.2 電子檔案公開程度低
隨著國家信息公開制度的完善,大量檔案將逐步向社會公開,電子檔案公開、共享是高校檔案發展的必要路徑。高校檔案部門往往囿于自身單一資源中,與其他部門交流有限,幾乎不向社會公開檔案資源。高校電子檔案公開程度低,既不符合發展趨勢,又造成檔案資源浪費。
1.3 電子檔案利用不充分
當前高校檔案的利用流程一般是首先由師生提出查檔需求,檔案工作人員根據需求進行查詢并提供檔案。而高校師生檔案利用意識不強,查檔率低,導致檔案利用量??;檔案工作人員對所提供檔案幾乎不進行加工,導致利用價值低,這就使得高校電子檔案基本處于一種被動的封閉狀態。
1.4 電子檔案服務方式落后
一方面,目前多數高校檔案部門還是采用打印電子檔案的方式為師生提供服務,載體單一、信息時效性低,沒有將電子檔案作為提供服務的直接形式。另一方面,常見的檔案信息管理系統,功能簡單、界面單調,少有系統能夠為用戶提供可視化的查詢界面或者主動向用戶推送信息。大數據時代用戶信息獲取意識越來越主動,勢必對檔案獲取方式提出更高的要求,對檔案進行內容挖掘,主動推送檔案是電子檔案服務的發展目標。
2 高校電子檔案工作應對的思路
針對上述問題,本文嘗試通過提高軟硬件配置,利用云存儲和數據挖掘技術提供解決方案。
2.1 提高軟硬件配置
利用云存儲創建電子檔案云平臺,解決高校電子檔案歸檔需求大、公開程度低的問題。一方面,提高軟硬件配置,擴大電子檔案存儲空間,主動擴展電子檔案收集渠道,把每一個高校管理系統都設置為內部電子檔案來源渠道,解決歸檔需求大的問題;另一方面,通過在高校之間創建電子檔案云平臺,使高校檔案信息資源匯成一張網絡,各個高校檔案館之間通過共建云平臺上傳、下載電子檔案,實現電子檔案資源共享、公開,解決高校電子檔案公開程度低的問題。
2.2 利用數據挖掘技術解決高校電子檔案利用不充分、檔案服務方式落后的問題
一方面,通過對檔案目錄信息和信息的挖掘發現檔案收集工作的重點,通過對檔案數據的挖掘可以找出檔案管理人員和檔案利用人員與檔案實體的關系,進而提高電子檔案利用率。另一方面,通過數據挖掘對檔案進行分類,提高檔案檢索效率;通過對檔案利用情況挖掘找出檔案內容與檔案利用人員的關系,根據發掘出的關系有針對性地向師生推送個性化檔案,做到主動服務。
3 大數據時代高校電子檔案管理模型
根據上述分析,筆者嘗試提出大數據時代下高校電子檔案管理模型,如圖1。模型分為輸入、存儲和輸出三個部分,首先從校內各系統和高校檔案云平臺上搜集信息,經過檔案鑒定和數據挖掘后,可支持檔案查詢、檔案推薦和檔案公開。
3.1 輸入部分
模型數據源分為校內和校外兩大類。
校內數據源包括學生信息為主的學生管理信息系統,教師信息為主的OA辦公系統以及其他系統如圖書管理系統、博物館管理系統等。學生管理系統包含學生成績單、錄檢表、畢業證號等信息,辦公OA系統包括公文流轉、辦會辦活動等信息,這兩個系統基本涵蓋了高校日常運作的大部分數據,是檔案室主要存儲對象。圖書管理系統提供師生借閱圖書數據、學校藏書數據等,博物館管理系統提供學校歷史數據等,這些系統提供更多的輔助教學數據,極大豐富了電子檔案的數量和種類,使電子檔案更加立體化。
校外信息源指多家高校聯合建立的高校檔案云平臺。云存儲是指通過集群應用、網格技術或分布式文件系統等功能,將網絡中大量不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。在平時工作中,往往會遇到需要參考或借閱其他高校檔案的問題,需要各個高校之間檔案相互補充;也存在不同高校存放相當數量的相同檔案,從整個教育系統來講,產生了檔案冗余,是對存儲資源的浪費。高校檔案云平臺就是利用云存儲技術在高校之間建立電子檔案存儲、利用的數據云,各個高校通過該平臺可以上傳及下載電子檔案,便捷了檔案的異地查閱,減少了本地數據庫存儲負擔,也為高校電子檔案公開提供了技術支持。endprint
3.2 處理部分
處理部分主要指檔案鑒定和數據挖掘兩個功能模塊。
按照國際檔案理事會1984年出版的《檔案術語詞典》為檔案鑒定下的定義是:“根據文件的檔案價值來決定如何對其進行最后處置的檔案工作基本職能,也稱為評價、審查、選擇或選留”,檔案鑒定具體包括完整性鑒定、原始性鑒定、真實性鑒定、準確性鑒定以及文件檔案價值的鑒定。模型中檔案鑒定模塊是通過機器學習算法完成檔案鑒定,把符合鑒定規則的檔案選擇出來,留存到模型中,進行下一步處理,不符合鑒定規則的則退回原系統。檔案鑒定是檔案管理中的重要內容,模型借助計算機技術進行檔案鑒定,提高了鑒定效率。
數據挖掘模塊是對模型搜集的大量的、不完全的、有噪聲的、模糊的、隨機的檔案信息進行分析,挖掘出深層次相關聯的檔案以及用戶檔案使用習慣等。該模塊對模型中的電子檔案進行關聯分析、聚類分析、分類及預測,挖掘結果支持電子檔案的信息檢索、信息推薦、可視化輸出等。通過數據挖掘,實現對電子檔案的深層次分析,提高利用價值。
3.3 輸出部分
模型的輸出部分有檔案查詢、檔案推薦以及檔案公開三個模塊。
檔案查詢模塊即用戶可以通過搜索引擎檢索電子檔案或者通過分類目錄查找電子檔案。相比普通的檔案管理系統,模型可查詢的電子檔案更為廣泛,涵蓋本部門、其他部門及其他高校的檔案信息,為師生提供全方位的參考。
另一個是根據數據挖掘的結果,模型可以結合用戶檢索行為和檢索詞為用戶推薦相關電子檔案,提高檢索效率。
檔案推薦模塊有兩大功能:一個是根據數據挖掘的結果,按照用戶興趣在適當節點為用戶主動推送個性化電子檔案,例如在6月份為招生就業部門工作人員推送歷年各省錄取分數線;另一個是結合用戶檢索行為和檢索詞為用戶推薦相關電子檔案,例如當用戶檢索“招聘”,模型將在檢索界面推薦“人才引進”“高層次人才”“高校自主招聘”等相關檢索詞。檔案推薦改變了以往高校檔案被動的工作方式,為用戶提供更具有針對性的檔案,節省了用戶查找、過濾信息的時間。
檔案公開是指模型將可以公開的電子檔案自動發送到高校檔案云平臺,以待其他高校查閱,檔案公開模塊有助于長久、穩定地做好高校檔案公開工作。
4 結 語
科技的進步改變了傳統的信息獲取方式,海量的數據開始躍入人們的視線,大數據成為社會的關注焦點。本文探究了大數據時代高校電子檔案工作所面臨的問題及應對思路,并基于此提出高校電子檔案管理模型。模型應用云存儲技術,使收集、處理大量電子檔案成為可能,這就向檔案“全歸檔”邁進了一步,同時運用數據挖掘技術深化了檔案價值、增強了用戶體驗。
然而,模型還需要進一步充實。如何確保云存儲技術下的檔案安全;校內各系統信息繁雜,檔案鑒定的規則如何制定;高校檔案云平臺的技術如何實現等。今后將著力探究模型在技術層面的實現。
主要參考文獻
[1]王學娟,楊陽,閆桂蓮. 淺談大數據時代下承德高校電子檔案管理存在的問題和對策[J].承德醫學院學報,2016,33(6):537-539.
[2]賀纏虎.知識管理——現代高校檔案工作的新思路[J].蘭臺世界,2014(20):29-31.
[3]張峻山.大數據時代高校學生檔案管理與利用探討[J].黑龍江史志,2015(9).
[4]侯英杰.“大數據”背景下高校檔案工作發展思路探析[J].城建檔案,2015(6):76-78.
[5]曹勤民.從“獨享”走向“共享”——論高校檔案信息資源社會價值的實現路徑[J].檔案學通訊,2012(5):49-52.
[6]郭文東. 云存儲的剖析[J]. 數字通信世界, 2016(3):51-53.
[7]劉東斌. 檔案鑒定——鑒定什么——檔案鑒定基本問題思考之四[J]. 檔案管理,2006(5):17-22.
[8]劉國能. 檔案鑒定工作內容、原則、標準與方法——檔案鑒定工作及其改革(之二)[J]. 中國檔案, 2005(9):32-34.
[9]黃華. 數據挖掘分析在檔案管理方面的應用[J]. 網絡安全技術與應用,2009(4):81-82.
[10]方昀,郭偉.云計算技術對檔案信息化的影響和啟示[J].檔案學研究,2010(4):70-73.endprint