王大青
摘 要:數據分析的質量事關檔案事業的科學發展。當前,檔案領域數據分析效益因缺乏固定而專業的分析師受到嚴重影響。文章從檔案領域數據分析師崗位設置意義、崗位職責和素質要求三個方面進行論述,以利于檔案事業科學地、集約化地快速發展。
關鍵詞:檔案大數據;數據分析師;崗位需求;崗位職責;素質要求
Abstract:In the big data era, data analysis can affect the development of archival cause. At present, the benefit of data analysis is dissatisfactory because of lacking settled analysts in archival field. This paper addresses the post requirements, the post duties and the quality demands of data scientists in archival field.
Keywords:big data of archive; data scientist; post requirements; post duties; quality demands
大數據時代,數據成為重要的戰略資源。在電子辦公深度與廣度不斷拓展的進程中,人類對數據“精、準、深”的要求日益突出。在基于數據決策、依賴數據管理等“以數據說話”的理念日益深入人心的大環境下,作為大數據的關鍵組成部分——檔案大數據的地位和作用也逐漸凸顯出來,它是大數據重要維度即歷史維度數據的核心,在各個領域都有很好的應用前景。但是,應該看到,受保密、檔案管理機制等因素的制約,檔案大數據的應有價值還沒有得到充分發揮,檔案大數據與其他數據的整合還有一段很長的路要走。為提升檔案資源建設與利用效益,對檔案大數據進行分析,優化檔案事業發展方案,更好地為領導決策和各領域工作的開展提供數據支撐,成為檔案工作的重要組成部分,這就需要檔案資源和檔案事業數據的鼎力支撐。雖然從國家主管部門到各級檔案館(室),都在開展檔案數據的統計和分析工作,但是,由于缺乏固定而專業的分析人員,從數據統計和分析的全面性、系統性、多維性、深入性和規范性等方面看,仍有待進一步增強。在此種形勢下,檔案大數據作用的發揮和檔案事業發展的科學性很大程度上取決于檔案部門自身結構的優化和管理資源使用效益的提升。
1 檔案領域數據分析師崗位設置的意義
大數據時代,數據分析在各領域有著十分重要的意義,各行業對數據分析師的需求與日俱增。與其他數據相比,檔案大數據很大一部分源于政府、軍隊等組織機構的活動,具有權威性和憑證性等不可替代的價值特點,雖然有著服務社會、服務百姓的義務,但又必須確保國家利益不受侵害。因此,在行業內部設立數據分析師崗位不僅是社會需求、也是檔案行業組織機構結構優化的內在需要。
1.1 優化檔案資源體系建設的需要。從局部看,各級檔案部門都不同程度地存在著檔案收集不齊全、著錄不規范等問題。從整體看,各檔案部門之間存在著檔案資源交叉重復、數據異構等問題。系統地設置統計項目,全面地對檔案資源建設現狀進行分析,就可以準確地發現檔案資源體系建設中的弱項和“瓶頸”。通信網絡和數字設備發展實踐告訴人們:當今,電子文件的增長幾乎達到了幾何級。例如,阿富漢戰爭期間,美軍為打擊一小股恐怖分子,其情報偵測、監視系統24小時產生的數據量就達53TB。在如此大的數據量面前,如何分類電子文件、確定保管期限?網站、微博、通訊交友軟件等產生的數據,哪些是需要作為電子文件保存的、又該如何保存?現有館(室)藏檔案資源,哪些方面需要豐富、哪些方面需要“瘦身”?如何從國家層面調控檔案資源體系建設?這些均有待于檔案領域數據分析師從“保存歷史、服務社會”視角、以可靠的數據和科學的分析給出建設性的解答。
1.2 分析和把握檔案利用規律的需要。檔案資源的利用是有規律可循的,掌握了這個規律對于提升檔案資源利用率是十分有益的。有的檔案資源,其利用具有擴展效應,即一次成功利用可能會激發人數更多、范圍更廣、程度更深的利用,例如名人檔案、著名戰役檔案、歷史典故檔案等;有的檔案資源,其利用具有遞減效應,即一次成功利用之后可能很長時間內不會再有第二次利用,例如事關普通百姓的個人檔案。如果機械地根據其前段時間的關注熱點推薦檔案信息服務產品,則不僅達不到理想效果甚至還會引起用戶反感。依托數據分析師的科學分析,有助于檔案部門聚焦服務熱點,提前做好檔案信息服務預案,根據用戶需求方向準確提供檔案資源及其編研產品服務。
1.3 推動檔案管理科學發展的需要。近年來,檔案事業出現了一派欣欣向榮的景象,尤其是檔案信息化建設、民生檔案的收集與管理等得到了長足發展。但是,無論是硬件建設、還是軟件建設,離精細式、集約化科學發展尚有一定距離,這就需要發揮檔案大數據的決策助手作用。對于不同學識背景、不同工作經歷、不同職業精神的數據分析人員來說,同樣的統計數據得出的結論也是不盡相同的。設置固定的數據分析師崗位,則有益于提升數據統計和分析工作的科學性。通過數據分析師對檔案事業分門別類的統計和分析,可以有效地沖破經驗主義思維的“籬笆”,發現和把握新形勢下檔案管理工作的發展規律,更加統籌、協調和集約化地利用管理資源,構建檔案事業發展的良好生態。
1.4 更好地服務社會發展的需要。如果說“讀史可以明智”只能模糊地形容檔案的作用,檔案大數據在金融、醫藥、衛生、交通、安全和軍事等領域的成功應用,已經很好地量化和解釋了檔案大數據的價值。它是轉換思維方式、科學決策的直接支撐,是引領社會更快、更好發展的“催化劑”。設置檔案大數據分析師,無疑會有助于提升檔案信息服務于社會的廣度與深度。同時,也有助于檔案部門把握契機創新服務社會的模式與內容。
2 檔案領域數據分析師的崗位職責
檔案領域數據分析師,可以依據各級主管部門、檔案館(室)的編制和事業發展狀況合理配置,其職責主要是從檔案資源建設、檔案利用、檔案事業綜合發展以及檔案文件內容等方面進行數據統計和分析,并制定優化方案和提出發展規劃建議。
2.1 檔案資源數據統計和分析。檔案資源數量統計和分析,主要是對館(室)藏或者主管范圍內的檔案資源數量情況進行統計和分析,包括對各全宗文件數量的分類統計和分析、同類全宗文件數量的對比分析、現行全宗文件產生量與歸檔量的對比分析、永久檔案與定期檔案數量的對比分析、不同類型載體檔案數量的對比分析、不同地域不同系統檔案移交數量對比分析、不同時期檔案數量對比分析、不同密級檔案數量對比分析等。
檔案資源質量統計和分析。主要是對館(室)藏或者主管范圍內的檔案質量情況進行統計和分析,包括檔案資源載體和信息完好度分析、檔案資源結構分析、檔案著錄情況分析、檔案信息化建設情況分析、檔案目錄數據庫質量分析、檔案全文數據質量分析、檔案縮微情況分析、檔案修復情況分析等。
檔案資源優化方案的制定。基于館(室)功能,在科學分析的基礎上,提出一定范圍內檔案資源體系建設優化方案。主要是從檔案資源結構和數量視角,有重點地對現有檔案資源進行豐富、再鑒定工作。對明顯存在缺失的館(室)藏方向,分析檔案資源可能的分布點,為收(征)集工作提供指導。具體分析檔案著錄、目錄數據庫構建情形,提供檔案著錄尤其是電子文件著錄以及檔案目錄數據庫優化方案。必要時,對全文數據質量進行優化。根據檔案完好度統計,制定檔案修復計劃。
2.2 檔案利用數據統計和分析。檔案利用人群統計和分析。主要是對用戶基本情況進行統計和分析,包括用戶職業、單位、年齡、學歷、檔案專業知識、興趣點、檔案意識等,從共性和個性等方面進行分析和研究。
檔案利用目的、利用效益統計和分析。主要是對檔案利用目標和用戶所獲得的收益進行分析。從編史修志、工作查考、解決個人問題等方面對檔案利用目的作進一步細分,分別進行統計和分析,并關注其利用效益。同時,分析一定時期內得到用戶關注和利用的檔案資源,尤其是得到用戶重點關注或利用的檔案資源。
檔案檢索效率統計和分析。主要是對檔案目錄和全文的檢索效率進行分析,與圖書情報資源等相關領域的檢索效率進行對比,考慮其是否滿足用戶需要,有無改進策略。密切跟蹤信息和知識領域的發展前沿,將先進的技術和工具應用到檔案檢索效率的提升上來,主要是對檔案信息組織和檢索模式提出創新方案。
檔案利用發展趨勢預測。由于社會和國家發展的需要,人們會在一定時期內有重點地開展某個或某些方面的工作。數據分析師應密切關注某個系統、國家乃至整個人類社會的發展形勢,科學地統計和分析用戶的潛在需求,準確地預測出檔案利用的重點方向,從而有針對性地做好檔案利用準備工作。例如,編史修志工作往往在國家層面、某一系統或行業層面進行統一行動,有的又會與編制體制調整、大型紀念活動、大項任務開展等時機緊密結合;個人利用檔案,往往會與國家出臺某項政策、某一年齡段人群的成長經歷、某些文化活動的開展等密切關聯。根據檔案利用歷史數據的分析、當前社會熱點、用戶關注方向等,引導檔案信息資源的開發,借助大數據工具,利用檔案信息資源整合平臺,充分地進行知識挖掘,高效地構建專題數據庫,向用戶推送檔案信息資源。
2.3 檔案事業數據綜合統計和分析。檔案人才隊伍建設情況統計和分析。當今時代,不僅要求檔案工作者具有較高的信息素養,而且需要檔案工作者轉變理念,從知識管理視角出發,為用戶提供問題解決方案。檔案領域數據分析師應該對檔案工作者個體素質和整個隊伍建設情況進行統計和分析,要重點關注專業學歷、知識儲備、年齡結構、管理能力、信息素養和職業精神等方面。
檔案事業組織領導形勢統計和分析。組織領導是檔案事業發展的關鍵。檔案領域數據分析師,應可以系統地設置檔案事業各類統計表格,并根據形勢發展創新地設置統計項目和衡量指標。不僅要分析檔案主管部門對檔案工作的組織領導情況,還要分析各級組織機構對檔案事業的組織領導形勢,包括工作規劃、經費投入和對檔案事業的關注度等。
檔案專業硬件、軟件建設情況統計和分析。在國家大力倡導檔案信息共享平臺建設的情形下,對行業內硬件、軟件建設情況進行統計和分析,要重點對檔案館(室)庫房建設、檔案安全體系建設、業務設備建設、檔案軟件系統建設等方面進行統計和分析,避免低水平重復建設、提升管理資源利用效益。
制定檔案事業科學發展方案。檔案領域數據分析師要適應大環境的需要,從檔案工作者個體出發,提出人才培養和培訓方案。從檔案人才隊伍整體建設出發,合理提出編制調整、人才配備和人才發展等建議。在硬件建設方面,從檔案事業整體發展視角提供指導意見,合理配置各類設備設施。在應用系統開發方面,針對技術發展形勢及時提供建議,為頒布軟件系統需求標準、協調資源做出貢獻。
2.4 檔案文件內容大數據的分析和知識挖掘。無論是科技檔案、專門檔案,還是文書檔案,其利用都是圍繞著組織機構(或個人)的業務行為開展的。因此,從業務層面對檔案內容大數據進行分析,是檔案大數據分析的重要內容。根據各專業發展的需要,利用高效、可視化的圖形分析工具,對檔案文件內容大數據進行分析,挖掘出其中蘊含的知識點,以指導各領域業務工作的科學開展。
3 檔案領域數據分析師的基本素質要求
數據分析師肩負著對檔案事業各類數據進行統計和分析的職責,并且要根據分析結果制定出推動各行業科學發展的、切實可行的方案,這就要求其具有高度的事業心和責任感,具備檔案、計算機、數學和管理等領域專業知識和技能。
3.1 思維開闊,開拓精神強。無論是統計項目的設置、還是優化方案的制定,都要求檔案領域數據分析師關注相關領域前沿發展形勢,具有開闊的思維和較強的創新意識,能夠敏銳地捕捉到檔案事業發展中的主要矛盾,打破舊的思維和工作運行模式,為建立起切合實際的、具有前瞻性的檔案工作機制貢獻力量。
3.2 檔案專業功底扎實。檔案領域的數據分析,其出發點和落腳點均在檔案收集、管理和利用。因而,數據分析師應具備系統的檔案專業理論知識。不僅要熟知檔案領域基本理論,而且要掌握領域前沿發展和理論創新情況,密切跟蹤行業發展實踐,能夠科學地設計好統計與衡量指標、優化和促進檔案事業的綜合發展。
3.3 掌握計算機應用專業知識。數據分析師經常要與計算機網絡、多種軟件工具打交道,必須具備較高的信息素養和扎實的計算機應用專業知識。檔案領域數據分析師,應了解機器學習、人工智能和自然語言知識,能夠結合領域實際,提出具體的統計、分析軟件系統需求;能夠熟練操作基本分析軟件,掌握大數據分析工具的使用(如R軟件、SPSS、MATLAB),準確地采集、處理數據,必要時進行數據遷移;能夠在看似無關的數據中挖掘出蘊含的關聯、發現檔案資源建設和檔案事業發展內在規律。
3.4 熟悉管理學基本理論。無論是檔案資源管理、還是檔案事業的綜合管理,都離不開管理學基本理論的運用。因此,檔案領域數據分析師應熟悉現代管理學基本理論,具有嚴謹的邏輯思維能力和較好的文字表述能力,能夠運用管理學前沿理論來指導檔案資源建設和檔案事業科學發展方案的制定。
3.5 靈活運用統計和分析基本方法。在可視化需求不斷增長的今天,人們需要數據分析師能夠直觀地將統計和分析結果呈現出來。這就要求檔案領域數據分析師熟練掌握數據分析與建模方法,牢記統計、分析的基本程序和原則,將分析結果以圖形化方式表述出來,必要時加以創新和發展,從定性分析和定量分析兩個視角,為檔案事業的科學發展提供數據支撐。
此外,在對檔案文件內容大數據進行分析和挖掘時,還要求數據分析師了解相關領域的專業知識,或者與相關領域專業人員密切協作,以確保分析過程和結果的質量。
參考文獻:
[1]丁世飛,靳奉祥,趙相偉.現代數據分析與信息模式識別[M].北京:科學出版社,2012.
[2]金光.數據分析與建模方法[M].北京:國防工業出版社,2013.
[3]鄭毅.證析——大數據與基于證據的決策[M].北京:華夏出版社,2012.
[4]艾伯特-拉斯洛·巴拉巴西(馬慧譯).爆發:大數據時代預見未來的新思維[M].北京:中國人民大學出版社,2012.
(作者單位:68024部隊 來稿日期:2016-08-07)