王子鵬
摘? 要:按照信息的存在形式劃分,數據文件是電子文件的重要類別之一。本文界定了數據文件的概念和本質屬性,總結了數據文件面臨的管理難題,即來源復雜、系統依賴程度高和缺乏真實性保障。從具體案例入手,在實踐層面分析了數據文件的歸檔價值、真實性保障途徑和歸檔流程。在此基礎上,提出了加強數據文件歸檔工作的對策思考。
關鍵詞:大數據;數據文件;電子文件;元數據
Abstracts: According to the form of information, data files are one of the most important categories of electronic records. This paper defines the concept and essential attributes of data files, and summarizes the management difficulties faced by data files, namely, complex sources, high system dependence and lack of authenticity protection. Then from the specific case, the archiving value of data files, the way of ensuring the authenticity and the process of archiving are analyzed in the practical level. On this basis, this paper puts forward some countermeasures to strengthen the archiving of data files.
Keywords: Big data ;? Data file ;? Electronic records;? Metadata
近年來,政務、商務、醫療、交通、媒體、教育等各行業領域,越來越重視數據的積累,嘗試采用基于大數據驅動的管理與決策。據國際數據公司(IDC)預測,2020 年全球數據量將達到 44ZB,而中國的數據量將會在 2020 年超過 8ZB[1],世界正在實質性地邁入大數據時代。在此背景下,數據文件歸檔工作,無疑將成為檔案學理論研究和實踐探索的重點之一。
按照信息的存在形式,電子文件可分為文本文件、數據文件、圖像文件、影像文件、聲音文件、程序文件、多媒體文件、超文本文件、超媒體文件等[2]。數據文件,作為電子文件重要的存在形式,主要包括兩類,一是指含有數據的電子表格文件,如用Excel軟件、WPS表格等制作的用于記錄或計算各類數據的表格;二是數據庫電子文件,是指在事務處理系統中單獨承擔文件職責,或者作為文件的重要組成部分出現的數據對象[3]。從本質上來講,Excel等表格處理軟件也算一種體量微小的數據庫,數據文件可以理解為“以數據庫形式存在的具有文件屬性的記錄”。
1.1 數據庫形式。處理不同體量的數據,需要不同數量級的數據庫軟件。比如,日常辦公處理數據,Excel等表格軟件即可滿足需要;而管理海量數據信息,則需要Oracle、SQL等大中型數據庫。不同軟件公司出品的數據庫文件格式相異,比如Access數據庫的擴展名是.mdb,SQL數據庫的擴展名是.mdf, Oracle數據庫的擴展名是.dbf。即使是同一款數據庫,不同版本也會產生不同擴展名的數據文件。
1.2 文件屬性。根據《檔案工作基本術語》(DA/T1-2000)的規定,“文件”是指“國家機構、社會組織或個人在履行其法定職責或處理事務中形成的各種形式的信息記錄”。數據文件具有文件屬性,指在社會實踐活動中產生的,經過形成、辦理、傳輸等流程,以數據庫文件格式存儲的信息記錄。其他不具備文件屬性的數據庫文件,不是數據文件。
2.1 來源復雜。產生數據文件主要有兩個途徑:一是在使用Excel等辦公軟件管理數據,生成.xlsx文件;二是業務系統(business system,BS )產生的數據文件,如辦公自動化系統、電子商務系統、財務管理系統、地理空間數據系統、客戶關系管理系統、人力資源管理系統等。業務系統產生的文檔,會被歸入電子文檔管理系統(Electronic Records Management System,ERMS)或電子文件長期保存系統(trusted digital repository,TDR)進行管理,實現文檔一體化。
2.2 系統依賴程度高。除了Excel表格類文件外,數據文件對業務系統軟件和數據庫的依賴程度高。沒有了數據庫,無法讀取數據文件;缺少了業務系統軟件,不能確定各字段數據之間的關聯,無法表達確定含義。回顧數據庫發展歷史中出現了多種數據模型,無論是層次模型、網狀模型,還是面向對象的模型,都存在較大程度的數據庫依賴和軟件依賴。
2.3 元數據無法保障數據文件真實性。關系型數據庫的元數據,主要是指對創建時間、權屬、權限、用戶、角色等數據庫層要素進行描述,對數據表、數據表關系、視圖、存儲過程等數據分區層邏輯關系進行解釋,對約束、索引、觸發器、字段限制等數據表層要素進行說明。可見,數據文件的元數據,功能在于完整、清晰地呈現數據文件的含義,而不在于確保其真實性。從數據、信息和文件之間的關系可知,數據處于底層,信息是提供決策的有效數據(處于中層),文件是由機構或個人在社會實踐過程中所產生或接收的記錄信息(處于頂層)[4]。業務系統管理處于底層的數據,在產生數據文件后,并沒有像文書類電子文件一樣,經歷起草、流轉、簽批、歸檔等流程,也沒有電子簽章、時間戳等元數據保障其真實性。
3.1 系統業務流程及數據文件歸檔價值。“數據系統”基于Excel表格設計,內嵌8張參數表、81張基礎數據表、10張數據分析表,用于采集與管理全國各高職院校人才培養數據。系統產生典型的數據文件,每張表格可以分別以.xlsx格式導出,所有數據也可以打包成一個.xlsx文件或.bak文件。
3.2 數據文件歸檔實踐
3.2.1 在線歸檔。數據上傳至院校數據平臺、教育主管部門數據平臺、教育部數據平臺的過程,分別對應不同的主體,完成了三次在線歸檔。同時,教育部數據平臺賦予各院校和教育主管部門相應的賬號和密碼,方便其在平臺上瀏覽、下載本級數據[5]。
3.2.2 離線歸檔。參照本單位檔案分類法,將數據文件按照“年度——組織機構——保管期限”的方法進行管理。為了確保數據文件的長期可讀性,將數據文件、系統軟件安裝包同步歸檔,并制作電子備考表,記錄系統的運行環境和需要注意的問題。進一步,將系統數據以.xlsx表格文件導出后,轉換成PDF版式文件保存,重要的數據表格打印成紙質載體歸檔。
3.3 數據文件真實可靠性研究
3.3.1 數據源頭采集機制。“人才數據系統”賦予填報個人或機構用戶名和密碼,用戶登錄后填報系統指定的表單,確保從源頭采集數據。所有填報用戶與此項工作無利害關系,也不知道系統數據的內部關聯性。
3.3.2 數據校驗機制。校驗有三個層次,一是“人才數據系統”內置校驗模塊,對數據內部邏輯進行校驗;二是數據上報至國家教育部平臺后,平臺會將其與該校歷史數據、同類型其他院校數據進行關聯校驗;三是各級教育主管部門,會將“人才數據系統”的數據,與該校同年度其他數據統計報表,如“高等教育基層統計報表”“高校社科和科技統計年報”等,進行一致性校驗(同字段數據需一致)。
3.3.3 教學評估檢查機制。教育主管部門,每隔幾年會對各高職院校進行教學評估檢查,而檢查的依據,即是評估年度內該院校上報的各類型數據。所以,各高職院校既不會敷衍這項工作,也不會作假提升數據美觀度。
4.1 來源原則適用于數據文件管理。無論數據文件的來源多么雜亂,其生成主體必定可以劃歸至某一組織機構。如果是多個業務主體共同負責,則可以劃歸至牽頭機構。檔案部門應該進行深入的調查研究,考察各職能部門生成數據文件的現狀,參照檔案分類方案,制定數據文件的收集范圍和保管期限,與紙質文件、其他類型電子文件同步歸檔。
4.2 數據文件歸檔形式分析。數據文件系統依賴程度高,所以歸檔數據文件應包含三部分內容:一是數據文件本身;二是軟件安裝包(含業務系統和數據庫)和使用說明書;三是制作電子備考表,記錄該業務系統和數據庫運行環境及其他需要關注的問題。在此基礎上,考慮到數據文件能以表格的形式展現,可以通過技術手段,將其轉換為版式文件存儲,進而打印成紙質載體歸檔。
4.3 數據文件的真實性保障路徑。雖然數據文件的元數據在確保其真實性方面,具有先天劣勢,但是,參考案例的做法,可以通過數據關聯性、機構權威性等途徑,確保數據文件的真實性。從機械論的角度出發,元數據可以用來確定電子文件從產生到歸檔各個步驟的因果關系。而在大數據時代,數據之間的相關性在某種程度上可以取代原來的因果關系,幫助我們得到答案,這便是大數據思維的核心[6]。在確保電子文件真實性方面,數據關聯性與元數據并非完全對立,前者是對后者有益的補充。
[1] John Gantz,David Reinsel.The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East[EB/OL].(2012-12)[2018-2-10].https://www.emc.com/leadership/digital-universe/2012iview/index.htm.
[2][3]馮惠玲,劉越男.電子文件管理教程(第二版)[M].北京:中國人民大學出版社,2017:8-9.
[4]石峻峰,周俐霞,樊澤恒,等.大數據時代高校數字檔案資源管理研究[J].現代教育技術,2015(1):19-24.
[5]教育部“高等職業院校人才培養工作狀態數據采集與管理系統”網址:http://crpdc.gzvtc.cn/xin/log/login.aspx.
[6]吳軍.智能時代——大數據與智能革命重新定義未來[M].北京:中信出版社,2016:141.