李飛榮 鄧振華
2013年10月,國家檔案局提出要用15年左右的時間建成以數字資源為基礎、安全管理為保障、遠程利用為目標的數字檔案館(室)體系。目標提出后,全國各地掀起了示范數字檔案館(室)建設熱潮,經過多年建設,截至2020年12月23日,有55家單位通過國家檔案局驗收被正式認定為示范數字檔案館(室)。
數字檔案館(室)建設是一項系統工程,包括基礎設施建設、應用系統建設、數字資源建設、保障體系建設等內容[1],其中數據資源建設是數字檔案館(室)建設的一個重要方面。檔案數據資源建設主要包含三方面的建設內容:電子文件的歸檔與管理、檔案目錄數據庫建設、傳統載體檔案數字化轉換。但是,在推進檔案數據資源建設實踐中,由于種種原因會出現諸多的數據質量問題,這些問題的存在對檔案數據資源的管理和利用工作帶來不利影響。
在檔案數據資源建設過程中,由于人員、時間、經費及檢驗標準和驗收手段等因素影響,會導致檔案數據質量出現各種各樣的問題,問題涉及目錄數據、全文數據和電子文件等各種類型數據,不同類型的數據涉及的質量問題亦各不相同,本文以軍隊檔案系統為例,經梳理歸納發現主要存在以下幾個方面的問題。
1.數據完整性問題。表現為目錄數據必填字段項有缺項、填寫不完整,與目錄數據對應的全文數據全部或部分缺失(未數字化轉換或轉換不全),電子文件內容信息、結構信息、背景信息等要素不齊全,元數據有缺項等[2]。
2.數據準確性問題。表現為目錄數據沒有準確反映檔案實體的真實情況,檔案目錄字段項與檔案實際記載項描述不一致,另外也包括案卷目錄與卷內目錄不一致、目錄數據與掛接的全文數據不一致等問題。
3.數據規范性問題。表現為目錄數據著錄不符合《軍隊檔號編制規則》《軍隊文書檔案目錄數據庫結構與著錄格式》《軍隊院校教學檔案目錄數據庫結構與著錄格式》等檔案著錄標準要求,檔案全文數字化不符合《軍隊檔案資料數字化通用要求》,以及電子文件歸檔與管理不符合《軍隊電子文件歸檔與電子檔案管理通用要求》有關電子文件真實性、完整性、可用性和安全性(簡稱“四性”)要求等方面的問題。
1.人員素質參差不齊。檔案數據資源建設要靠人去完成,人員責任心和業務素質各不相同,不同人員的工作質量也有較大的差別,尤其在大量使用勞務外包人員的情況下,這一問題尤為突出[3]。外包人員對本單位檔案數據建設的標準、規范不熟悉,對數據質量標準難以判斷,出現質量問題也難以發現。
2.規章制度不夠健全。檔案數據質量控制,既要靠人更要靠制度。現實檔案數據資源建設中,很多單位沒真正建立起檔案數據質量檢查制度,包括檔案數據質量管理規定、檔案數據質量建設標準、檔案數據質量評價標準、檔案數據建設質檢流程等規章制度都不健全。
3.檢測手段存在不足。檔案數據質量檢測一般包括人工檢測和機器檢測兩種手段。人工檢測存在效率低、錯誤率高、檢測不全面和無法應對海量檔案數據資源等諸多不足。采用技術手段進行機器檢測是檔案數據質量檢測的主要方式,機器檢查具有速度快、效率高、不需人工干預等優點,但是機器檢測效果取決于檢測軟件的質量,包括檢測項目是否齊全、要素配置是否靈活、參數設置是否符合標準規范等因素。
檔案數據質量檢測,主要是對檔案數據資源建設的三方面類型數據進行質量檢測,即檔案目錄數據質量檢測、數字化檔案數據質量檢測、電子文件數據質量檢測,各類型檔案數據具體檢測內容如下。
1.檔案目錄數據質量檢測內容。
(1)檢測檔號編制規則與命名規范:要嚴格執行《軍隊檔案檔號編制則GJB7531-2012》相關要求,檔號由全宗代碼、保管期限代碼、類別號、年度、案卷號、件號組成,長度控制在64個字節之內。全宗代碼采用字母和阿拉伯數字標識,長度不超過10個字節。保管期限代碼采用字母標識,“Y”表示永久,“D”表示定期,長度為1個字節。類別號由檔案門類代碼、種類代碼等組成,長度不超過22個字節(含內部分隔符“.”)。其中,檔案門類代碼采用字母標識,“WS”表示文書檔案、“KJ”表示科技檔案、“ZM”表示專門檔案,長度為2個字節。種類代碼采用字母標識,長度不超過3個字節,比如院校教學檔案用“JX”表示、干部檔案用“GB”表示。年度采用阿拉伯數字標識,長度4個字節。案卷號采用阿拉伯數字標識,長度4個字節。件號采用阿拉伯數字標識,長度3個字節。
(2)檢測目錄數據庫結構:檔案門類不同,檔案目錄數據庫的結構也不相同。目前,軍隊文書檔案、教學檔案、通信科技檔案等不同門類的檔案都有數據庫結構和著錄規則軍用標準,其中文書檔案按案卷級、文件級二級結構建立數據庫,教學檔案按案卷級、文件級和學籍級三級結構建立數據庫,科技檔案一般按項目級、案卷級、文件級三級結構建立數據庫。不同門類、不同層級的數據庫,每一層級數據字段都不一樣,有必著字段也有選著字段,采用機器檢測時,必著字段必須全部要進行檢測,不得有字段缺項或字段空白,選著字段可不進行檢測。
(3)檢測著錄規則與著錄項目:著錄規則是檢查著錄項目規范與否的標準,例如字符型字段不能為空、數字型字段不能為“0”、日期型字段按年月日8位阿拉伯數字表示,著錄項目中出現的字母、阿拉伯數字用半角表示,標點符號用全角表示等等,題名、發文字號、責任者等必著字段具體著錄規則嚴格按照相關軍用標準執行,在開發設計機器檢測軟件時須將詳細字段著錄規則設計到相關數據庫表中去。必須檢測的著錄項目以文書檔案為例:案卷級目錄必著字段有全宗號、年度、案卷號、保管期限、案卷題名、密級、件號、檔案號等等,文件級目錄必著字段有全宗號、年度、案卷號、保管期限、案卷題名、密級、件號、檔案號、發文字號、載體單位、載體數量、載體類型、載體規格、責任者、文種、文本等等,同時檢測目錄條目有無重復著錄。
2.數字化檔案數據質量檢測內容。數字化檔案數據質量檢測,包括圖像掛接情況檢測和圖像質量情況檢測兩個方面。
圖像掛接情況檢測:主要是檢查實體檔案數字化后圖像的命名規則、存儲路徑與檔號命名規則是否對應,能否確保圖像與目錄數據進行正確掛接。圖像掛接正確率100%才算檢測合格,圖像掛接與目錄不一致會導致檔案查準率為0。
圖像質量情況檢測:主要包括圖像參數、傾斜度、清晰度、裁邊情況、缺漏情況等方面檢測。
圖像參數檢測:檢測圖像的文件格式(是否為TIFF或JPEG格式)、尺寸(長*寬一般為A3、A4或16K)、大小(建議1M左右)、分辨率(一般為300dpi,最低不低于150dpi,如需對圖片進行全文識別最低不低于300dpi)、壓縮參數(參數值90%—100%)等是否符合要求。
傾斜度檢測:檢測圖像方向與原件是否保持一致(旋轉或翻轉),確保符合閱讀習慣、傾斜度是否達到視覺上偏斜感,傾斜度大于2%用圖像處理軟件自動糾偏。
清晰度檢測:檢測圖像是否清晰可認,機器檢測主要從分辨率、像素大小、亮度、對比度等方面進行限定。
裁邊情況檢測:檢測圖像是否留邊過多或過窄,以縱向A4幅面檔案為例,如果掃描圖像字面留白左右大于3.17cm、上下大于2.54cm則屬于留白過多,需用圖像軟件進行裁邊,如果小于相應尺寸則需用圖像軟件對其進行留白。
缺漏情況檢測:檢測圖像是否有漏頁、掃重、順序顛倒等情況,主要從著錄檔案載體數量與圖片畫幅數方面比對是否一致,由于著錄時存在數量不準確問題(有的著錄統計的是張數),導致此項檢測用機器檢測難度較大或誤檢。
3.電子文件數據質量檢測內容。《軍隊檔案條例》規定,“電子文件的歸檔應當符合國家和軍隊相關標準,保證電子文件的真實性、完整性、可用性和安全性”,“壓縮、加密和加注標簽的電子文件應當解壓、解密和脫簽后歸檔”。在工作實際中,對歸檔電子文件的檢測主要包括以下內容。
一是檢測電子文件安全性,檢查電子文件是否存在病毒;二是檢測電子文件的可用性,看是否已脫密和去除水印標簽,即電子文件在通用平臺是否可讀可用;三是檢測電子文件的真實性和完整性,電子文件的真實性和完整性取決于電子文件的內容信息、結構信息、背景信息及管理過程信息的真實性和完整性,即主要取決于電子文件元數據的真實性和完整性。以文書類電子文件為例,《文書類電子文件元數據方案》(DA/T 46-2009)規定文件元數據包括文件實體元數據、機構實體元數據、業務實體元數據及實體關系元數據共88個元素項,從必要性和強制程度上又可分必選、條件選和可選三類。檢測電子文件質量重點是檢測必選項元數據的真實性和完整性。
結合檔案館數據質量檢測實際業務需求,檔案數據質量檢測一般流程如下圖所示。

圖1 檔案數據質量檢測流程
不論檔案數據類型如何,都應先進行安全性和可用性檢測,再進完整性、準確性和規范性檢測。檔案數據質量檢測一般在專用計算機上進行,先進行全面殺毒檢測,確保數據干凈無毒后,再檢查數據是否可讀可用。檔案數據檢測對象都是數據包的形式,每批次檢測數據容量從數Mb到數Tb不等,人工檢測無法滿足現實需要。上面的流程圖給出了不同類型檔案數據檢測項目,檔案館通過開發數據質量檢測系統,將相關檢測參數進行合理設置,可實現計算機自動檢測,能極大地提高工作效率和檢測準確程度。檢測后發現檔案數據存在質量問題,應將檢測結果及時反饋給相關責任人進行整改,整改完成后再次提交系統進行復檢,直到系統檢測通過,最終完成閉環管理。