伊佳 陳軼婷 鄭義 杜俊鵬 苗春林
中國運載火箭技術研究院 北京 100076
為支撐世界一流企業建設,助推高質量、高效率、高效益發展,航天企業檔案工作必須經過轉型升級,檔案服務模式必須從手工向智能化轉型,檔案資源開發利用方式必須從簡單型向品質化、深度化轉型,以實現檔案資源的快速共享與高效傳遞,發揮檔案資源內在價值,而加快推進傳統紙質載體檔案數字化工作即為新時期檔案工作轉型發展的第一步。
航天企業檔案館館藏文書檔案、型號產品檔案中20世紀六七十年代檔案由于保管時間較長,已出現脆化、破損等現象。這些檔案均為航天企業成立以來經營、管理、科研過程中最真實、最完整的記錄,有著我國航天核心產品的發展歷程與科研成果,是我國重要的科學儲備。因此,為搶救老、舊檔案配備相關的軟硬件條件,開展紙質檔案數字化加工工作迫在眉睫。
航天企業檔案館老舊技術文件底圖現僅存有紙質文件版本,日常使用、借用、配套等工作需花費大量人力、物力,且效率較低。開展技術文件數字化工作,將老舊底圖數字化加工成果上傳至數字化系統中,可供設計師直接使用,大大提升設計師日常使用、借用效率。與此同時,也可改變以往手工查找技術文件底圖管理模式,高效服務保障航天產品研制任務。
航天企業檔案館館藏檔案主要以航天產品檔案為主,主要考慮到自主知識產權保護及數字化加工進度自主可控等因素,在經濟條件和人力資源允許的條件下,建議自行開展館藏檔案數字化工作。
按照國家檔案局《紙質檔案數字化規范》(DA/T31-2017)要求,根據數字化加工流程合理布局各工作區域,同時按照涉密信息系統安全保密要求進行綜合布線,可供內網計算機接入并使用,電力、溫濕度等條件滿足該項目開展。后續將按保密要求配備相應的安全保密防護措施。
所需主要設備設施包括計算機、掃描儀、數據存儲等。
考慮到檔案狀態和幅面的差異性,需采購不同類型、不同規格的掃描儀。當紙張狀況較差,過薄、過軟或超厚,使用書刊式掃描儀或平板式掃描儀進行掃描;當紙張狀況較好,且幅面為A3或A4大小的,使用A4平出式掃描儀;當單冊檔案內幅面有大有小或幅面較大時,使用A4平出式掃描儀或A0大幅面掃描儀進行掃描。同時,考慮工作效率等因素,每個數字化加工單元配備不同數量的平出式掃描儀、平板式掃描儀、大幅面工程掃描儀以及書刊掃描儀。
考慮到現有紙質檔案數字化后占用的容量需求,以及后續每年新進館檔案數字化后的增量需求,需對檔案管理系統服務器存儲空間進行擴容。同時按應用系統備份要求,需預留數據備份的容量。
所需主要設備設施包括主機監控與審計系統、防病毒系統、數字化掃描軟件(單機版)、數字化加工成果質檢軟件(單機版)、OCR識別軟件、數字化成果批量掛接功能定制開發。
按涉密信息系統安全保密要求,配備主機監控與審計系統、防病毒系統。
數字化掃描軟件(單機版),實現數字化掃描成果圖像的快速高效自動處理。軟件支持高速掃描儀批量掃描;支持掃描參數(如紙張大小、圖像類型、分辨率、掃描方式、亮度、對比度等)設置;支持單、雙數頁自動旋轉;支持自動裁剪空白邊;支持圖像處理(包括剪外邊框、去黑邊、糾偏、去雜點、降噪等);支持圖像優化(含對比度亮度、色相飽和度、白平衡、細化、加亮、改變文字內容顏色、色彩調整等);支持嵌入式圖像著錄,索引目錄存儲在電子文件中,保證圖像掛接的準確率為100%;支持批量導出XML元數據,供瀚海之星檔案管理系統接收使用。
數字化加工成果質檢軟件(單機版),實現數字化成果圖像的快速高效抽檢。軟件支持目錄數據檢測、電子影像檢測(包括屬性檢測、格式檢測、色彩模式檢測、圖像分辨率檢測、頁數檢測等)、匯總統計功能。
OCR識別軟件,用于數字化成果轉換為可編輯的文本,以實現紙質檔案的全文檢索。
數字化成果批量掛接功能定制開發,在現有檔案管理系統上進行定制開發,實現批量掛接數字化成果至檔案管理系統。
將數字化加工計算機與掃描設備接入涉密內部網,配備相應的安全保密產品開展掃描工作,掃描后的數字化成果按保密要求,每天數字化成果由質檢員進行質量檢查,質量檢查合格后將數字化成果批量掛接至檔案管理系統進行統一管理。
紙質檔案數字化加工流程如圖:

圖1 紙質檔案數字化加工流程
3.1.1 整理。工作人員對準備掃描的紙質檔案進行檢查,查看標注信息是否完整,確保文件掃描過程不缺頁、漏頁,文件裝訂不發生錯誤;查看檔案紙張、裝訂的物理狀況,對掃描方式提出建議;梳理需要進行備份的目錄,提出備份要求。
3.1.2 接收。掃描人員從工作人員手中接收待掃描的紙質檔案,共同清點數量,確保數字化過程中出入庫情況記錄完整、規范。
3.1.3 掃描。數字化要求掃描后的圖像字跡清晰,內容完整;掃描采用彩色掃描模式,文件掃描分辨率建議≥300dpi。
文件修復:對已經出現開裂、破損或折痕太重無法鋪平的文件應先進行修復處理。
掃描方式:根據檔案幅面的大小(A4、A3、A2、A1、A0、不規則圖紙),選擇相應規格的掃描儀進行掃描;當紙張狀況較差,過薄、過軟或超厚的文件,采用平板掃描或非接觸掃描方式;紙張拆裝后可能無法復原的,采用非接觸掃描方式;紙張狀況好的采用高速掃描方式以提高工作效率。
存儲格式:圖像存儲為雙層PDF格式。
掃描登記:登記掃描的頁數,核對每份文件的實際掃描頁數與整理時填寫的文件頁數是否一致,不一致時應注明具體原因和處理方法;填寫掃描核算表單。
3.1.4 實物核對。對照紙質檔案實體逐頁審核圖像的質量、完整性,防止出現漏掃或掃描順序不對的情況。對于圖像偏斜度較大的圖像及時進行圖像糾偏工作,對失真度較高的圖像進行重新掃描,確保圖像的利用價值。
3.1.5 信息著錄。PDF格式圖像全部以檔號命名??墒褂密浖D像進行批量著錄的,需要人工審校著錄信息;老舊檔案中手寫內容等不支持軟件批量著錄的,需要人工手動錄入并審校。
3.1.6 質量檢查。設質量專員,對所有掃描后的PDF圖像從數量和質量兩個方面進行檢查,查看圖像分辨率、文件格式、色彩模式,偏斜度等技術指標是否滿足要求。對有問題的圖像進行記錄和反饋。
3.1.7 數據掛接。將通過質量檢查完成的數字化成果掛接至瀚海之星檔案管理系統中。
3.1.8 送回。掃描人員將已掃描完成的紙質檔案送回,同工作人員共同清點檔案數量,確保出入庫情況記錄完整、規范。
3.2.1 紙質文件掃描后的電子文件技術指標。
3.2.1.1 紙質檔案掃描采用彩色方式;
3.2.1.2 文件格式采用無損壓縮雙層PDF格式;
3.2.1.3 文件掃描分辨率不小于300dpi;
3.2.1.4 掃描文件及相應的數據庫備份存儲在硬盤及光盤中。
3.2.2 文件名稱要求。
3.2.2.1 案卷、文件的相關信息輸入檔案管理系統。案卷必須輸入案卷題名,案卷編號、歸檔號、歸檔日期、立卷日期、立卷人;文件必須輸入文件名、文件編號、歸檔號、歸檔日期、主題詞,對于長期和永久保存的檔案文件,必須掛接相關的電子文件;
3.2.2.2 其中的每一份文件也需要單獨創建目錄。
3.2.3 紙質檔案文件拆分要求。
3.2.3.1 標頁碼的準確率應達到100%;
3.2.3.2 頁碼字跡不影響原文檔內容,盡量為小;
3.2.3.3 除裝訂線、訂,在有利于掃描的同時,要保持原文檔的完整性。
3.2.4 紙質檔案文件裝訂要求。
3.2.4.1 恢復文檔原樣,不漏頁、錯頁;
3.2.4.2 裝訂案卷左下方對齊,兩邊成直角,三孔一線,裝訂線先拉緊;
3.2.4.3 按照文檔內的卷內目錄,校對目錄,正確率達100%。
3.2.5 紙質檔案文件掃描要求。
3.2.5.1 不多掃、漏掃,保證文檔順序準確;
3.2.5.2 文檔字跡清晰可認,不能過濃或偏淡。
3.2.6 紙質檔案文件修圖要求。
3.2.6.1 文檔清晰,無多余雜點;
3.2.6.2 保留原文檔的字跡;
3.2.6.3 保存方式為檔號。
3.2.7 紙質檔案文件分件要求。
3.2.7.1 按照卷內目錄對掃描文件編號;
3.2.7.2 保存方式為檔號;
3.2.7.3 分件準確率不低于98%。
依據國家檔案局《紙質檔案數字化規范》(DA/T 31-2017)[1]要求,對紙質檔案數字化加工成果進行驗收。驗收內容及要求如下。

序號 項目 要求1掃描色彩模式 彩色模式2文件格式 雙層PDF 3掃描分辨率 300dpi 4 目錄與數字圖像對應人工抽檢抽檢率不低于5%;合格率100%5 數字圖像質量人工抽檢 抽檢率不低于5%;合格率不低于95%6文件命名 以檔號為基礎命名,確保文件命名唯一性