徐德光 位曉曉 李常先
摘要:本文從紙質檔案的數字化展示入手,結合高校檔案存儲、使用的實際情況,利用開源的FlexPaper文檔瀏覽器組件,輔助OCR識別技術,設計了一套數字化平臺建設方案。采用該方案后能夠有效提升檔案文件的利用率,提高工作效率。
關鍵詞:紙質檔案數字化;OCR識別技術;FlexPaper;在線瀏覽
中圖分類號:G434 文獻標識碼:A 論文編號:1674-2117(2016)09-0092-04
● 引言
高校的教學和管理會涉及大量紙質檔案的簽發與存儲,如入學登記表、學籍異動申請、學籍卡等,常規做法是把檔案的基本信息存儲到計算機上,使用時先查詢這些信息確定檔案位置,然后再去檔案室手動翻找。這種做法一方面給檔案查找工作帶來諸多不便,另一方面也不利于檔案原件的保存。
針對這一現狀,筆者從紙質檔案的數字化展示入手,結合高校檔案存儲、使用過程中的實際情況,利用開源的“FlexPaper文檔瀏覽器”組件,輔助OCR識別技術,設計了一套紙質檔案數字化平臺建設方案。
● 功能分析
1.檔案類型
根據高校工作的實際情況,筆者將紙質檔案分為單文件型和列表型兩類。單文件型是指該文件只涉及一件事情、一個主體對象,如學生的學籍異動申請、學籍卡、處分文件等。列表型是指該文件涉及多個主體對象,常以列表的形式呈現,如新生的錄取名冊、分班情況等。這種分類能夠使平臺數據庫的建設更加清晰明了。
2.操作分類
為了便于平臺的管理,按公開程度的不同,筆者把紙質檔案又分為公共文件、部門文件和特殊文件三類。公共文件是開放給所有瀏覽者的檔案信息,部門文件是針對某一個或多個相關部門的檔案信息,特殊文件則是只授權給某些人看的檔案信息。這種分類可以有效地簡化平臺權限的分解。
3.使用者權限
根據以上分析,筆者把使用者分為普通瀏覽者、部門員工和管理者三種。普通瀏覽者只能查看公共檔案文件,無法進行復制、打印、下載等操作;部門員工可以查看、打印、下載屬于該部門和授權給其個人的檔案文件;管理者則可以統籌規劃整個平臺及管理文件分發權限。
● 系統設計
1.總體結構
紙質檔案數字化平臺主要包括文件上傳轉換、前端展示和權限分解三個模塊,在前期準備工作階段又分為檔案整理編號和掃描識別兩個步驟。總體結構如下頁圖1所示。
2.前期準備階段
由于高校檔案涉及對象復雜,事項繁多,前期紙質檔案的整理編號工作就尤為重要。除了常規按年份、事項、順序編號外,根據本平臺的設計要求,還應著重標明檔案的類型、面向的對象以及操作分類。
掃描識別階段主要涉及文件的掃描存儲和文件內容的OCR識別。根據上一步檔案分類的不同,單文件型的檔案只需手動標識出文件的主要內容和涉及的對象,列表型的檔案則需識別出關鍵信息。筆者采用ABBYY FineReader軟件進行內容識別,該軟件能夠快速、高效地把靜態紙質文件和PDF文件轉換成可管理的電子數據,并能夠直接存儲為RTF、TXT、DOC、CSV、XLS或HTML等格式,且能保持表格與圖片中原始頁面的設計。
通過上述的前期準備工作,紙質檔案文件轉換成了電子掃描版和文字識別版兩個版本,這兩個版本會在平臺模塊中關聯展示。
3.平臺模塊
紙質檔案數字化平臺通過上傳轉換模塊把紙質檔案的掃描件或圖片上傳到平臺,服務器會自動把上傳的文件轉換成前端展示模塊可以識別的格式,并按相關的權限展示給使用者。
平臺主要識別圖片、PDF、Office文檔等類型的文件,總體流程如圖2所示。文件上傳后,系統會自動識別文件格式,如果是平臺不可識別的文件則彈出錯誤,進程結束;如果是圖片格式或者PDF文檔,則調用SWFTools工具將其轉換為SWF文件,前端展示模塊識別這種格式后,再調用開源的FlexPaper組件來進行展示;如果是Office文檔,則調用FlashPaper工具進行相應的文件轉換。
SWFTools和FlashPaper是兩款電子文檔轉換工具,它們可以將需要的文檔快速地處理成分頁的SWF格式的Flash動畫文件,原文檔的排版樣式和字體顯示都不會受到影響。所有使用者都可以通過網絡自由查看,并能夠實施放大、縮小、翻頁、搜索等操作,執行效率高。另外,SWF格式的文件可以有效控制復制和下載傳播,保護檔案文件安全。其中SWFTools工具主要負責圖片和PDF文件的格式轉化,而FlashPaper主要針對各種Office文檔進行相關操作。
紙質檔案數字化平臺主要利用ASP編程語言設計開發,在上傳轉換模塊需要調用服務器端安裝調試好的上述轉換工具才能進行操作。關鍵代碼如下:
調用SWFTools:
Set WshShell=Server.CreateObject(“Wscript.Shell”)
IsSuccess=WshShell.Run("SWFTools\pdf2swf.exe "&pdf文件路徑&"-o"&swf存儲路徑&" -T 9 -f -s languagedir= SWFTools\xpdf\xpdf-chinese-simplified",0,true)
調用FlashPaper:
Set WshShell=Server.CreateObject(“Wscript.Shell”)
IsSuccess=WshShell.Run("FlashPaper\FlashPrinter.exe "&pdf文件路徑&" -o "&pdf文件路徑,0,true)
前端展示模塊的核心是經過二次開發的FlexPaper組件。FlexPaper是一款開源輕量級的在瀏覽器上顯示SWF格式文檔的組件,該組件除了能夠很好地執行文檔顯示功能外,更重要的是能夠實現文本閱讀的相關操作,如上下翻頁、文本縮放、查找全文等。通過Adobe Flash Builder軟件對FlexPaper進行二次開發,最終編譯成可在HTML中使用的Flash版本,并通過ASP編程語言對其進行調用和細節設定,如文件縮放、是否可用全屏、頁面的長度和寬度、在頁面的位置等,從而完成文檔的展示功能。
在二次開發過程中,主要針對原版組件操作按鈕功能控制問題和識別中文文件亂碼問題進行編譯。由于本平臺需要通過權限分解模塊進行相關的打印下載操作,故而需要禁用組件中的打印按鈕和右鍵菜單的打印操作,此時需要修改FlexPaperViewer.mxml頁面中的public var_PrintEnabled:Boolean代碼為false,同時把本頁面中的st:GradientImageButton icon="{MenuIcons.PRINT_ICON}"打印按鈕代碼注釋掉,其他和平臺設計有沖突的按鈕和功能也可以通過修改FlexPaperViewer.mxml頁面代碼來關閉或刪除。右鍵打印菜單則需要注釋掉FlexPaperViewer_Base.mxml頁面中的contextMenu.customItems.push(cmi_print)代碼。識別中文文件亂碼問題則需要修改FlexPaperViewer.mxml頁面中的public var_localeChain:String為zh_CN。
FlexPaper組件進行二次開發以后,就可以在平臺中部署和調用了。
ASP編程語言調用FlexPaper組件的關鍵代碼如下:
4.平臺框架
目前,紙質檔案數字化平臺已完成主要的模塊設計和整合,系統框架如圖3所示。
左側框架為檔案文件的展示模塊。該模塊可以展示檔案文件的電子掃描版,并能進行放大、縮小、翻頁、搜索等相關操作,原始痕跡一目了然,數字化操作方便快捷。
右側框架上半部分為檔案文件的說明操作模塊。該模塊會展示文件涉及的對象、時間,以及事件的概述等,若文件類型為列表型,此處則額外展示檔案文件文字識別版本的鏈接地址和數據信息。在權限分配的前提下,本模塊會顯示打印、下載等相關操作按鍵,方便快捷。
右側框架下半部分為相關文件展示模塊。該模塊會根據權限分配和瀏覽歷史等因素顯示相關的檔案文件。
● 結束語
本平臺一方面保護了原版紙質檔案文件,另一方面也提高了檔案文件的利用率,為無紙化高效辦公提供了可能。該平臺也可以在高校報紙編輯部、圖書館等相關部門推廣應用。
參考文獻:
[1]賴海明.互聯網文檔分享平臺設計與實現[D].廈門:廈門大學,2013.
[2]岳展弘.高校數字檔案館建設策略研究[A].決策論壇——系統科學在工程決策中的應用學術研討會論文集(上)[C].2015.
[3]鐘愛青.基于FlexPaper的校內知識平臺系統設計與實現[J].現代計算機(專業版).2014(18).
[4]蘇苒.高校招生中考生紙質檔案的重要性[A].檔案管理與利用——方法 技術 實踐[C].2013.
[5]楊然.基于C/S架構的教學資源共享系統研發[D].成都:四川師范大學,2014.