政府的工作離不開公文,它是政府部門間信息傳遞的主要渠道。因此,公文的數量十分龐大,一般市級政府業務部門每天收到的公文數量少則十幾件,多則幾十件,其中大部分仍為紙質公文。例如,筆者所在局收到的紙質公文就約占總量的70%,需要通過掃描儀把這些紙質公文一個一個地掃描成電子文檔,并手工錄入來文單位、文號和標題等信息。平均處理一個公文的時間為4分鐘,那么,60個公文就需要4個小時。由于工作強度大,輸入的信息容易出錯,對批閱及今后的查詢都帶來一定的困難。
所謂紙質公文一體化處理,就是將多個公文同時掃描,系統自動把每個公文處理成便于閱讀和復制的文檔。同時自動提取公文的來文單位、文號和標題等信息,并通過預設關系表的方式,實現來文單位和來文號之間的自動關聯。
一、公文結構特征分析
公文分為正式公文與非正式公文,根據2001年實行的《國家行政機關公文處理辦法》的規定,正式公文共有十三種,即命令(令)、決定、公告、通告、通知、通報、議案、報告、請示、批復、意見、函、會議紀要。非正式公文包括簡報、便函等。由于文種不同,版面格式區別較大。但不同形式的公文基本上都具有一些共同的特征:一是公文來文單位、文號和標題等需要錄入的信息都在公文的第一頁;二是正式公文的文號單獨成一行,非正式公文如簡報,首頁“第××期”一般也單獨成行;三是文件標題在文號下方,一般由一至三行組成,標題結尾的詞語相對比較固定,常見的有為“紀要、批復、請示、講話、要點、通報、通知、紀要、意見、報告、決定、備忘錄、函、簡報、摘要、匯報、函復、公告”等18個。
二、一體化處理的基本思路
公文電子化處理包括掃描、識別、分類、轉換和錄入五個環節。這幾個環節中,公文自動分類和信息的錄入是其中的關鍵。公文掃描后可以通過OCR軟件進行文字的自動識別,文字識別軟件一般是自上而下逐行識別處理,為提高識別率和加快處理速度,文字識別軟件不處理文字的顏色和字體大小等信息。為實現自動提取來文單位、文號和標題等相關信息,首先要讓程序能定位公文的首頁,由于是多個公文同時掃描,要準確的判定公文的第一頁,就必須要設置特殊的標志位。首頁定位后,再考慮如何從中提取來文單位、文號和標題等相關信息。從文件的特征來看,文號因單獨成行,相對比較容易提取,因此先找到文號的位置。接下來根據文號和來文單位的關聯性,獲取來文單位信息。文件標題位于文號下面,可以通過文號來定位,標題的行數也可以根據結尾關鍵詞來判斷。由于掃描后的公文是一頁一個圖片文檔的形式存儲,可以選擇適當的格式轉換軟件,自動生成一個PDF格式圖片文檔和一個文本格式電子文檔。
三、各環節的具體處理方法
(一)掃描儀的選擇和設定
公文一般是雙面的,因此須選擇一款帶雙面掃描且自動進紙功能的高速掃描儀,掃描速度為30頁/分鐘以上。為滿足文字識別對圖像精度的要求,掃描模式選擇彩色,分辨率為300dpi,亮度和對比度可根據文件紅頭的彩色和文字的清晰度來調整,一般以紙張的底色與計算機顯示的白色較為接近為宜,此時電子文件看上去比較清晰但又柔和、不刺眼。另外,掃描儀最好帶有自動糾偏功能,有助于提高文字識別率。
(二)公文的分類與合成
公文掃描后,每一個頁面以一個JPG格式的文件形式保存在指定的目錄下,此時需要按不同的公文把這些JPG格式的文件進行合并。系統如何才能自動地按不同的公文進行區分呢?為解決這個問題,在掃描之前,每一個公文之間隔一張A4的紙,紙上可以自定義的特殊的標識符,以能快速識別且不與文件字符重復為宜,建議使用連續的“2222222”,系統一旦遇到這一標識符,自動把前后的不同公文分開,同時合成PDF格式文件時刪除用來分隔的紙的頁面。這樣就可以一次性在掃描儀中放置多個公文。系統在處理時自動把已區分的公文轉成PDF格式的電子文檔。由于掃描時的分辨率為300dpi,雖然清晰,但轉成的PDF格式電子文檔容量較大,每一頁約為300KB,嚴重影響打開的速度,因此在轉成PDF格式文檔時必須進行一定比例的壓縮,壓縮的比例以不影響閱讀為宜。
(三)公文基本信息的提取和糾錯
文字識別軟件可自動對JPG格式的電子文檔進行逐行識別,識別完成后除每一行的字符仍處在原來的行中之外,其它的版面格式信息已被去除。原有公文字符的顏色和字體等信息將無法獲取。這樣給提取來文單位、文件標題和文號帶來了一定的困難。通過對比分析,可以由下面的方法來解決。
第一步,去除每一行中的空格。文字識別軟件在識別的過程中,文字之間會產生空格,為便于后面的判斷,把首頁每一行中的空格進行全部清除。
第二步,判斷文號位置。相對而言,文號的位置比較容易找到。一般文號占據一行,但文號中帶有括號和數字,符號識別的錯誤率比較高,因此需要自動糾錯。為此,首先分析公文首頁的每一行,符合以下條件的即可定位為文號位置行:(1)帶有括號(包括半角或全角六角括號、半角或全角中括號、半角或半角小括號、半角或全角的J或J)且括號里面包含年份201。(包括數量數字。是大寫字母O或小寫字母。的全角或半角,’可以是任何阿拉伯數)的情況;(2)括號后面至少有一位阿拉伯數,再后面是“號”;(3)“號”后面除“簽發”外,一般沒有其他文字;(4)如果“號”后面出現全角或半角右括號(小括號、中括號、六角括號)則不能作為文號判斷。(5)括號前面的文字不能多于6個,整行字符數不超過16個。(6)在一行中,第一個字是“第”,最后一個字是“期”,中間阿拉伯數,則可以判斷為簡報。按照以上6條原則進行判斷,就能很快找到文號行,同時自動糾正文字識別軟件未正確識別引起的來文號錯誤。
第三步,提取來文單位名稱。文號與來文單位存在關聯,因此需建立來文單位與來文號之間的關聯表,每次有新的部門公文時可進行自動建表。一般來說文號與來文單位是一對一的關系,但也有可能不同的來文單位相同的文號,一般出現此種情況即可進行自動提示,人工選擇。
第四步,文件標題提取。文件標題位于文號下方(文號下面的一條紅線,在文字識別時已自動清除),一般來說文號下面的第一行為標題,也有可能是二行,甚至多行。由于文件標題最后兩個字比較固定,如“紀要、批復、請示、講話、要點、通報、通知、紀要、意見、報告、決定、備忘錄、函、簡報、摘要、匯報、函復、公告”等,因此根據最后的關鍵詞進行自動匹配,從文件標題第一行開始,遇到下一行的結尾處有關鍵詞,則自動組合成標題行。
四、系統利用的關鍵技術
系統可在ASP,NET的環境下開發,開發的難點是要與掃描軟件、文字識別軟件和格式轉換軟件進行無縫對接。在實現過程中主要用到兩項關鍵技術。
1、圖文識別技術
圖文識別技術是指把掃描好的帶有圖像和文字的圖片中的文字轉化成可處理的文字的過程,市場上這類識別軟件較多,經過比較,選用漢王識別軟件正確率和可靠性比較高。實現過程是調用漢王識別軟件API函數HWOCRRecognizeFile來把掃描好的圖片文件轉化成文字文檔。
2、JPG生成PDF技術
JPG生成PDF技術比較成熟,用得比較多的是直接調用Adobe公司公布的API和Micrsoft公司公布的API。從實用性的角度出發,這里選則了Micrsoft公司公布的AFI。Micrsoft公司公布的API是與Office Word結合起來使用,值得注意的是OfficeWord 2007以上版本才有此API函數,且API函數并沒有和Office軟件一起發布,而且需求另外下載SaveAsPDF插件。
上述兩項技術主要涉及接口函數的調用,調用過程比較簡單,具體方法可參考接口軟件的說明文檔,這里不再敖述。
紙質公文的電子化處理方法很多,但由于涉及到硬件和軟件的兼容性,特別是接口的問題,要完全做到自動化處理有一定的難度。應用上述方法平均處理一個公文只要20秒左右,相比傳統的處理方法,效率提高10倍以上,正確率也顯著提高,標準格式的公文基本實現100%的正確率。由于部分公文版式的不規范,影響了文字識別軟件識別的準確率,在系統應用時要根據實際情況進行不斷調整,以實現更高的準確率。隨著辦公系統應用的不斷深入和推廣,系統安全和電子印章應用問題的解決,公文電子化交換最終將逐步取代紙質公文的傳遞,但紙質公文在短期內仍將廣泛存在。