ACS(中央銀行會計核算數據集中系統)在中央銀行會計集中核算系統(ABS)的基礎上,對央行會計核算業務處理進行了流程再造,采取“分散受理、集中處理”的模式,處理流程整體上是“憑證掃描切片,集中并發處理,流程授權監控,后臺實時記賬”。ACS柜臺發起業務是由各級營業部門生成影像信息,全國兩個業務處理中心集中業務錄入,系統完成賬務記載的處理流程,提高業務處理集中度和效率。但由于業務處理中心集中人工錄入,無法實現憑證影像輸入系統后完全意義上的自動化處理,既耗費大量的人力物力,也不利于ACS業務處理效率提升。
OCR(光學字符識別技術)技術通俗講就是讓計算機“認字”,其原理是將影像信息輸入計算機,通過OCR系統影像前處理,包括影響正規化、去除噪聲、影像矯正等,將含有文字的圖像按字切割成可獨立識別的單元,然后運用各種算法分析每個圖像單元中文字的形態特征,通過比對標準特征數據庫,判斷識別出相應字符,按通用格式輸出保存在文本文件中。
在ACS系統中引入OCR技術,可實現“無干預”交易驅動并發處理一站到底,具備較好的應用前景。
近年來,工商銀行、建設銀行、交通銀行、華夏銀行以及某些農村商業銀行等均將OCR引入業務處理系統,并根據銀行系統的業務處理特點進行流程改進,在提高自動化程度的同時,也擴展了業務范圍,完善了管理機制。以國內較早應用OCR的銀行——中國工商銀行哈爾濱分行為例,該行的會計、儲蓄綜合業務影像縮微系統,通過OCR技術實現了自動識別憑證影像,并根據憑證的類型進行自動處理。系統投產后,減輕了操作員的勞動強度,提高了工作效率。
根據目前ACS人工錄入模式,網點掃描上傳的憑證影像經過切片拆分(部分影像無需拆分)后由專業錄入人員錄入,每一項要素至少經過兩人錄入,兩人錄入要素比對一致后方進入系統校驗等自動處理環節。這種人工錄入模式因節點多、影像申領慢、易受人為延誤影響而效率較低。根據ACS日常業務憑證,假定一張憑證可拆分為10個切片,每個切片6個字,按照國際打字速度評級標準,專業人員每分鐘僅能輸入150—240個字,按照240個字/分鐘,一個人錄完一張憑證需要15秒;OCR每分鐘識別6000個字,一張憑證轉換需要0.01秒。兩者的處理效率高低顯而易見。OCR技術與ACS業務的有機結合,將大幅提升ACS系統的處理效率和精確度,增強ACS的業務承載能力和自動化水平。
OCR技術代替人工錄入能夠大幅節約人工成本,減輕內控管理的壓力,規避一定程度的道德風險。一是錄入人員報酬和機器設備投入較大。ACS在全國推廣上線后,業務處理中心將會有近200名錄入人員需求,按照每人月均2000元投入,每年僅人工費用投入為480萬元;同時還應配備相應規模的錄入設備。二是為保證錄入人員的最優配置,并且考慮到錄入工作機械重復、人員流動性較大的因素,業務處理中心將要承擔較高的內部管理成本。三是人工錄入情況下,基本消除了串謀作案的隱患,但仍存在一定的道德風險。OCR技術與ACS整合以后,將會避免以上問題的存在。
目前,ACS業務處理流程包括影像掃描上傳、影像拆分、影像切片錄入、業務撮合校驗、賬務處理等。若OCR技術在ACS中應用,將改進ACS處理流程為影像掃描上傳、OCR影像識別、要素信息輸入、業務撮合校驗以及賬務處理等,不需“影像拆分”環節,業務處理環節減少,處理時效大為提高。盡管OCR識別需要“人工校正”輔助處理,但基本實現了柜臺掃描發起后,系統的全自動化業務處理。
目前鑒于技術原因,ACS檔案子系統對憑證影像的歸檔作用僅僅局限于“存儲”,未能真正實現對影像的分類檢索,導致電子檔案的調閱、查詢僅限于“逐張翻閱”。引入OCR技術后,ACS檔案子系統可借助特殊技術實現原始圖像與識別結果共同存儲的功能。
鑒于OCR技術在ACS中應用的諸多優勢,建議在ACS系統中引入OCR技術識別模塊。對于央行營業網點掃描上傳的會計憑證影像信息,推送至系統的OCR識別模塊,經計算機自動提取會計憑證影像信息,進行影像信息識別、輸入識別結果等過程,將會計憑證的要素信息提交系統進行賬務處理。其核心工作是保證自動識別效率、正確率以及完整性。
影像預處理包含兩個方面:一是在影像導入ACS系統前進行控制或處理。相比商業銀行憑證由社會大眾填寫,ACS作為中央銀行會計核算數據集中系統,其憑證填寫人員為人民銀行內部人員或者開戶單位專業人員,憑證填寫相對專業和規范。二是影像導入系統后,進行字符識別前處理,包括影像校正、去除噪聲,比如對加蓋印章的憑證進行識別時,通過去除噪聲技術去除印章對憑證要素識別的干擾。三是按照憑證和業務種類設計識別模板,排除無關字符,對憑證中相應要素進行選擇性識別。
由于人工填寫的憑證影像千差萬別,難免會出現識別錯誤的情況,為減小影像識別出錯率,建議使用兩套不同廠家的OCR軟件,保證選購軟件的差異度,設計雙OCR串行識別校對方式,起到相互校正、優益互補的效果。只有兩套程序識別均認為正確的情況,才能視為正確識別的字符。即使可能會降低識別通過率,但確保了影像識別質量。
人工校正是彌補系統識別錯誤的有效環節,也是影像識別的最后關卡。一般來說,OCR對于不能完全確定或識別認為有誤的字符,會對字符進行差異化顯示,轉人工處理。通過字符識別校正平臺,人工判斷或補充識別結果。但是值得注意的是,在沒有提示出錯的地方也可能有錯誤,故應輔助提供人工監測平臺,使用者盡力找尋發現OCR出錯的地方,及時予以人工校正。
整合OCR技術與ACS檔案子系統,采用“雙層PDF技術”即實現一個圖像包含兩層,上層是掃描所得到原始圖像,下層是OCR識別的文字結果,實現憑證影像檔案的分類檢索,提高電子檔案的查閱或調閱效率。OCR技術與檔案子系統的有效整合,將大幅改善目前檔案系統“半電子化”存儲的現狀。