楊蕊 楊潔



摘? 要: 近年來隨著圖像處理技術(shù)的日益發(fā)展,越來越多的應用依賴圖像處理技術(shù)。為了方便財務人員進行發(fā)票管理與統(tǒng)計,通過對圖像預處理和光學字符識別技術(shù)的研究,提出了一種采用OpenCV.js開源圖形函數(shù)庫和Tesseract.js光學字符識別的Web端發(fā)票識別與管理系統(tǒng)。圖像處理與Web的結(jié)合能夠在網(wǎng)上方便快捷地把大量紙質(zhì)文件轉(zhuǎn)化為電子數(shù)據(jù),開創(chuàng)了一種經(jīng)濟新模式。
關鍵詞: 圖像處理; 圖文識別; OpenCV.js; Tesseract.js; 發(fā)票
中圖分類號:TP391.41? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2020)10-04-04
Abstract: In recent years, with the development of image processing technology, more and more applications rely on image processing technology. In order to facilitate the financial personnel to manage and count the invoices, by studying the image preprocessing and optical character recognition technologies, this paper proposes a web based invoice recognition and management system using OpenCV.js open source graphic function library and Tesseract.js optical character recognition engine. The combination of image processing and web can easily and quickly convert a large number of paper documents into electronic data on the Internet, which creates a new economic model.
Key words: image processing; image recognition; OpenCV.js; Tesseract.js; invoice
0 引言
隨著科技的進步與時代的發(fā)展,人類進入了高速發(fā)展的數(shù)字時代。人們不再滿足于傳統(tǒng)的紙質(zhì)辦公,而是將需求投放在了電子文稿上。以往,人們在賬本上記賬,需要留存大量的票據(jù),紙質(zhì)文件的保存也極為不易;而現(xiàn)在,發(fā)票信息的電子錄入與財務收支的統(tǒng)計分析變得愈發(fā)重要,紙質(zhì)文件轉(zhuǎn)變?yōu)殡娮訑?shù)據(jù)的過程成為數(shù)據(jù)存儲與運用的必然。
1 現(xiàn)狀分析
目前有許多學者對發(fā)票識別進行了相關研究,于治樓等人采用BP算法對發(fā)票號碼進行識別[1],虞飛對電子發(fā)票號碼進行研究[2]。但目前圖像處理的大多數(shù)實踐應用主要與硬件實體相結(jié)合,將圖像處理技術(shù)移植到Web服務端的國內(nèi)外相關實踐較少[3]。
所以本文研究Web端的圖像處理技術(shù)來設計一款實用、操作簡單、安全的在線發(fā)票識別與管理系統(tǒng),研究方向包含圖像預處理模塊、光學字符識別核心模塊和電子數(shù)據(jù)整合模塊。并且將盡可能地提高發(fā)票識別準確率[4-7]。……