999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Tesseract—OCR技術的文字識別優化

2018-09-03 03:47:26曹重陽
智富時代 2018年7期
關鍵詞:程序信息企業

曹重陽

一、需求分析

對天貓平臺的企業信息采集下來進行結構化處理,提取出文字信息后匯總進Excel作為交付文件。

主要的功能設計如下:

1、程序能夠自動讀取企業工商信息圖片所在的文件夾路徑,并從文件夾路徑中順序取出圖片進行識別,最終的識別結果以一份匯總的Excel交付。

2、因為天貓平臺公示的圖片內容沒有固定格式,所以需要程序能匹配不同格式的圖片內容提取信息。

3、能夠提取出圖片中的企業注冊號、企業名稱數據項,企業注冊號、企業名稱數據項要進行分析處理。

4、識別準確率需要保證在95%以上。

5、識別速度保持在60秒識別50張圖片。

二、本程序處理圖片方面的關鍵模塊

1、對圖片進行切割:

要求識別的文字信息“企業名稱”“企業注冊號”位于整個圖片的其中一部分,把剩余部分切除,只留下關鍵信息部分,不但可以提高識別速度,還可提升識別率。

2、在進行圖片的二值化時,有兩種方式:

(1)圖片為彩色時,宜找到每個像素點合適的灰色度,因為每個像素點的灰色度不同程度上受到周邊像素加權影響,從而影響整個圖片的識別率。比如本像素點加上周圍8個灰度值再除以9,算出其相對灰度值。

(2)圖片為黑白色時,宜采用max-min方法對圖片進行二值化。

針對本程序識別的圖片的黑白色對比明顯,故采用max-min方法進行二值化。

private static File binaryImage(File orcFile) throws IOException {

// 獲取圖片的BufferedImage對象

BufferedImage bi = ImageIO.read(orcFile);

int h = bi.getHeight();// 獲取圖片的高

int w = bi.getWidth();// 獲取圖片的寬

BufferedImage nbi = new BufferedImage(w, h, BufferedImage.TYPE_BYTE_BINARY);

// 設置合適的經驗閾值,對二值化的識別效果起重要作用

int threshold = new Color(20, 20, 20).getRGB();// 閾值對應的顏色位于黑色文字和偏黑色背景顏色區間即可

for (int x = 0; x < w; x++) {

for (int y = 0; y < h; y++) {

// 二值化處理

if (bi.getRGB(x, y) > threshold) {

int max = new Color(255, 255, 255).getRGB();

nbi.setRGB(x, y, max);

} else {

int min = new Color(0, 0, 0).getRGB();

nbi.setRGB(x, y, min);

}

}

}

// 將二值化處理后的圖片放于D:\\orc_cut_binary下

String orcFileName = orcFile.getName();

String binaryDir = "D:\\orc_cut_binary";

File dir = new File(binaryDir);

// 存儲目錄不存在,則創建目錄

if (!dir.exists()) {

dir.mkdirs();

}

File binaryFile = new File(binaryDir + "/" + orcFileName.substring(0, orcFileName.indexOf(".")) + "binary.png");

ImageIO.write(nbi, "png", binaryFile);

return binaryFile;

}

3、在選取二值化中的經驗閾值,我們有以下思路:

(1)二值化微分計算閾值

(2)二值化類卷積的對梯度變化加強得到閾值

對24位位圖進行中值濾波會改變RGB各分量的值,所以圖片的顏色會發生變化,但對于8位的位圖,由于都是灰度的顏色,所以變化并不明顯,而且濾波的窗口選的越大,對應的濾波效果的模糊度也會上升。

4、增加圖片的亮度:

增加圖片亮度可以使有些彩色圖片的識別率大大增加,本程序別的圖片為黑白照片,增加圖片亮度提升的識別率并不樂觀。

5、對圖片的邊緣進行尖銳化處理:

銳化可以快速調整圖像邊緣細節的對比度,并在邊緣的兩側生成一條亮線一條暗線,使畫面整體更加清晰。對于高分辨率的輸出,通常銳化效果在屏幕上顯示比印刷出來的更明顯。在圖片的Alpha值保持不變的情況下,本程序前期也進行了銳化處理,但效果并不明顯,有時識別率甚至可能低于未銳化處理的圖片。

6、對圖片進行平滑縮放:

有時很多圖片本身無法很好的被識別,但當放大適當倍數時,就可增強識別率,但這個“適當倍數”很難把控,它受諸多硬件因素影響,比如電腦配置、針式打印機打印連貫性差等問題。

猜你喜歡
程序信息企業
企業
當代水產(2022年5期)2022-06-05 07:55:06
企業
當代水產(2022年3期)2022-04-26 14:27:04
企業
當代水產(2022年2期)2022-04-26 14:25:10
敢為人先的企業——超惠投不動產
云南畫報(2020年9期)2020-10-27 02:03:26
試論我國未決羈押程序的立法完善
人大建設(2019年12期)2019-05-21 02:55:44
“程序猿”的生活什么樣
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
英國與歐盟正式啟動“離婚”程序程序
環球時報(2017-03-30)2017-03-30 06:44:45
創衛暗訪程序有待改進
中國衛生(2015年3期)2015-11-19 02:53:32
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产在线视频二区| 国产欧美日韩18| 毛片最新网址| 久久婷婷六月| 日本道中文字幕久久一区| 狠狠躁天天躁夜夜躁婷婷| 亚洲丝袜第一页| 好吊妞欧美视频免费| 中字无码精油按摩中出视频| 91精品国产情侣高潮露脸| 亚洲精品少妇熟女| 在线播放真实国产乱子伦| 综合久久五月天| 91成人试看福利体验区| 日韩AV无码一区| av一区二区三区在线观看| 国产打屁股免费区网站| 国产一线在线| 国产福利免费视频| a在线亚洲男人的天堂试看| 亚洲欧美精品日韩欧美| 色网站免费在线观看| 在线播放精品一区二区啪视频| 狠狠做深爱婷婷综合一区| 亚洲第一黄片大全| 亚洲综合色吧| 97在线碰| 婷婷五月在线视频| 亚亚洲乱码一二三四区| 国产成人精品一区二区三区| 丁香婷婷综合激情| 88国产经典欧美一区二区三区| 天天色天天综合网| 国产特级毛片aaaaaaa高清| 香蕉伊思人视频| 亚洲中文字幕久久无码精品A| 香蕉视频在线观看www| 91小视频版在线观看www| 88av在线| 鲁鲁鲁爽爽爽在线视频观看| 超碰91免费人妻| 亚洲综合精品第一页| 欧美无遮挡国产欧美另类| 爆乳熟妇一区二区三区| 国产成人精品2021欧美日韩| 少妇人妻无码首页| 99精品国产自在现线观看| 久久动漫精品| 高清色本在线www| 欧美成一级| 激情综合五月网| 中文字幕无码中文字幕有码在线| 99视频精品在线观看| 色爽网免费视频| 亚洲天堂777| 99在线视频网站| 国产精品久久久久无码网站| 欧美精品亚洲二区| 天天综合网亚洲网站| 国产三级国产精品国产普男人| 国产精品男人的天堂| 日韩一级毛一欧美一国产| 精品国产99久久| 99这里只有精品免费视频| 亚洲精品在线观看91| 亚洲高清无码精品| 精品人妻一区二区三区蜜桃AⅤ| 97视频精品全国在线观看| 91久久国产热精品免费| 亚洲第一成网站| 免费高清毛片| 九九热精品免费视频| 99视频在线精品免费观看6| 91在线视频福利| 国产成人在线无码免费视频| 97国产一区二区精品久久呦| 乱人伦中文视频在线观看免费| av一区二区无码在线| 五月婷婷伊人网| 亚洲欧美日韩中文字幕在线一区| 欧洲高清无码在线| 99精品福利视频|