999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貝葉斯算法的手寫文字識別設計

2021-01-13 10:32:43趙云許晶周莉莉
消費電子 2021年12期
關鍵詞:區域

趙云 許晶 周莉莉

【關鍵詞】貝葉斯決策;文字識別

近年來模式識別技術被廣泛應用[1]。在我們的日常生活中,大數據中文本數據占相當大的比例,例如使用聊天工具QQ,WeChat,Ding Talk等軟件工具時,當遇到的圖像中有喜歡的話語、篇幅很長的文章時,由于邊看圖像邊打字不方便以及沒有耐心打完所有字體時,這時候文字識別系統就發揮了極大的作用。 漢字識別技術目前主要分為印刷體漢字識別和手寫體漢字識別為兩大類,手寫文字識別是指通過掃描設備將紙張上的文字信息變為數字圖像輸入計算機,然后利用計算機對圖像中的文字進行識別的方法[2]。

常見的文字識別算法主要有最近鄰算法,支持向量機,以及BP神經網絡算法等。本篇所講述的是基于最小錯誤貝葉斯算法,此算法也是平時最常見和簡單的方法之一,在常見的模式識別問題中,其目標往往是盡量減少分類的錯誤,運用概率觀點中的貝葉斯公式,以追求最小的錯誤率。按照貝葉斯的判定原則,如果我們要預測某個樣本處于哪一種類型,需要計算所有的后驗概率P(A|B),其中后驗概率最高的那一種類型便是預測的類型。

本文中手寫文字識別系統主要使用最小錯誤率的貝葉斯決策,如公式(1)所示。

基于最小錯誤率的貝葉斯決策模型,需要預先知道先驗概率 和類條件概率密度 ,概率密度 反映了特征值 在類 的概率。

(一)創建字庫

1、圖像預處理

基于貝葉斯算法對手寫文字進行識別,需要對待識別圖片進行預處理。

對樣本圖片從處理到識別需分步驟進行,具體研究過程流程圖如圖1所示。

首先讀取訓練樣本,對樣本進行二值化處理,設置二值化的閾值,通過閾值判斷圖像是否為目標,是則繼續判斷,否則作為背景,得到完整的二值化圖像。

接著利用imerode函數和imdilate函數對圖像進行腐蝕和膨脹操作,腐蝕與膨脹處理是一對逆操作,簡單理解為膨脹可以處理缺陷問題,腐蝕可處理不光滑的問題。膨脹就是填補缺陷,腐蝕腐蝕毛刺。圖像的膨脹原理是通過對輸入圖像中高亮區域進行膨脹處理,將高亮區域擴大。圖像的腐蝕過程恰恰與膨脹過程相反,主要通過對輸入圖像中的高亮區域進行腐蝕處理,將原有圖像中高亮區域縮小。[4]

2、圖像切割創建字庫

在循環中讀入訓練樣本圖片后,首先確定文字的區域,將預處理后得到的圖像信息轉化為double型數組,對數組縱向掃描確定Y方向上的文字區域,同理橫向掃描確定X方向上的文字區域,根據X和Y方向上的文字區域即可確定文字的整體區域。

使用bwareaopen函數刪除雜質圖像,將掃描區域局限于以文字為邊界的方形區域內,避免雜質的影響。利用charslice函數對每個分離的字符圖片進行文字區域限定,因為需要判斷的文本字體大小相差不大,同時為了方便代碼執行,這里將每個字符大小規格化為40×40。

得到的最終分割圖片,在循環中按照順序依次對其進行命名并保存在文件夾中,從而創建了字庫,其中一個訓練樣本的切割結果,如圖2所示;創建的字庫部分展示,如圖3所示。

(二)特征提取及樣本訓練

讀入生成的單字庫,設計每個樣本圖片僅包含12個中文字符,即“貝葉斯算法的手寫文字識別”。接著對每個單字圖片提取漢字特征值[5]。這里使用網格特征選擇,定義將每個待處理文字圖形的長、寬進行十等分,即能分為100份,樣本等分如圖4所示。

模板的大小可根據具體問題變化,且分類結果的精確度與等分的大小呈正相關。由于每一個樣本僅識別12個漢字,因此,只需考慮10×10大小的模板即可。

由于處理過后的圖片,其上所有像素點的值,非黑(0)即白(255),因此要待測樣本和這些像素點的值有關。本文對分出的這100個區域,計算黑色像素點占比ratio,如公式(5)所示,其中count表示黑色像素點的個數,cellRow*cellCol為總像素點個數。

由此可得到100個介于0至1之間的小數。我們將其用1×100的向量表示,即圖片的特征向量。

對每個單字庫圖片提取特征值后,依次將所有的樣本數據保存在文件中,樣本特征提取完成。

如圖將“文字識別”作為待測樣本輸入到程序中,首先對待測樣本進行預處理以及圖像切割成單字圖片,待測樣本切割圖如圖5所示,對其進行特征提取通過貝葉斯分類器分類識別出的結果如圖6所示。

最小錯誤率的貝葉斯決策就是按后驗概率的大小判斷,對比出最大后驗概率所屬類別的判決函數值[6],就歸于哪個類別。貝葉斯分類器首先分析出先驗概率prior,即出現每個漢字的可能性,接著對每個字庫的漢字的每個10*10的模塊進行處理,經過計算得到類條件概率,接著根據這些條件代入貝葉斯公式,得到后驗概率,計算概率最大值和其所在位置,可得到漢字的類號。

本研究結果表明基于貝葉斯分類器算法可運用于手寫文字圖像識別這一模塊。在實際問題研究中,一般存在一些不精確的條件概率密度,需要人為估算出線性函數或非線性函數,會對結果造成一定的誤差。通過對圖像進行灰度化,二值化,腐蝕,切割和膨脹等操作實現文字的特征提取,并對樣本進行訓練,再基于最小錯誤貝葉斯分類器對文字進行識別,代碼運行結果與預期結果一致。文字識別這一模塊在智能化未來會有很大的發展空間,在現實生活中,識別應用還未普及到日常生活中,可對這一領域進行深入研究。

猜你喜歡
區域
分割區域
探尋區域創新的密碼
科學(2020年5期)2020-11-26 08:19:22
基于BM3D的復雜紋理區域圖像去噪
軟件(2020年3期)2020-04-20 01:45:18
小區域、大發展
商周刊(2018年15期)2018-07-27 01:41:20
論“戎”的活動區域
敦煌學輯刊(2018年1期)2018-07-09 05:46:42
區域發展篇
區域經濟
關于四色猜想
分區域
公司治理與技術創新:分區域比較
主站蜘蛛池模板: 亚洲色图综合在线| 国产丝袜无码一区二区视频| 亚洲天堂视频在线观看| 亚洲综合狠狠| 国产福利拍拍拍| WWW丫丫国产成人精品| 狼友视频国产精品首页| 天天躁日日躁狠狠躁中文字幕| 色综合久久无码网| 国产精品私拍99pans大尺度 | 亚洲午夜久久久精品电影院| 亚洲精品综合一二三区在线| 亚洲一区色| 国产av剧情无码精品色午夜| 亚洲免费人成影院| 青青热久麻豆精品视频在线观看| 亚洲乱码视频| 亚洲视频三级| 久久人搡人人玩人妻精品一| 日韩专区欧美| 国产国产人成免费视频77777| 无码免费试看| 99精品国产自在现线观看| 欧美精品高清| 午夜老司机永久免费看片| 国产精品无码翘臀在线看纯欲| 国产亚洲精品自在线| AV在线麻免费观看网站| 日韩高清欧美| 亚洲欧美成人在线视频| 无码中文字幕乱码免费2| 午夜国产理论| 欧美午夜视频| 经典三级久久| 久无码久无码av无码| 中文字幕亚洲另类天堂| 亚洲欧美另类日本| 亚洲视频四区| 91成人在线免费观看| 国产三级毛片| 欧美成人午夜在线全部免费| 亚洲无线一二三四区男男| 亚洲精品亚洲人成在线| h网站在线播放| 制服丝袜无码每日更新| 免费三A级毛片视频| 亚洲国产av无码综合原创国产| 四虎成人在线视频| 亚洲乱伦视频| 国产第八页| 免费国产无遮挡又黄又爽| 亚洲第一色视频| AV天堂资源福利在线观看| 欧美亚洲第一页| 国产色爱av资源综合区| 波多野结衣二区| 91偷拍一区| 最近最新中文字幕免费的一页| 欧洲在线免费视频| 久久特级毛片| 久久99精品久久久久久不卡| 思思99热精品在线| 91免费观看视频| 中文一区二区视频| 亚洲香蕉久久| 中文字幕乱码中文乱码51精品| 欧美国产精品不卡在线观看| 久久亚洲国产视频| 四虎国产成人免费观看| 精品人妻系列无码专区久久| 久久午夜夜伦鲁鲁片不卡| 日日噜噜夜夜狠狠视频| 国产麻豆精品久久一二三| 88av在线看| 国产屁屁影院| 重口调教一区二区视频| 国产亚洲视频播放9000| 狠狠亚洲婷婷综合色香| 国产成人在线无码免费视频| 三级视频中文字幕| 国产91小视频在线观看| AV熟女乱|