999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

結合形態結構和BP 神經網絡的盲文字符識別

2020-09-02 12:39:12莊家俊冼文鋒王前
現代計算機 2020年21期
關鍵詞:結構

莊家俊,冼文鋒,王前

(仲愷農業工程學院計算科學學院,廣州510225)

0 引言

信息時代,大量信息通常以文字(明文)的形式存儲在互聯網中;不同于明文,盲文是盲人教育體系中的一種基礎性文化知識的重要傳播媒介,其與明文之間存在顯著差異[1]。長期以來,盲文翻譯系統是盲人群體快速獲取海量互聯網信息的一種重要手段[2],而盲文翻譯結果的正確性依賴于盲文字符識別的準確性。目前,常用的盲文字符識別方法主要采用圖像處理和機器學習技術[3-6]。尹佳等人[3]采用全局閾值圖像分割法和數學形態學運算提取盲文圖像中的字符區域,但該方法要求輸入字符具有相似的成像尺度;李婷[5]采用基于堆疊去噪自動編碼器的深度學習模型實現盲文字符識別,有效提高了多場景中盲文字符識別的準確率;李榮瑞等人[6]通過卷積神經網絡自動提取盲文字符圖像特征,識別準確率達到了98.62%。上述基于深度學習的識別方法雖能顯著提高盲文字符識別準確率,但對專屬GPU 硬件的要求較高、且學習模型訓練開銷較高,而傳統基于圖像處理的方法則普遍要求輸入的盲文圖像源自特定應用場景,極易受到盲文出版物掃描方式的影響,如難以適應發生旋轉畸變的盲文圖像。為權衡盲文字符識別的準確率和識別模型的計算資源開銷,結合盲文字符特有的形態結構特征和傳統的BP神經網絡算法,提出了一種新穎魯棒的盲文字符識別方法,以進一步提高盲文字符識別系統的實用性。

1 盲文字符識別方法

下面提出盲文字符識別方法主要包括盲文字符分割與校正、字符提取和字符識別三個主要部分。

1.1 盲文字符分割與校正

盲文屬于一種借助觸感感知的特殊字符,不少盲文圖像是通過紙質材料的電子掃描方式獲得,圖1(a)給了一幅通過電子掃描方式獲取的盲文圖像。為避免掃描過程中可能引入的加性噪聲,首先通過方差為1.5、模板尺寸為3×3 像素的高斯均值濾波器對盲文圖像進行預處理。由圖1(a)可知,盲文字符結構與紙質材料之間存在一定的成像差異性,采用OTSU 閾值分割算法[7]實現盲文字符區域的前景分割;閾值分割結果中仍可能存在部分干擾噪點,進一步基于尺寸為5×5像素的方形結構元,采用數學形態學開運算處理所得的Otsu 閾值分割結果,處理效果如圖1(b)所示。

圖1 盲文字符分割結果

盲文出版物經過多次翻閱容易導致其表面出現一定程度的紙張彎曲,且電子掃描過程中無法總能確保紙質材料擺放方位的一致性,可能導致掃描圖像中盲文字符的凸點輪廓發生旋轉畸變,如圖1 所示。為此,采用Hough 變換[8]檢測圖像中的字符線條,以直線檢測的方式校正盲文字符的旋轉畸變。為便于檢測如圖1(b)所示圖像中的字符線條,基于尺寸為35×35 像素的方形結構元,首先通過形態學膨脹運算處理圖1(b)所示的圖像,通過Canny 算子對膨脹后的字符區域進行邊緣提取,繼而采用Hough 變換實現直線檢測,結果如圖2(a)所示;進一步,將Hough 變換所得的最長線條為基礎,計算其與水平線之間的夾角(直線斜率),從而得到盲文圖像的旋轉校正角度,通過該角度實現盲文字符的旋轉畸變校正,校正結果如圖2(b)所示,校正后的盲文圖像有利于提高后續盲文字符提取結果的精確性。

圖2 盲文字符校正結果

1.2 基于形態結構的盲文字符提取

鑒于盲文字符特殊的形態結構特征(如圖3 所示),盲文段落與普通文本文檔段落之間存在較大的差異性,常規的投影法[9]可能難以準確提取獨立的盲文字符,如空方字符(即圖3 所示6 個結構點位均為空時)將被直接投影成背景區域。針對該問題,結合盲文字符的形態結構特征,將字符寬度估算融入常規投影法中,提出了一種基于盲文字符形態結構連接約束的改進投影法。

改進投影法的基本步驟如下:①對校正后的盲文字符圖像進行適當尺度膨脹處理,如采用尺寸為15×15像素的方形結構元,通過膨脹運算連接垂直及水平方向上的同一個盲文字符(視為形態結構連接約束),防止投影過程中的獨立字符被分離成多個子區域;值得指出的是,步驟(1)中結構元的尺寸必須足夠大以確保膨脹后字符的各點位結構具備連通性質;②基于膨脹后的字符圖像,按行進行字符段落的切割,并采用與膨脹運算相同的結構元,通過形態學腐蝕運算處理行切割后的字符段落,以還原盲文字符原有尺寸;③對膨脹后的字符段落進行垂直方向上的像素投影,為確保投影后潛在字符區域內可完整包含盲文的所有結構點,保守地選擇最大字寬數值以確定盲文字寬,并通過最小區域間隔修正相鄰的盲文字符字寬,即在最大字寬條件下從左至右掃描同一行切割段落上的所有字符,以前一個字符區域的右邊界作為后一個字符區域的左邊界,掃描過程基于腐蝕還原后的字符段落。圖4 給出了如圖2(b)所示第一行部分盲文圖像的字符提取結果。

圖3 盲文字符的點位形態結構圖

圖4 基于改進投影法的獨立盲文字符提取

1.3 基于BP神經網絡的盲文字符識別

由圖3 所示的盲文字符形態結構可知,一個盲文字符由6 個點位結構組成,每個點位結構各有兩種不同的狀態(即開或關),不同于普通文本文檔中的字符識別任務,盲文字符總數僅為26=64,所以盲文字符識別任務面對的是一個64 類模式分類問題。直接將提取后的盲文字符區域通過像素灰度值并接方式(即采用先按行后按列的模式逐一提取字符區域的像素灰度值)轉成對應的特征向量,并采用適合多類模式分類的BP 神經網絡算法構建判別字符特征向量的分類器。

鑒于盲文字符識別面臨的是較多模式類別(相比較于多數產品缺陷檢測或質量評判問題)的分類問題,常規單隱含層結構的BP 神經網絡可能難以較好地擬合盲文字符的特征向量,為此,分別采用基于雙隱含層和三隱含層結構的BP 神經網絡模型建立策略。在上述兩種結構的BP 神經網絡模型中,設置隱含層神經元數量分別為10、20、32、64、200 和784 個,以探討隱含層神經元數量對盲文字符識別結果的影響程度;其中,隱含層和輸出層的激活函數均采用Logistic 函數。

2 實驗結果

2.1 實驗數據

這里共采集了200 幅分辨率為800 像素×480 像素盲文圖像,按4:1 的方式隨機將其劃分為訓練數據集(包含160 幅圖像)和測試數據集(包含40 幅圖像),并提取出訓練數據集中的所有盲文字符組成訓練樣本集;為訓練一個具有良好泛化性能的BP 神經網絡模型,對訓練樣本集中的各類別字符通過隨機旋轉和平移的方式適當擴充訓練數據總量,如此,每類盲文字符各包含1200個訓練樣本,64 類盲文字符共有76800 個訓練樣本,充足的訓練樣本數量有利于避免BP 神經網絡模型對少量數據的過擬合效應,圖5 給出了部分訓練樣本示例,所有訓練樣本均被尺度縮放至28×28 像素。40 幅測試圖像中共包含待識別字符總數為19200,且所有字符均通過人工標定以形成算法驗證的客觀標準。

圖5 部分盲文字符訓練樣本示例

2.2 盲文字符識別結果與討論

文中實驗運行在搭載Intel i5-6300HQ(2.30 GHz)CPU 和8 GB 內存的計算機平臺上,相關算法的運行環境為MATLAB R2017a?;诓煌[含層層數及神經元數量的BP 神經網絡參數設置條件下,表1 給出了常規投影法[9]和文中改進投影法在40 副測試圖像上的盲文字符提取準確率,該準確率定義為測試圖像中被正確識別的字符數量與字符總數(19200)之比。

表1 不同投影方法及BP 神經網絡結構參數配置下的盲文字符識別準確率

從表1 中可以看出,不管基于何種字符提取方法(投影方法),最終的盲文字符識別準確率與BP 神經網絡隱含層層數關聯度較小,即在同一神經元數量配置的前提下,雙隱含層與三隱含層結構的網絡模型具有類似的識別結果;但在隱含層層數相同的前提下,BP神經網絡的字符識別結果對隱含層神經元的數量非常敏感。顯然,隨著隱含層神經元數量的增加,BP 神經網絡更適合于盲文字符識別任務,可能是因為隱含層神經元數量的增多有利于保證獲得更為精確的非線性擬合結果,可顯著提高包含64 個不同類別模式的盲文字符識別結果;此外,當隱含層神經元數量大于200時,BP 神經網絡在測試數據集上的字符識別性能逐漸趨于飽和;值得指出的是,隱含層神經元數量的增加會顯著提高BP 神經網絡的訓練時間,如神經元數量為784 時三隱含層結構的訓練時間耗費約為1 h 23 min 14 s、神經元數量為784 時雙隱含層結構的訓練時間耗費約為21 min 45 s,而神經元數量為200 時三隱含層結構的訓練時間耗費為4 min 9 s、神經元數量為200時雙隱含層結構的訓練時間耗費僅為3 min 17 s。為權衡網絡模型的識別性能和訓練時間開銷,對于盲文字符識別任務來說可選取雙隱層且神經元數量為200的BP 神經網絡結構,此時在測試圖像上已獲得了95.32%的識別準確率??梢缘贸?,傳統BP 神經網絡所需的計算開銷顯著低于基于深度學習的字符識別方法,但也能獲得較為滿意的識別結果。

圖6 圖4所示盲文字符區域的常規投影法提取結果

另外,由表1 還可以看出,基于常規投影法的BP神經網絡模型并不適合于盲文字符識別任務,這是因為多數模式類型的盲文字符無法被準確提取出來。圖6 給出了采用常規投影法切割如圖4 右上區域所示盲文圖像的字符提取結果,與圖4 所示的改進投影法相比:①空方字符被常規投影法錯誤切割為背景區域,導致空方字符無法送入后續的網絡模型進行判別,繼而影響這類字符的召回率;②獨立完整的盲文字符可能被錯誤切割成不同組分,這是由于盲文字符具備如圖3所示的形態結構,明顯有別于普通文本文檔中的字符結構,如英文字符識別任務中幾乎所有字符均具備全連接結構,但盲文字符左右兩側的點位結構并不存在全連接性,因此極容易被常規投影視為不同的獨立字符,進一步提高了字符提取失敗的可能性。

3 結語

提出了一種基于字符形態結構特征和BP 神經網絡的盲文字符識別方法,主要結論如下:

(1)結合較大結構元形態學膨脹運算、Canny 邊緣檢測算子和Hough 變換算法能有效校正盲文圖像的旋轉畸變,有利于降低掃描過程對紙質盲文成像視角的要求,從而提高后續字符識別模塊的場景適應性;

(2)借助形態學基礎算子改善盲文字符點位結構的整體連接性,相比于傳統投影法,基于盲文字符形態結構連接約束的改進投影法能顯著提高獨立盲文字符提取的準確性;

(3)采用雙隱含層結構的BP 神經網絡模型,當每層神經元數量約為200 個時,能在較少計算開銷的條件下,獲得較為準確的盲文字符識別結果,可望進一步提高盲文識別系統的實用價值。

猜你喜歡
結構
DNA結構的發現
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
新型平衡塊結構的應用
模具制造(2019年3期)2019-06-06 02:10:54
循環結構謹防“死循環”
論《日出》的結構
縱向結構
縱向結構
我國社會結構的重建
人間(2015年21期)2015-03-11 15:23:21
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 欧美一区二区精品久久久| 成人韩免费网站| 东京热av无码电影一区二区| 91精品国产福利| 亚洲人成色在线观看| 日韩乱码免费一区二区三区| 亚洲一区二区黄色| 国产网友愉拍精品视频| 国产精品亚洲αv天堂无码| 欧美色综合网站| 亚洲男人的天堂久久香蕉网| 不卡午夜视频| 99精品高清在线播放| 国产精品免费久久久久影院无码| 天天躁夜夜躁狠狠躁躁88| 亚洲水蜜桃久久综合网站| 在线看片国产| 成人精品免费视频| 欧美激情网址| 五月天久久综合国产一区二区| a亚洲天堂| 福利在线一区| 91久久偷偷做嫩草影院电| 国产偷国产偷在线高清| 国产黄色免费看| 99热这里只有成人精品国产| 国产一级视频久久| 91人妻日韩人妻无码专区精品| 91毛片网| 又爽又大又黄a级毛片在线视频 | a级毛片在线免费观看| 久久这里只有精品2| 欧美激情伊人| 凹凸精品免费精品视频| 精品在线免费播放| 最新国产午夜精品视频成人| 福利在线免费视频| 无码AV日韩一二三区| 国产草草影院18成年视频| 在线看免费无码av天堂的| 日韩小视频在线播放| 国产高清毛片| 免费国产好深啊好涨好硬视频| 成人字幕网视频在线观看| 亚洲午夜片| 亚洲区第一页| 欧美一区二区自偷自拍视频| 亚洲最大福利网站| 丁香六月激情婷婷| 日韩av电影一区二区三区四区 | 久久无码免费束人妻| 日韩精品无码免费专网站| 亚洲AV无码久久精品色欲| 色综合网址| 伊人久久大香线蕉影院| 色首页AV在线| 欧美区日韩区| 色婷婷啪啪| 久久99国产乱子伦精品免| 成人免费视频一区| 国产激情无码一区二区APP | 第一页亚洲| 久久黄色一级视频| 亚洲人成成无码网WWW| 欧美黄网在线| 91久久夜色精品| 亚洲 欧美 日韩综合一区| 国产成人精品2021欧美日韩| 色欲色欲久久综合网| AV熟女乱| 亚洲天堂免费| V一区无码内射国产| 在线精品视频成人网| 久久中文无码精品| 免费看的一级毛片| 伊人色婷婷| 欧美国产在线精品17p| 亚洲天堂网在线视频| 国产精品综合色区在线观看| 久久国产av麻豆| 免费毛片视频| 中文成人在线视频|