999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卷積神經網絡的盲文音樂識別研究

2019-03-21 07:11:08劉彪黃蓉蓉林和蘇偉
智能系統學報 2019年1期
關鍵詞:特征音樂模型

劉彪,黃蓉蓉,林和,蘇偉

(1. 蘭州大學 信息科學與工程學院,甘肅 蘭州 730000; 2. 解放軍69230部隊,新疆 烏蘇 833000)

我國的盲人數量約為752萬人,是全球盲人數量最多的國家[1]。隨著從事音樂工作的盲人越來越多,盲文成為盲人與常人進行書面交流的主要方式,但用其創作的音樂作品仍然需要人工的轉換和翻譯,所以急需一種自動盲文音樂識別方案。文獻[2]最早使用硬件設備采集普通盲文內容的圖片,雖然可通過光學識別出相應內容,但是缺乏與用戶的交互性。文獻[3]設計了一個單面盲文圖片的智能識別系統,包括圖像采集、噪聲消除、圖像分割、特征提取和字符識別等步驟,其識別率達到94.39%,但使用了固定盲文單元大小和盲文點的位置來識別盲文符號,其可擴展性極其有限。文獻[4]提出了一種用于識別雙面盲文內容的高效算法,即通過對凸點和凹點的灰度值變化來區分正面點和反面點,識別率雖然比較樂觀,但其局限性在于當正面點和反面點重疊較多時,對每個盲文點的質心檢測和識別會出現很多歧義,其識別效果也因此受到較大影響。文獻[5-7]采用傳統的方法對盲文音樂符號進行識別,其中文獻[7]以MusicXML作為中間橋梁來實現盲文的轉換,并由此設計了從MusicXML到盲文樂譜ASCII碼的自動轉換軟件。文獻[8]提出一種基于深度學習模型識別盲文字符的方法,使用堆疊去噪自動編碼器來解決盲文識別過程中特征自動提取與降維等問題,利用SDAE自動學習盲文點字的圖片特征,使用Softmax分類器進行盲文識別。文獻[9]提出將雙面阿姆哈拉盲文圖片翻譯為阿姆哈拉文的系統。該系統使用方向場張量從背景中分割盲文點,使用梯度場識別正面點和反面點;對于重疊盲文點的分割是該文的核心內容,使用盲文點的屬性(質心和面積)來分割重疊點并且提出了相應的正面點和反面點識別算法。文獻[10]使用人工神經網絡對單面的阿姆哈拉圖片進行識別,采用自適應直方圖均衡化和形態學操作相結合來對文件中的不同等級的噪聲進行降噪處理,并在識別階段采用人工神經網絡和二進制編碼相結合的形式進行盲文圖像識別,識別率達到95.5%。文獻[11]采用BP神經網絡對英語盲文數字(0~9)圖像進行識別。該文展示了BP神經網絡的參數設置以及圖像的特征提取過程,其訓練精度達到97.1%,測試精度達到85%。文獻[12]在FCM和KNN的啟發下,提出了一個模糊的聚類算法和一種新的數字特征檢測算法,稱之為斑點檢測算法,即在4個掃描方向上掃描1個盲文單元,從而生成1個八進制編碼。然后模糊分類算法根據生成的八進制編碼來識別相應的盲文字符,識別精度達到83%。上述這些研究存在識別過程較煩瑣、識別度較低、泛化能力較差等問題。

為了使研究具有較強泛化能力和較高識別度,同時簡化其識別過程,本文從盲文音樂圖片的結構出發,應用卷積神經網絡的識別模型,并在Tensorflow深度學習框架下進行實驗。實驗表明,采用卷積神經網絡模型來識別盲文音樂圖片具有較為樂觀的結果。

1 識別模型

卷積神經網絡(convolutional neural network,CNN)因其具有獨特的結構[13-15],在進行圖像特征提取的同時,還能夠提取更細節的圖像信息。這樣不僅解決了多數的傳統神經網絡中參數較多、訓練緩慢的難題,而且還防止了過擬合的出現。自2016年AlphaGo戰勝世界圍棋冠軍李世石以來,卷積神經網絡再一次被推向浪潮,尤其是在計算機視覺領域的研究更是大熱。卷積神經網絡具有了兩個很重要的特點:

1)共享權值[16-17]。傳統的神經網絡中每一層的權值w僅使用一次 ,而當下一次使用時便會重新生成不同的權值w。但在卷積網絡中,卷積核要與圖像中的每個像素值(輸入向量)進行卷積運算,所以僅需要一組權值即可。當輸入向量與該組權值運算完畢時,則表明該次卷積操作結束。共享權值的設計在前向傳播階段并未縮減消耗時間,但是卻在某種程度上將整個模型所需要的權重參數的數量大大降低,很大程度上提高了計算機的運算性能。在進行卷積運算時,卷積核按照給定的步長s在輸入圖像上從左到右、從上到下依次進行滑動,直至操作結束。相對于傳統的神經網絡而言,卷積神經網絡的參數數量不僅降低了,而且其運算速度也在一定程度上提高了。

2)稀疏連接[18]。為了挖掘圖像空間局部關聯的信息,卷積神經網絡采用了通過加強神經網絡中相鄰層之間節點的局部連接模式,而摒棄了全連接的方式,即采用核少于輸入的方式來完成。例如,如果有m個輸入n個輸出,傳統的神經網絡會把每個輸出與每個輸入進行矩陣乘法運算,則時間復雜度為 O(m×n),而卷積神經網絡只提取其中有意義的k個輸入,其時間復雜度為 O(k×n),因為在實際應用中,k一般遠小于m,并更有實際意義,這一方面降低了時間復雜度,也提升了存儲的效率。

2 盲文音樂識別方法

在傳統的盲文音樂識別方法中,人工介入的工作量較大。盡管目前部分傳統模型提出的算法在一定程度上能夠實現對盲文圖像的特征提取,但是對于以點狀為基本組成且難以分辨的盲文音樂圖片而言,其識別的效果并不理想,這歸咎于其弱學習能力和弱適應性。而相比之下,近年來發展迅速的CNN的效果卻較為樂觀[19-20],表現出較高的識別精準率和較強的泛化能力。

2.1 圖像預處理

盲文音樂圖片的分辨率因受多種因素的影響而不盡相同,為了達到良好的識別效果,還需要進行一定的圖像處理過程。本文在對盲文音樂圖像識別前,先對圖像進行了預處理操作,包括降噪處理、傾斜校正、形態學處理、水平/垂直投影分割、點位標記、盲文單元切割等,其預處理前后的對比效果如圖1所示。

圖 1 盲文音樂圖片傾斜校正Fig. 1 Braille music image before tilt correction process

2.2 模型的構建

圖2 為盲文音樂圖像識別的卷積神經網絡模型結構。該識別模型有1個輸入層,3個卷積層(C1、C3、C5),2個池化層(S2,S4),2個全連接層以及1個輸出層[21]。卷積層的作用是:對盲文音樂圖像進行特征提取,進而確定其周圍特征參數的位置關系,實驗采用多層卷積層,以便可以獲得更深層次的特征圖。池化層是特征映射層,其主要作用是:對輸入的特征圖進行壓縮,簡化網絡計算復雜度,提取主要特征。輸出層即展示盲文音樂圖像的分類結果。

圖 2 識別模型結構圖Fig. 2 Identification model structure

1)輸入層。將預處理后的圖像作為該模型的輸入。圖3為訓練集中的多個樣例圖片,每個圖像的大小為32×64,即該識別模型的輸入維度為2 048。

圖 3 訓練集中的樣例圖片Fig. 3 Sample images in the training set

2)C1層。主要作用是首次進行提取圖像的特征參數,它會過濾掉多余的特征。C1層與輸入層傳入的數據進行模板匹配運算,從而得到了給定數量的輸出特征[22]。卷積核的作用并不是單純地計算卷積操作后的結果,而是在給定的權重矩陣下對輸入的圖像數據進行匹配運算操作。若卷積核尺寸過大,網絡參數會增多,網絡速度會降低,過小則會影響特征提取的精度,所以卷積核的大小選擇尤為關鍵。在此次卷積神經網絡的識別模型中,每個卷積層均采用大小為3×3的卷積核,可以降低該模型的參數數量。給定輸入層的維度為32×64,C1層的卷積核大小設置為3×3,并設置32個卷積核,步長為1。圖4為卷積神經網絡的卷 積操作過程。

圖 4 卷積操作示意圖Fig. 4 Convolution operation diagram

通過該卷積操作就可獲得大小為30×62的特征圖。為了保證卷積前后的圖像大小保持一致,在這里采用“same”卷積方式,從而保證卷積后得到特征圖的大小仍為32×64。為了保證不丟失圖像的邊緣信息,在后面的卷積層(C3、C5)都采用該操作。

由于每個濾波器會得到一個特征圖,經過C1層的卷積操作,如圖5所示,圖2中的盲文音樂圖像可得到32個不同的特征圖。某些特征圖中的盲文點邊界比較清晰,例如第1行第7個特征圖,這說明該卷積層提取到了圖像中盲文音樂符號的主干信息。其次也可以看出每個特征圖的具體狀態迥異,這是因為每個卷積核的權值信息不同,因而學習到的特征不同。

3)S2層。該池化層的主要作用是對特征的具體位置進行淡化。當提取某個特征之后,只需了解該特征與其他特征的相對位置,例如圖3中的盲文音樂字符,當得到上層的特征之后,就不用再考慮其字符的具體位置,只要得到下面對應的特征,并將上下二者有效地組合在一起便是要識別的盲文音樂字符。

圖 5 C1卷積后的特征圖Fig. 5 The feature map after C1 convolution

在卷積神經網絡中,特征所對應的具體位置將不再重要。對C1層卷積后的結果進行池化操作,即得到32個大小為16×32的結果,輸出的維度相比該層輸入的維度縮減了一半。該層是通過池化操作實現二次特征提取的,有效地減少了輸入數據的參數數量,降低了圖像的大小,簡化了網絡計算的復雜度。同時,它還可減弱卷積層的輸出在角度變形或拉伸變化方面的敏感程度,進行主要特征提取。

如圖6為整個池化操作過程,該操作是利用池化參數來進行最大下采樣操作,池化層中的步長s設置為1,其權值矩陣設置為2×2。在C1層的輸出特征圖中,對每個特征圖中進行下采樣操作,根據圖6所示此規則輸出S2層的輸出結果,但 是尺寸大小縮小為原來的一半[22]。

圖 6 下采樣操作Fig. 6 Down sampling operation

S2層的下采樣操作后得到如圖7所示的32個尺寸大小為16×32的特征圖。從圖7中可以看出,除了圖像的尺寸大小發生了變化之外,還忽 略了部分盲文音樂符號的細節信息。

圖 7 S2池化操作后的特征圖Fig. 7 The feature map after S2 pooling

4)C3層。C3層的卷積操作建立在S2層的基礎上,其卷積操作與C1層類似。主要是對S2層的輸出進行再卷積操作,進行特征再提取。在C3層中,將卷積核的數目設置為64,即可得出64個大小為14×30且圖像內容各不相同的特征圖。在該層使用“same”卷積操作后,最后得到特征圖的尺寸大小為16×32。值得注意的是,輸入與輸出的特征圖雖然在尺寸上大小相同,但是最終得到的特征圖數目卻不一樣,其中32個S2層的特征圖作為C3層的輸入,最終得出了如圖8所示的64個C3層的結果特征圖。在圖8中可以發現,其盲文點的邊緣信息越來越突出。

圖 8 C3層卷積操作后的特征圖Fig. 8 The feature map after C3 convolution operation

圖9所展示的是S2層與C3層之間的關聯和映射,從圖中可以看出這些連接并不是一一對應的關系。卷積神經網絡這樣設計的優點是:消除了網絡的對稱性,從而讓映射的數量保持在一定的范圍之內;增加了特征映射的多樣性,從而實現 了不同特征的有效提取和傳遞。

圖 9 S2層和C3層的連接圖Fig. 9 Connection diagram of S2 and C3

5)S4層。該層是識別模型最后一個池化層,S4層是對C3層的輸出結果進行池化操作,其操作與S2層的操作類似。通過S4層的下采樣操作得到如圖10所示的64個大小為8×16的特征圖。

6)C5層。C5層是識別模型的最后一個卷積操作,作用是進一步提取圖像特征。該操作與之前的卷積操作類似,但是此處將卷積核的個數設置為128。因此得到128個大小為8×16的特征圖,如圖11所示。

圖 10 S4層操作后的特征圖Fig. 10 The feature map after S4 pool

圖 11 C5層卷積后的特征圖Fig. 11 The feature map after C5 convolution

7)輸出層。為了確保輸出層的分類數量與實際的64個盲文符號數相一致,實驗的模型在最后采用了兩個全連接層使得卷積層C5能夠和輸出分類關聯上,即輸出層有64個神經元數量。在輸出結果時,本文使用softmax函數對盲文音樂符號進行分類,用dropout函數來防止過擬合現象。

3 圖像數據集

為了增強此次盲文所訓練的基于卷積神經網絡識別模型的泛化能力,前期需要大量具有代表性的訓練樣本,供其學習并獲得可觀的模型。然而,由于盲文本身的局限性圖像化的數據集更是相對匱乏,目前公認的數據集主要來源于:1)線下紙質的掃描文件,主要通過現有的OCR技術對圖像中的盲文字符進行提取,但這種提取質量很大程度上受限于掃描文件本身的質量(分辨率)、OCR技術的缺陷(光線敏感)、紙質盲文的規整性;2)線上互聯網共享的盲文圖片,圖片的分辨率、位深等屬性較為可觀,通常可以取得較好的識別效果;3)電子版音樂文件,可以通過預處理獲得較高質量的盲文圖片,組成較好的數據集。另外,受限于版權,實驗采集到的前2種盲文音樂圖片數量極其有限,主要是采用第3種盲文音樂圖片作為訓練集,后期的研究可以在取得相應許可后進行大規模數據的采集,以便于模型本身能夠有更好的兼容性。

本文采集的6 400張經過預處理后的盲文音樂符號圖片(10個盲文數字、28種常用符號和26個英文大寫字母)中,總共有64個盲文音樂符號,每個符號對應100張圖片。對于每個盲文音樂符號,實驗隨機選擇其中的80張作為訓練集,剩余的20張作為測試集。其主要的劃分情況如表1所示。

表 1 訓練集和測試集Table 1 Training sets and test sets

現實中電子版的盲文字符表現形式有多種,主要形式如圖12所示,該圖展示了測試集中的樣例圖片。

圖 12 測試集中的樣例圖片Fig. 12 Sample images in the test sets

4 算法的設計

結合構建的基于卷積神經網絡的盲文音樂識別模型,本節編寫出相應的盲文音樂圖像訓練算法以及測試算法,對應的偽碼描述分別如算法1和算法2所示。

算法1 CNN盲文識別模型訓練算法

輸入 TRAIN_IMAGES是訓練集,EPOCH是迭代次數,BATCH_SIZE是迭代量,TRAIN_ERROR是錯誤率;

輸出 y 是分類結果。

1) random(w);

2) random(b);

3) for i=1 in EPOCH :

4) x=BATCH_SIZE;

5) y_true=batch_y ;x中每個元素對應的正確值y_true;

6) y =batch_x×w+b ; 經過模型預測的值;

7) Error=error(batch_y,y_true)正確值與預測值的錯誤率;

8) if Error>TRAIN_ERROR 9) update (w); update (b)

Continue step 3;

10) else

11) update (w); update (b);

12) end

13) end

14)保存訓練后的CNN模型y,其中y=x×w+b;

15) end

算法2 CNN盲文識別模型測試算法

輸入 TEST_IMAGES是測試數據集,TEST_SIZE是測試數據量;

輸出 test_accuracy是正確率。

1) random (w); random (b);

2) load訓練模型為y;

3)t est_x=TEST_SIZE 的數據作為輸入數據;

4)獲取測試圖片數據text_x與對應的標簽值y_true;

5)t est_y=test_x×w+b;

6)其測試正確率為test_accuracy=accuracy(test_y,y_true);

7) output test accuracy

5 實驗結果分析

在該階段,為了驗證實驗建立的卷積神經網絡識別模型的有效性,實驗中的權重參數的初始化一律采用隨機數。其次,為了使得模型在訓練時不過早地陷入飽和,影響卷積神經網絡的學習能力,實驗采用的隨機數會比較小。

本次實驗中的訓練和測試都以分批迭代的方式來進行的,分別迭代200次訓練,并且每20次輸出測試數據的正確率。通過訓練和測試,正確率的變化趨勢如圖13所示,通過分析可見在迭代140次后該模型的正確率走向趨于平穩,并接近1。這是因為:盲文音樂符號的結構相對而言較簡單(以點狀為主要特征),且在訓練和測試時使用的圖片的分辨率較高,即圖像的質量較好;其次,識別模型對盲文音樂圖片中盲文音樂符號的特征提取較為容易,從而可以快速地進行盲文音樂符號的識別。本次實驗也存在許多不足,例如:受限于版權,數據集資源過小,來源也較單一。這些都需要在后期的研究中進行改進,從而達 到更好識別性能。

圖 13 正確率與迭代次數關系Fig. 13 The relationship between the correct rate and the number of iterations

就總體識別效果而言,本文所訓練的模型的識別準確度優于多數流行的方法,其對比圖如表2所示。因為本文的盲文音樂圖片是基于單面形式的盲文圖片,所以此處的對比只限于單面盲文圖片的識別對比。將CNN模型與近幾年來所使用的前饋神經網絡[10]、BP神經網絡[11]、模糊分類算法[12]、標準距離定位法[23]作對比,由此可見本文中盲文音樂圖像的識別正確率均高于其他方法。

表 2 正確率對比Table 2 Correct rate comparison

6 結束語

本文首次嘗試了將卷積神經網絡識別模型應用于盲文音樂圖片。在識別過程中,首先對盲文音樂圖片進行了預處理操作,以便于獲得更好的輸入圖片。其次,本文展示了通過卷積層、池化層等處理后的盲文音樂圖片的特征圖。在展示特征圖的同時,對識別模型的細節也進行了說明,例如關鍵參數的設定。最后,通過對實驗結果進行分析,可以發現該模型可以很好地提取到盲文音樂符號的特征,對盲文音樂具有良好的識別效果。當然本文也存在諸多不足之處,例如對數據集的選取較單一,若可以采集到現實生活中紙質的盲文書籍,那么數據集就較為充實,該識別模型就可以廣泛用到生活中,可以減少盲文識別對人工操作的依賴性。

猜你喜歡
特征音樂模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
圣誕音樂路
兒童繪本(2017年24期)2018-01-07 15:51:37
抓住特征巧觀察
3D打印中的模型分割與打包
音樂
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲精品无码在线播放网站| 丰满少妇αⅴ无码区| 狠狠综合久久| 青青青国产免费线在| 99久久成人国产精品免费| 777午夜精品电影免费看| 久久狠狠色噜噜狠狠狠狠97视色 | 欧美亚洲一区二区三区导航| 国产精品美人久久久久久AV| 国产一区二区三区免费观看| a毛片在线免费观看| 无码区日韩专区免费系列| 欧美色视频日本| 国产欧美中文字幕| 秘书高跟黑色丝袜国产91在线| 日韩中文精品亚洲第三区| 国产日本欧美亚洲精品视| 中文字幕日韩视频欧美一区| 456亚洲人成高清在线| 91色综合综合热五月激情| 国产极品美女在线观看| 免费一级毛片完整版在线看| 欧美激情福利| 亚洲欧美在线综合图区| 久久永久精品免费视频| 99re这里只有国产中文精品国产精品 | 国产a网站| 毛片久久网站小视频| 亚洲欧美另类专区| 国产精品久久自在自线观看| 亚洲国产精品日韩av专区| 国产成人无码AV在线播放动漫| 国产亚洲精久久久久久无码AV| 国产精品久久自在自2021| 色色中文字幕| 日韩成人在线一区二区| 久久无码高潮喷水| 玩两个丰满老熟女久久网| 久久久久久高潮白浆| 免费人成视网站在线不卡| 欧美一区二区三区欧美日韩亚洲 | 国产真实乱人视频| a天堂视频在线| 手机在线免费不卡一区二| 日本一本在线视频| 久久黄色一级视频| 午夜福利在线观看入口| 欧美一道本| 国产真实二区一区在线亚洲 | 巨熟乳波霸若妻中文观看免费| 亚洲男人天堂网址| 无码AV日韩一二三区| 日韩二区三区| 国产美女在线免费观看| 日韩欧美高清视频| 免费在线色| 久操中文在线| 波多野结衣视频一区二区 | 看国产毛片| 日韩国产精品无码一区二区三区| 久久夜夜视频| 国内精品九九久久久精品| 无码不卡的中文字幕视频| 国产毛片网站| 国产自在线播放| 99热国产在线精品99| 亚洲无码精品在线播放| 中国丰满人妻无码束缚啪啪| 欧美专区在线观看| 99偷拍视频精品一区二区| 制服丝袜亚洲| 亚洲精品中文字幕无乱码| 在线色国产| 成人福利在线视频| AV无码一区二区三区四区| 亚洲精品亚洲人成在线| 看国产一级毛片| 日韩av高清无码一区二区三区| 中文字幕亚洲综久久2021| 特级精品毛片免费观看| 久久国语对白| 最新精品国偷自产在线|