陳琢 吳亞聯 何婕



摘 要:針對傳統五線譜識別方法存在譜線過刪和漏刪的缺點,以及現有音符特征提取方法與譜線刪除相互制約的問題,提出一種改進的、無需刪除譜線的特征提取方法。在圖像預處理階段保留譜線,將音符與譜線同時投影,結合音符符桿垂直像素數據與音符其它部位像素數據攜帶的映射特征,對橫縱向投影數據進行數理統計分析,得到供音符類型識別的歸一化特征值,再利用基準譜線與音符符頭的相對位置獲取音調信息。實驗結果表明,該方法在保證較高識別精度的基礎上,進一步提高了識別速率,可以有效識別音符組合形式較復雜的樂譜,對于五線譜識別應用具有重要意義。
關鍵詞:五線譜識別;特征提取;映射特征;橫縱向投影;歸一化特征值
DOI:10. 11907/rjdk. 182639
中圖分類號:TP319
文獻標識碼:A文章編號:1672-7800(2019)006-0125-05
Abstract:Concerning the excessive-deleting problem and leaky-deleting problem that existed in spectral delete of traditional recognition of music score, and the mutual restraint between the feature extraction algorithm of notes and the lines delete, a novel feature extraction algorithm is proposed, which preserves the spectral lines. We preserved the spectral lines in image?preprocessing and projected the notes and spectral lines at the same time. Combined with the mapping characteristics carried by the vertical pixel data of notes rod and pixel data of other parts of notes, performing basic mathematical statistical analysis on the horizontal and vertical projection data, the normalized feature values for musical note type recognition are obtained. Then we used the relative location between the standard lines and notes head to obtain the tone information. The results of the simulation illustrate that the proposed algorithm is a feasible way to recognize more complex combinations of notes and improve the recognition rate under the premise of ensuring high recognition accuracy.
Key Words:recognition of musical notation; feature extraction; mapping characteristics; horizontal and vertical projection; normalized feature
0 引言
五線譜是目前世界通用的一種記譜法,通過在五根等距離的平行橫線上標以不同時值的音符及其它記號記載樂曲。隨著音樂產業的快速發展和五線譜的廣泛應用,五線譜自動識別需求也越來越迫切。五線譜識別與數字簡譜識別有很大差別:①相較于簡譜,五線譜基本符號更多,并且基本符號之間可以構成復雜的組合形式。符號作為五線譜重要的特征點,在識別過程中有非常重要的作用;②同一個符號在五根譜線中的位置不同,表達的音樂特性也不同,而簡譜中音符位置不含音樂相關信息。相比于簡譜,五線譜的復雜多變使其具有更豐富的音樂表現力,但同時也給五線譜自動識別帶來了更大挑戰。
國內外許多學者對五線譜識別進行了研究[1-7],其中使用較廣泛的五線譜識別方法是先進行圖像預處理,再提取音符特征進行音符識別,然后提取樂譜記號特征進行樂譜記號識別,最后根據音符在譜線中的位置得到該音符的音調。五線譜識別基本流程如圖1所示。
目前常用的圖像預處理方法均需刪除譜線,譜線刪除方法有直線穿越檢測法[8-9]、游程分析法[10-12]。直線穿越檢測法的優勢在于可一定程度上避免過刪除,缺點是計算過于復雜,并且存在刪除不完全的情形;游程分析法是一種被廣泛使用的譜線刪除方法,其首先對圖像進行垂直游程編碼,然后找出譜線位置附近的游程,刪除其中厚度小于某個閾值(通常取2倍譜線線寬)的游程。其優點是實現簡單、處理速度快,缺點是過刪現象較嚴重。在真實的五線譜中,譜線與其它對象交叉粘連的情況錯綜復雜,過刪和漏刪會引起后續音符及樂譜記號特征提取計算誤差。
關于音符特征提取,常用方法有鏈碼識別方法[13-14]、數學形態學法[15-17]、模板匹配方法[18-19]。鏈碼識別方法首先對音符采取骨架化[20-21]處理,對各個節點求取鏈碼差分碼后綜合判別,缺點在是骨架化過程中,對噪聲和粘連非常敏感,交點處會發生畸變,所以必須建立在譜線刪除的基礎上才能應用,且復雜音符組合粘連性太過嚴重也不便于分析。依據數學形態法構造垂線結構元素抽取符桿與橢圓盤結構元素抽取符頭,以平行四邊形結構抽取粘連于符桿間的尾橋,但涉及大量像素操作,處理速度慢。模板匹配法根據音符的直觀形狀設計光柵模板,利用相關匹配原理進行目標搜索,選出匹配程度較高的區域作為抽取結果。該方法直觀明了,對于粘連有很強的魯棒性,主要缺陷在于計算開銷大,刪除譜線時殘存的譜線像素使音符原有形狀特征退化,導致匹配結果不可靠。
五線譜樂譜記號可分為3類,第一類為文字,如作者、曲名等;第二類為點、線圖,如附點、小節線等;第三類為樂譜專用符號,如譜號、休止符等。由于各類型間形狀相差大,因此需要先對它們進行分割再提取特征。但樂譜記號不會有方向翻轉、記號組合等復雜變換,且尺寸固定,所以無需復雜的處理方法,文獻[22]提出了較好的樂譜記號識別解決方案。
針對刪除譜線帶來的問題及現有音符特征提取存在的問題,本文利用譜線垂直投影后像素數據特征仍然保留的特點,提出一種無需刪除譜線的音符特征提取方法。該方法結合符桿與音符其它部位的像素統計數據得到特征提取公式,一方面大幅降低了前期刪除譜線的時耗和不夠精準的譜線刪除引起的后續誤差累計,另一方面不受音符組合變化帶來的影響,可提高識別速率。
1 圖像預處理
將圖2所示樂譜處理成二值圖像的樂譜,再進行垂直投影,結果如圖3所示。
觀察樂譜與其垂直投影分布圖可以發現以下特點:
(1)投影分布圖中像素統計值特別突出的各個位置恰好對應樂譜中一個音符或者小節線。利用該特征便于找到每一個音符(或其它符號)的位置。
(2)同一種音符的不同組合形式對垂直投影分布特征影響不大,所以在考慮音符模板時,不必為了顧及識別精度而列出同一種音符的每一種存在形式,從而可有效減少模板數量,大幅提高匹配速度。
(3)不同類型的音符垂直投影分布特征有明顯區別,且其區別比同種音符不同呈現形式間的區別更大。該特點可作為區別不同音符(或符號)的有利判據。
根據上述第一個特點,可對原有樂譜上的音符(或符號)進行定位分割,得到一系列包含音符(或符號)的矩形單元,設其中一個矩形單元如圖4所示。
其中[yn]為第n行上黑色像素的統計值。水平投影分布圖中統計值最為突出的5個位置為五條譜線的所在位置。平滑圓頂峰值所在位置為該音符符頭水平所在位置。根據符頭與五線譜的相對位置可以判斷出該音符的音調信息,而符頭和譜線位置的確定只需基本的數據分析手段便可快速判斷出來。
2 音符特征提取
2.1 傳統特征提取算法
鏈碼識別方法采用各種邊界腐蝕操作,逐層削去圖像外邊界像素點與產生單像素寬的骨架點,并將其轉化成鏈碼表示,然后通過折線擬合將鏈碼矢量化為短線段,最后從短線段中識別出直線。鏈碼識別方法可有效抽取簡單音符中的線型基元,例如符桿和尾橋,該方法對噪聲和粘連非常敏感,并且交點處會形成畸變,因此在處理相交密集、有粘連的復雜音符時收效并不明顯。模板匹配方法根據基元的直觀形狀設計光柵模板,利用相關匹配原理進行目標搜索,選出匹配程度較高的區域作為抽取結果,常用于檢測尺寸固定的音符部位,如符頭和符尾。該方法直觀明了、對于粘連有很強的魯棒性,主要缺陷在于:①需要計算模板和樂譜圖像在所有可能位移上的相似度,計算開銷大、非常耗時;②由于樂譜磨損、音符環境干擾及刪除譜線時殘存譜線像素,會引起音符原有形狀特征退化,導致匹配結果不可靠;③在不同版式的樂譜中,同一符號的形狀可能存在差異,模板匹配方法對其較敏感。
傳統特征提取算法對于噪聲和音符粘連敏感,無法有效處理復雜組合音符,刪除譜線殘留的譜線像素會破壞音符原有形狀特征。針對該問題,提出改進的特征提取算法。
2.2 改進的特征提取算法
在五線譜中,非音符的符號常以固定形式出現,因此對該類符號進行識別較為簡便,如最基本的特征匹配算法。但對于變化相對復雜許多的音符而言,該類特征匹配算法難以有效提取組合音符特征、準確識別音符類型。為保證識別精度與識別速率,本文根據音符矩形單元垂直投影后符桿像素部分突出的特點,尋找符桿像素與音符其它部位像素的數量關系,構建歸一化特征值。
圖像分割后得到一系列僅包含一個符號的N*N的子圖,假設某一子圖的模型結構如圖7所示。
該特征提取算法的優點體現在3個方面:①特征值提取過程十分簡單,時間復雜度低;②在投影過程中沒有刪除譜線,充分保留音符特征,避免了刪除譜線引起的破壞音符特征的問題;③特征值在垂直投影的基礎上,進一步縮小了同種音符不同表現形式之間的差異,可高效識別復雜組合音符與五線譜符號類型。
3 音調判斷算法
音符類型被識別后,若識別結果為某種音符類型,將根據分割的子圖水平投影數據,進一步分析音調。音調是根據符頭在五線譜中的位置判斷而來,每一個位置代表一個音調。確定一條基準譜線,從符頭和基準譜線的相對位置判斷音調,無需確定符頭在五線譜的位置。音調分析過程可分為以下4個步驟:
步驟1 對子圖進行水平投影得到水平投影數據[yi],[i]為水平像素總數;
步驟2 在[yi]中,通過找到最大的統計值在五根譜線的位置,算出譜線間距平均值,將其作為譜線間距[d],并確定一條音調為T譜線作為基準譜線,其水平位置為[Ls];
步驟3 根據[yi]的局部數據特征區別符尾和符頭,從而定位符頭水平位置,并將該位置記為[Lh];
4 實驗結果與分析
4.1 有效性驗證
實驗運行環境為Windows 7、2.3 GHz Intel處理器、4GB內存、基于MatlabR2014b的開發平臺。從圖1中截取部分樂譜,如圖8所示,對其中3種較為相似的音符進行特征值提取。3種音符分別是:①附點八分音符;②十六分音符;③八分音符。
由表1可以看出,在3種相似但不同的音符類型之間,特征值存在明顯差異;從八分音符角度分析,前兩個音符與第3個音符在位置和形式上有明顯差異,但該差異給特征值造成的誤差卻非常小,該組特征值方差僅為0.000 057 66。可以發現同一種音符在五線譜上不同位置和不同形式,并不會給特征值造成較大誤差,從而驗證了本文特征值提取算法的有效性。
4.2 五線譜識別測評
在相同的測試環境下,應用本文特征提取方法和傳統特征提取方法進行五線譜識別,并對識別結果進行對比分析。
實驗運行環境為Windows 7、2.3 GHz Intel處理器、4GB內存、基于Visual Studio2010開發平臺,實驗代碼采用C語言編寫。將10個由專業制譜軟件制作的音符圖作為模板圖,見圖12;將3幅由專業制譜軟件制作的五線譜作為測試譜,如圖13-圖15所示。
從樂譜中隨機截取10個音符作為模板圖,分別為八分休止符、八分音符、二分音符、附點八分音符、四分音符、附點四分音符、連續八分音符、全音符、十六分音符與附點二分音符,這10個音符用作3幅測試譜的匹配模板已足夠。圖13完全由非組合音符構成,圖14加入了大量組合音符,圖15則由各類音符隨機組合而成,并加入大量非音符符號作為干擾,用于模擬一般情況下五線譜隨機性和復雜性。
實驗代碼包括應用傳統特征提取方法的五線譜識別算法代碼與應用改進特征提取方法的五線譜識別算法代碼,在Visual Studio2010開發平臺上運行實驗代碼,加載3幅測試譜,輸出得到音符特征值和音調信息。將輸出結果與音符模板圖的音符特征值及測試譜音調信息進行比較,計算音符識別正確率和音調判別正確率,數據見表2。
通過對表2分析,可以得出:從測試譜1到3,應用傳統特征提取方法識別五線譜的音符正確率呈下降趨勢,本文方法保持相對穩定的音符識別正確率。測試譜2與測試譜3由許多組合音符構成,傳統算法由于對音符粘連的敏感性,無法有效識別組合音符,而本文方法在測試譜2和3中的音符識別正確率比傳統方法高7%-10%,可有效識別組合音符。對于同一幅測試譜,本文算法在音調識別準確率上比傳統算法高約15%,傳統五線譜識別在刪除譜線后,對音符原有形狀會造成一定破壞,給后續還原五線譜判斷音調帶來極大誤差。本文一直保留五根譜線,所以只需計算符頭與本文給出的基準譜線相對位置即可得出音調。總體而言,本文方法在簡單音符識別、組合音符識別和音調判斷上均優于傳統特征提取方法。
5 結語
本文首先將樂譜進行不刪譜圖像的預處理,結合音符符桿垂直像素數據與音符其它部位像素數據攜帶的映射特征得到音符特征值,再利用基準譜線與音符符頭的相對位置得到音調信息。實驗結果表明,本文提出的特征提取算法有效。對比傳統特征提取算法和匹配算法,本文算法充分利用符桿位置與垂直投影數據構造高區分度特征值,為后續音符類別匹配提供了具有高區分度的數據,解決了傳統算法無法有效識別組合音符的問題。在音符類別確定后,利用基準譜線與符頭相對位置可有效確定音高。
未來將對樂譜結構更為復雜的復調性樂譜識別作進一步研究,尋求一種嚴謹高效的復調樂譜全局整合策略,進一步增強樂譜識別技術的實用性。
參考文獻:
[1] BLOSTEIN D. Using diagram generation software to improve diagram recognition: a case study of music notation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1999,21(11):1121-1136.
[2] ROSSANT F,BLOCHB I. A fuzzy model for optical recognition of musical scores[J]. Fuzzy Sets and Systems, 2003,141(2):165-201.
[3] ROSSANT F. A global method for music symbol recognition in typeset music sheets[J]. Pattern Recognition Letters,2002,23(10):1129-1141.
[4] MIYAO H,NAKANO Y. Note symbol extraction for printed piano scores using neural networks[J]. IEICE Transactions on Information and Systems,1996,E79-D(5):548-554.
[5] FAHMY H. A graph-rewriting approach to discrete relaxation application to music recognition[C]. Proceedings of SPIE,1994:291-302.
[6] 張登盛,馬頌德.多聲部樂譜圖像識別系統[J]. 計算機工程,1998,24(3):41-43.
[7] 王林泉,章文怡. 區域特征的樂譜識別系統[J]. 軟件學報,1994,5(11):44-49.
[8] RANDRIAMAHEFA R,COCQUEREZ J P,FLUHR C,et al. Printed music recognition [C]. Proceedings of the 2nd IEEE International Conference on Document Analysis and Recognition,1993:898-901.
[9] BAINBRIDGE D,BELL T C. Dealing with superimposed objects in optical music recognition [C]. Proceedings of the 6th IET International Conference on Image Processing&Its Applications, 1997:756-760.
[10] GEORGE S E. Visual perception of music notation: on-Line and off line recognition[M]. New York:IGI Publishing,2004.
[11] BAINBRIDGE D. Extensible optical music recognition[D]. Christchurch: University of Canterbury,1997.
[12] FUJINAGA I,PENNYCOOK B, et al. The optical music recognition project[J]. ?Computers in Music Research,1991(3):139-142.
[13] 胡曉宏. 基于鏈碼特征的幾何圖形快速識別算法[J]. 吉林大學學報:理學版,2015,53(3):490-491.
[14] IICARINEN J. A shape recognition of irregular objects[C]. ?Proceedings of SPIE the International Society for Optical Engineering,1996:1-8.
[15] 劉清,林土勝. 基于數學形態學的圖像邊緣檢測算法[J]. 華南理工大學學報:自然科學版,2008,36(9):113-116.
[16] GERAUD T. A morphological method for music score staff removal [C]. IEEE International Conference on Image Processing,2015:2599-2603.
[17] MONTAGNER I S,HIRATA R,HIRATA N S T. Learning to remove staff lines from music score images[C]. IEEE International Conference on Image Processing, 2014:2614-2618.
[18] 陳皓,馬彩文等. 基于灰度統計的快速模板匹配算法[J]. 光子學報,2009,38(6):1587-1588.
[19] KOBAYAKAWA T. Auto music score recognizing system[C]. Proceedings of SPIE:Character Recognition technologies,1993:112-123.
[20] MARTIN P,BELLISSANT C. Low-level analysis of music drawing images[C]. First International Conference on Document Analysis and Recognition,1991:417-425.
[21] CHANG S,SOAK S. Optical music recognition using skeleton structure and neural network[C]. Proceeding of SPIE,2002,4734:132-140.
[22] 劉曉翔. 光學樂譜識別技術研究與實現[D]. 西安:西北工業大學,2006,76-87.
(責任編輯:江 艷)