王基豪,周曉彥,李大鵬,韓智超,王麗麗
(南京信息工程大學(xué)電子與信息工程學(xué)院,江蘇南京 210044)
鳥類作為生態(tài)系統(tǒng)中的重要組成部分,分布廣泛且對環(huán)境變化敏感,多數(shù)學(xué)者將鳥類作為監(jiān)測環(huán)境變化的指示物種[1-2],因此對鳥類物種的監(jiān)測、識別及分類具有重要意義。目前識別鳥類物種的主要方式有兩種,分別是對鳥類物種外形特征的識別以及對鳥鳴聲的識別,在實際監(jiān)測中,由于鳥類形態(tài)監(jiān)測存在成本高、范圍限制大、效率低等問題[3],使得鳥鳴聲監(jiān)測成為當前的主流監(jiān)測方向。隨著信號處理和聲音識別技術(shù)的逐漸成熟,1996年Anderson等[4]利用模板匹配的方法首次實現(xiàn)了對靛藍彩鹀和斑胸草雀兩種鳥鳴聲的識別。之后國內(nèi)外學(xué)者圍繞基于鳥鳴聲的鳥類識別問題,通過手工提取特征、機器學(xué)習(xí)等方法展開了大量的研究,但對識別效果的提升一直比較有限。
隨著深度學(xué)習(xí)的發(fā)展,國內(nèi)外部分研究表明深度神經(jīng)網(wǎng)絡(luò)如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[5]、卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network, CRNN)[6]、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[7]等在鳥聲識別中能提取更有價值、更豐富的特征信息。邱志斌等[8]將梅爾語譜圖輸入到24層的自搭建CNN模型中,利用微調(diào)網(wǎng)絡(luò)參數(shù)在包含40類鳥鳴聲的數(shù)據(jù)集中能達到96.1%的識別準確率。Takahashi等[9]在原有VGGNet卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進行改進用于鳥聲識別,結(jié)合數(shù)據(jù)增強算法解決了過擬合問題,對Freesound數(shù)據(jù)庫中的鳥類進行識別實驗,識別準確率較改進前提高了16個百分點。Adavanne等[10]在卷積神經(jīng)……