999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于卷積神經網絡的環境聲音分類方法*

2021-05-21 01:20:00敏鄧偉趙
電子器件 2021年2期
關鍵詞:分類

朱 敏鄧 偉趙 力

(1.常州信息職業技術學院電子工程學院,江蘇常州 213164;2.東南大學網絡空間安全學院,江蘇南京 210096)

近年來,自動環境聲音分類問題越來越受到科研人員的廣泛關注。目前其應用范圍包括情境感知計算[1]和監控[2]、智能聲學傳感器網絡實現的噪聲緩解[3]。

目前已經有多種方法應用于環境聲音分類的問題,包括矩陣分解[4-6],字典學習[7-8],小波濾波器組[8-9]以及深度神經網絡[10-11],還有很多與環境聲音分類類似的研究[12-14]。根據許多研究結果,深度卷積神經網絡原則上非常適合環境聲音分類的問題[15]:首先,其能夠捕獲跨時間和頻率的能量信息;其次,通過使用具有小的感受野的卷積核,神經網絡能夠學習識別代表不同聲音類的時域-頻域模式[16]。然而,卷積神經網絡在環境聲音分類中的應用還受到很大的限制。例如,Piczak K J[11]提出CNN 結構獲得的結果沒有明顯的提升。

具有較好分類效果的深度神經網絡尤其依賴于訓練集的數據量。CNN 模型應用于環境聲音分類效果有限的一方面原因可能是具有標記的環境聲音數據集較小。雖然近年來不同的研究機構已經發布了幾個新的數據集[17-18],但它們仍然比其他領域(比如圖像分類[19])可用于研究的數據集小得多。

數據增強是上述問題的一個可行方案,即將一個或多個數據轉換應用于具有標記的訓練數據集合,用以產生額外的訓練數據[19-21]。數據增強的關鍵點在于標記數據的變形不改變其語義含義,使其仍屬于已有的標簽。以圖像為例,汽車的旋轉、平移、鏡像或縮放圖像仍然是屬于汽車類別的圖像,因此可以應用這些變形來產生額外的訓練數據。音頻領域已經提出了使語義不變的數據變形,并且已經提升了音樂分類任務的模型精度[21]。然而,在某些環境聲音分類的情況下,數據增強的應用相對有限[11-22],Piczak K J[11]使用時移,音高變換和時間拉伸的隨機組合來增加數據,得出結論:簡單的增強技術被對UrbanSound8K 數據集效果不佳,因為它們產生的訓練時間大大增加,而對模型精度的影響卻可以忽略不計。

提出了一種深度卷積神經網絡結構,對ESC-50 數據集進行分類。此外,應用數據增強來克服數據稀缺的問題,并探索不同類型的音頻變形及其對訓練得到的模型性能的影響。展示了所提出的CNN 與音頻數據增強相結合的方法,使得環境聲音分類效果得到顯著提升。

1 數據增強

數據增強用于提高訓練數據的數量,如果訓練數據質量較高,則系統的準確性也會變高。數據增強本質上是一種變形技術,通過這種變形,我們能夠成倍地增加數據集的數據量。

我們應用了3 種不同的數據增強方法來擴展數據。數據增強的重要前提是在數據變形后應保持語義有效性。4 種音頻數據增強方案描述如下:

音高變換(PS1):通過這種增強,音頻樣本音高被改變,使得降低或提高數據樣本的音高而音頻的持續時間應保持不變。本次實驗中所有音頻樣本的音調移位值為1.5。

音高變換(PS2):在這個變換中,所有音頻樣本的音調偏移值越大。移位值為2.5。

高斯噪聲(GN):該變形可以在原音頻樣本中添加高斯噪聲。

2 卷積神經網絡

卷積神經網絡[23](CNN)建立在多層感知器(MLP)的架構之上。CNN 可以在2 個階段發揮重要作用。第1 個是特征提取階段。過濾器窗口在輸入上滑動,并在每個位置提取卷積的總和,然后將其存儲在特征圖(features map)中。卷積層后通常為池化,其中通常采用每個窗口中的最大值,這減小了特征圖大小但保留了重要數據,從而降低了網絡的維度,這意味著減少了訓練時間和過度擬合的可能性。最后是分類階段,這時網絡中的三維數據已降維成要輸出的一維向量。所用卷積神經網絡的大致流程如圖1 所示,其中類似的中間層在整個結構中重復4 次,每一層中間層均為卷積層(convolution)、最大池化層(maxpooling)、舍棄層(dropout)的組合,如圖1 所示。上述重復的3 層組合的詳細參數會在后續介紹。

圖1 深度卷積神經網絡的流程圖

2.1 卷積層

卷積層是CNN 網絡的核心,卷積層的參數由1組可學習的濾波器組成,它們具有小的感受野,延伸到輸入容積的整個深度。在每一層卷積層的filter_size 和kernel_size 都為2。在前向傳播期間,每個濾波器對輸入進行卷積運算,計算濾波器和輸入之間的點積,并產生該濾波器的二維激活圖。簡單來說,卷積層用來對輸入層進行卷積,提取更高層次的特征。

對于第l層卷積層,其輸入通常為前一層卷積層的輸出特征圖。通過將本層的若干個卷積核與輸入特征圖進行卷積運算,得到輸出特征圖。記第l層卷積層的第i個特征圖為,其前一層卷積層的第j個特征圖為表示卷積核,則的計算如式(1)所示:

把芋梗用草捆扎起來的時候,母親對我說:“這是西北雨,如果邊出太陽邊下雨,叫作日頭雨,也叫作三八雨。”接著,她解釋說:“我剛剛以為這陣雨不會下到芋田,沒想到看錯了,因為日頭雨雖然大,卻下不廣,也下不久。”

2.2 激活函數

卷積實際上是一種線性操作,機器學習中必須將一個特征空間的向量通過非線性變換映射到另一個空間才能實現線性可分。激活函數就是引入非線性的手段。傳統的sigmoid 函數容易造成梯度消失。為了解決梯度消失的問題,一種更有效的激活函數修正線性單元(Rectified Liner Units,ReLU)被引入,定義函數如式(2)所示:

ReLU 函數的導數如式(3)所示:

當x取負值時,就相當于直接封閉了節點,而當x取零或正值時,由于函數導數始終是1,就完全避免了梯度消失問題。AlexNet 的論文中也提到,對于同一個網絡結構,使用ReLU 作為激活函數,其收斂速度要比使用tanh 快6 倍以上。以上優勢使得ReLU 成為現在所有CNN 模型首選必備的激活函數。

2.3 池化層

池化即為降采樣,可以達到降維的目的。池化窗口大小為2×2,處理后的矩陣的長和寬都是原矩陣的1/2,輸出矩陣的尺寸是矩陣的1/4。對于池化來說要使特征提取擁有平移不變性。

池化將原特征圖以不同的方式聚合,沒有算術運算過程,所以池化層本身沒有可學習的參數,在誤差反向傳播過程中,池化最重要的工作是計算并傳遞誤差。定義兩種不同的采樣操作符:down(.)表示前向推理過程中池化層的下采樣操作,利用最大池化或平均池化,up(.)表示誤差反向傳播過程中對自上層的誤差信號的上采樣操作,數學表示如式(4)所示:

第一層卷積層的卷積核大小為2×2,有16 個卷積核,所以第一層在輸入為40×250×1 的情況下,輸出16 個特征圖,則輸出維度為39×249×16,而池化的窗口大小為2×2,即特征圖維度減半,池化后輸出19×124×16,如圖2 所示。

圖2 卷積層與池化層組合的過程圖

由于提出的CNN 結構是以上卷積層加池化層的4 次重復,圖2 展示的是第1 層卷積加池化的過程。第2 層卷積核個數為32 個,所以第2 層卷積層的輸出為18×123×32,再經過第2 層池化后輸出為9×61×32,第3 層卷積核個數為64,則第3 層的卷積輸出為8×60×64,第3 層池化輸出為4×30×64,第4層卷積核個數為128,則第4 層卷積輸出為3×29×128,池化后為1×14×128。

2.4 舍棄層

Dropout[19]是Hinton 提出的去過擬合技術。在每一輪的訓練過程中,隨機讓一部分隱藏節點失效,但每個節點的權值都會被保存下來。在最終預測時,打開全部隱藏節點,使用完整的網絡進行計算,相當于把不同結構的網絡結合在了一起。本文使用較小的dropout 值20%

由圖1 可知,CNN 結構最后還有一個全局平均池化層和全連接層。全局平均池化層的輸入為最后一層卷積層的輸出,即1×4×128,全局平均池化后為輸出為128,全連接層將有50 個節點(判定類別數),這些節點與可能的分類數相匹配,全連接層的激活是softmax。

3 實驗

3.1 數據集

ESC-50 數據集是環境音頻的數據集。這一數據集由2 000 個標記的環境聲音組成,他們被均勻地劃分為50 個類別(每個類別40 個樣本)。這50個類別又可以粗略地分為5 個大類,分別是:動物的聲音、自然聲音和水聲、人(非言語)聲音、室內聲音、室外噪音。

該數據集提供了各種環境聲源,一些樣本彼此不同(玻璃破碎,刷牙),還有一些差異很小(直升機和飛機噪音)。該數據集的一個明顯的缺點是每個類的音頻樣本數量有限。這與手動注釋和提取的高成本有關,也與奇特的聲音事件的可用量有限而樣本類之間又要保持嚴格平衡有關。然而,這一數據集在當下的研究中仍有望以其目前的形式發揮作用。

在該數據集中除了包含2 000 個音頻文件之外,還包含一個元數據的csv 格式文件。在該文件中包含了每個音頻樣本的信息,這些信息包括:音頻文件的文件名,音頻類別等等。

3.2 實驗配置

實驗使用在加載音頻時也將歸一化數據。這消除了具有多種位深度的數據集的復雜性。

在歸一化的數據中中提取Mel 頻率倒譜系數(MFCC)。這些音頻特征將用于進行分類識別。本文計算了音頻樣本的250 幀的一系列40 階MFCC,連續為數據集中的每個音頻文件提取MFCC,并將其與其分類標簽一起存儲。為了克服因音頻文件的持續時長不同而導致的MFCC 向量大小不同的問題,會對MFCC 向量進行零填充,使得它們有相同的大小。

在讀取音頻數據并進行特征提取以及標簽編碼后,所有數據用dataframe 的類型存儲,成為可使用的數據。然后將數據集拆分為訓練和測試集,測試集占總數據集的20%,劃分依據為隨機劃分。在CNN 上訓練模型迭代至收斂,最后使用測試數據集測試模型的分類準確率。訓練過程的batch_size 設置為128,優化算法設置為adam。

利用前文提到的語音增強,分別對原音頻樣本實行不同的增強策略,然后比較這幾種策略下的測試準確率。

3.3 分類方法對比試驗

為了比較提出的卷積神經網絡結構和數據增強方法的效果,分別在進行時間拉伸的數據集上和原數據集上測試準確率,同時使用支持向量機分類方法在原數據集和時間拉伸的數據集上測試準確率。結果如表1 所示。

表1 不同分類方法分類準確率

結果表明,在訓練數據集相同時,卷積神經網絡效果優于支持向量機,這與前文提到的CNN 結構的原理有關,而對于同一分類方法,在時間拉伸的數據集上的測試準確率要有所提到,這顯然是有效的訓練數據的增加的影響。

3.4 數據增強對比試驗

在該實驗中,分別采用不同的數據增強方法(如表2 所示)對數據集進行增強,然后在增強后的數據集上根據前文的實驗配置參數訓練模型,最后測試分類準確率。

表2 不同數據增強方法分類準確率

由以上實驗結果可以看出,不同的音頻數據增強方法的分類準確率不同。而同一種增強方法,增強參數不同時,最終的準確率也有區別。產生以上結果的原因在于,采用不同的方法進行數據轉換時,原本音頻數據的時域-頻域模式的改變程度不同的,所以產生的新的訓練數據對于模型的優化程度不同。

4 結束語

提出了一種深度卷積神經網絡架構,它結合音頻數據增強方法,對環境聲音分類效果較好。研究發現,改進的性能源于深度,高容量模型和增強訓練集的組合,這種組合優于沒有增強的CNN 和具有增強的其他機器學習模型。最后,不同數據增強方法對模型分類準確性的影響也會不同。

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: A级全黄试看30分钟小视频| 无遮挡国产高潮视频免费观看| 国产成人免费视频精品一区二区| 国产原创演绎剧情有字幕的| 国产女人在线观看| 国产成人精品一区二区免费看京| 91精品国产自产91精品资源| 国产男女免费视频| 国产三级成人| 丰满人妻久久中文字幕| 精品一区二区无码av| 国产一区亚洲一区| 四虎国产精品永久一区| 欧美怡红院视频一区二区三区| 538国产在线| 网久久综合| 日本日韩欧美| 国产精品美人久久久久久AV| 成人av专区精品无码国产| 免费播放毛片| 天天操精品| 久久精品这里只有精99品| 免费毛片全部不收费的| 天天色天天操综合网| 久久性妇女精品免费| 国产熟女一级毛片| 国产成人一区免费观看| 中文字幕永久在线看| 亚洲九九视频| 欧美激情成人网| 欧美一区二区三区香蕉视| 亚洲天堂在线免费| 亚洲爱婷婷色69堂| 综合色婷婷| 夜夜爽免费视频| 国内精品视频在线| 漂亮人妻被中出中文字幕久久| 国产欧美视频一区二区三区| 夜夜拍夜夜爽| 四虎亚洲国产成人久久精品| 日韩a级片视频| 国产亚洲视频免费播放| 久久国产热| 久久99久久无码毛片一区二区| 2021最新国产精品网站| 亚洲成人精品久久| 色综合婷婷| 久久香蕉国产线看观看精品蕉| 亚洲一级毛片在线观| 国产欧美日韩资源在线观看| 亚洲VA中文字幕| 国产精彩视频在线观看| 在线播放国产99re| 99久久精品免费看国产免费软件| 91精品最新国内在线播放| 综合五月天网| 久久亚洲黄色视频| 五月婷婷丁香综合| 国产精品亚洲va在线观看| 成人国产一区二区三区| 国产福利在线免费观看| 日韩av在线直播| 亚洲成人高清无码| 重口调教一区二区视频| 色悠久久久久久久综合网伊人| a毛片免费在线观看| 国产精品任我爽爆在线播放6080 | 99视频免费观看| 国产91精品最新在线播放| 亚洲成人动漫在线| 日韩国产亚洲一区二区在线观看| 亚洲乱码精品久久久久..| 四虎国产精品永久在线网址| 97av视频在线观看| 在线播放91| 日本在线免费网站| 日韩精品成人网页视频在线| 无码专区在线观看| 欧美一级在线看| 精品成人免费自拍视频| 国产成人亚洲精品色欲AV| 久草视频精品|