999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向智慧家居的音頻事件識別及應(yīng)用

2022-01-20 06:29:08黃楠欣楊盈昀
湖南科技學(xué)院學(xué)報 2021年5期
關(guān)鍵詞:特征

黃楠欣 楊盈昀

面向智慧家居的音頻事件識別及應(yīng)用

黃楠欣 楊盈昀

(中國傳媒大學(xué) 信息與通信工程學(xué)院,北京 100024)

音頻事件識別在人工智能中有重要的應(yīng)用,例如智慧家居系統(tǒng)中的安全監(jiān)護(hù)。音頻監(jiān)控相對視頻監(jiān)控有不受光線、遮擋物等因素影響優(yōu)勢,但開放環(huán)境中的音頻事件復(fù)雜、相互混疊且只有較少的事件能提供有用的信息。音頻場景分析是一件困難的工作。傳統(tǒng)單一種類的音頻特征很難提高音頻事件的識別準(zhǔn)確率,在此基礎(chǔ)上,提取音頻事件的時域、頻域和灰度紋理圖像特征進(jìn)行組合及實驗方法研究。實驗數(shù)據(jù)采用自創(chuàng)建的音頻數(shù)據(jù)庫,實驗結(jié)果顯示組合特征相對傳統(tǒng)的單一特征的平均識別率提高了18%。

音頻事件識別;音頻場景分析;智慧家居

近幾年,音頻場景和事件識別引起了廣泛科研工作者的關(guān)注[1]。機(jī)器識別環(huán)境聲音的應(yīng)用已經(jīng)深入到人們的日常生活,例如安全監(jiān)控、生物音頻分析和環(huán)境保護(hù)等[2-4]。最近十年,隨著IP網(wǎng)絡(luò)技術(shù)的發(fā)展和網(wǎng)絡(luò)芯片的微型化,幾乎可以將世界上任何物體連接到互聯(lián)網(wǎng)上,從而實現(xiàn)新的服務(wù)和創(chuàng)造價值。從而產(chǎn)生了著名的“the Internet of things (IoT)”,與眾不同的新興行業(yè)出現(xiàn),例如智慧城市、智慧交通、智慧家居和智慧穿戴等[5-6],其中音頻事件識別在這些新興行業(yè)中占有一席之地。音頻事件識別在智慧家居系統(tǒng)中有非常重要的應(yīng)用,例如針對獨(dú)居老人的安全監(jiān)護(hù)。在我國,很快將進(jìn)入老齡化的高峰期。隨著社會老齡化日益加劇,獨(dú)居老人也在持續(xù)增長,解決獨(dú)居老人的養(yǎng)老問題是社區(qū)重要的工作。智慧家庭中的音頻監(jiān)控在針對獨(dú)居老人上有非常廣的應(yīng)用前景。音頻場景分析,即通過音頻場景和異常音頻事件的識別來分析獨(dú)居老人的安全和行為,例如識別盥洗室的跌倒、客廳中的痛哭、起居室里的呼吸困難等音頻事件。

音頻事件不同于語音,語音有準(zhǔn)平穩(wěn)性的特點(diǎn),而音頻事件之間的特性相差大,例如有短時的碰撞聲音或尖脈沖聲音,也有長時間的持續(xù)聲音。音頻場景是由多種音頻事件相互混疊而成,采用傳統(tǒng)單一特征識別不同類型的音頻事件是非常困難的。本文采用組合特征(特征+特征)方法來識別異常音頻事件。通常,區(qū)分性好的音頻特征可以去除原始信號中的冗余信息,實現(xiàn)數(shù)據(jù)降維。對音頻信號的波形進(jìn)行一系列的轉(zhuǎn)換后提取不同的時域、頻域、灰度紋理圖像特征進(jìn)行組合。時域特征主要是提取能反映出音頻信號的能量變換、波形相似程度和波形正負(fù)改變的頻次等內(nèi)容的特性,主要有時域包絡(luò)、過零率(ZCR)和短時能量(STE)等。相對時域特征,音頻特征中的頻域特征更能體現(xiàn)出音頻信號的固有特性。音頻場景或音頻事件識別主要采用音頻信號的頻域特征,頻域特征最常用的梅爾倒譜系數(shù)(MFCCs),其他的頻譜特征有譜質(zhì)心(SC)、譜通量(SF)和譜亮度(SB)等。近幾年,計算機(jī)視覺技術(shù)中的紋理圖像特征是用來識別音頻場景或音頻事件的有效方法之一。

1 異常音頻事件識別

1.1 異常音頻事件類型

視頻監(jiān)控受光線、遮擋物等因素的影響,音頻監(jiān)控可以克服視頻監(jiān)控的不足。音頻場景分析的主要任務(wù)就是音頻事件識別或音頻事件上下文關(guān)系識別,音頻場景一般指有一定物理意義的一系列音頻事件的組合,例如說話聲、鐵軌摩擦聲等構(gòu)成地鐵場景。家居環(huán)境的音頻場景有盥洗室、客廳、起居室、廚房等。異常音頻事件是音頻場景分析或音頻監(jiān)控重點(diǎn)關(guān)注的對象,例如火車站的槍炮聲,火車站屬于音頻場景,而槍炮聲屬于異常音頻事件[7]。文獻(xiàn)[8]定義5類異常音頻事件和音頻場景:尖叫、劇烈咳嗽、哭聲、痛苦呻吟、跌倒和家居環(huán)境的背景(即音頻場景)。在識別任務(wù)中,本文將這5類異常音頻事件注入到背景聲中。

1.2 特征提取及組合

音頻事件的識別類似于語音或說話人識別,有效音頻特征的提取是識別任務(wù)中最重要的步驟之一。工程上,音頻特征的提取依賴于特征工程(feature engineering),即為區(qū)分音頻事件從數(shù)據(jù)的低階表示(low-level representations)方式中制作特定的特征,如圖1所示。

圖1音頻事件識別框圖

家居環(huán)境的音頻事件類型多且相互混疊。以目前的技術(shù),識別相互混疊的音頻事件是一件不容易實現(xiàn)的事情,且識別率不高。為了提高識別率,研究不同特征的組合或融合方法是行之有效的手段之一。特征組合的具體步驟是首先對音頻信號進(jìn)行分割等預(yù)處理,然后提取時域、頻域和灰度紋理圖像特征,根據(jù)實際場景和事件的先驗知識進(jìn)行特征組合,如圖2所示。

圖2 特征提取及組合

采用計算機(jī)視覺技術(shù)的灰度紋理圖像特征,相對于傳統(tǒng)的梅爾頻率倒譜系數(shù)(MFCC)特征對音頻事件識別有較好的性能。局部紋理模式的二進(jìn)制模式(local binary pattern,LBP)特征在灰度紋理特征中具有代表性,它的提取方式是音頻信號轉(zhuǎn)換成頻譜圖,然后從頻譜圖轉(zhuǎn)變成灰度紋理圖像,再提取LBP特征,該特征特點(diǎn)是能對不同灰度的像數(shù)值大小進(jìn)行統(tǒng)計計算為特征?;舅悸肥窃诿總€胞腔(cell)根據(jù)灰度的中心像素點(diǎn)和它周圍8個點(diǎn)值大小進(jìn)行比較并進(jìn)行統(tǒng)計,能較好地描述音頻信號頻域特性的變化。LBP特征計算方式是采用每個區(qū)域的中心像素點(diǎn)與它鄰近的像素點(diǎn)的值進(jìn)行比較,如圖3所示。LBP特征的計算公式為

其中:c是頻譜圖一個胞腔(cell)的中心,胞腔的劃分通常是采用3×3或5×5的方式;g是與中心點(diǎn)c相鄰的點(diǎn);表示與其相鄰點(diǎn)且均勻分布在半徑為的圓周上的像素點(diǎn)的數(shù)量;本文=8。通過式(1)計算可得到256維的統(tǒng)計值[8]。

1.3 實驗設(shè)置及結(jié)果分析

實驗研究音頻特征的不同組合及有效性是本文的重點(diǎn)。介紹數(shù)據(jù)集,實驗數(shù)據(jù)從Freesound網(wǎng)站下載了一部分異常音頻事件數(shù)據(jù)和錄制一些音頻場景數(shù)據(jù)。數(shù)據(jù)集包括5種類型的異常音頻事件和真實家居場景,其中異常音頻事件的錄音數(shù)據(jù)包含至少一個有完整的音頻事件,如劇烈咳嗽,真實家居場景即背景有盥洗室、廚房、起居室等,數(shù)據(jù)列于表1。

表1 數(shù)據(jù)集

所有的實驗采用交叉驗證方法,即從總樣本數(shù)中隨機(jī)抽取80%作為訓(xùn)練集,再隨機(jī)抽取20%作為測試集,共迭代20次,求出平均值,其數(shù)學(xué)表達(dá)式為

第一個實驗是提取數(shù)據(jù)集中音頻事件的LBP灰度紋理圖像特征并進(jìn)行驗證,其識別結(jié)果列于表2。

表2 異常事件識別結(jié)果 單位:%

從表2可以看出,真實家居環(huán)境的異常音頻事件識別,我們把異常音頻事件和背景聲音串接在一起,從實驗檢測結(jié)果可以看出,灰度紋理圖像特征對有類似語音的音頻事件,如“劇烈咳嗽”和“尖叫”有較高的識別率,分析原因是這類型音頻事件通常在通帶內(nèi)含有較高的基音且有較高的能量。從聽覺上來判斷,“哭喊”和“痛苦呻吟”有可能判為同一事件,而且這類音頻事件通常含有相同的文本內(nèi)容。

實驗對5類音頻事件分別采用不同的特征進(jìn)行識別,然后求出每一個特征的平均識別結(jié)果,結(jié)果如圖4所示。7種單一類型的特征對混雜在家居真實場景的5類異常音頻事件識別如圖4(a)所示,其平均識別準(zhǔn)確率為61%,其中紋理圖像特征LBP識別準(zhǔn)確率為89%。顯然除了LBP特征以外,其他類型的單一特征對音頻事件的識別精度不高,也就是說單一種類型的特征對真實環(huán)境的音頻事件識別率不高。LBP算子是在音頻信號的頻譜圖中的每個像素點(diǎn)得到一個“LBP”編碼,對一個記錄頻率信息的每個像素點(diǎn)的灰度值的灰度紋理頻譜圖提取原始的LBP算子之后,得到的原始LBP特征依然是一副反映出頻率及位置信息的頻譜圖。LBP相對其他的特征有較高的準(zhǔn)確率可能是因為該特征跟音頻信號的頻率位置信息緊密聯(lián)系,將一個頻譜圖劃分若干子區(qū)域,對每個子區(qū)域內(nèi)的像素點(diǎn)提取LBP特征,然后,在每個區(qū)域內(nèi)建立LBP特征的子區(qū)域,對每個子區(qū)域的每個像素點(diǎn)提取LBP特征,然后在每個子區(qū)域內(nèi)建立LBP特征的統(tǒng)計直方圖。這種特征能較好地統(tǒng)計出每個音頻信號的位置頻率,從而提高音頻場景和音頻事件的識別準(zhǔn)確率。利用時域和頻域的組合特征融合方法對上述5類異常音頻事件的識別結(jié)果如圖4(b)所示,平均準(zhǔn)確率為79%,比單一種類的特征提高了18個百分點(diǎn),顯然,特征組合的方法能有效提高真實環(huán)境中的音頻事件識別率。

圖4 單一和組合特征識別準(zhǔn)確率

其中,LBP+RQA(recursive quantitative analyzing)兩種特征的準(zhǔn)確率最高,為93%。原因可能是這類型的特征融合,可以導(dǎo)致較高維度的特征向量,并達(dá)到較好的泛化能力。另外,特征在音頻特性的描述上互補(bǔ)從而提高音頻事件的識別率,例如頻譜亮度特性是反映出聲音從沉悶到尖銳的變化過程。頻譜亮度能粗略指示出頻率譜的能量分布情況等,這種特性能很好地體現(xiàn)尖叫、大聲哭喊等音頻事件的特征。

2 結(jié)束語

人工智能時代,智慧家居系統(tǒng)飛速發(fā)展,基于音頻場景分析在智能安全監(jiān)控中有重要的應(yīng)用前景。但真實家居環(huán)境中的音頻事件種類多且相互混疊,以目前的技術(shù)識別混疊的多源音頻事件是復(fù)雜和困難的任務(wù),采用傳統(tǒng)單一類型的音頻特征很難達(dá)到高的識別準(zhǔn)確率。本文研究了音頻特征組合和融合的方法,通過實驗來證明某一特征組合對音頻事件的這些組合特征可以對不同類型的音頻事件特征互補(bǔ)。實驗證明:這種方法對真實家居環(huán)境的音頻事件的平均識別精度達(dá)到了79%左右,比單一類型的特征提高了18%,其中LBP+RQA特征達(dá)到93%的準(zhǔn)確識別率。

[1]陳愛武.家居音頻場景識別關(guān)鍵技術(shù)研究[D].廣州:華南理工大學(xué),2020.

[2]BARDELI R, WOLFF D, KURTH F, et al. Detecting bird sounds in a complex acoustic environment and application to bioacoustic monitoring[J]. Pattern Recognition Letters, 2010, 31(12): 1524-1534.

[3]MARIN-CUDRAZ T, MUFFAT-JOLY B, NOVOA C, et al. Acoustic monitoring of rock ptarmigan: A multi-year comparison with point-count protocol[J]. Ecological indicators, 2019, 101: 710-719.

[4]AIDE T M, CORRADA-BRAVO C, CAMPOS-CERQUEIRA M, et al. Real-time bioacoustics monitoring and automated species identification[J]. PeerJ, 2013, 1: e103.

[5]CHAMOSO P, GONZáLEZ-BRIONES A, RODRíGUEZ S, et al. Tendencies of Technologies and Platforms in Smart Cities: A State-of-the-Art Review[J]. Wireless Communications and Mobile Computing, 2018, 2018: 1-17.

[6]SHEN Y, HE K, ZHANG W Q. SHome Activity Monitoring Based on Gated Convolutional Neural Networks and System Fusion[C]. DCASE2018 Challenge, 2018.

[7]CHEN A W, HE Q H, WANG X, et al. Home security surveillance based on acoustic scenes analysis[C]. 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI), 2017: 1-5.

[8]ABIDIN S, TOGNERI R, SOHEL F. Spectrotemporal analysis using local binary pattern variants for acoustic scene classification[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(11): 2112-2121.

TN912.34

A

1673-2219(2021)05-0033-03

2021-08-15

黃楠欣(2000-),女,湖南永州人,中國傳媒大學(xué)2018級廣播電視工程專業(yè)學(xué)生,研究方向為數(shù)字電視制播。

楊盈昀(1969-),女,四川安岳人,博士,教授,研究方向為智能視音頻處理。

(責(zé)任編校:宮彥軍)

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠的四個特征
詈語的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 日韩国产另类| 丁香六月综合网| 99久久精品国产精品亚洲 | 亚洲伊人电影| 中文字幕在线免费看| 久久亚洲国产视频| 无码日韩人妻精品久久蜜桃| 特级做a爰片毛片免费69| 亚洲日本www| 99热6这里只有精品| 亚洲日本在线免费观看| 国产成人三级在线观看视频| 亚洲成a人在线观看| 亚洲中文无码h在线观看| 四虎国产永久在线观看| 国产人妖视频一区在线观看| 福利在线不卡| 色噜噜中文网| 国产精品蜜芽在线观看| 亚洲一区二区三区中文字幕5566| 久久精品电影| 亚洲精品欧美日韩在线| 久久a毛片| 香蕉99国内自产自拍视频| 国产欧美另类| 亚洲Va中文字幕久久一区| 亚洲性色永久网址| 日韩精品无码免费专网站| 在线色综合| 国产一区二区网站| 亚洲欧美一区二区三区蜜芽| 色悠久久久| 免费视频在线2021入口| 一级毛片在线播放免费| 91欧洲国产日韩在线人成| 色综合五月| 亚洲国产成人麻豆精品| 亚洲自偷自拍另类小说| 亚洲欧美不卡视频| 9啪在线视频| 一级在线毛片| 国产99精品久久| 亚洲精品va| 97色婷婷成人综合在线观看| 亚洲美女视频一区| 国产视频你懂得| 日本一区二区三区精品国产| 91亚洲影院| 亚洲Va中文字幕久久一区| 色香蕉网站| 国产精品污视频| 亚洲精品国产精品乱码不卞 | 成人久久18免费网站| 国产凹凸一区在线观看视频| 久久香蕉国产线看精品| 久久窝窝国产精品午夜看片| 亚洲一区网站| 亚洲成年网站在线观看| 亚洲人成色77777在线观看| 亚洲美女一区二区三区| 国产一区二区网站| 美女一级免费毛片| 国产情精品嫩草影院88av| 99精品免费在线| 国产亚洲精品自在久久不卡| 一级毛片免费不卡在线视频| 免费人成在线观看成人片| 亚洲午夜综合网| 美女视频黄又黄又免费高清| 久久永久精品免费视频| 幺女国产一级毛片| 亚洲 欧美 中文 AⅤ在线视频| 欧美成人一级| 国产欧美日韩一区二区视频在线| 高清国产在线| 992Tv视频国产精品| 亚洲bt欧美bt精品| 91亚洲视频下载| 亚洲天堂网站在线| 亚洲最新在线| 熟妇无码人妻| 精品国产毛片|