999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的音頻分類(lèi)方法

2017-08-10 09:52:45張翔孫偉余璇
現(xiàn)代計(jì)算機(jī) 2017年17期
關(guān)鍵詞:分類(lèi)模型

張翔,孫偉,余璇

(上海海事大學(xué)信息工程學(xué)院,上海 201306)

基于LDA模型的音頻分類(lèi)方法

張翔,孫偉,余璇

(上海海事大學(xué)信息工程學(xué)院,上海 201306)

隨著網(wǎng)絡(luò)的發(fā)展海量音頻文件涌現(xiàn),音頻分類(lèi)系統(tǒng)也越來(lái)越普及。音頻分類(lèi),尤其是語(yǔ)音和音樂(lè)的分類(lèi)是提取音頻結(jié)構(gòu)和內(nèi)容語(yǔ)義的重要手段,是基于內(nèi)容的音頻檢索和分析的基礎(chǔ)。介紹一種基于音頻內(nèi)容根據(jù)音頻內(nèi)容間的相似度對(duì)音頻進(jìn)行分類(lèi)的方法。用每個(gè)音頻的音高集代表該音頻文件,以L(fǎng)DA主題模型對(duì)音頻進(jìn)行分類(lèi)。

相似度;音頻內(nèi)容;音高;LDA主題模型

0 引言

隨著計(jì)算機(jī)技術(shù)與多媒體技術(shù)的發(fā)展大量的音頻文件進(jìn)入我們的生活。在這種情況下的音頻檢索的范圍也越來(lái)越大檢索的準(zhǔn)確率也越來(lái)越低,且原始音頻文件中所包含的數(shù)據(jù)缺乏語(yǔ)義與結(jié)構(gòu)化的組織很難直到其真實(shí)意義這給音頻檢索帶來(lái)很大的困難。因此,縮小音頻檢索的范圍提高檢索效率變得尤為重要。音頻分類(lèi)技術(shù)可以很大程度上縮小檢索的范圍提高檢索的效率。因此,有關(guān)音頻分類(lèi)的研究越來(lái)越普及。

有關(guān)音頻分類(lèi)的研究早期主要有文獻(xiàn)[1,2]所示技術(shù),文獻(xiàn)[1]介紹了一種將神經(jīng)元網(wǎng)絡(luò)直接將聲音類(lèi)別映射到所標(biāo)注的文本。文獻(xiàn)[2]通過(guò)使用自組織映射聚類(lèi)算法將具有相似特征的音頻劃歸為同一類(lèi)。美國(guó)Music Fish公司的Erling Word等人通過(guò)分析響度、音高、亮度、諧度實(shí)現(xiàn)了真正意義上的基于內(nèi)容的音頻分類(lèi),所用數(shù)據(jù)集包括鈴聲、音樂(lè)等16類(lèi)樣本數(shù)據(jù)[3]。盧堅(jiān)、陳毅松、孫正興、張福炎于2002年12月提出了基于隱馬爾可夫模型的音頻自動(dòng)分類(lèi)[4]。到2005年白亮、老松楊、陳劍贊、吳玲達(dá)提出了基于支持向量機(jī)的音頻分類(lèi)[5]。語(yǔ)音和音樂(lè)是兩類(lèi)比較重要的音頻文件是基于內(nèi)容檢索技術(shù)的主要區(qū)分對(duì)象,文獻(xiàn)[6,7]采用基于簡(jiǎn)單決策樹(shù)的語(yǔ)音/音樂(lè)多步層次分類(lèi)方法,即每一步根據(jù)一種或者幾種音頻特征及其閾值判定音頻所屬的類(lèi)別。

1 概述

音頻分類(lèi)屬于模式識(shí)別領(lǐng)域,涉及到計(jì)算機(jī)技術(shù)、多媒體數(shù)據(jù)庫(kù)技術(shù),主要包括兩個(gè)過(guò)程:音頻特征提取和音頻分類(lèi)兩步。音頻特征提取指應(yīng)用數(shù)字信號(hào)處理技術(shù)和信號(hào)系統(tǒng)理論來(lái)尋找原始音頻信號(hào)表達(dá)形式,抽取出能代表原始信號(hào)的數(shù)據(jù),抽取出音頻的物理特征。音頻分類(lèi)是指通過(guò)音頻間的相似度將有相似特征的音頻歸為一類(lèi)。音頻分類(lèi)問(wèn)題是基于內(nèi)容的音頻檢索技術(shù)必須解決的關(guān)鍵問(wèn)題。

隱式狄利克雷(LDA)主題模型原本用于文本分類(lèi)。LDA模型對(duì)文本進(jìn)行分類(lèi)時(shí)假設(shè)文本沒(méi)有任何的詞序和語(yǔ)法、句法,也就是說(shuō)文本中的所有的詞都是無(wú)序的。LDA模型對(duì)文本分類(lèi)的具體過(guò)程為:首先給每篇文本的每一個(gè)詞隨機(jī)的賦予一個(gè)主題編號(hào);重新掃描語(yǔ)料庫(kù)對(duì)每篇文章的每個(gè)詞的主題編號(hào)進(jìn)行吉布斯采樣;重復(fù)上一步直到吉布斯采樣公式收斂;根據(jù)記錄的數(shù)據(jù)計(jì)算出每篇文本對(duì)于主題類(lèi)別的概率分布。

2 基于LDA模型的音頻分類(lèi)

2.1 音頻特征提取

音高指各種不同高低的聲音,即音的高度。音的高低由振動(dòng)頻率決定的,兩種成正比關(guān)系。考慮到音樂(lè)的音高頻率趨向于音高頻率表中的振動(dòng)頻率而平常語(yǔ)音的振動(dòng)頻率有高有底數(shù)值分布比較廣。因此,這里提取音高頻率作為音頻的特征,并寫(xiě)入文檔,作為L(zhǎng)DA模型的輸入。基于用戶(hù)輸入的分類(lèi)個(gè)數(shù)K,LDA模型通過(guò)該文檔將音頻分為指定K類(lèi)。提取音高頻率的算法由python的vamp庫(kù)提供。運(yùn)行程序可得每個(gè)文件的音高集,去除其中小于等于0的數(shù)值得到有效的音高集。音頻音高提取關(guān)鍵代碼如下所示這里使用Python語(yǔ)言實(shí)現(xiàn)。

2.2 LDA模型分類(lèi)

LDA模型假設(shè)每個(gè)音頻的每個(gè)音高之間都是無(wú)序的,沒(méi)有任何的先后關(guān)系。因此,如圖1所示在LDA模型中每個(gè)音頻可以表示為三層生成式貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)音頻由若干個(gè)隱含的主題構(gòu)成,而這些主題由若干個(gè)音高構(gòu)成。基于用戶(hù)輸入的分類(lèi)個(gè)數(shù)K,LDA模型根據(jù)每個(gè)音頻的相對(duì)音高之間的相似度對(duì)音頻進(jìn)行分類(lèi),最終可得到每個(gè)音頻對(duì)于文件的概率分布P(topick|audio)。

圖1 三層生成式貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)

在生成一個(gè)音高時(shí),LDA模型假設(shè)每個(gè)音高的生成過(guò)程如下:首先從若干類(lèi)別中選擇一個(gè)類(lèi)別,再根據(jù)該類(lèi)別生成一個(gè)音高。重復(fù)以上過(guò)程便可生成一個(gè)音頻。基于以上假設(shè)每個(gè)音高的生成原理如圖2所示。

圖2 音高生成原理圖

生成過(guò)程如下:

Dirichlet先驗(yàn)分布+多項(xiàng)分布數(shù)據(jù)→Dirichlet后驗(yàn)分布

已知生成所有相對(duì)音高的聯(lián)合分布是M+K個(gè)狄利克雷共軛分布,可以根據(jù)狄利克雷共軛來(lái)推導(dǎo)吉布斯采樣公式。這里是已知數(shù)據(jù),是隱含變量所以需要采樣的分布是,音高庫(kù)中第i個(gè)音高對(duì)應(yīng)的topic記為zi,其中i=(m,n)是一個(gè)二維下標(biāo),對(duì)應(yīng)第m個(gè)音頻中第n個(gè)音高,用表示去除下標(biāo)為i的音高。按照Gibbs Samping算法的要求,求得任意坐標(biāo)i所對(duì)應(yīng)的條件分布為。假設(shè)已經(jīng)觀(guān)測(cè)到的音高pi=t,根據(jù)貝葉斯法則可得:

由于zi=k,pi=t只涉及到兩個(gè)共軛結(jié)構(gòu),而其他的共軛結(jié)構(gòu)和zi=k,pi=t是獨(dú)立的所以的后驗(yàn)分布依然是狄利克雷分布分別為:

由此可得LDA主題模型的Gibbs Samping公式為:

根據(jù)吉布斯采樣公式可以計(jì)算出每個(gè)音高的主題編號(hào)由當(dāng)前的主題編號(hào)轉(zhuǎn)移至其他主題編號(hào)的轉(zhuǎn)移概率,轉(zhuǎn)移原理如圖3所示。

圖3 吉布斯采樣主題編號(hào)轉(zhuǎn)移原理圖

基于LDA模型音頻分類(lèi)具體流程如圖4所示。

圖4 基于LDA模型音頻分類(lèi)流程

LDA主題模型對(duì)音頻進(jìn)行分類(lèi)時(shí)首先給每個(gè)音頻的每個(gè)音高隨機(jī)賦予一個(gè)主題編號(hào),并記錄主題編號(hào)與每個(gè)音頻以及每個(gè)音高的相關(guān)數(shù)量關(guān)系數(shù)據(jù)用于后期計(jì)算音頻所屬類(lèi)別(這里的編號(hào)最大值為用戶(hù)輸入的K);根據(jù)吉布斯采樣公式計(jì)算出當(dāng)前主題編號(hào)轉(zhuǎn)移至各主題編號(hào)的概率,并根據(jù)轉(zhuǎn)移概率完成主題編號(hào)的轉(zhuǎn)移更新相關(guān)記錄數(shù)據(jù);重復(fù)迭代上一步驟直到吉布斯采樣公式收斂;根據(jù)記錄的數(shù)據(jù)計(jì)算出每個(gè)音頻所屬于每一類(lèi)的概率,以及每個(gè)音高所屬于每一類(lèi)的概率。在整個(gè)過(guò)程中吉布斯采樣過(guò)程為整個(gè)分類(lèi)關(guān)鍵部分其關(guān)鍵代碼如下。

3 實(shí)驗(yàn)結(jié)果分析

本次實(shí)驗(yàn)所使用的音頻為歌曲、有聲小說(shuō)(語(yǔ)音)、以及歌曲和有聲小說(shuō)的混合音。數(shù)量分別有500個(gè)。實(shí)驗(yàn)PC機(jī)為T(mén)hinkpad A6-3400M,主頻為1.4GHz。音頻下載自酷我音樂(lè),下載的文件為mp3文件,轉(zhuǎn)換成wav文件。通過(guò)python2.7 vamp庫(kù)配合melodia插件可取出音頻文件的基頻序列并寫(xiě)入文本作為L(zhǎng)DA模型的輸入。

本次實(shí)驗(yàn)主要以分類(lèi)結(jié)果的準(zhǔn)確性作為評(píng)價(jià)基于LDA模型的音頻分類(lèi)方法的的指標(biāo)。根據(jù)LDA模型對(duì)音頻數(shù)據(jù)分類(lèi)的結(jié)果數(shù)據(jù),最終可計(jì)算出每個(gè)音頻屬于每個(gè)類(lèi)別的概率以及每個(gè)音高頻率屬于每一類(lèi)別的概率,選擇其中所屬概率最大值的類(lèi)別作為該音頻的所屬類(lèi)別。

通過(guò)多次實(shí)驗(yàn),修改不同的迭代次數(shù)之后分類(lèi)的結(jié)果也趨于穩(wěn)定。500首歌曲中有440首左右歌曲被歸為同一類(lèi),即準(zhǔn)確率0.88,該類(lèi)音頻中貢獻(xiàn)最高的是音高頻率表中幾個(gè)常用的頻率。500個(gè)有聲小說(shuō)音頻中有445個(gè)左右的音頻被歸為同一類(lèi),即準(zhǔn)確率為0.89,該類(lèi)音頻中對(duì)分類(lèi)貢獻(xiàn)比較高的是幾個(gè)不在音高頻率表中的音高頻率。有聲小說(shuō)和歌曲混合部分有400個(gè)左右音頻被歸為同一類(lèi),即準(zhǔn)確率為0.80該類(lèi)音頻中對(duì)分類(lèi)貢獻(xiàn)比較高的音高頻率有部分來(lái)自于音高頻率表。平均準(zhǔn)確率為0.856左右。歌曲和有聲小說(shuō)的準(zhǔn)確率都很不錯(cuò),但混合音的準(zhǔn)確率下降較多。造成這一現(xiàn)象的原因可能是本來(lái)音高頻率表中的音高頻率和無(wú)規(guī)則的音高頻率對(duì)于分類(lèi)貢獻(xiàn)相近,但實(shí)際試驗(yàn)中卻肯定有部分?jǐn)?shù)據(jù)偏向于某一方從而導(dǎo)致該類(lèi)音頻被劃歸到歌曲或者有聲小說(shuō)。文獻(xiàn)[6]分類(lèi)結(jié)果為語(yǔ)音準(zhǔn)確率0.81、音樂(lè)準(zhǔn)確率0.70,平均準(zhǔn)確率為0.75。文獻(xiàn)[7]分類(lèi)結(jié)果為語(yǔ)音準(zhǔn)確率為0.75、語(yǔ)音準(zhǔn)確率0.89,平均準(zhǔn)確率為0.82。基于LDA模型的音頻分類(lèi)方法效果明顯好于文獻(xiàn)[6]和文獻(xiàn)[7]所提方法。

4 結(jié)語(yǔ)

本文使用音高頻率為每個(gè)音頻的標(biāo)志數(shù)據(jù),完成了一個(gè)基于LDA模型的分類(lèi)方法。該方法根據(jù)音頻的音高之間的相似度對(duì)音頻進(jìn)行分類(lèi)。相信用音高標(biāo)志音頻這一方法將會(huì)得到更多的應(yīng)用,LDA模型的作用也將得到巨大的拓展。音頻的分類(lèi)還可以進(jìn)一步的劃分,例如歌曲按照一定的風(fēng)格劃分。音高標(biāo)志音頻是將來(lái)關(guān)于音頻分類(lèi)的重要研究方向。

[1]Feiten B,Frank R,Ungvary T.Organization of Sounds with Neural Nets.In:Proceedings of the 1991 International Computer Music Conference,International Computer Music Association.San Francisco,1991:441-444.

[2]Feiten B,Gunzel S.Automatic Indexing of a Sound Database Using Self-organizing Neural Nets.Computer Music Journal,1994,18(3):53-65.

[3]Wold E,Blum T,Keislar D,et al.Content-Based Classification,Search,and Retrieval of Audio.IEEE Multimedia Magazine,1996,3(3):27-36.

[4]盧堅(jiān),陳毅松,孫正興,張福炎.基于隱馬爾科夫模型的音頻自動(dòng)分類(lèi)[J].軟件學(xué)報(bào),2002,13(8):1594-1597.

[5]白亮,老松楊,陳劍赟,吳玲達(dá).基于支持向量機(jī)的音頻分類(lèi)與分割[J].計(jì)算機(jī)科學(xué),2005,4:87-90.

[6]Srinivasan S,Petkovic D,Ponceleon D.Towards Robust Features for Classifying Audio in the Cudevideo System.In:Proceedings of the 7th ACM International Conference on Multimedia.Orlando:ACM Press,1999:393-400.

[7]Lu Guo-jun,Templar H.A Technique Towards Automatic Audio Classification and Retrieval.In:Proceedings of the 4th International Conference on Signal Processing,ICSP,Vol 2,1998:1142-1145.

[8]CHEN Qiu-xing,YAO Li-xiu,YANG Jie.Short Text Classification Based on Lda Topic Model.ICALIP,2016:749-752.

Audio Classification Based on LDA Model

ZHANG Xiang,SUN Wei,YU Xuan
(College of Information Engineering of Shanghai Maritime University,Shanghai 201306)

With the development of the network mass audio files come to the fore,audio classification system is becoming more and more popular.Au?dio classification,especially classification between pronunciation and music is an important means of extract audio structure and content se?mantics.It is the foundation of audio retrieval and analysis based on content.Introduces a method which classifies audio based on audio contents.And the method classifies audio according to degree of similarity between audio content.In this method,pitch set of every song be?halves the song and audio is classification by LDA model.

張翔(1991-),男,江蘇淮安人,碩士,研究方向?yàn)闄C(jī)器學(xué)習(xí)

2017-03-28

2017-06-10

1007-1423(2017)17-0016-05

10.3969/j.issn.1007-1423.2017.17.003

孫偉(1978-),男,山東萊州人,副教授,研究方向?yàn)闄C(jī)器學(xué)習(xí)

余璇(1994-),女,河南鄭州人,碩士,研究方向?yàn)闄C(jī)器學(xué)習(xí)、自然語(yǔ)言處理

Degree of Similarity;Audio Content;Pitch;LDA Model

猜你喜歡
分類(lèi)模型
一半模型
分類(lèi)算一算
垃圾分類(lèi)的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚亚洲乱码一二三四区| 亚洲成人高清在线观看| 就去色综合| 亚洲第一成年网| 午夜无码一区二区三区| 日本三区视频| 广东一级毛片| 91久久国产成人免费观看| 国产精品福利社| 国产91特黄特色A级毛片| 国产精品2| 国产亚洲精品无码专| 在线播放91| 98超碰在线观看| 直接黄91麻豆网站| 久久精品人人做人人综合试看| 国产91无毒不卡在线观看| 亚洲人成网7777777国产| 国产美女免费| 国产精品浪潮Av| 亚洲视频免费在线看| 免费高清a毛片| 成年片色大黄全免费网站久久| 永久免费精品视频| 欧美亚洲日韩不卡在线在线观看| 久久综合亚洲色一区二区三区 | 五月天福利视频| 日韩午夜片| 青青草原国产一区二区| 日日噜噜夜夜狠狠视频| 黄色在线不卡| 亚洲日韩国产精品无码专区| 日本草草视频在线观看| 国产精品视频第一专区| 精品久久久无码专区中文字幕| 视频在线观看一区二区| 99视频有精品视频免费观看| 色综合久久综合网| 人妻免费无码不卡视频| 亚洲人成在线免费观看| 免费毛片视频| 伊人久久青草青青综合| 精品国产亚洲人成在线| 国产精品自在自线免费观看| 啊嗯不日本网站| 亚洲人成网站观看在线观看| 欧美在线综合视频| 国产a网站| 久久精品波多野结衣| 日韩色图在线观看| 2021最新国产精品网站| 免费中文字幕一级毛片| 欧美三级自拍| 亚洲无码精品在线播放 | 日韩无码视频播放| 91毛片网| 久久国产拍爱| 国产精品嫩草影院av| 不卡无码网| 91精品专区国产盗摄| 亚洲AⅤ永久无码精品毛片| 欧美中文字幕在线二区| 日本少妇又色又爽又高潮| 国产精品亚洲欧美日韩久久| 欧美.成人.综合在线| 国产精品所毛片视频| 人人妻人人澡人人爽欧美一区 | 久久性妇女精品免费| 国产成人盗摄精品| 综合色88| 日韩欧美91| 91免费国产在线观看尤物| 国产靠逼视频| 国产精品一区二区不卡的视频| 欧美精品另类| 成人午夜网址| 欧美一级99在线观看国产| 亚洲天堂777| 亚洲Va中文字幕久久一区| 亚洲黄色高清| 污网站在线观看视频| 亚洲人成影院午夜网站|