999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

音樂信息檢索技術(shù):音樂與人工智能的融合

2018-10-26 08:05:54偉高智輝
藝術(shù)探索 2018年5期
關(guān)鍵詞:音樂檢測

李 偉高智輝

(1.復(fù)旦大學(xué) 計算機科學(xué)技術(shù)學(xué)院,上海 201203;2.復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院,上海 200433)

一、音樂科技概況

早在20世紀(jì)50年代,計算機剛剛產(chǎn)生,美國的一位化學(xué)博士就開始嘗試運用計算機處理音樂。隨后幾十年,歐美各國相繼建立了多個大型音樂科技研究機構(gòu),如1975年建立的美國斯坦福大學(xué)的音樂及聲學(xué)計算機研究中心(Center for Computer Research in Music and Acoustics,CCRMA)、1977 年建立的法國巴黎的聲學(xué)與音樂研究與協(xié)調(diào)研究所(Institute for Research and Coordination Acoustic/Music,IRCAM)、1994年建立的西班牙巴塞羅那龐培法布拉(UPF)大學(xué)的音樂科技研究組(Music Technology Group,MTG)、2001年建立的英國倫敦女王大學(xué)數(shù)字音樂研究中心(Centrefor Digital Music,C4DM)等。此外,在亞洲的日本、中國臺灣等國家和地區(qū)也有多個該領(lǐng)域的公司(如雅馬哈)和科研院所。歐洲由于其濃厚的人文和藝術(shù)氣息成了音樂科技的世界中心。

圖1 音樂科技各領(lǐng)域關(guān)系圖

音樂科技是一個典型的交叉學(xué)科領(lǐng)域,分為藝術(shù)部分和科技部分。(圖1)藝術(shù)部分主要偏向使用各種音頻軟件及硬件進行音樂創(chuàng)作,科技部分主要進行底層計算機技術(shù)的研發(fā),為藝術(shù)創(chuàng)作提供技術(shù)支撐,也叫做聲音與音樂計算(Sound and Music Computing,SMC)。SMC主要包括音頻信號處理(Audio Signal Processing)及計算機聽覺(Computer Audition,CA),音樂信息檢索技術(shù)(Music Information Retrieval,MIR)屬于計算機聽覺中專門分析理解音樂內(nèi)容的部分。

近20年來,互聯(lián)網(wǎng)上出現(xiàn)了海量的數(shù)字音樂。音頻大數(shù)據(jù)與人工智能(Article Intelligence,AI)相結(jié)合,產(chǎn)生了MIR,成為音樂科技領(lǐng)域的重要組成部分。MIR以音樂聲學(xué)為基礎(chǔ),基于音頻信號處理提取音頻特征,后端大量采用AI中的各種機器學(xué)習(xí)技術(shù)。目前,MIR已成為一個很大的科學(xué)研究領(lǐng)域,國內(nèi)外主要的學(xué)術(shù)會議有ISMIR(音樂信息檢索國際會議)、ICMC(計算機音樂國際會議)、CSMT(中國聲音與音樂技術(shù)會議)、ICASSP(聲學(xué)、語言、信號處理國際會議)等。

二、MIR領(lǐng)域科研情況介紹

MIR領(lǐng)域包含數(shù)十個研究課題,這些課題按照與各音樂要素的密切程度可劃分為核心層MIR研究和應(yīng)用層MIR研究。(圖2)

(一)核心層MIR研究

1.音高與旋律(Pitch and Melody)[1]1-5

音樂中每個音符都有一定的音高,而音高由聲波的頻率決定。音高檢測的手段大概分為三種:(1)時域檢測,即在時間上對聲波進行分析,具體有過零率法、自相關(guān)法(如YIN算法)、最大似然法、自適應(yīng)濾波器法、超分辨率法等;(2)頻域檢測,如對信號進行短時傅里葉變換(STFT),由周期性信號在基頻整數(shù)倍處有不同峰值的原理得到該時間段的基頻,從而得到音高;(3)基于聽覺模型檢測,即通過模擬人類感知音高的生理過程,使用耳蝸模型對每一個通道進行獨立的自相關(guān)運算,綜合所有通道信息得到相對的音高。

旋律是經(jīng)過藝術(shù)構(gòu)思,按照節(jié)奏及和聲形成的反映音樂主旨的音符序列。旋律提取指的是從多聲部/多音音樂(Polyphonic Music)信號提取單聲部(Monophonic)旋律的過程,典型方法有音高重要性法、歌聲分離法、數(shù)據(jù)驅(qū)動的音符分類法等三種,可應(yīng)用在音樂搜索、抄襲檢測、歌唱評價、作曲家風(fēng)格分析等方面。

更進一步,音樂識譜(Music Transcription)是識別音樂中每個時刻發(fā)聲的各個音符并形成樂譜的過程。通常首先基于矩陣分解技術(shù)進行歌聲和各種伴奏樂器聲音的分離;接下來在各個音源上尋找每一個音符的起始點并進行分割;隨后進行多音高/多基頻(f0)估計,提取每個音符的基頻,根據(jù)MIDI音符表轉(zhuǎn)換為音符的音名;最后利用音樂領(lǐng)域知識或規(guī)則進行后處理糾錯。

2.音樂節(jié)奏(Music Rhythm)[2]159-171

音符起始點檢測(Node Onset Detection)的目的是檢測音樂中某一音符開始的時間,是各種音樂節(jié)奏分析的預(yù)處理步驟。一個音符在波形上可以體現(xiàn)為Onset(音符起始點)/Attack(音符上升段)/Transient(音符持續(xù)段)/Decay(音符衰減段)等幾個部分。彈撥類樂器為Hard Onset(硬音符起始點),典型算法由子帶分解、檢測各子帶能量峰值、合并后挑選結(jié)果等幾個步驟組成;弦樂器吹奏類樂器為Soft Onset(軟音符起始點),可通過檢測和弦突變點求解。

圖2 MIR領(lǐng)域包含的研究課題

節(jié)拍跟蹤(Beat Tracking)是用計算機模擬人們在聽音樂時無意識地踮腳或拍手現(xiàn)象的過程,是理解音樂節(jié)奏的基礎(chǔ),也是很多MIR任務(wù)的重要步驟。其一般依賴于音符起始點檢測、打擊樂或其他時間局域化時間檢測。如果音樂偏重抒情沒有打擊樂器或者不明顯,則可采用和弦改變點作為候選節(jié)拍點。

速度檢測(Tempo Detection)通常與節(jié)拍跟蹤同時進行,用于判斷音樂進行的快慢,通常以BMP(Beats per Minute)表示。其可以應(yīng)用于音樂情感分析,或者幫助帕金森病人恢復(fù)行走能力。一個經(jīng)典方法是用帶通濾波器計算每個子帶幅度包絡(luò)線,與一組事先定義好的梳狀濾波器卷積,并對所有子帶上的能量進行求和,最高峰值即為速度。

拍子檢測(Meter Detection)、小節(jié)線檢測(BarLine/Measure Detection)、強拍估計(Downbeat Estimation)的技術(shù)路線類似,通常基于節(jié)拍相似性矩陣、節(jié)拍跟蹤和基于音樂知識的啟發(fā)式規(guī)則。節(jié)奏型檢測(Rhythmic Pattern Detection)基于模板匹配方法或者機器學(xué)習(xí)的節(jié)奏型標(biāo)注,可用于音樂流派分析和音樂教學(xué)等。

3.音樂和聲(Music Harmony)[3]1280-1289

自18世紀(jì)后半葉至今,主調(diào)音樂(Homophony)已經(jīng)逐漸取代了復(fù)調(diào)音樂(Polyphony),而和聲正是主調(diào)音樂最重要的要素之一。

和弦識別(Chord Detection)中最重要的音頻特征為半音類(PCP[Pitch Class Profiles],或稱 Chroma),即在12個半音類上與八度無關(guān)的譜能量的聚集。識別模型有模板匹配、隱形馬爾科夫模型(Hidden Markov Model,HMM)、條件隨機場(Conditional Random Fields,CRF)、支持向量機(Support Vector Machine,SVM)、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)等。

調(diào)檢測(Key Detection)通過PCP特征來描述對調(diào)的感知,還可用調(diào)高分類器平滑減少音高的波動。其可用于音樂識譜、和弦檢測、音樂感情計算、音樂結(jié)構(gòu)分析等。

4.歌聲信息處理(Singing Information Processing)[4]57-60

歌聲檢測(Vocal/Singing Voice Detection)是判定整首歌曲中哪些部分是歌聲,哪些部分是純樂器伴奏的過程。一般通過音頻分幀,提取能夠有效區(qū)分歌聲和伴奏的音頻特征(梅爾頻率倒譜系數(shù)[Mel-Frequency Cepstral Coefficients,MFCC]、譜特征、顫音等),然后進行機器學(xué)習(xí)分類,最后使用平滑后處理去除奇異點。

歌聲分離(Vocal/Singing Voice Separation)是指將歌聲與背景音樂伴奏進行分離的過程。對立體聲錄音,假設(shè)歌聲位于中央信道,可利用聲源的空間差異性來定位和分離;對單聲道錄音,可采用基于音高推理(Pitch-based Inference)獲得歌聲泛音結(jié)構(gòu),或基于矩陣分解技術(shù),或基于計算聽覺場景分析CASA(Computational Auditory Scene Analysis)的方法。其可應(yīng)用于在歌手識別、哼唱/歌唱檢索、卡拉OK伴奏等。

歌手識別(Singer/Artist Identification)判斷一個歌曲是由集合中的哪個歌手演唱的,框架類似于說話人識別/聲紋識別。歌聲與語音之間存在巨大差異,技術(shù)上更困難。其可用于按歌手分類管理大量歌曲、模仿秀。

歌唱評價(Singing Evaluation)含兩部分。基礎(chǔ)評價包括計算兩段歌聲各種音頻特征如音量、音高、節(jié)奏、旋律、顫音等之間的相似度,高級評價包括感情、音域、聲音質(zhì)量、音色辨識度、歌唱技巧等。

歌詞識別(Lyrics Recognition/Transcription)與語音識別技術(shù)框架類似,區(qū)別在于:歌詞非勻速進行且音高變化范圍大;歌唱根據(jù)旋律和節(jié)奏的進行、顫音和轉(zhuǎn)音等技巧來控制聲帶的發(fā)聲方式、發(fā)聲時間和氣息穩(wěn)定性;同一個人歌唱和說話音色有很大不同;歌詞具有一定藝術(shù)性需要押韻;等等。其可應(yīng)用于歌曲檢索、歌曲分類、歌詞與音頻或口型對齊等。

(二)應(yīng)用層MIR研究

1.音樂搜索(Music Retrieval)[5]231-236

音樂識別(Music Identification)錄制一個音樂片段作為查詢片段,計算音頻指紋后與后臺指紋庫進行匹配,將最相似記錄的歌曲名、詞曲作者、演唱者、歌詞等元數(shù)據(jù)返回,其核心是音頻指紋技術(shù)(Audio Fingerprinting)。

哼唱及歌唱檢索(Query by Humming/Singing)錄制一段哼唱或歌唱聲音作為查詢片段,計算音頻特征后在數(shù)據(jù)庫中進行相似性匹配,并按匹配程度高低返回結(jié)果列表,難度比音樂識別更大。一般使用旋律編碼特征(音高輪廓、音程、音長、音高變化、音長變化)等進行旋律匹配,匹配手段有字符串近似匹配、動態(tài)時間規(guī)整、編輯距離、隱形馬爾科夫模型等。[4]57-60

多版本音樂識別或翻唱識別(Cover Song Identification)用于判斷兩首音樂是否具有同樣的本源。特點是主旋律基本相同但音樂結(jié)構(gòu)、音調(diào)、節(jié)奏、配曲、演唱者性別、語言等可能會發(fā)生巨大變化。一般提取穩(wěn)定的音樂中高層特征,在各個版本的整首音樂或音樂片段間進行匹配。

敲擊檢索(Query by Tapping)根據(jù)輸入的節(jié)拍信息,從數(shù)據(jù)庫中返回按節(jié)拍相似度高低排序的音樂列表,沒有利用音高信息。一般提取音符持續(xù)時間向量作為特征,歸一化處理后動態(tài)規(guī)劃比對并排序返回。

音樂借用(Music Borrowing)檢測不同歌曲之間旋律相似的部分。與音樂識別相比,音樂借用也檢測相似短片段,但后者不知道該片段在歌曲中的起始位置及長度。其可用于抄襲檢測。

2.音樂情感識別(Music Emotion Recognition,MER)[6]227-244

音樂情感識別涉及心理學(xué)、音樂學(xué)、AI技術(shù)。其有兩種技術(shù)路線:一是利用Hevner或Thayer情感模型將MER歸結(jié)為單標(biāo)簽或多標(biāo)簽分類問題;二是歸結(jié)為基于Arousal和Valence(AV)值的二維AV情感空間回歸預(yù)測問題。MER廣泛應(yīng)用于音樂選擇、影視制作、音樂推薦、音樂治療等場景。

3.音樂流派 /曲風(fēng)分類(Music Genre Classification)[7]282-289

通過音頻特征提取和統(tǒng)計分類對音樂內(nèi)容進行分析,可將音樂分為流行、搖滾、爵士、鄉(xiāng)村、經(jīng)典、藍調(diào)、嘻哈、迪斯科等類別。

4.作曲家分類(Music Composer Classification)

讀取一段音樂,通過音頻特征和統(tǒng)計分類器(如決策樹、SVM)等方式分析音頻數(shù)據(jù)內(nèi)在的風(fēng)格,可識別出相應(yīng)的作曲家信息,常用于音樂理論分析。

5.智能樂器識別(Intelligent Instrument Recognition)

識別多聲部/多音音樂中的各種樂器/主樂器。傳統(tǒng)技術(shù)框架為音頻特征提取(如LPC[Linear Predictive Coding,線性預(yù)測編碼]、MFCC、常數(shù) Q 變換倒譜系數(shù)、基于頻譜圖時域分析的音色特征、基于稀疏特征學(xué)習(xí)得到的特征)和統(tǒng)計分類器GMM(Gaussian Mixture Model,高斯混合模型)、SVM、貝葉斯決策等,近十年又發(fā)展了基于深度學(xué)習(xí)(Deep Learning)的新方法。

6.音樂結(jié)構(gòu)分析(Music Structure Analysis)[8]625-636

通過自相似矩陣、遞歸圖、子空間聚類等方式把音頻流分割為一系列具有音樂意義的時間區(qū)域,如前奏、主歌、副歌、橋段和結(jié)尾,常用于音樂理解、多版本音樂檢索、樂句劃分、音樂摘要、音頻水印等。

7.音樂摘要 /縮略圖(Music Summary/Thumbnail)

通過初步的音樂結(jié)構(gòu)分析尋找最合適的片段作為摘要,一般以副歌和附近樂句為主,可應(yīng)用在彩鈴、瀏覽、搜索中。

8.音樂推薦(Music Recommendation)[9]1366-1367

分為基于用戶歷史行為的個性化音樂主動推薦,基于情感的推薦和基于場景(如工作、睡覺、運動)的推薦等。音樂推薦一般使用三種技術(shù)框架,即協(xié)同過濾推薦(相似偏好用戶群喜好的音樂)、基于內(nèi)容的推薦技術(shù)(根據(jù)音樂間的元數(shù)據(jù)或聲學(xué)特征的相似性推薦),以及混合型推薦(多模態(tài)數(shù)據(jù))。

9.音樂標(biāo)注(Music Annotation/Tagging/Labelling)

應(yīng)用于復(fù)雜的音樂發(fā)現(xiàn)、建立語義相似的歌唱播放列表、音效庫管理、音樂推薦等場景。首先進行人工標(biāo)注,給音樂和音頻賦予描述性的關(guān)鍵字或標(biāo)簽;之后采用機器學(xué)習(xí)模型學(xué)習(xí)音頻內(nèi)容與標(biāo)簽之間的關(guān)系并進行自動標(biāo)注。困難之處在于實際待標(biāo)注的標(biāo)簽內(nèi)容本身無法確定,且難以客觀評價標(biāo)注質(zhì)量。

10.歌聲與歌詞同步

音樂電視節(jié)目的理想情況是歌聲、口型、歌詞三者精準(zhǔn)同步。這是一個典型的結(jié)合音頻、視頻、文本三種媒體的多模態(tài)研究。截至目前,尚未發(fā)現(xiàn)關(guān)于三者同步的研究,僅有少量關(guān)于歌聲和歌詞同步的研究。

三、與MIR相關(guān)的其他音樂科技研究課題介紹

在傳統(tǒng)的MIR技術(shù)中,并不包括算法作曲、歌聲合成、音頻水印、音視頻結(jié)合等內(nèi)容。考慮到這些技術(shù)也屬于音樂科技中十分重要的方面,這里也進行簡要介紹。

(一)自動/算法/AI作曲(Automated/Algorithmic/AI Composition)

指在音樂創(chuàng)作時部分或全部使用計算機技術(shù),減輕人(或作曲家)的介入程度。用編程的方式來生成音樂,一般用語法表示、概率方法、人工神經(jīng)網(wǎng)絡(luò)、基于符號規(guī)則的系統(tǒng)、約束規(guī)劃和進化算法、馬爾克夫鏈、隨機過程、基于音樂規(guī)則的知識庫系統(tǒng)、深度遞歸神經(jīng)網(wǎng)絡(luò)等對時間域旋律進行預(yù)測。

(二)歌聲合成技術(shù)(Singing Voice Synthesis,SVS)

通過共振峰參數(shù)合成法、采樣合成/波形拼接合成等方式,將歌詞按照樂譜合成為歌聲,應(yīng)用于虛擬歌手、玩具、練唱、音色轉(zhuǎn)換等多個場景。由西班牙MTG提供核心技術(shù),日本雅馬哈公司商業(yè)化的“初音未來”即是一個最典型的代表。

(三)數(shù)字音頻水印技術(shù)(Audio Watermarking)[10]100-111

數(shù)字音頻水印[10]100-111是在不影響原始音頻質(zhì)量的條件下向其中嵌入具有特定意義且易于提取信息的技術(shù),嵌入的水印能夠經(jīng)受各種時域頻域的音頻信號失真及同步失真。該技術(shù)可用于保護版權(quán)、廣播監(jiān)控、盜版追蹤、內(nèi)容標(biāo)注等。

脆弱/半脆弱音頻水印用于數(shù)字音頻作品的真實性和完整性保護。脆弱水印用于檢測宿主數(shù)據(jù)發(fā)生的任何變化,半脆弱水印融合魯棒水印與脆弱水印的特性,能夠抵抗有損壓縮、噪聲等常規(guī)音頻信號失真,以及對剪切、替換、惡意篡改等非法操作敏感。

音頻取證(Audio Forensics)包括被動音頻認(rèn)證,基本方式包括聽覺測試、頻譜圖/頻譜分析等,高級方式包括特征提取和統(tǒng)計分類。

(四)音視頻結(jié)合

人類感知的本能告訴我們,應(yīng)大力開展融合音視頻的跨媒體科技研發(fā)。典型應(yīng)用有音樂可視化、基于視頻速度和音樂情感進行的電影情感事件檢測等。

四、總結(jié)與展望

當(dāng)前的MIR技術(shù)發(fā)展仍然面臨諸多困難。從數(shù)據(jù)角度看,很多數(shù)字音樂涉及版權(quán)無法公開,各種音頻數(shù)據(jù)都源自特定場合和物體,難以搜集和標(biāo)注;從信號角度看,音樂中各種樂器和歌聲在音高上形成和聲,在時間上形成節(jié)奏,耦合成多層次的復(fù)雜音頻流,難以甚至無法分離處理,從而影響后續(xù)各個應(yīng)用。

由于國內(nèi)教育體制原因,藝術(shù)界與科技界割裂嚴(yán)重。20世紀(jì)90年代時開始,各音樂院校逐漸開始設(shè)立音樂科技/音樂工程系。但是直到現(xiàn)在,音樂科技仍然嚴(yán)重依賴引進設(shè)備、軟件進行藝術(shù)創(chuàng)作,重實踐輕理論的觀念根深蒂固,沒有底層計算機軟硬件核心技術(shù)的研發(fā)能力。在理工科領(lǐng)域里進行音樂科技研發(fā)的團隊和相關(guān)公司近十幾年剛剛起步,目前整體力量還不夠強大。

隨著中國經(jīng)濟的快速發(fā)展,近五年來,社會對音樂科技類的計算機軟硬件、互聯(lián)網(wǎng)產(chǎn)品的需求急劇增加。可喜的是,從小接受過音樂訓(xùn)練的理工科大學(xué)生數(shù)量越來越多,為該領(lǐng)域未來的發(fā)展提供了潛在的人力資源。2013年由復(fù)旦大學(xué)和清華大學(xué)創(chuàng)辦的全國聲音與音樂技術(shù)(Conference on Sound and Music Technology,CSMT)會議及交流平臺也對整個領(lǐng)域的發(fā)展起到了巨大的推進作用。

總體來講,在當(dāng)代社會,藝術(shù)與科技相融合是大勢所趨。無論從科技還是文化角度來講,音樂科技領(lǐng)域都具有很強的理論、應(yīng)用、文化及社會價值。在不久的將來,音樂科技一定會迎來它發(fā)展的輝煌時期。

猜你喜歡
音樂檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
奇妙的“自然音樂”
音樂從哪里來?
圣誕音樂路
兒童繪本(2017年24期)2018-01-07 15:51:37
音樂
小波變換在PCB缺陷檢測中的應(yīng)用
主站蜘蛛池模板: 欧美成人A视频| 91一级片| 无码精品国产dvd在线观看9久 | 国产丝袜91| 亚洲国产一区在线观看| 国产高清在线精品一区二区三区| www亚洲天堂| 久久国产亚洲偷自| 免费看av在线网站网址| 美女免费黄网站| 国产一区二区三区在线观看视频| 欧美精品一区二区三区中文字幕| 伊人婷婷色香五月综合缴缴情| 美女毛片在线| 久久这里只有精品2| 99久久免费精品特色大片| 91美女视频在线| 国产美女自慰在线观看| 国产欧美日韩18| 老司机午夜精品网站在线观看 | 精品夜恋影院亚洲欧洲| 国产在线日本| 在线看AV天堂| 亚洲综合一区国产精品| 久久这里只有精品国产99| 日韩国产亚洲一区二区在线观看| 99久久婷婷国产综合精| 亚洲天堂日韩av电影| 国产美女无遮挡免费视频| 99999久久久久久亚洲| 波多野结衣亚洲一区| 久一在线视频| 国产91无码福利在线| 午夜人性色福利无码视频在线观看| 香蕉精品在线| 午夜国产大片免费观看| 国产成人免费高清AⅤ| 黄色成年视频| 久草视频精品| 欧美日韩国产高清一区二区三区| 亚洲日韩精品综合在线一区二区| 国产性生大片免费观看性欧美| 九九热视频精品在线| 91九色国产在线| www.av男人.com| 亚洲男人天堂2018| 免费一级全黄少妇性色生活片| 日韩一区二区三免费高清| 91探花国产综合在线精品| 情侣午夜国产在线一区无码| 国产精品白浆在线播放| 欧美成在线视频| 国产精品三级专区| 婷婷午夜天| 国产免费福利网站| 亚洲国产亚综合在线区| a级毛片网| 亚洲欧美国产高清va在线播放| 五月天丁香婷婷综合久久| 国产一区亚洲一区| 午夜不卡福利| 国产 日韩 欧美 第二页| 国产主播在线观看| 亚洲精品黄| 97视频免费在线观看| 国产福利免费视频| 四虎永久在线精品影院| www.亚洲国产| 久久久久国产一区二区| 午夜国产大片免费观看| 国产午夜无码专区喷水| 国产粉嫩粉嫩的18在线播放91 | 青青网在线国产| 欧洲亚洲一区| 国产精品夜夜嗨视频免费视频| 国产一级在线播放| 欧美性久久久久| 东京热av无码电影一区二区| 久久国产精品波多野结衣| 人妻中文久热无码丝袜| 日本久久久久久免费网络| 久久久久亚洲AV成人网站软件|