王健健
(寶雞文理學院 音樂系,陜西 寶雞721013)
基于內容的民族音樂檢索模型構建與實現
王健健
(寶雞文理學院 音樂系,陜西 寶雞721013)
針對當前非結構化P2P網絡中民族音樂資源搜索的問題,提出一種基于內容的民族音樂檢索模型。通過建立局部索引和全局索引結合模型,其中局部索引通過構建特征矩陣的方法,提取民族音樂的ID與特征所屬區間,去掉在檢索中存在的重復問題;通過構建關聯索引表作為全局節點的索引,提高搜索的精準性。最后通過仿真軟件對上述的模型進行驗證,對500首不同的民族音樂文件進行模擬,得到良好效果。
內容;民族音樂;全局索引;局部索引;音樂ID
P2P網絡作為當前分布式應用當中的重點,是在因特網基礎上所構建的一層覆蓋網絡。該網絡中是以節點作為分布,并且不同的節點承擔著相同的角色,在充當服務器的同時,也為客戶機。同時該網絡還可為廣大的用戶提供一個具有高容錯性、均衡能力強的系統和強大的數據庫。根據該網絡存在的優勢,使得對音樂的共享程度越來越大,根據相關數據統計,在P2P節點中的音樂資源甚至占到整個P2P資源的70%。而人們隨著音樂的擴大,傳統的通過關鍵字、主題、出版社等方式進行搜索已經不能滿足。另外當前針對音樂資源的搜索的研究中,存在重復搜索,導致搜索時間過長,另外在特征提取方面比較單一。同時當前在P2P網絡應用中大部分都為非結構化的網絡。對此,本文提到一種基于非結構化的P2P網絡民族音樂檢索模型,從全局索引和局部索引的角度,解決在檢索重復性和精準性方面存在的問題。
當前針對基于內容的音樂的檢索研究中,基本是通過以下步驟進行搜索:
1)對音樂音頻信號進行處理處理;
2)通過對特征進行提取,以此構建資源的查詢索引;
3)構建數據庫音頻索引;
4)構建查詢機制;
5)根據查詢索引和音頻索引之間的相似性,從而對不同的音樂片段進行檢索。
而針對基于內容的音樂檢索中,其重要針對的格式為MIDI、MP3、WAV等格式而言。
同時在檢索算法為實現的核心部分,也是關鍵。而對于檢索算法的設計中,主流的算法包括特征串匹配算法、N-grams音樂檢索算法等,如其中的基于特征串匹配算法其重要的原理則如圖1所示。

圖1 特征串匹配算法
通過對上述檢索算法的總結,都存在著在特征的提取中只提取某個屬性的特征,導致在檢索中存在著很大的重復性。同時為提高在非結構化的P2P網絡中的資源搜索,提出資源動態重分配的協議或者并行和分解的檢索算法,從而提高對P2P網絡中音樂資源的搜索效率。對此,文中則基于P2P網絡下,提出一種全局和局部索引結合的模型,其具體的思路則如圖2所示。

圖2 音樂檢索模型設計思路
2.1非結構化網絡中節點關系描述
與傳統的文本信息檢索來講,音樂文件需要一個更為高效的檢索算法。因此通常為提高索引的效果,通常會對音樂文件構建專門的索引結構。但對音樂文件索引結構的構建需要更大的存儲空間,并需要更為高性能的查詢能力。傳統針對音樂索引的構建都是通過分割音樂片段的方式,文中則提出一種不需要考慮傳統的音樂片段的長度,而直接在各個節點當中構建一個全局索引和局部索引,其具體的節點關系圖則如圖3所示。

圖3 P2P網絡中節點組織關系
在圖3中可看出,在每個節點中都構建了一個全局索引和一個局部索引,對不同節點的用戶來講,都可對該范圍內的資源進行搜索。
2.2信息預處理
在不同格式的音樂文件當中,每首歌曲中會存在大量的重復的片段,由此導致大大增加了索引結構的復雜度,對此要提高索引的效率和準確度其首要的步驟是解決其中重復片段,必須對音樂文件信息進行預處理,消除其中存在的冗余。
而在眾多的音樂文件當中,通常是兩個小節作為一個主題,一個主題包括旋律。由此主旋律通常成為經常重復的主題。對此,很多的研究者通常只提取第一個主題旋律作為其主要的特征,從而減少了檢索的時間,但是這種方式卻降低了檢索的精確度。由此本文為提高精確度,將全部的主題信息都提取出來,并去除其中的冗余信息。通過這樣的方法,其不僅可降低整體的復雜度,同時還可有效的保障其精度。
在音樂中,通常音調更能夠影響一首音樂的主題,因此本文以主題當中的及標準差作為兩個關鍵的主題特征因素,假設為在一段音樂旋律中的第i個音符體現出的音高,其平均音高和標準差的計算則為:

在公式(1)、(2)中k表示為某個主題當中音符的個數。
以某民族音樂的片段為例,通過對該MIDI文件的主題進行處理之后,從而可得到這兩個主題的平均音高和標準差,具體則如圖4所示。

圖4 某民族音樂的兩個主題
通過對主題的處理,得到其兩個不同主題的pˉ、dˉ。通過這種方法,將該民族音樂歌曲當中的所有的主題全部提取出來,從而可得到其主題分別為I=I1、I2……In。通過再通過計算之后,得到不同的I值,由此則消除了其中的重復的片段,減少了檢索的片段,大大提高了檢索的時間。
2.3局部索引建立
對局部索引的建立,本文則利用稀疏矩陣作為其特征矩陣,在不同的行和列當中存儲不同音樂文件的旋律特征。如圖5為B節點的局部索引圖。
在該圖中,其中的行代表的節點中所共享的音樂,其中的第i行則代表第i首音樂。同時其中的列則為該音樂特征的區間。通過對其進行的分析,將該音樂空間分為7個不同的區間段,同時根據中整數部分的大小進行排列,如整數部分為2,則將其直接放入到第2行。由此每個不同的元素都是同首歌分配到一個區所構成的子矩陣,并通過有序鏈表對<高音值,標準差>進行存儲,從而以此類推形成了一個有序鏈表索引結構,并最終通過一種稀疏矩陣的方式表達出來。
文中則假設B點中包含3首不同的民族音樂,通過對其標準差和高音平均值的計算,將其插入到行列中則得到上述的圖5的結果。
2.4全局索引構建
在P2P網絡中構建全局索引的目的是提高網絡的連通性,以此提高在查詢中網絡的查詢速度。其具體的方式則如圖6所示。
在圖6中,通過建立不同節點之間的聯系的方式,并通過RST的記憶功能,每次F搜索到匹配的音樂片段后,對其RST更新一次,并在與有關聯的P2P節點中對自身的RST進行更新和保存,從而通過這種不斷的搜索,讓該P2P網絡中的音樂資源不斷擴大,從而改變了傳統的盲目搜索的方式。

圖5 B點的局部索引圖

圖6 F節點請求發送圖
在對音樂信息的檢索中,通過上述對特征的提取可知道,只需要在查詢中搜索音樂ID即可獲取相關的音樂信息。而在系統進行最初搜索的時候,其中各個節點中的RST為空,此時進行的搜索的量非常的大,必須對全部節點進行搜索,通過搜索后將匹配的信息返回給節點,并將其存入到RST中。這種情況下通常會消耗掉大量的網絡資源,占用很大的帶寬,但是隨著搜索的不斷深入和網絡的穩定,這種搜索的效果也變得越來越好。因此,當網絡在穩定后,將其查詢的過程設定為:
當查詢請求在達到P2P網絡中的某個節點Q的時候,首先該節點的RST與每個元素進行匹配,如成功則將該行的元素信息發送給請求節點,并停止信息轉發,如果沒有則通過局部索引的方式進行查找,并轉發給其他的節點,知道TTL范圍為0則結束。
通過PeerSim模擬器構建一個P2P網絡,在該網絡中包含1 000個節點,每個節點周圍相連的節點保持在1~5個,同時準備500首民族歌曲進行。通過對這500首民族音樂的提取,并采用隨機的方式將其放入到不同的節點中。最后通過檢驗得到如圖7和圖8的結果。

圖7 局部索引建立后的響應時間

圖8 全局索引下的查詢次數變化
通過利用全局和局部索引的方式,改變了傳統的基于內容的音樂信息檢索中存在的精準度低和查詢速度慢的問題,為提高音樂檢索系統的檢索效率提供了很好的參考模型。
[1]李志敏,譚敏生,趙治國.混合P2P模式資源搜索算法的改進研究[J].網絡安全技術與應用,2009(9):46,57-59.
[2]傅鸝,孫堅,付春雷.基于語義的音樂檢索系統[J].重慶理工大學學報:自然科學版,2011(1):40-43.
[3]李鵬,周明全,夏小亮,等.改進的基音檢測方法及在音樂檢索中的應用[J].計算機工程與應用,2011(6):127-130.
[4]王小鳳,耿國華,劉曉寧,等.基于相對特征的音樂哼唱多句檢索算法[J].計算機應用研究,2011(3):918-920.
[5]熊德華,秦開懷.一種基于空間索引技術的全局光照快速繪制算法[J].計算機應用與軟件,2011(4):267-270,279.
[6]藍天,李揚,鐘婷,等.旋律提取技術研究綜述[J].計算機應用研究,2011(5):1618-1622.
[7]王植.P2P網絡資源搜索算法研究及其改進[J].現代電子技術,2011(12):41-43.
[8]孫永佼,袁野,王國仁.P2P環境下面向不確定數據的Topk查詢[J].計算機學報,2011(11):2155-2164.
[9]孟必平,王騰蛟,李紅燕,等.分片位圖索引:一種適用于云數據管理的輔助索引機制 [J].計算機學報,2012(11): 2306-2316.
[10]張二芬,徐淮杰.基于內容的音樂語義特征描述方法[J].電子設計工程,2013(1):31-33.
[11]張滇,岳磅,江小燕,等.應對海量數據檢索:分布式局部索引的架構[J].計算機時代,2013(8):1-4.
[12]李鵬,王小明,王小鳳,等.旋律彈性匹配實現Web哼唱檢索[J].計算機科學,2014(12):192-196.
Construction and im p lementation of nationalmusic retrievalm odel based on content
WANG Jian-jian
(Department ofMusic,BaojiUniversity of Arts and Sciences,Baoji721013,China)
Aiming at the problem ofethnicmusic resource searching in unstructured P2Pnetworks,a nationalmusic retrieval modelbased on content is proposed.Through the establishmentof local index and global indexmodel,the local index isused to construct the featurematrix,extract the ID and feature of the nationalmusic,remove the duplicate problem in the retrieval. Finally,the model is verified by simulation software,and the simulation results of 500 different nationalmusic files are simulated.
content;nationalmusic;global index;local index;music ID
TN99
A
1674-6236(2016)19-0066-03
2015-11-04稿件編號:201511033
王健健(1981—),女,陜西寶雞人,碩士,講師。研究方向:高校音樂教學。