哼唱檢索中旋律特征的聚類與優化方法

2022-05-10 20:44:37王寧，陳晨，陳德運，何勇軍

哈爾濱理工大學學報 2022年1期

王寧，陳晨，陳德運，何勇軍

摘要：哼唱檢索是音頻檢索的一個重要分支，其能夠為用戶提供一種方便快捷的全新體驗。在檢索過程中，由于同首歌的不同哼唱版本之間具有不容忽視的差異，因此對旋律特征進行精確匹配并無法得到理想的檢索結果。針對這一問題，將基于優化初始聚類中心的kmeans（optimized initial clustering center kmeans， OICC kmeans）聚類方法引入到哼唱檢索系統中，通過對旋律特征進行聚類來充分學習不同旋律特征之間的結構相似性，從而將具有相似結構的旋律特征劃分到同一聚類內給聚類編號，以為后端的旋律特征匹配提供更有效的標簽。同時，考慮到聚類后的旋律特征可以進行進一步的特征表示，因此將聚類后的標簽作為深度置信網絡（deep belief networks， DBN）的輸入標簽并進行特征提取，以獲取具有更強區分性的高層旋律特征，從而有效提升旋律特征的魯棒性。在獲取高層旋律特征后，需將聚類類別作為匹配標簽，并進行哼唱檢索即可。實驗結果表明所提出的方法能夠有效提升哼唱檢索系統的性能。

關鍵詞：哼唱檢索;旋律特征提取;kmeans聚類算法;深度置信網

DOI：10.15938/j.jhust.2022.01.009

中圖分類號： TP391.3? ? ? ? ?文獻標志碼： A? ? ? ? ? 文章編號： 1007-2683（2022）01-0061-08

Melody Feature Clustering and Optimization for Querybyhumming

WANG Ning，CHEN Chen，CHEN Deyun，HE Yongjun

（School of Computer Science and Technology， Harbin University of Science and Technology， Harbin 150080， China）

Abstract：Querybyhumming is an important branch of audio retrieval， and it can provide users with a new and convenient experience. During the retrieval process， since there are unignorable differences between different humming of the same song， it is difficult to obtain ideal results by accurate matching of the melody features. To solve this problem， the optimized initial clustering center kmeans （OICC kmeans） is introduced in the querybyhumming system. By clustering melody features to fully learn the structural similarity between different melody features， the melody features with similar structures are divided into the same cluster and the clusters are numbered， so as to provide more effective matching of melody features at the back end label. Meanwhile， considering that the clustered melody features can be further characterized， the clustered tags are used as the input tags of deep belief networks （DBN） and feature extraction is performed to obtain stronger discriminative characteristics the highlevel melody features of the melody， thereby effectively improving the robustness of melody features. After obtaining the highlevel melody features， it is necessary to use the cluster category as a matching tag and perform a humming search. Experimental results show that the proposed method can effectively improve the performance of humming retrieval system.

Keywords：querybyhumming; melody segmentation; kmeans clustering algorithm; deep belief network

0引言

哼唱檢索是近年來新興的檢索方法，是一項通過哼唱歌曲來進行音樂檢索的技術[1]。具體而言，哼唱檢索需要檢索出與哼唱旋律特征相匹配的歌曲旋律特征，從而根據旋律特征的匹配程度來確定哼唱歌曲的所屬類別。然而，不同人哼唱同一旋律將會產生較大差異，從而導致同首歌在不同版本之間的旋律特征具有極強的不一致性[2]。因此，并無法保證哼唱歌曲與其對應歌曲的旋律特征完全一致，進而導致檢索結果不準確。針對這一問題，往往需要采用近鄰檢索方法[3]，將與哼唱旋律特征空間距離較近的歌曲旋律特征當作候選集，從而盡可能保證正確檢索結果涵蓋于其中。研究者們針對旋律匹配問題，相繼提出很多近鄰檢索算法。文[4-6]首先嘗試了動態時間歸整（dynamic time warping， DTW）與線性伸縮（linear scaling， LS）等近鄰檢索算法。接著，文[7]提出了一種具有優越性的遞歸對齊（recursive align， RA）方法。而文[8-9]提出的局部敏感哈希（locality sensitive hashing， LSH）方法則是目前應用最為廣泛的近鄰檢索方法。LSH通過隨機選定投影方向，將高維空間中的數據映射到一維空間，從而有效縮短檢索時間。然而，這種隨機性投影并不穩定，數據集的改變將導致檢索精度隨之變化，且檢索系統無法動態地調整參數來適應數據集變化。同時，由于LSH方法需要通過旋律特征在多個方向上的投影來獲取近鄰，因此并無法保證其得到的近鄰候選集是旋律特征的真正近鄰。

針對上述問題，可以直接在特征空間中對旋律特征進行聚類，將空間距離近的旋律特征劃分到同一聚類，使得劃分到同一聚類內的旋律特征均互為真正近鄰，從而有效保證檢索結果的正確性。此外，在建立歌曲庫索引時，聚類方法只需要記錄所屬聚類標簽即可。相比于需要使用多個哈希函數來建立索引的LSH方法，聚類方法不僅簡單高效，且占用資源更少。在眾多旋律特征聚類方法中，使用最廣泛的方法為k-均值聚類算法（kmeans）[10]。其首先需要隨機選取K個初始簇類中心，然后將全部旋律特征按規則劃分為K個簇，從而保證簇內旋律特征相似度較高、簇間相似度較低。雖然kmeans算法簡單高效，但隨機選取初始聚類中心將引入更多的不確定因素，且易陷入局部最優解。針對這一問題，kmeans++算法[11]通過預先處理離群近點來提高迭代速度，而迭代自組織數據分析算法（iterative selforganizing data analysis techniques algorithm， ISODATA）[12]則通過合并與分裂的方式，來進行聚類數k的合理估計。盡管上述方法能夠取得較好的性能，但沒有充分考慮數據集密度分布不均勻的情況，對于密度差異較大的數據集處理效果并不理想。

針對kmeans算法初始簇心敏感和無法很好處理密度差異較大的數據集問題，本文將優化初始聚類中心的kmeans（optimized initial clustering center kmeans， OICC kmeans）算法[13-14]引入到哼唱檢索中，其能夠依據高密度優先聚類的思想，有效提升密度差異較大數據集的聚類效果，還能增強算法的穩定性。經過特征聚類后，同簇的旋律特征具有更高的結構相似性。對旋律特征進行聚類后，本文將聚類結果作為標簽，并采用深度置信網絡（deep belief networks， DBN）[15-16]，來進行旋律特征提取，以獲得區分性更強的高層旋律特征。進行哼唱檢索時，利用哼唱旋律特征匹配到最相似的聚類特征，在該聚類內的歌曲旋律特征結構相似，正確檢索結果包含在其中。因此，在該類內檢索即可得到準確檢索結果，使得該系統不僅檢索穩定高效，而且檢索精度高。

1基于OICC kmeans與DBN的哼唱檢索系統

本節將介紹基于OICC kmeans與DBN的哼唱檢索方法[17]。首先，需要對訓練數據進行旋律特征提取，該特征為音高向量;其次，對音高向量進行聚類并利用聚類標簽訓練DBN網絡;再次，利用訓練好的DBN模型對測試數據提取特征;最后，與訓練集旋律特征庫中的旋律特征進行匹配并找到所屬類別，在類內繼續匹配輸出檢索結果，其示意圖如圖1所示。

1.1旋律特征提取

音樂的基本組成單位是音符，不同音高的音符通過一定的節奏連接到一起能夠組成旋律，在得到該旋律對應的音高曲線后，需要提取音高向量作為旋律特征。具體而言，首先需要從訓練集的歌曲和測試集音頻中提取出音高曲線;然后對每個音頻的音高曲線進行采樣與分幀，生成若干長度相同的音高向量，作為音頻的旋律特征;最后記錄音高向量所屬的歌曲及其在歌曲中的位置等附加信息，以進一步形成該旋律特征的旋律片段索引。

1.1.1音高曲線提取

檢索系統音頻文件的存儲格式一般為樂器數字接口（musical instrument digital interface， MIDI）格式與波形文件（wave，WAV）格式，因此本節將主要介紹這兩種音頻文件的音高曲線提取方法。

1）MIDI文件

MIDI文件其能夠簡單高效地用音符序列來記錄旋律特性，利用其提取的旋律特征更加準確，本文訓練集數據即采用MIDI格式的文件。MIDI文件一般由不同音符值pi持續ti時間所構成的音符序列（p1，t1），…，（pi，ti）表示，音符持續時間ti又可以轉換為持續幀數Fi，因此可以根據幀移數將時間音符序列轉換為幀移音符序列（p1，F1），…，（pi，Fi）。基于此，對于任意音符pi的持續幀數Fi均可表示為一維序列piFi，…，piFi。因此，所有的二維幀移音符序列均可由一維音高序列（即MIDI文件的音高曲線）來表示：

（p1，F1），…，（pi，Fi）→p1F1，…，p1F1，…，piFi，…，piFi（1）

2）WAV文件

波形文件能夠記錄原始聲音波形，所以可以采用波形文件記錄用戶的哼唱旋律，而最常用的波形文件是WAV格式文件，一般錄音生成的文件也為WAV格式文件，因此測試集一般由不同用戶哼唱的WAV文件構成。當對測試集數據提取音高曲線時，需要利用短時自相關方法從WAV文件中提取音高序列，并將其作為哼唱檢索系統的測試數據特征。短時自相關函數R（o）表現方式如下：

R（o）=∑j-o-1j=0y（j）y（j+o）（2）

其中：y（j）表示一段語音信號;j為窗長;o=（-j+1）～（j-1）且為偶數時，R（o）不為零。

值得注意的是，利用短時自相關函數提取的音高曲線無法保證完全正確，會存在減半、加倍或抖動等現象。因此，需要經過中值濾波、去均值等操作，使音高曲線變得平滑。在此之后，為了與訓練集音頻的音高曲線匹配，還需要對音高曲線進行半音處理，將其轉化為MIDI文件中音符的半音表示：

S=log2（f/440）×12+69（3）

其中：S為音高值;f為基音頻率。

1.1.2音高向量提取

在進行音高向量提取時，首先需要將MIDI文件和WAV文件的音高曲線轉換為一維音高序列。接下來，對每個一維音高序列進行采樣分幀，截取若干長度相同的音高向量，并將這些音高向量作為音頻文件的旋律特征。每個音頻文件由不同音符值pw構成一維音高曲線（p1，…，pw，…，pW），對其提取音高向量時，需要選取一個h秒的窗，在窗內提取一個固定時間間隔的高維音高向量，然后移動窗去提取下一個音高向量，以此類推，直到窗超過音高曲線結束時間，不再提取音高向量，最終即可獲得全部音高向量，表示為：

x=（p1，…，pw+T，…，pW+T（D-1））（4）

其中：x為音高向量;T為采樣間隔;D為音高向量維數。

1.2優化初始聚類中心的音高向量聚類

根據全部訓練集音頻文件中音高向量的相似度，對所有音高向量進行聚類。每個音高向量可以看作為多維空間中的一點，聚類的過程就是在高維空間中尋找一些超平面來劃分空間，并將距離相近

的點放在同一個局域內，從而不同區域內的音高向量構成了不同的旋律聚類。

kmeans算法在數據集上隨機選取K個數據對象作為初始聚類中心，但其隨機性較強，會導致聚類效果不穩定。針對這一問題，考慮到特征空間中相同尺度區間內包含的數據越多，這一區間的數據密度越大，在這一區間內則更可能存在聚類中心。基于此，可以通過劃分密度集合區間，并在各個集合區間選取初始聚類中心，來尋找更合適的聚類中心。同時，根據密度選取的聚類中心一般具有唯一性，能夠有效降低由初始中心的隨機性選取所帶來的影響。

基于上述思想，本文對音高向量特征空間中的不同密度區域進行劃分，首先從音高向量集合中取歐氏距離最小的一對組成簇類，計算簇類均值并記為該簇的簇類中心。然后從剩余音高向量集合中選取距離簇類中心最近的音高向量，將其加入該簇并更新簇類中心，重復以上步驟直到簇類中音高向量的數量達到閾值。每當獲得一個簇類，便重復上述過程直到簇類數量為K時結束。

依據上述步驟，能夠獲取更準確的初始聚類中心。定義音高向量的數據集合為X={x1，…，xn，…，xN}（n∈1，2，…，N），N為音高向量個數;簇類集合Z={Z1，…，Zk，…，ZK}，簇類中心集合為C={C1，…，Ck，…，CK}（k∈1，2，…，K），K為簇類的數量。根據上述符號定義，首先應該計算兩個音高向量的歐式距離：

d（xa，xb）=∑Ll=1（xal-xbl）2（a，b=1，2，…，L）（5）

其中：xa，xb為音高向量;xal為xa的第l個特征屬性;xbl為xb的第l個特征屬性。接著將距離最短的兩個音高向量組成一個簇類集合Zk，并從數據集X中將上述音高向量刪除，將更新后的數據集記為X′，同時計算樣本集合Zk內所有音高向量的均值CZk。

然后，計算數據集X中每個音高向量xn與樣本集合Zk對應均值CZk的距離：

dist=∑xn∈X′d（xn，CZk）（6）

找到距離最近的音高向量加入集合Zk，將其從數據集X′中刪除，并重新計算集合Zk內所有數據對象的均值。重復執行直致Zk內音高向量的個數大于等于α·（N/K），其中α為權重系數，且0<α≤1。若k<K，則重復以上步驟直到k≥K，即當集合的數目等于簇類數目時，結束尋找初始聚類中心。

經過上述步驟即可獲得最優的初始聚類中心，利用這些聚類中心進行音高向量聚類從而獲得最優聚類結果。音高向量集X={x1，…，xn，…，xN}，每個數據對象xn有D維，在半徑R內數據對象數目與總數據集的比值（占比率）為P（0≤P≤1），相鄰兩次誤差平方和之差為β，則改進算法的詳細描述如算法1所示。

算法1優化初始聚類中心的kmeans聚類算法

Algo.1Optimizing initial clustering center for kmeans clustering algorithm

Input：X={x1，…，xn，…，xN}：數據集;K：簇類數目;

P：占比率;β：相鄰兩次誤差平方和之差

Output：聚類結果

1 利用優化的初始聚類方法獲得K個聚類中心作為初始中心;

2 for 聚類中心不再變化or連續兩次E值差小于閾值 do

[計算每個數據對象與中心的距離：

E=∑Kk=1∑xn∈Ckd（xn，Ck）

并把它劃分給最近的聚類中心，得到K個簇類;

重新計算每個簇類的中心：

s=∑xb∈CKd（xa，xb）（xa∈X）;

重新劃分簇并更新中心;

]

3 輸出：聚類后的簇

通過此算法對音高向量進行聚類后，同一聚類內的音高向量結構特征極其相似，可以用相似的特征來表示這個聚類，在檢索時找到與哼唱旋律特征相似的聚類，即可得到全部候選集，只需在聚類內檢索即可得到檢索結果。此外，為了獲得區分性更強的高層旋律特征，需要將旋律特征作為輸入來訓練DBN，標簽則采用聚類后簇的標號。

1.3深度置信網絡訓練

在訓練深度置信網絡時，需要用到訓練集的音高向量{x1，x2，…，xN}和所屬聚類標簽兩部分信息，用于提取抽象高層旋律特征{e1，e2，…，eN}。在訓練過程中采用sigmoid激活函數，目標函數則采用softmax損失函數，訓練數據為從測試集中提取的全部音高向量，訓練數據標簽則采用音高向量對應的聚類標號，通過訓練DBN模型得到抽象的高層旋律特征。DBN網絡結構圖如圖2所示。

1.4測試階段

在哼唱檢索系統的測試階段，系統會對測試集音頻采用與訓練階段相同的方法提取旋律特征，然后通過近鄰檢索算法得到每個測試特征的候選集。由于無法保證測試數據哼唱速度的一致性，因此相同旋律的音高序列長度并不相同，這將導致測試集與訓練集中相同歌曲的音高序列不完全匹配。為此，需要對測試集數據進行一些變換處理。

具體步驟為：首先對測試集數據的音高向量進行查詢擴展，即將其擴展成和哼唱音頻相同的長度;然后利用線性伸縮方法粗略計算測試集音高向量與候選集音高向量的距離，篩選掉大部分偽候選，再使用邊界對齊線性伸縮算法（boundary alignment linear scaling， BALS）和重音移位遞歸對齊算法（key transposition recursive alignment， KTRA）[18]精確計算音高向量的距離;最后按照音高向量的距離大小對所有候選進行排序，排序結果即為哼唱檢索系統的檢索結果。

2實驗與分析

2.1數據集與前端實驗設置

實驗采用由中科院發布的IOACAS_QBH數據集[19]，其數據在四大公共數據集中檢索難度最大，是目前使用最為廣泛的數據集之一[20]。其包含298首MIDI格式歌曲和759首WAV格式哼唱歌曲。本文實驗選取其中不重復且準確的200首歌曲文件作為訓練集數據;用于測試的數據是不同演唱者演唱的450首WAV格式哼唱歌曲，共計150類，且錄制的這些數據具有代表性。實驗中檢索系統所使用的數據集詳細信息如表1所示。

在提取音高向量時，設原始音高曲線是（p1，p2，…，pW），音高向量為20維，選取的窗內包含60個音高，采樣間隔為3，窗移為15，抽取的音高向量：（p1，p4，…，p58），（p16，p19，…，p73），…。

2.2DBN參數設置

本文通過優化初始聚類中心的kmeans聚類方法對音高向量進行聚類，并將聚類結果作為訓練數據標簽訓練DBN網絡。通過多次實驗獲得最佳DBN模型參數，選取的DBN模型參數如表2所示。

2.3實驗結果與分析

2.3.1音高曲線提取音高向量聚類

本節將對比不同聚類方法（kmeans、ISODATA kmeans、kmeans++）與本文所采用方法（OICC kmeans）的聚類效果。在音高向量聚類實驗中，采用相同音高向量數據集，通過4種不同的kmeans聚類算法測試聚類性能的差異。對不同的kmeans聚類方法進行相同的聚類測試，并采用類內平方和（withincluster sum of squares， WCSS）[21]作為聚類效果的度量標準。

待聚類的音高向量集X={x1，…，xn，…，xN}，其中N為待聚類向量的數量，設每個向量的長度為D，聚類數設定為K（K≤N），最終得到的K個聚類為C={C1，…，Ck，…，CK}，那么WCSS為：

WCSS（C）=∑Kr=1∑xr∈Cr||xr-μr||2（7）

其中，μr是聚類Cr的均值點，設Cr中的向量數為vr，那么：

μr=1vr∑xr∈Crxr（8）

此外，音高向量間的歐式距離由式（5）來計算得出。

在進行音高向量聚類實驗時，采用表1訓練數據作為測試集。為排除1組實驗結果的偶然性，隨機地將200個訓練數據平分成2組，對每組數據采用不同聚類方法。實驗結果如表3所示。

在上表中，每列代表1個組別，每個組別內設定相同的聚類數，采用不同的聚類方法在該組數據集上進行實驗，依次得到不同聚類方法對應的WCSS值，這個值越小證明類內的平均距離越小，類間的距離越大，聚類的效果越好。為了避免kmeans初始化過程隨機不穩定對實驗結果的影響，所以需要對每組實驗重復實驗5次，通過取平均值得到最終的結果。

觀察實驗結果可以得知，在相同數據集下進行相同測試，本文算法（IOCC kmeans）的WCSS值最小，說明該算法比kmeans、ISODATA+kmeans和kmeans++聚類效果更好，可以獲得最優的音高向量聚類。

2.3.2哼唱檢索

哼唱檢索系統的檢索結果為與測試音頻相似度最大的前5首候選歌曲。評價指標采用Top-1正確率（Accuracy，ACC）與Top-5正確率：

ACC（Top-1）=∑Gg=11{Eg=Pgu}G（9）

ACC（Top-5）=∑Gg=11∑5j=11{Eg=Pgu}G（10）

其中：G為待檢索哼唱音頻數;Pgu為對于第g個查詢的第u個檢索結果;Eg表示第g個查詢的正確檢索結果。1{Eg=Pgu}為一個指示器，在滿足大括號內的條件時，該式的值為1，否則值為0。依據正確率評價指標，對使用不同的kmeans聚類算法結合DBN實現的哼唱檢索方法進行性能對比，并使用基于LSH的哼唱檢索算法作為對照。同時，考慮到卷積神經網絡具有強大的特征提取能力，因此本文加入CNN作為DBN的對比實驗[22]。

本文輸入網絡的特征為一維音高向量，因此，只能采用一維卷積提取高層旋律特征，同時音高向量為20維，避免卷積核過大而丟失掉局部特征信息，實驗采用大小為3的卷積核，通過多次實驗獲得最佳CNN模型參數。CNN網絡采用三層卷積結構，卷積核數量分別為32、64和128，卷積核大小均為3×1，每層卷積之后連接Batch Normalization層，用來實現批量歸一化以加速訓練，之后接入ReLU作為激活特征層，前一層卷積層的輸出作為后一層的輸入，最后目標函數則采用softmax損失函數。不同方法的實驗結果如表4所示。

根據上述實驗結果顯示，在相同訓練集以及相同測試集情況下，基于優化初始聚類中心的kmeans聚類哼唱檢索算法優于其他3種kmeans聚類的哼唱檢索算法，而且本文算法的檢索精度也優于基于LSH的檢索算法和OICC kmeans結合CNN的哼唱檢索算法。同時，本文算法在其他諸多方面實現了優化。

首先改進的kmeans聚類算法對音高向量聚類效果最優，為DBN訓練提供準確標簽，從而達到最優檢索精度。其次當數據集發生變化時，基于LSH的哼唱檢索算法無法動態地調整參數應對變化，而本文哼唱檢索算法可以利用新數據集重新訓練DBN網絡模型來更新系統參數，能很好的適應數據集變化。

2.3.3旋律特征可視化對比

為了驗證本文提出方法的有效性，本節將通過可視化的方式來對比OICC kmeans分別結合DBN

與CNN的哼唱檢索算法。對于實驗數據的選擇，考慮到測試數據沒有聚類標簽，原始數據無法2D可視化表示，因此本節實驗可視化的數據均來自于開發集。隨機選擇7類音頻，并從每類中隨機選擇200段（若該類音頻段數少于200，則不會選擇該類數據），不同方法均采用以上標準選擇出的數據進行可視化，上述方法對應的可視化結果如圖3所示，不同顏色的點代表不同類別音頻。將所對比方法的旋律特征分別記為音高向量特征、CNN特征與DBN特征。根據圖3可以得到以下結論。

1）在圖3（a）中，由于原始音高向量通過OICC kmeans聚類后，已經具有表征該類旋律特征的能力，因此圖中相同類別音高向量的數據能夠聚集在一起，不同類別音高向量的數據能夠相互區分開，只是同類數據仍然較分散，不同類數據之間的混雜程度仍然較高。

2）在圖3（b）中，通過CNN提取的旋律特征與原始音高向量相比，同類的數據能夠較好的聚集在一起，異類數據之間的距離較分散。但是，2個方框中的數據雖然屬于同類，卻被分為2個簇，CNN仍然沒有解決部分特征錯分類別問題。

3）在圖3（c）中，與前兩種旋律特征相比，通過DBN提取的旋律特征能夠更好的相互區分開：同類數據更聚集，異類數據更分散。同時，不存在圖3（b）中方框中的情況，數據被正確的劃分到同一簇類中。由此可見，DBN能夠提取區分性更強的高層旋律特征。

3結語

針對鄰近檢索不準確問題，本文提出了一種基于旋律特征聚類與優化的哼唱檢索方法。首先該方法對音高向量進行聚類，使得同一聚類內的音高向量互為準確的近鄰，從而有效地解決了近鄰檢索不準確的問題。相對傳統kmeans聚類算法，本文采用優化初始聚類中心的kmeans算法使得哼唱檢索系統在近鄰檢索效果方面有顯著提升。然后通過DBN網絡對音高向量進行旋律特征提取，得到區分性更強的高層旋律特征，比傳統方法獲取的旋律特征更加穩定可靠。實驗結果表明，本文提出的哼唱檢索系統不僅性能優越，而且檢索穩定，其能夠動態調整系統參數去應對數據集變化，綜合表現較之前的哼唱檢索系統更加優秀。

參考文獻：

[1]GHIAS A， LOGAN J， DAVID C， et al. Query by Humming： Musical Information Retrieval in an Audio Database[C] // Multimedia95： Third Acm International Conference on Multimedia， 1995： 231.

[2]ZHANG W W， WANG R， ZHANG Q L，et al. A Joint Pitch Estimation and Voicing Detection Method for Melody Extraction[J]. Applied Acoustics， 2020， 166：107338.

[3]PAN Z B， Wang L Z， Wang Y， et al. Product Quantization with Dual Codebooks for Approximate Nearest Neighbor Search[J]. Neurocomputing， 2020， 401：59.

[4]JANG J S R， GAO M Y. A QuerybySinging System Based on Dynamic Programming[C] // International Workshop Intelligent Systems Resolutions， 2000： 85.

[5]LI H H， LIU J X， YANG Z L，et al. Adaptively Constrained Dynamic Time Warping for Time Series Classification and Clustering[J]. Information Sciences， 2020， 534：97.

[6]JANG J S R， LEE H R， KAO M Y. Contentbased Music Retrieval Using Linear Scaling and Branchandbound Tree Search[C] // The IEEE International Conference on Multimedia and Expo. IEEE， 2001： 289.

[7]WU X， LI M， LIU J， et al， A Topdown Approach to Melody Match in Pitch Contour for Query by Humming[C] // International Conference of Chinese Spoken Language Processing. IEEE， 2006： 669.

[8]RYYNANEN M， KLAPURI A. Query by Humming of MIDI and Audio Using Locality Sensitive Hashing[C] // 2008 IEEE International Conference on Acoustics， Speech and Signal Processing. IEEE， 2008： 2249.

[9]LI Y Q， XIAO R L， WEI X， et al. GLDH： Toward More Efficient Global Lowdensity Localitysensitive Hashing for High Dimensions[J]. Information Sciences， 2020， 533：43.

[10]ENGLAND R， BEYNON D. Remark AS R39： A Remark on AS 136： A kmeans Clustering Algorithm[J]. Journal of the Royal Statistical Society. Series C （Applied Statistics）， 1981， 30（3）： 355.

[11]ARTHUR D， VASSILVITSKII S. kmeans++： the Advantages of Careful Seeding[C] // Conference： Proceedings of the Eighteenth Annual ACMSIAM Symposium on Discrete Algorithms.IEEE， 2007： 1027.

[12]BALL G H， HALL D J， ISODATA， a Novel Method of Data Analysis and Pattern Classification[M]. California： Technicalrept， 1965：3.

[13]ZHONG W， GUIQUAN L， ENHONG C. A Kmeans Algorithm Based on Optimized Initial Center Points[J]. Pattern Recognition and Artificial Intelligence， 2009， 22（2）：299.

[14]韓劍輝，唐俊超. 空間約束密度聚類的超像素分割算法[J]. 哈爾濱理工大學學報， 2020： 25（6）：6.

HANG Jianhui， TANG Junchao. Superpixel Segmentation Algorithm Based on Spatial Constrained Density Clustering[J].Journal of Harbin University of Science and Technology， 2020： 25（6）：6.

[15]HINTON G， OSINDERO S， TEH Y W. A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation， 2006， 18（7）：1527.

[16]王衛兵，張立超，徐倩. 一種基于受限波爾茲曼機的推薦算法[J]. 哈爾濱理工大學學報， 2020， 25（5）：66.

WANG Weibing， ZHANG Lichao， XU Qian. A Recommendation Algorithm Based on Restricted Boltzmann Machine[J].Journal of Harbin University of Science and Technology， 2020： 25（5）：66.

[17]曹亮. 海量音樂的哼唱檢索研究[D]. 北京：北京郵電大學， 2015：22.

[18]GUO Z Y， WANG Q， LIU G，et al. A Query by Humming System Based on Locality Sensitive Hashing Indexes[J]. Signal Processing， 2013， 93（8）：2229.

[19]DOWNIE J S， WEST K， EHMANN A F， et al. The 2005 Music Information Retrieval Evaluation Exchange （MIREX 2005）： Preliminary Overview[C] // International Conference on Ismir. DBLP， 2005：320.

[20]HARTIGAN J A， WONG M A. Algorithm A S 136： A KMeans Clustering Algorithm[J]. Applied Statistics， 1979， 28（1）： 100.

[21]HARTIGAN J A， WONG M A. Algorithm AS 136： A Kmeans Clustering Algorithm[J]. Applied Statistics， 1979： 28（1）：100.

[22]李蘭英，周志剛，陳德運. DBN和CNN融合的脫機手寫漢字識別[J]. 哈爾濱理工大學學報， 2020： 25（3）：7.

LI Lanying， ZHOU Zhigang， CHEN Deyun. Offline Handwritten Chinese Character Recognition Based on the Integration of DBN and CNN[J].Journal of Harbin University of Science and Technology， 2020： 25（3）：7.

（編輯：溫澤宇）

哈爾濱理工大學學報2022年1期

哈爾濱理工大學學報的其它文章: 基于改進蟻群算法的SDN數據中心流調度研究; TiO2形狀對TiO2/PVDF復合材料介電性能影響的建模與仿真研究; 太赫茲超材料仿真設計與制備研究; 孔板通道結構參數對空化效應的影響; 無保持架軸承滾動體與變速曲面靜接觸有限元; 基于LMD形態濾波的LSSVM方法研究