



摘要:數字樂譜信息來源廣泛且格式多樣,導致提取目標信息花費時間較長,為此,文章提出一種數字樂譜音樂信息快速提取算法。從初始音樂信息中提取一級種子URL,將其加入待爬取的數字樂譜URL隊列,識別并匹配與目標樂譜相關的特征。基于深度學習算法篩選出與目標樂譜相匹配的信息部分,實現快速準確的信息提取。經驗證,該算法在確保FI值達到0.98的前提下,提取測試曲目樂譜的高音音符、長音音符以及節奏音符信息的整體時間開銷僅為115 s,展現出了出色的信息提取速度。
關鍵詞:網絡爬蟲;數字樂譜;音樂信息;快速提取技術;深度學習;目標特征
中圖分類號:TP183 文獻標志碼:A
0 引言
數字樂譜的概念可以追溯到電子音樂的發展,隨著計算機技術的進步,人們開始嘗試將音樂符號通過數字化的方式呈現出來。隨著對數字技術的不斷探索和應用,數字樂譜得以不斷完善和發展,逐漸成為一種獨立且完善的音樂符號系統,廣泛應用于音樂行業和音樂教育領域。與傳統樂譜相比,數字樂譜具有更直觀易懂的特點,使得學習和演奏音樂變得更加便捷和高效。數字樂譜作為一種現代化的音樂符號系統,將繼續在音樂領域發揮重要作用,推動音樂文化的傳承和發展。數字樂譜作為音樂信息的重要形式之一,其符號和標記種類繁多[1-2]。傳統的信息提取方法須要花費大量時間進行識別和解析,無法滿足現代音樂創作與傳播的高效需求。因此,深入研究數字樂譜有助于更好地理解和利用音樂信息,推動學科交叉與融合[3]。
在當前研究領域智能高效發展的背景下,王騰陽等[4]提出了基于詞性標注規則和預設詞的文獻數據抽取方法,采用遠程平滑算法和光學字符識別,對文本內容進行獲取,利用用戶建立的關鍵詞庫保存抽取項,運用正則表達式,對關鍵詞所在語句進行獲取,使用自然語言處理語句,進行分詞與詞性標注,依據規則對目標詞進行抽取,融合關鍵詞和預設詞距離,對信息進行抽取,完成文獻數據抽取。該方法雖然可以基于詞性標注規則提取信息,但調試和優化的時間開銷較大。梁建軍等[5]提出了基于規則模式的瓦斯爆炸事故信息抽取技術。依據事故分析理論基礎,融合煤礦重特大瓦斯爆炸事故報告樣本庫,對事故致因詞典庫進行構建,采用信息抽取技術,實現基于規則模式的事故致因信息抽取。該方法可以通過規則模式進行信息提取,但須要耗費大量時間和精力。Chantrapornchai等[6]提出了2種基于搜索引擎返回的全文提取特定信息的方法。基于3個任務:名稱實體識別、文本經典化和文本摘要。構建訓練數據和數據清理,收集旅游數據并建立詞匯表。幾個小步驟包括句子提取、關系和名稱實體提取,用于標記目的。創建正確的訓練數據需要這些步驟,可以建立給定實體類型的識別模型。利用Transformer的雙向編碼器(Bidirectional Encoder Representations from Transformers,BERT)和SpaCy的方法快速提取信息,但該方法存在BERT模型參數較多且微調所需時間久的問題。
為解決上述問題,本文利用網絡爬蟲技術準確地提取數字樂譜中的音樂信息。通過引入深度學習技術,篩選出符合目標樂譜的信息部分,實現快速且準確的信息提取。
1 算法設計
1.1 數字樂譜信息快速抓取
爬蟲從初始化的統一資源定位器(Uniform Resource Locator,URL)和目標音符出發,獲取初始音符信息。本文從這些信息中提取一級種子URL,構建待爬取的URL隊列,將其作為爬蟲爬取數字樂譜的起始點。具體的實現方式可以表示為:
Twf(k)=m(i)/m(j)(1)
其中,Twf(k)表示爬取中的數字樂譜URL隊列;k表示隊列的長度參數;w表示單詞爬取范圍;f表示爬取過程中執行步幅參數;m(i)表示初始化的URL中的音符信息;m(j)表示初始音樂信息中提取一級種子URL中的音符信息。
1.2 基于深度學習技術提取目標數字樂譜信息
在爬蟲URL隊列中,首先,本文以梯形樹結構向量化表示目標音樂信息特征,利用樂譜中的特定超文本置標語言(HyperText Markup Language,HTML)標簽元素來標記對應的音符特征區域;其次,采用Dom選擇器,對樂譜中的特征音樂信息對應的音符特征進行深度學習處理,進一步提升信息提取的效率和準確性。最終,通過這種整合的方法,實現對數字樂譜音樂信息的精確提取。具體的實現方式可以表示為:
其中,wik表示Dom選擇器對樂譜中特征音樂信息對應的音符特征的深度學習結果;N表示樂譜中特征音樂信息的音符數量;nik表示特定的html標簽元素;nmk表示音符特征包裹的音樂信息;r表示音符樂譜中的目標信息。
2 測試與分析
2.1 測試準備
為了確保測試結果的可靠性和分析價值,本文采用梁建軍等[5]提出的算法和Chantrapornchai等[6]提出的算法作為對照組。在本文設計的數字樂譜音樂信息快速提取算法中,設置爬取深度為5層,爬取頻率的延遲時間為1 s,最大并發連接數為10。為了全面評估算法的性能,在某音樂軟件中隨機選擇了10首樂譜樂曲作為實驗樣本,具體音樂信息如表1所示。
基于表1所列的10個樂曲樂譜,實驗分別采用了3種不同的算法進行音樂信息提取。在本次實驗中,設定了具體的提取目標,包括高音音符數量、長音音符數量以及節奏音符數量。為了確保提取結果的準確性,設定FI值達到0.98為基準。
2.2 測試結果與分析
在上述實驗條件下,對3種不同算法進行了測試,收集3種算法在數字樂譜音樂信息快速提取過程中的時間開銷數據,結果如圖1所示。
從圖1可以看出,梁建軍等[5]提出的算法時間開銷最大,達到了140 s;在時間開銷的具體分布上,該算法的長音音符信息提取時間最長,而高音音符信息和節奏音符信息的提取時間則較為接近。Chantrapornchai等[6]提出的算法整體時間開銷為135 s,對于高音音符信息、長音音符信息和節奏音符信息的提取時間相對均衡,基本在40~50 s。而本文算法具有較高的提取效率,能夠顯著減少樂譜音樂信息提取所需的時間開銷。
實驗使用3種不同算法對10首樂譜樂曲的音符總數進行提取,分析不同算法下音符提取的準確性,具體結果如表2所示。
通過表2可知,使用梁建軍等[5]提出的算法,在提取2號、5號、9號樂譜音符時與實際音符總數存在誤差;使用Chantrapornchai等[6]提出的算法,在提取4號、7號、8號、10號樂譜音符時也存在誤差。相比之下,本文所提算法的音符提取結果與實際音符總數一致,顯示出較高的準確性。
3 結語
本文提出一種高效的數字樂譜音樂信息快速提取算法,通過引入深度學習技術,利用數字音樂信息與音符特征之間的內在聯系,實現了自動定位并精準爬取目標數字樂譜。經過實驗驗證,本文所提出的算法能夠快速、完整地提取數字樂譜中的音樂信息,整體時間開銷僅為115 s,相較于傳統算法具有顯著優勢,提升了信息提取的效率和準確性。
參考文獻
[1]時業茂,顏曉宏,章祖華.基于Python使用爬蟲從豆瓣網獲取最新上映的電影信息[J].電腦編程技巧與維護,2023(12):153-155.
[2]張海霞.基于Python網絡爬蟲技術的海量教學資源獲取研究[J].太原城市職業技術學院學報,2023(11):56-58.
[3]曾炎.德彪西《g小調小提琴與鋼琴奏鳴曲》樂譜版本與演奏版本分析[J].中國民族博覽,2023(18):142-144.
[4]王騰陽,趙小丹,胡林.基于詞性標注規則的馬鈴薯文獻信息抽取方法[J].科學技術與工程,2023(27):11562-11569.
[5]梁建軍,雷咸銳,吳斌,等.基于規則模式的瓦斯爆炸事故信息抽取技術[J].煤礦安全,2023(2):239-245.
[6]CHANTRAPORNCHAI C,TUNSAKUL A.Information extraction tasks based on BERT and SpaCy on tourism domain[J].ECTI Transactions on Computer and Information Technology (ECTI-CIT),2021(1):108-122.
Fast and intelligent algorithm for extracting digital score music information
Abstract: Digital score information has a wide source and various formats, which leads to a long time to extract target information. Therefore, this study proposes a fast algorithm for the extraction of digital score music information. The primary seed URL was extracted from the initial music information and added to the digital score URL queue to be crawled to identify and match the features related to the target score. Based on the deep learning algorithm, the information that matches the target score is selected to achieve fast and accurate information extraction. It is proved that on the premise of ensuring the FI value of 0.98, the overall time cost of extracting the test track score is only 115 s, showing excellent information extraction speed.
Key words: web crawlers; digital score; music information; rapid extraction technology; deep learning; target features