999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

音樂人工智能的技術趨向與應用前景

2025-03-05 00:00:00蔡岳均
音樂生活 2025年2期
關鍵詞:人工智能音樂模型

從1956年達特茅斯會議正式提出人工智能概念開始,在算法與軟硬件架構的不斷迭代中,在各種技術思潮的不斷交鋒中,人工智能技術幾經浪潮和低谷,終于迎來了屬于它的黃金時代。2023年,以大模型為主導的生成式人工智能概念興起,一場人工智能浪潮開始向全世界席卷,并以前所未有的速度、廣度和深度向各類行業蔓延。AIGC(Artificial Intelligence Generated Content,即人","Introduction":"","Columns":"音樂視野","Volume":"","Content":"

從1956年達特茅斯會議正式提出人工智能概念開始,在算法與軟硬件架構的不斷迭代中,在各種技術思潮的不斷交鋒中,人工智能技術幾經浪潮和低谷,終于迎來了屬于它的黃金時代。2023年,以大模型為主導的生成式人工智能概念興起,一場人工智能浪潮開始向全世界席卷,并以前所未有的速度、廣度和深度向各類行業蔓延。

AIGC(Artificial Intelligence Generated Content,即人工智能生成內容)領域的相關技術開始了井噴式的發展,很大程度上改變了內容創作者們的工作方式。根據中國互聯網絡信息中心(CNNIC)最新發布的《生成式人工智能應用發展報告(2024)》,生成式人工智能產品的用戶規模已到達2.3億人,普及率已達16.4%,其中在20—29歲網民群體中的使用率已經達到了40.5%。

將人工智能技術用于藝術作品創作也成為了一個備受關注的熱點話題。本文將基于人工智能的相關技術原理,就音樂人工智能的主要技術趨向、應用前景和技術發展所帶來的相關爭議等問題展開探討。

一、音樂人工智能的主要技術路徑和模型架構

所謂音樂人工智能,在現階段仍是一個相對模糊的概念,并沒有系統的學術定義,目前我們可以從廣泛意義上理解為人工智能技術在音樂領域的垂直應用。在現階段,人工智能技術對音樂數據的理解主要基于兩種數據形態:第一種是音樂符號數據,即樂譜、MIDI信息等;第二種則是音頻數據。根據這兩種數據形態,誕生出了兩種主流的技術路線,這兩種技術路徑各有優勢和劣勢。

音樂符號數據主要包括MIDI、文本、樂譜、數據集等,其優勢主要體現在數據的獲得和處理更加簡便,數據體積更小,數據中的信息更加清晰,有效信息更為密集,且生成的內容可編輯,具有較高的靈活度。但其劣勢也更加明顯,即符號所生成的內容不夠直觀,從符號到音頻的轉述過程需要另外的處理,對用戶的專業度要求較高。

音頻數據生成模型是目前的主流技術路徑,這種技術路徑的優勢明顯,從學習音頻到生成音頻,可以獲得更加全面的信息,無需完成符號到音頻的轉述過程,使得生成內容的質量更高,泛化能力也更強。但相應的劣勢也很突出,一方面是生成內容的可編輯性較差,另一方面則是這種訓練方式需要的算力和數據樣本體積十分龐大。

在這兩種數據形態的基礎上,目前主流人工智能音樂生成模型的技術基礎主要有以下幾種:

神經網絡(NN,Neural Network)是一種深度學習領域的核心算法,它通過大量的神經元節點相互連接構成,神經元用來接收輸入信號,并對輸入值進行加權求和,然后通過一個非線性的激活函數(Activation Function)處理,從而產生輸出信號。在神經網絡中,神經元節點是多層分布的,由輸入層接收信號傳遞到隱藏層(可以有多層),最后再由輸出層進行數據輸出,構成了神經網絡的基本架構。在訓練過程中,首先輸入數據,經過前向傳播得到輸出參數,通過損失函數(Loss Function)評估神經網絡的預測值與真實值之間的差異,后再經過反向傳播計算每個參數的梯度,再利用優化器來更新每個神經元的參數,就完成了一次神經網絡的訓練過程。神經網絡的工作邏輯類似于人類的大腦,具有非線性、自適應的特點,目前已經在模式識別、信息處理、自動控制等多個領域內得到了應用,展現出了較好的智能特性。由神經網絡衍生出的一系列模型比如更擅長處理圖片信息的卷積神經網絡(CNN),更擅長處理序列數據的循環神經網絡(RNN),都是人工智能領域較為典型的深度學習模型。

音頻等序列數據的處理主要依賴RNN模型,但RNN在處理長序列時,由于反向傳播算法需要梯度下降,而RNN又存在循環結構,使得其激活函數的梯度會乘上多次,導致其極容易遇到梯度消失和梯度爆炸(Gradient Vanishing/Exploding)問題。為了緩解這一問題,長短時記憶網絡(LSTM)被提出。LSTM神經元中有三個門,分別為遺忘門、輸入門和輸出門,這三個門中尤其是遺忘門的存在使得LSTM 在訓練時能夠控制梯度的收斂性,同時也能夠保持模型的長期記憶特性。

變換器(Transformer)是一種基于神經網絡的深度學習模型,屬于自回歸模型(AR,Autoregressive Model),這也是近年來備受關注的GPT(Generative Pre-trained Transformer)模型所使用的核心架構。雖然同屬于自回歸模型,但與RNN和LSTM的順序處理方式不同,Transformer架構通過引入注意力(Attention)機制【尤其是多頭自注意力(Multi-Head Self-Attention)】,使其能夠根據輸入序列不同內容的位置關系,對輸入序列中不同的位置賦予不同的權重,從而很好地捕捉全局上下文信息的長距離依賴關系,很大程度上增強了模型對輸入序列的理解力,使模型對更重要的信息能給予更多關注,這種并行化的數據處理方式,令其在處理大規模數據集和長序列任務中表現出色,成為了自然語言處理(NLP)領域的代表性架構。

變分自編碼器(VAE,Variational Auto-Encoder)是一種結合了貝葉斯網絡的深度學習模型,同時它也是一種自監督的神經網絡,它由編碼器和解碼器兩個主要部分構成,能夠將輸入的數據映射到一個概率分布上,再通過引入潛在變量來對數據的概率分布進行建模,以實現數據的非線性降維與特征提取。與常規的自編碼器不同,VAE不僅可以實現數據的重構,還能通過概率分布模型來生成與輸入數據相似的多樣化樣本,因而在文本生成、圖片生成、特征提取、數據降噪等方面有著很好的表現,也是人工智能音樂生成領域的一個關鍵技術。

生成對抗網絡(GAN,Generative Adversarial Networks)也是當下很熱門的一種無監督算法模型,它由生成器(Generator)和判別器(Discriminator)兩個主要部分構成。生成器的目標是生成盡可能接近于真實數據的假數據以騙過識別器,而識別器的目標則是辨別出數據是真實的還是生成器生成的假數據,這兩個部分就像是矛與盾的關系一樣,在訓練的過程中,生成器與判別器此靜彼動交替迭代,最終訓練出的模型就同時擁有了最強之矛和最強之盾。GAN擁有著良好的泛用性,并能夠生成高質量、多樣化的樣本,尤其在風格遷移方面表現出色,但其在訓練過程中,生成器和判別器需要交替訓練,實際操作上難度較大,容易出現模式崩潰和梯度消失等問題。

流模型(Flow-based Model)是一種深度生成模型,它可以通過一系列的可逆、可微分的變換將簡單概率分布映射到復雜的數據分布,從而實現數據的生成。重點是,這一過程是可逆的,也就是說,流模型可以從生成的數據中逆向還原出原始的概率分布,這使得其在數據樣本的概率密度估計上具有很大優勢。流模型的工作原理是先定義一個簡單的概率分布(比如高斯分布)作為輸入,這一簡單分布的主要參數(如方差等)通常是已知的,再設計一系列可逆的變換函數(如Affine Coupling Layers、Invertible 1x1 Convolutions等),這些變換被稱為“流”,每個變換函數都可以表示為一個神經網絡,通過訓練來學習這些變換的參數,將簡單的數據分布映射到復雜的數據分布。流模型具有高效的采樣能力和對數概率密度的計算能力,在音頻生成、圖片生成方面有著很好的表現。

二、音樂人工智能的應用及前景

音樂創作是一個鏈條式的流程,由多個環節相互串聯組成,從音樂意圖到音樂元素的組合,再到制作、混音、母帶,各環節都有著專業性的要求,因而在作曲家之外,也誕生出了諸如音樂制作人、編曲師、混音師等不同的技術工種。人工智能技術也自然而然地在不同的音樂環節中深入滲透。

當下最為熱門的AI音樂應用路線,是基于音頻數據的以文字生成音樂為主要功能的應用,也就是為大眾所熟知的Suno、Udio,以及Google MusicLM、MusicGen、天工AI、Mubert等AI音樂平臺所專注的方向。這類應用的功能通常包括基于風格、速度等提示詞生成純音樂,或基于歌詞生成包含人聲的完整歌曲。這一類“一鍵生成”的AI音樂應用目標受眾較廣泛,使用起來簡單、快捷,并且幾乎無需音樂基礎就能“創作”出一首時長可自定義的無版權音樂,市場潛力巨大。但就像我們之前提到過的,基于音頻到音頻的AI音樂生成技術雖然可以生成出質量較高的內容,但其可編輯性很差,因而在使用中往往需要多次嘗試并調整提示詞,目前諸如Udio等平臺已允許用戶通過高級模式調整歌詞結構、風格負面提示(Style Reduction)、清晰度等參數,但該問題仍是該類應用的主要短板所在。

第二類諸如AIVA、網易天音等AI作曲應用,其主要面向的用戶群體為具有一定音樂基礎的音樂創作者或制作人,為之提供較為簡潔、靈活的AI音樂創作功能。為了實現音樂內容的可編輯,需要結合音樂的符號信息和音頻信息,用兩類數據共同來進行模型訓練。這類基于作曲和音樂制作功能的AI音樂應用平臺,借助AI技術打通了音樂創作環節之間的壁壘,使音樂創作者很大程度上擺脫了傳統音樂制作流程的桎梏,提升了創作效率。比如,網易天音的定位更加傾向于歌曲創作,其將AI作詞、AI歌手、音樂制作輔助等工作流程進行了整合,創作者可以在該平臺上直接創作和修改歌詞、旋律、音樂風格、結構、調式調性、和聲進行、速度、節拍等較為具體的音樂信息。可以看出,網易天音打造的是一個一站式的詞曲創作平臺,其希望解決的主要問題是在以往的音樂創作工作流中作詞、作曲與編曲所使用的平臺不一致、Demo制作成本高的問題。

而AIVA平臺的定位更傾向于AI作曲和AI音樂制作,它不僅允許用戶以文字生成音樂的方式創作音軌,還提供了分軌的編輯功能,創作者可以在平臺上以類似操作DAW的方式對音樂的分軌信息以精確到音符的方式進行編輯,還可以對諸如混響、延遲、高低切等各類基礎的效果器處理參數進行細致的手動調整。

在直接生成音樂或歌曲的應用方向之外,針對音樂創作流程中的某一具體環節的專業化AI工具也備受青睞。如專注于演唱功能的AI歌聲工作站ACE Stuido,以AI技術驅動的音樂樣本檢索工具Jamahook、Waves COSMOS Sample Finder,專注于AI多軌混音的Sonible旗下的Smart系列、Pure系列效果器,專注于AI混音與母帶處理的iZotope旗下系列工具,在線人工智能母帶處理引擎LANDR、AI Mastering、Bandlab Mastering等。這些AI工具為音樂制作人們簡化工作內容、優化工作流程提供了極大的便利。

除了直接或間接參與音樂創作流程,AI技術也在音樂與各行業的交叉領域得到了發揮。

上海音樂學院團隊參與研發,針對中國音樂制作人及音樂教育市場推出的數字音頻工作站(DAW)音蟲(Sound Bug)通過AI技術的整合,目前已能夠實現多軌道的AI一鍵編曲,該工作站簡化了傳統DAW軟件中繁復的信號路由系統,并支持包括中國民族樂器在內的超600種虛擬樂器以及VST、VST3格式插件擴展,很大程度上降低了音樂制作的學習門檻。

SHCM-AIME團隊是一支由上海音樂學院師生組成的致力于人工智能聲音療愈研究的科研團隊,筆者作為該團隊成員參與了一系列項目研究工作。SHCM-AIME團隊與包括龍華醫院、華山醫院、岳陽醫院、上海市肺科醫院、上海市兒童醫院等醫療團隊合作,致力于使用人工智能技術在音頻與腦電波協同、白噪音與神經調節、現代冥想輔助療愈等方向上開展研究,目前已取得了諸多成果。包括與龍華醫院合作的《現代冥想輔助醫療人員抗疫專輯》、天貓“聲睡計劃”等項目。團隊還在上海政法大學試點了聲音療愈視聽室,致力于為師生提供AI音頻系統為主導的定制化音樂康療服務。團隊還將AI技術與增強現實(AR,Augmented Reality)技術、3D空間音頻技術相結合,開發了上海音樂學院非遺傳承中心虛擬博物館,用前沿技術建立起了非遺樂器虛擬音色庫,并使用AI技術對樂器采樣音頻庫進行深度學習,助力非遺器樂的現代化傳承。

2024年11月,上海音樂學院人工智能音樂療愈重點實驗室正式掛牌成立,該實驗室致力于將AI技術與音樂療愈相結合,打通藝術、醫學、科技的主要交匯關節,向音樂療愈、聲音腦科學、嗓音藝術學、嗓音健康學科等前沿領域拓展科研縱深,將AI音樂的主要技術路線進行了立體化的延伸。

三、問題與爭議

1.原創性問題

今年6月,美國唱片業協會代表包括索尼音樂娛樂(Sony Music Entertainment)、華納唱片公司(Warner Records Inc.)、環球音樂集團(UMG)等多家頭部唱片公司,對Suno與Udio兩家人工智能音樂生成領域的代表性企業提起了訴訟。認為其在構建音樂生成模型的過程中,在未經許可的條件下使用了大量受版權保護的錄音資料用于模型的訓練,以難以想象的規模對音樂版權進行了侵犯。

值得我們注意的是,在這場訴訟案中,作為原告的唱片公司認為AI模型在生成音樂的過程中,并非只是簡單地分析了這些版權音樂的作品風格,而是對作品中包括旋律、和聲、節奏在內的具有“獨特標識和創意表達”的關鍵元素進行了復制,這種復制旨在“替代原告創作的真實錄音”,并通過這種服務向用戶收取費用,使得用戶不再需要購買正版作品,這種侵權行為對原告所屬行業市場的正常運作構成了威脅,不論是從經濟利益上還是藝術權利上都對原告構成了侵犯。原告還列舉多個例子,在較為精確的提示詞引導下,兩家公司的音樂生成模型都生成了與原有的特定作品極為相似的作品。

這樁訴訟案對于人工智能音樂生成領域甚至是整個AIGC領域來說都具有非常重要的意義。它提醒了我們兩個關鍵的問題:第一,將所謂“受版權保護”的數據集用于模型訓練是否構成了版權的侵犯?第二,生成內容與原數據在某些音樂要素上“查重率過高”是否構成抄襲?

基于這兩個問題,我想可以做這樣的思考:不論是人工智能模型的訓練,還是人類學習作曲,在學習過程中,必然會涉及到大量的已有作品的分析和研究。對于人類作曲家來說,模仿創作幾乎是一個必備的過程,即便是成熟的作曲家,也會在創作過程中不經意間地趨向于某個已有作品的元素,二者的主要區別是,人類作曲家在創作中大部分情況下是依賴于“緘默知識(Tacit Knowledge)”,基于一種“無意識”的借鑒,且會對較為明顯的模仿行為進行自我規避,而人工智能在非常精確的提示詞引導下,會“有意識”地找出最符合這些精確條件的作品作為構成作品的主要元素。關于人工智能生成作品的“原創性”的討論似乎是無意義的,因為現階段人工智能只有基于已有元素的學習、重組和模仿式的風格遷移的能力,并不具備“無中生有”的創造力。

人工智能音樂生成模型的訓練依賴大量的優質數據,而已有的版權音樂庫完美地契合了這一需求,只是在使用流程上需要進一步地規范,而人工智能的巨大商業潛力和不可預知的發展潛力,使得這種規范的建立成為了一個巨大的難題。對知識產權的保護造就了唱片業的繁榮,也造就了音樂市場的上一個黃金時代,在音樂人工智能的時代即將到來時,知識產權是否會成為制約其發展的桎梏?

2.音樂人工智能技術的趨向與邊界

將人工智能用于藝術創作之所以會受到爭議,其主要原因有二,第一是藝術創作的主體受到了挑戰,第二則是藝術創作的所謂“藝術性”變得難以界定。我們之前提到過,在現在的技術條件下,人工智能生成音樂或其他藝術作品的本質,是在輸入的原始數據和生成的新數據之間建立一種映射關系,這種映射關系的建立是基于數理邏輯指導下的參數學習,而人們很難接受藝術創作這種與人類情感產生緊密互動的“高級精神活動”可以被參數化或量化。事實上,人工智能是否能被視作一種新的音樂創作主體這一問題已經被回答,但筆者認為,人工智能的音樂生產與我們所理解的人類的藝術性音樂創作存在天然的“不可通約性”。這種“不可通約”存在于三個方面:第一,從價值評判上來說,真正意義上能夠推動音樂藝術發展的“創作”需要具有很強的前瞻性,它不能完全建立在已有的音樂樣式之上,需要很大程度上打破原有的音樂內容秩序并且建立新的秩序;第二,從藝術性上來說,作為藝術作品的音樂,同時需要一種文化載體,其通常都被賦予了來自文化背景、歷史背景、作者個人經歷等人文性質的內涵意義;第三,從審美體驗上來說,人類從音樂中所獲得的深度情感體驗,很大一部分來自于與音樂創作者或他人產生的情感共鳴。這三方面的“不可通約”是建立在傳統意義上具有藝術性質的音樂的評判標準之上的,這也為我們描述出了人工智能在音樂領域的邊界。

因而,與其討論人工智能的音樂生產是否具有藝術價值的問題,不如為AI音樂建立一種新的、獨立的評判標準。我們需要明確的一點是,AI的存在并不是為了創作,而是為了解決各式各樣的問題,從這個角度上來說,是否能夠幫助需要音樂的人們解決相應的問題,就是AI音樂的評判標準。

從目前的AI音樂市場來看,其主要的技術趨向有兩個主要方向,一個是作為音樂的生產者,試圖為音樂使用者們解決內容上的需求,這個方向上的AI音樂應用追求的是泛用性,即通過功能的提升,盡可能地覆蓋更多的用戶群體;第二個方向則是作為音樂的生產或傳播工具,試圖為音樂創作者、音樂市場各環節的參與者們解決問題,在這個方向上追求的則是專業性,即為特定的受眾群體不斷提升服務質量。

可以肯定的是,人工智能技術的出現,對于音樂行業來說是一種利好,它從各個層面上打破了原有的定式和格局,推動了音樂產業的煥新式迭代。

結語

本文主要介紹了音樂人工智能的主要技術路徑和模型架構,并對音樂市場上較為具有代表性的幾類AI音樂模型進行了分析和研究,進而對AI音樂的部分爭議及相關問題進行了討論,希望能夠幫助人們更好地認識、理解和使用人工智能及其相關技術。

第一次工業革命讓人類進入了蒸汽時代,讓地球上各個地區之間的溝通成為可能;第二次工業革命讓人類進入了電氣時代,科學成為了生產力發展的一個重要環節;第三次工業革命讓人類進入信息時代,讓地球的兩端實現了面對面的實時溝通。歷史證明,每一次工業革命必將產生生產方式的變化,推動著產業格局的深刻變革。

在AI時代正在來臨之際,AI 工程師通過大量的數據處理與模型優化,致力于構建 AI 與人類之間有效的交互機制,希望幫助AI更好地理解人類。作為生產環節的參與者的我們,不僅要關注這一科技變革,更應該學會如何理解AI的技術原理,從而更好、更理性地運用AI技術來服務生產,把握時代機遇,準備登上這趟正風馳電掣的科技高速列車。

蔡岳均 上海音樂學院2023級研究生畢業

上海淮劇藝術傳習所(上海淮劇團)音樂工程師

(責任編輯 李欣陽)

猜你喜歡
人工智能音樂模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
圣誕音樂路
兒童繪本(2017年24期)2018-01-07 15:51:37
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
3D打印中的模型分割與打包
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
音樂
主站蜘蛛池模板: 国产在线观看精品| 国产精品专区第1页| 夜夜操天天摸| 国产Av无码精品色午夜| 亚洲无码37.| 国产成人禁片在线观看| 日本人又色又爽的视频| 国产成人精品视频一区二区电影 | 超碰91免费人妻| 重口调教一区二区视频| 伊人无码视屏| 国产成人乱无码视频| 2022国产91精品久久久久久| 国产丝袜一区二区三区视频免下载| 色AV色 综合网站| 99视频在线免费看| 四虎永久免费地址| 国产区网址| 亚洲看片网| 中文成人在线视频| 免费xxxxx在线观看网站| 国产无人区一区二区三区| 亚洲成网站| 干中文字幕| 亚洲一区二区三区麻豆| 日本精品影院| 波多野结衣中文字幕久久| 综合社区亚洲熟妇p| 精品一区国产精品| 亚洲无线国产观看| 亚洲男人天堂2020| 啪啪啪亚洲无码| 国产综合在线观看视频| 欧美日韩国产高清一区二区三区| 精品小视频在线观看| 美女免费黄网站| 亚洲swag精品自拍一区| 无套av在线| 9丨情侣偷在线精品国产| 国产区精品高清在线观看| 丁香婷婷久久| 国产乱人伦AV在线A| 国产成人a在线观看视频| 亚洲人妖在线| 中文天堂在线视频| 白浆免费视频国产精品视频 | 美女毛片在线| 国产亚洲精品资源在线26u| 国产丝袜精品| 欧美午夜在线视频| 欧美精品另类| 免费又爽又刺激高潮网址| 亚洲最大看欧美片网站地址| 国产网站免费看| 国产色偷丝袜婷婷无码麻豆制服| 乱码国产乱码精品精在线播放| 青青青国产视频| 久久美女精品国产精品亚洲| 亚洲Av激情网五月天| 国产精品福利一区二区久久| 91久久偷偷做嫩草影院| 久久情精品国产品免费| 欧美一级在线看| 久久久噜噜噜久久中文字幕色伊伊| 婷婷99视频精品全部在线观看| 国产国模一区二区三区四区| 中文字幕首页系列人妻| 亚洲无线国产观看| 国产精品视屏| 波多野结衣无码视频在线观看| 亚洲综合色吧| 欧美综合中文字幕久久| 无码专区国产精品第一页| 成年人福利视频| 久久久精品无码一二三区| 婷婷综合色| 亚亚洲乱码一二三四区| 国产成人综合亚洲网址| 91精品国产综合久久香蕉922| 亚洲国产综合第一精品小说| 91麻豆国产精品91久久久| 色婷婷在线影院|