






摘要:在當(dāng)前高度信息化的社會(huì)環(huán)境中,推薦系統(tǒng)是解決信息過載問題的關(guān)鍵工具,廣泛應(yīng)用于各類在線平臺(tái)。然而,傳統(tǒng)推薦算法(如協(xié)同過濾和基于內(nèi)容的推薦) 在數(shù)據(jù)稀疏、冷啟動(dòng)和特征識(shí)別等方面存在局限性。文章基于傳統(tǒng)推薦系統(tǒng)現(xiàn)狀,探究深度強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用,并提出一種基于深度強(qiáng)化學(xué)習(xí)的推薦算法。實(shí)驗(yàn)結(jié)果表明,該算法在準(zhǔn)確率、召回率和mAP等指標(biāo)上優(yōu)于對(duì)照組,為推薦系統(tǒng)發(fā)展提供了新思路。
關(guān)鍵字:深度強(qiáng)化學(xué)習(xí);推薦系統(tǒng);關(guān)鍵技術(shù);算法模型
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)09-0033-05 開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
0 引言
在當(dāng)今信息化與數(shù)字化深度融合的社會(huì)語境下,信息技術(shù)高速發(fā)展導(dǎo)致信息爆炸式增長(zhǎng),進(jìn)而引發(fā)信息過載問題。為了有效應(yīng)對(duì)這一挑戰(zhàn),推薦系統(tǒng)應(yīng)運(yùn)而生,并成為了解決信息過載問題的關(guān)鍵技術(shù)之一[1],旨在通過分析用戶行為和興趣偏好,提供個(gè)性化內(nèi)容推薦,提高信息獲取效率和用戶體驗(yàn)。
然而,隨著應(yīng)用場(chǎng)景的日益復(fù)雜和用戶需求的不斷升級(jí),傳統(tǒng)推薦系統(tǒng)下所應(yīng)用的協(xié)同過濾或基于內(nèi)容的推薦算法逐漸暴露出其在數(shù)據(jù)稀疏性處理、冷啟動(dòng)問題應(yīng)對(duì)以及特征深度挖掘等方面的局限性,難以滿足當(dāng)前在線平臺(tái)的應(yīng)用需求[2]。
為了應(yīng)對(duì)這些挑戰(zhàn),研究者們開始探索新的技術(shù)和方法以優(yōu)化推薦系統(tǒng)的性能。其中,深度強(qiáng)化學(xué)習(xí)作為一種融合了深度神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)優(yōu)勢(shì)的新興技術(shù),以其強(qiáng)大的數(shù)據(jù)處理能力、自適應(yīng)學(xué)習(xí)機(jī)制及在復(fù)雜決策任務(wù)中的卓越表現(xiàn),為推薦系統(tǒng)的革新提供了新的思路。例如,Somaye Ahmadkhani[3]等人在研究中提出了一種基于深度強(qiáng)化學(xué)習(xí)(DRL) 框架的社交圖像推薦系統(tǒng),以改善傳統(tǒng)靜態(tài)推薦策略在實(shí)際應(yīng)用中的不足。劉春霞[4]針對(duì)推薦系統(tǒng)中存在的多源信息融合問題,設(shè)計(jì)并實(shí)現(xiàn)了深度強(qiáng)化學(xué)習(xí)推薦模型,并在實(shí)驗(yàn)數(shù)據(jù)集上驗(yàn)證了該模型在推薦準(zhǔn)確性和個(gè)性化程度上的有效性。綜上,本文認(rèn)為,深度強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中具有顯著的可行性,有利于提升推薦系統(tǒng)的工作效率和性能。因此,本文將全面探究深度強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)領(lǐng)域?qū)嵱脙?yōu)勢(shì),并提出一套基于深度強(qiáng)化學(xué)習(xí)的推薦算法框架,以解決傳統(tǒng)的推薦系統(tǒng)所面臨的諸多不足,為推動(dòng)推薦系統(tǒng)技術(shù)的持續(xù)進(jìn)步作出貢獻(xiàn)。
1 技術(shù)路線
1.1 推薦系統(tǒng)
推薦系統(tǒng)是一種基于大規(guī)模數(shù)據(jù)挖掘技術(shù)構(gòu)建的智能化網(wǎng)絡(luò)應(yīng)用,它專注于對(duì)繁復(fù)多樣的數(shù)據(jù)信息進(jìn)行深度分析與精確篩選,從而打造一個(gè)極具個(gè)性化的信息環(huán)境。這一系統(tǒng)的核心效能不僅體現(xiàn)在對(duì)復(fù)雜數(shù)據(jù)信息的細(xì)致過濾與高效整合上,更在于它深入洞察并預(yù)測(cè)用戶的個(gè)性化需求[5]。
如圖1所示為標(biāo)準(zhǔn)化的推薦系統(tǒng)框架結(jié)構(gòu),主要包含輸入功能模塊、推薦方法模塊和輸出功能模塊。推薦系統(tǒng)的框架運(yùn)作機(jī)制是一個(gè)閉環(huán)的、持續(xù)迭代的過程。在這個(gè)流程中,推薦算法成了連接用戶偏好與推薦內(nèi)容的核心橋梁,也是整個(gè)推薦系統(tǒng)功能實(shí)現(xiàn)的關(guān)鍵所在。通過對(duì)推薦算法的設(shè)置、調(diào)用以及優(yōu)化,推薦系統(tǒng)能夠深化對(duì)用戶需求的洞察能力,進(jìn)而提供更加貼合用戶期望的個(gè)性化推薦內(nèi)容,從而提升用戶體驗(yàn)和滿意度。
1.2 深度學(xué)習(xí)
人工智能(Artificial Intelligence) 簡(jiǎn)稱AI,作為現(xiàn)代計(jì)算機(jī)科學(xué)的一個(gè)分支,旨在探求人類智能的實(shí)質(zhì),并將其進(jìn)行模擬、延伸和擴(kuò)展,從而能夠生產(chǎn)出一種以人類智能相似的方式做出諸如感知、認(rèn)知、決策、執(zhí)行等合理反應(yīng)的機(jī)器。人工智能作為集理論、方法、技術(shù)、應(yīng)用系統(tǒng)于一體的現(xiàn)代高新科技,所牽扯和涉及的學(xué)科和內(nèi)容極其廣泛,是一個(gè)非常龐大的范疇和研究體系,常見的分支包括專家系統(tǒng)、機(jī)器學(xué)習(xí)、進(jìn)化計(jì)算、模糊邏輯、計(jì)算機(jī)視覺、自然語言處理等等。
機(jī)器學(xué)習(xí)作為實(shí)現(xiàn)人工智能的一條基本路徑,能夠人為的應(yīng)用大量數(shù)據(jù)和算法模型完成機(jī)器的訓(xùn)練,以致機(jī)器學(xué)會(huì)如何自行執(zhí)行和處理問題。在機(jī)器學(xué)習(xí)領(lǐng)域內(nèi),深度學(xué)習(xí)作為一個(gè)全新的算法能夠進(jìn)一步改善和優(yōu)化機(jī)器學(xué)習(xí)算法的執(zhí)行流程,降低人為干預(yù)影響,縮短訓(xùn)練時(shí)間,擴(kuò)展應(yīng)用場(chǎng)景。
深度學(xué)習(xí)(Deep Learning,DL) 是機(jī)器學(xué)習(xí)的一個(gè)重要分支,其基礎(chǔ)是多層結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)。其核心應(yīng)用是通過對(duì)輸入數(shù)據(jù)進(jìn)行逐層特征提取和抽象,形成高階特征表示,從而實(shí)現(xiàn)對(duì)復(fù)雜數(shù)據(jù)的有效建模和分類。
深度學(xué)習(xí)的本質(zhì)是通過構(gòu)建多個(gè)神經(jīng)元,并將其排列分布為多層結(jié)構(gòu),形成一種神經(jīng)網(wǎng)絡(luò)。其中神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以分為輸入層、隱藏層、輸出層三部分,且隱藏層可以有多個(gè)疊加,以表達(dá)深度。如圖2所示為單個(gè)神經(jīng)元結(jié)構(gòu),圖3為深度學(xué)習(xí)下的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
如圖3所示,輸入層負(fù)責(zé)接收外界輸入數(shù)據(jù)信息,并將其轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)可以識(shí)別處理的信號(hào)。隱含層負(fù)責(zé)處理輸入信息,是神經(jīng)網(wǎng)絡(luò)的核心部分,能夠?qū)斎氲臄?shù)據(jù)信息進(jìn)行加工處理,完成特征提取和轉(zhuǎn)換。隱含層可以有多個(gè),根據(jù)問題的復(fù)雜性和神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì),層數(shù)和每層中的神經(jīng)元數(shù)量可能有所不同。輸出層將接收到的信號(hào)轉(zhuǎn)化為問題結(jié)果進(jìn)行輸出,輸出層的節(jié)點(diǎn)數(shù)與具體的問題類型相關(guān)。常見的代表性深度學(xué)習(xí)算法包括卷積神經(jīng)網(wǎng)絡(luò)(CNN) 、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 和深度信念網(wǎng)絡(luò)(DBN) 等,這些算法在圖像識(shí)別、語音識(shí)別、自然語言處理等領(lǐng)域取得了顯著成果。
1.3 強(qiáng)化學(xué)習(xí)
相較于深度學(xué)習(xí),強(qiáng)化學(xué)習(xí)側(cè)重通過與環(huán)境的交互來學(xué)習(xí)最優(yōu)行為策略。在強(qiáng)化學(xué)習(xí)中,智能體(agent) 會(huì)根據(jù)當(dāng)前環(huán)境狀態(tài)選擇動(dòng)作,并以此來調(diào)整其行為策略,實(shí)現(xiàn)最大化累積獎(jiǎng)勵(lì)目標(biāo),如圖4所示為智能體與環(huán)境交互的過程示例。其中,智能體是學(xué)習(xí)的主體,環(huán)境是智能體交互的對(duì)象,狀態(tài)描述了環(huán)境的當(dāng)前情況,動(dòng)作是智能體可以采取的行為,獎(jiǎng)勵(lì)是對(duì)智能體行為的反饋。代表性算法有Q學(xué)習(xí)、Sarsa 等,這些算法在游戲AI、機(jī)器人控制、自動(dòng)駕駛等領(lǐng)域展現(xiàn)了強(qiáng)大的決策優(yōu)化能力。
深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)在人工智能領(lǐng)域中各自具有獨(dú)特的優(yōu)勢(shì)和特點(diǎn),同時(shí)二者之間也存在著緊密的聯(lián)系與顯著的差異。而深度強(qiáng)化學(xué)習(xí)(Deep Reinforce?ment Learning,DRL) 是一種結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的新型技術(shù),旨在使用深度神經(jīng)網(wǎng)絡(luò)來近似強(qiáng)化學(xué)習(xí)中的策略或價(jià)值函數(shù),從而解決復(fù)雜的決策問題。深度強(qiáng)化學(xué)習(xí)通過智能體與環(huán)境之間的互動(dòng)學(xué)習(xí),實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)的目標(biāo),并可以在不同的任務(wù)和環(huán)境中實(shí)現(xiàn)多任務(wù)學(xué)習(xí)的目標(biāo)[6]。如圖5所示為深度強(qiáng)化學(xué)習(xí)的工作原理圖,其內(nèi)部包含有四個(gè)部分。其一,每當(dāng)智能體與環(huán)境進(jìn)行交互時(shí),它會(huì)接收到高維的輸入數(shù)據(jù),這些數(shù)據(jù)包含了環(huán)境的當(dāng)前狀態(tài)信息。為了有效地處理這些數(shù)據(jù),智能體利用深度學(xué)習(xí)技術(shù)來降低輸入數(shù)據(jù)的維度,并自主學(xué)習(xí)數(shù)據(jù)的內(nèi)在特征,從而構(gòu)建出對(duì)環(huán)境狀態(tài)的準(zhǔn)確理解;其二,智能體會(huì)計(jì)算預(yù)期收益,并通過評(píng)估每個(gè)可能行為的價(jià)值函數(shù)來智能體在反映出采取特定行為后預(yù)期能夠獲得的累積獎(jiǎng)勵(lì)。其三,基于這些預(yù)期收益和當(dāng)前的環(huán)境狀態(tài),智能體會(huì)根據(jù)現(xiàn)有的策略來映射出最合適的動(dòng)作。一旦執(zhí)行了這個(gè)動(dòng)作,環(huán)境會(huì)對(duì)此做出反應(yīng),并呈現(xiàn)出新的可觀測(cè)狀態(tài),智能體則根據(jù)這個(gè)新狀態(tài)繼續(xù)與環(huán)境進(jìn)行交互。其四,不斷重復(fù)以上三個(gè)步驟,智能體會(huì)根據(jù)每次交互的結(jié)果來更新其策略,直到最終找到能夠最大化累積獎(jiǎng)勵(lì)的最優(yōu)策略。
1.4 基于深度強(qiáng)化學(xué)習(xí)的推薦算法模型
針對(duì)傳統(tǒng)的推薦系統(tǒng)下所面臨的數(shù)據(jù)稀疏性、冷啟動(dòng)應(yīng)對(duì)以及特征深度挖掘等問題,本研究將采用深度強(qiáng)化學(xué)習(xí)方法來進(jìn)行彌補(bǔ)和優(yōu)化,旨在為推薦系統(tǒng)領(lǐng)域帶來全新的解決方案。如圖6所示為基于深度強(qiáng)化學(xué)習(xí)的推薦算法模型框架,模型的核心構(gòu)成包括環(huán)境、狀態(tài)與智能體三大要素。環(huán)境作為智能體進(jìn)行交互與學(xué)習(xí)的場(chǎng)所,其內(nèi)部包含了用戶與目標(biāo)對(duì)象兩大關(guān)鍵組成部分。用戶,作為推薦系統(tǒng)的服務(wù)對(duì)象,其歷史行為、偏好及當(dāng)前需求等信息,構(gòu)成了推薦算法的重要輸入數(shù)據(jù)。而目標(biāo)對(duì)象,即推薦系統(tǒng)希望推薦給用戶的內(nèi)容或商品,其特征信息同樣對(duì)推薦算法具有至關(guān)重要的影響。智能體與環(huán)境之間的交互,即動(dòng)作與回復(fù),構(gòu)成了推薦算法學(xué)習(xí)的基礎(chǔ)框架。狀態(tài),作為智能體在環(huán)境中感知到的當(dāng)前信息,它融合了用戶特征與目標(biāo)對(duì)象特征,為智能體提供了決策的重要依據(jù)。智能體根據(jù)當(dāng)前狀態(tài),運(yùn)用深度神經(jīng)網(wǎng)絡(luò)(DQN) 進(jìn)行價(jià)值估計(jì),從而選擇出最優(yōu)的動(dòng)作,即推薦給用戶的內(nèi)容或商品。
此外,在智能體下的DQN算法能夠接收當(dāng)前狀態(tài)(即用戶特征和目標(biāo)對(duì)象特征的組合) 作為輸入,并輸出每個(gè)可能動(dòng)作的Q值(即執(zhí)行該動(dòng)作所能獲得的期望回報(bào)) 。這些Q值反映了在給定狀態(tài)下執(zhí)行不同動(dòng)作的優(yōu)劣程度,從而幫助智能體選擇最優(yōu)動(dòng)作。而經(jīng)驗(yàn)池是一種用于存儲(chǔ)智能體與環(huán)境交互歷史經(jīng)驗(yàn)的機(jī)制。在推薦系統(tǒng)中,每次智能體執(zhí)行一個(gè)動(dòng)作并觀察到用戶的反饋后,都會(huì)生成一個(gè)經(jīng)驗(yàn)樣本(包括當(dāng)前狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一狀態(tài)) 。這些經(jīng)驗(yàn)樣本會(huì)被存儲(chǔ)到經(jīng)驗(yàn)池中,以便后續(xù)進(jìn)行學(xué)習(xí)和優(yōu)化。
在具體的模型設(shè)計(jì)過中,主要涉及回報(bào)函數(shù)與探索策略兩個(gè)要素,兩者共同決定了智能體的學(xué)習(xí)目標(biāo)和行為方式。回報(bào)函數(shù)通常用于量化推薦策略的好壞,即評(píng)估智能體所做出的推薦是否滿足用戶的需求和期望[7]。一個(gè)合理的回報(bào)函數(shù)應(yīng)該能夠準(zhǔn)確反映用戶對(duì)推薦內(nèi)容的滿意度,也可以讓智能體不斷學(xué)習(xí)和優(yōu)化其推薦策略,以最大化累積的回報(bào)值。在本研究中,因選擇DQN作為智能體的主體算法,所以回報(bào)函數(shù)也將按照Bellman方程進(jìn)行描述:
綜上,通過設(shè)計(jì)的回報(bào)函數(shù),基于深度強(qiáng)化學(xué)習(xí)的推薦算法模型可以利用有限的用戶交互數(shù)據(jù),學(xué)習(xí)并優(yōu)化推薦策略。
2 實(shí)例測(cè)試
為了驗(yàn)證本文提出的基于深度強(qiáng)化學(xué)習(xí)的推薦算法模型的實(shí)際應(yīng)用效果,我們將對(duì)某電商平臺(tái)的用戶歷史行為數(shù)據(jù)進(jìn)行分析預(yù)測(cè),并通過設(shè)定相應(yīng)的評(píng)估指標(biāo)來全面地驗(yàn)證推薦模型的實(shí)效性,并據(jù)此進(jìn)行必要的調(diào)整和優(yōu)化。
2.1 數(shù)據(jù)集與預(yù)處理
本次測(cè)試所選數(shù)據(jù)集為某電商平臺(tái)移動(dòng)App下歷史用戶行為數(shù)據(jù)。數(shù)據(jù)集的時(shí)間跨度為3個(gè)月,內(nèi)部分為用戶屬性組、用戶行為組、商品種類組以及商品屬性組四部分。如表1、表2所示為各用戶屬性組和商品屬性組的主要字段信息。
在獲取原始數(shù)據(jù)后,將進(jìn)一步執(zhí)行預(yù)處理操作,即對(duì)需要識(shí)別和處理數(shù)據(jù)中的缺失值、異常值和重復(fù)記錄。對(duì)于缺失值,可以采用填充、插值或刪除含有缺失值的記錄等方法;對(duì)于異常值,則可能需要根據(jù)業(yè)務(wù)邏輯進(jìn)行修正或剔除。經(jīng)過預(yù)處理后,目前可用數(shù)據(jù)如表3所示。
2.2 模型訓(xùn)練與評(píng)估
根據(jù)上述基于深度強(qiáng)化學(xué)習(xí)的推薦算法模型的構(gòu)建方案,DQN的深度學(xué)習(xí)能力使模型能從稀疏數(shù)據(jù)中挖掘潛在的用戶偏好,有效緩解數(shù)據(jù)稀疏問題。對(duì)于冷啟動(dòng)問題,基于深度強(qiáng)化學(xué)習(xí)的推薦算法模型將采用積極的探索策略,在初期階段嘗試新的推薦組合,快速積累用戶反饋,構(gòu)建初始推薦模型,以確保在冷啟動(dòng)階段也能提供合理的推薦[9]。此外,DQN的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使模型能夠自動(dòng)學(xué)習(xí)用戶和推薦內(nèi)容的深層次特征,實(shí)現(xiàn)更精細(xì)化的用戶畫像和內(nèi)容理解,突破了特征深度挖掘問題的限制,提升了推薦的準(zhǔn)確性和個(gè)性化水平。
在推薦算法模型的訓(xùn)練過程中,為了確定DQN算法的最佳參數(shù),我們將采用Grid Search 方法。Grid Search方法是一種通過窮舉給定參數(shù)值組合來找到最優(yōu)參數(shù)配置的方法。具體過程如下:首先,我們需要為模型中的每個(gè)參數(shù)確定一個(gè)合理的取值范圍。這些參數(shù)包括隱藏層節(jié)點(diǎn)數(shù)、激活函數(shù)、學(xué)習(xí)率、折扣因子、回報(bào)函數(shù)中的獎(jiǎng)勵(lì)值、探索策略中的ε 值及其衰減率和最小值,以及模型更新時(shí)間等。然后,我們將這些參數(shù)的取值范圍組合成一個(gè)參數(shù)網(wǎng)格,每個(gè)網(wǎng)格點(diǎn)代表一種參數(shù)配置。對(duì)于參數(shù)網(wǎng)格中的每個(gè)點(diǎn),我們都將訓(xùn)練一個(gè)DQN模型,并使用某種性能指標(biāo)(如準(zhǔn)確率、召回率或F1分?jǐn)?shù)等) 來評(píng)估其性能。最后,我們選擇性能最佳的模型對(duì)應(yīng)的參數(shù)配置作為最優(yōu)參數(shù),具體參數(shù)設(shè)置信息如表4所示[10]。
訓(xùn)練結(jié)果如表5 所示,并采用準(zhǔn)確率、召回率、mAP等指標(biāo)來評(píng)估推薦算法模型的整體性能。結(jié)果表明,該基于深度強(qiáng)化學(xué)習(xí)的推薦算法模型在準(zhǔn)確率、召回率和mAP方面均表現(xiàn)出色,顯示出較高的分類性能和目標(biāo)檢測(cè)能力。
2.3 對(duì)比分析
為了充分驗(yàn)證基于深度強(qiáng)化學(xué)習(xí)的推薦算法模型的實(shí)用性能,本研究還將構(gòu)建一組對(duì)比實(shí)驗(yàn),即采用測(cè)試集分別在決策樹(DT) 、Wide amp; Deep、基于內(nèi)容推薦算法、協(xié)同過濾推薦算法以及本文推薦算法模型下進(jìn)行同步測(cè)試,并使用準(zhǔn)確率、召回率、mAP值作為統(tǒng)一的評(píng)估指標(biāo)。如表6所示為對(duì)照組算法詳細(xì)說明,表7為對(duì)比試驗(yàn)結(jié)果。
結(jié)果表明:基于深度強(qiáng)化學(xué)習(xí)的推薦算法模型在準(zhǔn)確率、召回率和平均精度均值這三個(gè)關(guān)鍵指標(biāo)上都表現(xiàn)出了優(yōu)異的性能。這表明該模型在訓(xùn)練過程中有效地學(xué)習(xí)了用戶的偏好和行為模式,能夠?yàn)橛脩籼峁└鼫?zhǔn)確、更相關(guān)的推薦。
3 結(jié)束語
本文針對(duì)傳統(tǒng)推薦系統(tǒng)存在的不足,提出了一種基于深度強(qiáng)化學(xué)習(xí)的推薦算法。實(shí)驗(yàn)結(jié)果表明,該算法在電商平臺(tái)用戶數(shù)據(jù)上的推薦任務(wù)中性能優(yōu)異,顯著優(yōu)于傳統(tǒng)算法。未來研究將進(jìn)一步優(yōu)化模型結(jié)構(gòu),提高計(jì)算效率,并探索更多應(yīng)用場(chǎng)景。