基于遷移學習的推薦系統設計與研究

2023-12-31 00:00:00莫杰智

電腦迷 2023年14期

【摘 "要】推薦系統旨在挖掘用戶歷史興趣偏好訓練模型，再用模型為用戶提供個性化推薦。模型的好壞主要取決于模型的記憶及泛化能力。要想充分挖掘用戶興趣偏好，常見的做法包括通過特征遷移學習挖掘用戶在多個場景下的興趣。如果目標場景樣本量不足，模型容易陷入過擬合。實驗表明可以通過樣本遷移學習、基于對抗式的遷移學習及基于多任務聯合訓練遷移學習等方法解決此問題。其他包括但不限制于用戶物品冷啟動問題，推薦系統的重排策略等，均可對遷移學習方法進行優化?？偠灾?，遷移學習與推薦系統存在密不可分的關系。

【關鍵詞】推薦系統；遷移學習；特征挖掘；個性化推薦；多任務模型

遷移學習研究的是如何利用已有知識來解決新的問題，廣泛用于物品識別、風格轉化、推薦系統等領域［1］。本文主要研究遷移學習在推薦系統的應用，通過一個比較典型的案例，分析案例中源場景及目標場景的差異，結合目標場景的線上業務目標，分別介紹使用何種遷移學習方案提升目標場景業務指標以及為何使用該方案；使用改方案存在什么問題，以及如何對當前方案進行修改升級，從而保留當前方案的優點、摒棄缺點；使用不同遷移學習方案下實驗的離線及在線效果評估；對比不同解決方案效果進行分析，最終凝練知識，形成方法論。

一、背景

目標場景為新上線的短視頻推薦場景（下文稱為目標場景）。目標為優化短視頻場景下雙塔召回模型［2］。由于該場景新上線，沒有累計足夠多的場景內用戶行為信息，導致模型預估精度偏低?？紤]信息流圖文場景（下文稱為源場景）運營足夠成熟，源場景下用戶行為豐富。待優化的目標用戶（目標場景下用戶）與源場景下用戶交集占96%，且這部分用戶在源場景下人均使用時長大于5分鐘，加上源場景與目標場景同屬于內容消費相關場景，具備極大的遷移價值。因此可通過遷移學習的方式，充分利用用戶源場景下知識，彌補由于目標場景下用戶行為不足無法充分表征用戶內容興趣的問題。充分利用源場景下樣本量豐富的特性，選擇合適的遷移學習方法提升目標場景模型預估能力。

二、相關工作

（一）基于特征的遷移學習

考慮用戶在目標場景下行為不足，統計用戶在目標場景對不同Tag類目視頻的偏好也不全面。源場景與目標場景同屬于內容消費相關場景。對源場景及目標場景下Item選擇相同Tag分類規則，采樣統計用戶在源場景及目標場景下Tag偏好，發現盡管源場景和目標場景內容呈現形態不同（圖文內容、視頻內容），但單個用戶對內容Tag興趣存在很大的關聯性及一致性。因此希望挖掘統計用戶在源場景下對不同內容Tag類目偏好構造特征，然后把這部分特征作為用戶特征加入目標場景模型中來。具體流程：先使用目標場景內容理解模型對源場景下Item劃分所屬Tag類目及相關性，譬如item1：才藝0.4；教育0.4；舞蹈0.2，item2：美食0.7；母嬰親子0.3。統計每個用戶近30天在源場景下對內容Item的有效消費（閱讀時長超過指定閾值或瀏覽長度超過整篇圖文內容占比超過指定閾值）。再對這些Item按其Tag類目及權重占比加權，得到用戶在源場景下Tag偏好及打分。最后對其按打分進行降序排序，選擇出用戶最感興趣的N個Tag類目作為特征。同理使用與目標場景內容理解模型對源場景下Item抽取關鍵詞，再根據用戶近30天在源場景下對內容Item有效消費統計用戶感興趣的TopM個關鍵詞作為特征。最后把這些特征作為用戶實時動態畫像特征加入目標場景模型中參與訓練及線上預估。

訓練樣本與基線訓練樣本一致，只是用戶側特征增加用戶在源場景下的興趣特征。

（二）基于多任務模型聯合訓練遷移學習

由于目標場景下目標模型整體為DNN結構。模型的底層輸入特征會先通過hash再隨機構造低緯稠密向量Embedding［3］。分析目標場景下總樣本量偏少，導致模型對底層輸入特征Embedding訓練不充分。即使直接在模型中加入用戶在源場景下的興趣特征，也會因為樣本量不足影響特征表現。而源場景下樣本量大，希望聯合源場景下樣本一起訓練模型。利用多任務模型的參數共享特性［4］，模型通過梯度下降共同優化底層輸入特征Embedding。源場景樣本除了可以實現優化新引入的用戶源場景興趣特征，亦可同時訓練用戶在短視頻場景下獨有特征（Session播放列表特征等）以及其他用戶靜態畫像特征（UserId、性別、年齡等），從而間接遷移學習源場景知識提升模型的表達能力。

模型采用多任務雙塔召回模型，結構如圖1所示。由于目標場景下Item與源場景下Item不同，所以分別構建Item tower子網絡。Item tower輸入特征為對應Item物料畫像特征（ItemId、Tag、OCR、上線日期等）以及Item動態畫像特征（統計類特征）。Item tower分別輸出一個64維的Item Embedding。User Tower輸入特征為用戶靜態畫像特征、用戶目標場景動態畫像特征（Session播放列表、統計類特征等）以及用戶源場景動態畫像特征（感興趣Tag類目、感興趣Key word特征等）。User tower輸出一個64維的User Embedding。兩個待優化任務模型共享User Embedding及User tower子網絡。logit=cosine（User Embedding，Item Embedding）。最后使用交叉熵損失函數計算loss。

目標場景訓練樣本選?。耗繕藞鼍罢龢颖具x取用戶在目標場景下有效播放樣本，采用正負樣本比為1：20的對全局Item隨機采樣進而構建負樣本。

源場景訓練樣本選?。哼x取近120天在目標場景有消費行為的用戶在源場景下有效閱讀樣本作為正樣本，采用正負樣本比為1：20的對全局Item隨機采樣進而構建負樣本。

訓練流程：訓練流程方案可以分成兩種：把所有樣本隨機打散進行模型訓練（MODEL2-1）。也可以先全部訓練源場景樣本再訓練目標場景樣本（MODEL2-2）。最終評估樣本為目標場景樣本，因此猜測第二種訓練流程方案在離線及在線表現會優于第一種。

（三）基于特征Embedding提取的遷移學習

基于多任務模型聯合訓練遷移學習中共用User Tower及User Embedding，充分利用源場景樣本對底層輸入特征Embedding訓練的同時，也導致User Tower及User Embedding需要平衡擬合不同任務下不同空間域的Item Embedding。這會導致模型的User Tower及User Embedding無法專注于擬合短視頻場景任務下的Item Embedding?？紤]到目標僅為優化目標場景下召回模型，而不需要優化源場景下的召回模型。這種情況會給最終目標帶來負向效果?？梢栽O置這兩項任務目標的權重，通過模型訓練時降低源場景任務權重，從而令User Tower及User Embedding更加傾向于貼合目標場景Item Embedding。但是這樣做也會影響引入源場景樣本優化訓練User Tower底層輸入特征Embedding的效果。

可以把多任務模型拆解成兩個獨立模型。源場景模型用于訓練學習User tower輸入特征Embedding。再把充分訓練過的User tower輸入特征Embedding合并到目標場景模型的User tower的輸入層作為遷移知識的輸入。最后再用近7天目標場景樣本對遷移模型（最終目標場景模型）進行Fine tune。既保留源場景樣本訓練學習輸入特征Embedding的優點，又規避了由于User Tower及User Embedding直接共享所帶來的缺陷。各模型結構及遷移合并訓練的訓練流程如圖2所示。

（四）模型上線及線上serving

天級別訓練源場景樣本雙塔模型，天級別更新合并遷移模型，使用近7天目標場景樣本對遷移模型進行Fine tune。每隔一個小時使用最近一小時目標場景樣本對當前模型進行增量模型訓練得到實時模型。使用最新版本模型對Item做離線預估出Item Embedding推送更新到Faiss索引文件。模型Serving對線上用戶實時預估User Embedding。Faiss服務根據User Embedding檢索TopN ItemId返回作為本次模型召回內容。

三、實驗及效果評估

（一）模型離線訓練集與測試集

模型離線訓練集采用相同周期內源場景及目標場景120天樣本。離線評估測試集為目標場景第121～127天樣本。

（二）模型離線及線上效果評估

模型離線評估指標為AUC。模型線上實驗流量按UserId進行隨機劃分。在線評估指標統計相同上線周期內一周線上效果。評估指標有Video View占比、人均播放時長以及次日留存率，且均采用基線BASE提升百分百統計。

（三）對照組及實驗組模型設計

1. BASE是不做任何遷移學習的基線模型。2. MODEL1是章節（二）介紹的在基線模型基礎上加上用戶源場景興趣特征模型。3. MODEL2-1是章節（二）介紹的訓練流程采取所有樣本隨機打散訓練的模型（含用戶源場景興趣特征）。4. MODEL2-2是章節（二）介紹的訓練流程采取先訓練源場景樣本再訓練目標場景樣本的模型（含用戶源場景興趣特征）。5. MODEL3是章節（三）介紹的遷移學習模型（含用戶源場景興趣特征）。

（四）不同模型離線及線上效果比較

表1展示了在選擇不同遷移學習模型的情況下離線及在線的效果。

（五）結果

1. 對比MODEL1與BASE，挖掘遷移用戶源場景興趣特征確實能提升模型預估準確性。2. 對比MODEL2-1與MODEL1，疊加對源場景樣本的遷移學習，模型可以在不添加額外特征的情況下取得較大的提升。3. 對比MODEL2-1與MODEL2-2，離線及在線效果差異不大。可能是因為模型都是按天級別進行迭代訓練，且樣本回溯訓練周期為120天，不同訓練流程下真正影響的只有最近一天數據，對模型影響不大。4. 對比MODEL2-2與MODEL3，獨立出源模型用于訓練學習User tower輸入特征Embedding，確實能給模型預估帶來更大的提升。

四、結論和展望

研究結合了源場景和目標場景均同屬于內容消費相關場景的特性，可以使用基于特征的遷移學習模型。利用目標場景模型（雙塔召回模型）具備DNN模型對輸入特征Embedding學習的特點及User Tower和Item Tower分離的特性，可使用基于特征Embedding提取的遷移學習以及基于多任務模型聯合訓練的遷移學習。當然遷移學習不僅僅局限于以上方法，目前我們也在嘗試使用基于樣本權重的遷移學習、基于異構的遷移學習以及基于對抗式的遷移學習。

參考文獻：

［1］王晉東，陳益強. 遷移學習導論［M］. 北京：電子工業出版社，2021：135-145.

［2］ Yi X，Yang J，Hong L，et al. Sampling-bias-corrected neural modeling for large corpus item recommendations［C］. Proceedings of the 13th ACM Conference on Recommender Systems，2019：269-277.

［3］王喆. 深度學習推薦系統［M］. 北京：電子工業出版社，2020：103.

［4］ Ma J，Zhao Z， Yi X，et al. Modeling task relationships in Multi-task learning with Multi-gate Mixture-of-Experts［C］. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery amp; Data Mining，2018：1930-1939.

電腦迷2023年14期

電腦迷的其它文章: “雙減”背景下小學勞動教育實施策略與實踐探索; 淺談RPA財務機器人教學中存在的問題及建議; 3D打印技術在電影服化道中的應用研究; “雙碳”戰略下數字化技術推進智慧城市管理的研究; 基于四元協同發展的智能制造產業學院建設研究; 大數據時代循環經濟視角下雄安新區發展戰略研究