基于Pairwise策略優化的雙塔召回算法模型研究

2023-08-10 02:08:53于慶洋

中國新通信 2023年11期

摘要：在推薦或廣告系統中，召回階段扮演著快速從大量的候選集中挑選出較為合適的物品Item集合，作為下一階段精排的準入，從而起到在較為貼合用戶興趣的基礎上，緩解精排的計算壓力的作用，故召回階段面臨的候選集數量通常非常大，一般在幾百萬至上億規模。此時，在訓練召回模型時，采樣便成了很重要的問題，尤其是負采樣，一般情況下，訓練召回模型時，會做隨機負采樣，由于召回模型負樣本的不置信問題，采到的負樣本有可能并不是真負樣本，導致影響了模型的訓練效果。針對此問題，本文提出了一個基于雙塔模型的Pairwise訓練策略，利用度量學習的思想規避召回模型負采樣過程中負樣本不置信的問題，不直接針對負樣本判別真假，而是學習樣本對之間的差距，提升模型學習精度與效率。

關鍵詞：推薦系統；召回；雙塔模型；負樣本；Pairwise

一、背景介紹

推薦系統的技術階段一般包括召回、排序和重排序。其中，召回模型是推薦系統的核心技術之一。推薦系統可以被看作一個用于人與物的匹配系統。其最終目的是通過實現千人千面，將最符合用戶興趣的物品展示給用戶，并按照用戶偏好對每個物品進行匹配分值排序。為了實現這一目的，可以將推薦系統抽象為如下的框架：用戶請求推薦引擎時，使用一個排序算法將所有的物品與該用戶計算出一個匹配分值，然后按照該分值從高到低在頁面上展示物品。然而，推薦系統所面臨的候選集通常規模非常大，從幾百萬至億級別不等，如果對每個物品都進行計算，系統的性能無法滿足線上要求。因此引入召回模型，快速從海量候選集中挑選出適量與用戶興趣較為匹配的物品集，然后將其送入排序算法進行更加精確的匹配計算。

當下，拋開規則策略型的召回技術，業界共識的召回技術到目前為止已發展了兩代。

第一代：啟發式規則召回技術，例如ItemCF 召回技術，召回與用戶歷史行為過的物品相似Item。

該召回技術優點為實現簡單，性能也較為高效。

兩階段實現：

①從用戶的歷史行為（點擊、收藏、點贊等）中獲取觸發Item。

②在候選物品集中檢索與觸發物品最近鄰的Item。物品之間的相似度列表可以離線預先計算好存入類Key-Value數據庫，線上直接獲取結果。

此類召回方法有以下缺點：

①模型較為簡單，精度有限。

②每次觸發均為用戶歷史行為過的物品，易造成馬太效應，模型泛化能力不足。

第一階段和第二階段之間有明顯差距，不是聯合訓練，影響最終效果。

第二代：針對第一代召回技術的不足，發展出了第二代召回模型范式：

基于 Embedding 的向量化檢索模型。分別將用戶和物品用Embedding向量進行表征，用向量之間余弦距離的大小表示用戶與物品的匹配程度，配合快速向量化最近鄰檢索ANN方法，既做到了泛化能力強，又兼顧了召回模型的高性能需求。

二、雙塔模型框架

上述提到的基于Embedding 的向量化檢索模型，目前業界主流實現為雙塔模型，結構如圖1。

可以看出，雙塔模型其實是一套框架，左側塔和右側塔可以分別使用不同的神經網絡結構進行處理，只要在最頂端的兩塔的輸出層交互時，向量保持維度一致即可。

訓練階段：分別將用戶側和物品側原始特征經過特征處理、離散化等操作后，對特征進行Embedding化，拼接Embedding特征向量后分別經過幾層全連接神經網絡（激活函數可以是ReLu、SeLu等），對輸入的特征信息進行編碼表征。最終左右兩個塔分別輸出用戶Embedding向量U_Vector與物品Embedding向量I_Vector，并將二者拼接后送入單層全連接神經網絡，輸出層的激活函數使用Sigmoid方便進行概率輸出Y_Prob，最后用輸出的Y_Prob與真實的Label（該用戶對該物品是否真的有行為）做交叉熵形成損失函數，再利用反向傳播算法更新雙塔模型的網絡參數，直到模型收斂。

推理階段：第一階段的訓練完畢后，左右兩個塔的參數均已經固化下來。推理時，當收到用戶請求時，根據用戶畫像的存儲，可實時獲取到該用戶的原始特征，將特征喂入左側已經訓練好的塔，就可在塔的頂端獲取到該用戶最終的輸出向量U_Vector。物品向量的獲取和用戶側不太一樣：由于物品側的特征一般均為靜態屬性，故不需要線上實時獲取物品Item的輸出Embedding向量，只需要在每次雙塔模型訓練完畢后，將所有候選集中的物品特征全部取出，拼接后喂入右側的物品塔，再經過幾層全連接神經網絡，頂端輸出物品向量I_Vector，然后將批量獲取到的物品向量存入Faiss等快速向量化最近鄰ANN檢索數據庫工具中，當線上實時獲取到用戶向量U_Vector時，查找Faiss等檢索數據庫，快速找到與該用戶向量U_Vector最近鄰的TopK個物品向量，達到召回目的，生成精排候選集。

三、召回模型樣本偏差問題

在機器/深度學習模型領域中，有一個重要原則：訓練與推理樣本分布要保持一致，否則會影響模型效果。理解下這個問題，若訓練模型的樣本集分布為A、B、C這三類，但當模型訓練完成，在使用模型進行推理時，線上均為D、E兩大類待預測樣本，顯然，模型在訓練時從未見過這兩類樣本，線上的推理效果可想而知。

這個問題存在于雙塔召回模型中。分析一下，通常情況下，召回模型的采樣方法和精排模型相同，正樣本為用戶行為點擊過的樣本，負樣本為曝光未點擊樣本。這種采樣方式在精排模型中沒有問題，但是在召回模型中有較大的問題，原因如下：由于召回模型在訓練時，選取的負樣本均為“曝光未點擊”樣本，而模型在線上進行召回推理時，面對的是海量的候選物品集合，很多物品Item從未給用戶展示，因此明顯會產生上述的樣本偏差問題，從而極大地影響召回模型效果。

四、雙塔模型隨機負采樣

采用隨機負采樣的方式來解決召回模型的樣本偏差問題是一種有效的解決方法。隨機負采樣的方式可以使得負采樣的分布更加均勻，從而減輕樣本偏差的問題。但這種方式也帶來了一個新的問題，即負樣本的置信問題。由于隨機負采樣的方式會導致大量不相關的物品出現在負樣本中，這些負樣本對模型訓練的效果會產生負面影響，從而導致模型的效果下降。因此，在使用隨機負采樣的方式時，需要采取一些策略，如降低隨機負采樣的采樣率、對負樣本進行過濾、引入其他的策略等，從而保證采樣的負樣本的質量。經過仔細分析，上述提出的隨機負采樣方法雖然規避了樣本偏差問題，但是存在另外一個問題：由于負樣本一部分是來自全物品庫的隨機采樣，這其中包含了很多從未給用戶曝光展示過的物品。然而，按照這種采樣方式，會將很多這類從未給用戶曝光過的物品Item當成負樣本來引導模型參數的訓練。很明顯，若某一物品從未展示給某用戶，就無法判斷用戶對該物品的喜好，也就無法下定論說此物品Item對該用戶來說是負樣本。因此，按照全物品庫隨機負采樣的方式，將會導致訓練時很多喂入雙塔召回模型的負樣本其實是存在置信度缺陷的。為了解決此問題，本文提出核心觀點：基于度量學習的Pairwise訓練策略，以優化雙塔召回模型。本方法針對上述負樣本不置信問題，結合度量學習與Pairwise訓練方法，以用戶為衡量標準，學習樣本之間與用戶的匹配程度差距，而非直接用單一的正負樣本進行學習。這樣，既達到將雙塔模型參數學習到最佳收斂狀態，又能規避由負樣本不置信導致的對模型參數學習造成的負面影響。

五、度量學習與Pairwise訓練

（一）度量學習

度量學習也就是常說的相似度學習。距離測度學習的目的即為了衡量樣本之間的相近程度，而這也正是模式識別的核心問題之一。大量的機器學習方法，比如K近鄰、支持向量機、徑向基函數網絡等分類方法以及K-Means聚類方法，還有一些基于圖的方法，其性能好壞都主要有樣本之間的相似度量方法的選擇決定。

（二）Pairwise方法

基于雙塔的Pairwise訓練模型結構如圖2。所謂的Pair，指的是樣本對，在這里，一個Pair樣本對為：這里的Item+指的是用戶點擊過的Item，Item－指的是用戶未點擊過的Item，從而將模型的優化目標轉化為：針對同一個User，Item+與他的匹配程度，要遠遠高于Item?與他的匹配程度。所以Loss中沒有具體的正負Label，而存在“的匹配分”與“的匹配分”相互比較的形式。

六、基于Pairwise度量學習的雙塔召回模型實現

（一）基于Sampled Softmax Loss實現

為了實現基于上述的雙塔模型Pairwise訓練方式，有幾種Loss可供選擇。

一種是采樣的Softmax Loss，即：Sampled Softmax Loss。

這種Loss將召回看成一個超大規模的多分類問題，優化的目標是使，User選中Item+的概率最高。

User選中Item+的概率：

（1）

其中vu是User Embedding，vi代表Item Embedding，|I|代表整個Item候選集。

為使以上概率達到最大，要求分子，即User與Item+的匹配度，盡可能大；而分母，即User與除Item+之外的所有Item的匹配度之和，盡可能小。體現出上文所說的“不與Label比較，而是匹配得分相互比較”的特點。

但是，由于計算分配牽扯到整個候選Item集合|I|，計算量大到不現實。所以實際優化的是Sampled Softmax Loss，即從|I|中隨機采樣若干Item，近似代替計算完整的分母。

（2）

（二）基于Hinge Loss實現

優化目標是：User與正樣本Item的匹配程度，要比User與負樣本Item的匹配程度高出一定的閾值。

（0，margin-user·item++user·item-）? ? ? （3）

（三）基于BPR Loss實現

上文中提到的 Hinge loss有兩個不足：

①超參數Margin需要調節，且不同業務和數據場景，超參數Margin的選擇對模型的學習有非常大的影響，導致訓練不穩定。

②仔細觀察Hinge Loss不拿發現，若使用Hinge Loss，一旦兩個樣本之間匹配程度很相近，Loss便無法捕捉到。

因此本文主要使用如下的BPR Loss實現。

其思想是計算“給User召回時，將Item+排在Item-前面的概率”。

pCorrectOrder=sigmoid（user·item--user·item+）? ? ? ? （4）

因為的Ground-Truth Label永遠是1，所以將pCorrectOrder喂入二分類交叉熵損失（Binary Cross-Entropy Loss）的公式，就有：

LBPR=-log（pCorrectOrder）=log（1+exp（user·item--user·item+））? ? （5）

七、實驗結論

使用同一線上數據做A/B實驗，分別采用原始的雙塔召回模型與引入度量學習Pairwise的雙塔召回模型，評價指標采用離線準確率、線上點擊率、單路召回占比。對比結果如表1所示。結果表明：①引入度量學習Pairwise的雙塔召回模型，無論是離線準確率、線上點擊率均有較大幅度提升，充分說明了引入Pairwise度量學習后，對模型的訓練效果有較大的正面影響。②引入Pairwise度量學習策略方法后，該模型的單路召回占比相較于隨機負采樣而言，也有較大幅度提升，表明該方法對模型的泛化性也有較大幅度的提升，有效地緩解了召回的馬太效應問題。

八、結束語

本文采用將Pairwise與度量學習同時引入雙塔召回模型，以解決隨機負采樣造成的負樣本不置信度高和模型泛化能力差的問題。通過真實的線上A/B實驗驗證了該方法的有效性和可行性，對智能推薦召回系統的研究具有重要意義。

作者單位：于慶洋伊利集團

參? 考? 文? 獻

[1] Jui-Ting Huang. Embedding-based Retrieval in Facebook Search， KDD 2020，Facebook.

中國新通信2023年11期

中國新通信的其它文章: 信息技術背景下學前教育專業課程融合發展與實踐研究; “互聯網+”背景下地方高校美育的實踐探索; 小學德育信息化教學探究; 物聯網視角下職業院校財經類課程思政資源的開發路徑分析; 智能財務背景下中職會計專業實訓教學研究; 信息化時代背景下基于“1+X證書”制度的中職旅游管理立體化教材分析