



摘要:隨著互聯網電商產業的發展,汽車產品推薦系統已經成為汽車廠商重要的銷售與推廣工具之一。而推薦系統中的流行度偏差問題,影響了汽車推薦系統對用戶興趣的挖掘,從而影響推薦質量。據此,利用因果干預方法來處理汽車產品推薦系統中的流行度偏差問題,將產品流行度作為混淆因子進行干預處理,從而解決流行度偏差,提高推薦的準確性,為汽車推薦系統未來的發展提供新思路。
關鍵詞:汽車;推薦系統;因果干預
中圖分類號:U462.1 收稿日期:2024-07-15
DOI:10.19999/j.cnki.1004-0226.2024.10.022
1 前言
隨著互聯網的迅速發展,汽車制造商和配套產品公司認識到傳統的服務已經不能滿足用戶的需求,需要挖掘用戶的特點,提供更加個性化的推薦方式和內容,這些工作需要推薦系統來完成[1]。推薦系統在各行各業中都發揮著重要的作用,無論是短視頻或者電商都在研究如何提高推薦系統的推薦質量,而汽車行業的推薦系統也發揮著重要作用。推薦系統經常面對流行度偏差問題,從數據角度看,流行度偏差導致汽車商品的交互展現出長尾分布的特點;從方法的角度看,這種偏差會造成系統推薦更熱門的項目商品,而這些熱門汽車產品不一定符合用戶的興趣,從而降低了推薦系統的準確性和用戶的滿意度。
本文研究如何解決推薦系統中的流行度偏差問題,解決思路是用因果干預方法去解決流行度偏差,挖掘到更準確的用戶興趣,并在新模型下進行個性化推薦,最終達到提高推薦系統準確性的目的。
2 個性化推薦系統
推薦系統是一種引用算法和數據分析的技術,致力于向用戶提供個性化的建議和推薦內容[2]。推薦系統根據算法的不同而有不同的實現原理,每種推薦系統采用不同的工作原理來滿足用戶需求。目前主要的算法和系統有協同過濾、基于內容的推薦、混合推薦,以及基于流行度的推薦系統。協同過濾算法通過用戶行為和偏好之間的關系來生成推薦,而基于內容的推薦則側重于物品的特征和用戶的偏好[3]。混合推薦則運用了多種算法的優越性,旨在進行更合理的個性化推薦。
這些算法在不同領域都具有各自的優點和缺點,在選擇時需要根據具體情況和場景進行綜合考慮。了解如何評估推薦系統的性能也非常重要,評估常用指標有精確度、召回率、F1分數等,這些指標可以幫助評估推薦系統的性能。使用A/B測試等技術來實驗和比較不同推薦算法也是評估推薦系統的重要手段,但是需要在真實推薦系統中做實驗,效果雖然更接近真實,但會影響用戶的體驗,所以本文利用因果干預方法來實現該實驗,在歷史數據上即可完成對流行度偏差的處理。
本文的汽車產品推薦系統中采用較流行的基于用戶協同過濾的推薦系統來實現。基于用戶的協同過濾(User-based Collaborative Filtering)是推薦系統中常用的一種方法,其主要思想是通過分析用戶之間的相似性來進行商品、服務或內容的推薦,如圖1所示。
在圖1中,如果兩位車主的愛好相似,左邊的車主喜歡汽車產品A、C、D,而右邊的車主喜歡汽車產品A、C、D和H,那么基于用戶的協同過濾算法就會將汽車產品H推薦給左邊的車主。
3 流行度偏差對汽車產品推薦系統的影響
流行度偏差是因為汽車產品的流行度不同,影響了系統對用戶興趣的挖掘,從而降低了系統的推薦質量。為了理解汽車產品流行度偏差如何影響推薦過程,首先采用因果圖來進行定性分析,圖2表示傳統的汽車推薦系統中用戶愛好和汽車產品的匹配模式,依據此模式預測交互或購買的頻率。這里的用戶愛好和汽車產品是原因,而預測用戶是否與新的汽車產品交互或者購買的概率是結果。
圖2中的產品流行度可以通過如下公式計算:
[mti]=[Dti]∕[j∈IDti] (1)
其中,m為汽車產品i在t時刻的流行度;D為產品i在t時刻與用戶的交互次數。
計算產品流行度的思想為:某個產品的流行度為該產品在數據集上的交互次數與所有產品在數據集上交互次數和的比值[4]。
下文將分析產品的流行度偏差是如何影響推薦結果的。在因果圖(圖2)中,產品流行度有兩條路徑分別指向產品和交互概率。第一條路徑即產品流行度到交互概率,意味著受歡迎的汽車產品會直接影響用戶的交互購買概率,因為許多用戶具有從眾心理,因此傾向于跟隨大多數人消費流行商品。第二條路徑即產品流行度到汽車產品,這條路徑意味著產品流行度會影響該產品是否會出現在用戶的推薦頁面上,因為推薦系統會繼承數據偏見,更頻繁地展示給用戶熱度高的汽車產品。
因此這里的產品流行度有兩條路徑影響了系統的預測,這就放大了流行度對推薦結果的作用,在因果推理中被稱為混淆因子。作為混淆因子的產品流行度導致一些熱門的產品即使不符合用興趣也可能被推薦給用戶,從而降低了推薦系統的準確性和用戶滿意度。
4 因果干預處理流行度偏差
為了消除產品流行度偏差帶來的不良影響,需要干預汽車產品不受產品流行度的影響,更好地完成與用戶的匹配。根據因果干預原理,可以利用do算子來實現這種干預。為了便于公式推理,用I代表汽車產品,U代表用戶興趣,Z代表汽車產品流行度,C代表預測的交互或購買概率。
傳統的推薦系統C的預測概率為[P(C|U,I)],其中包括混淆因子Z產生的不良影響,造成了產品流行度二次影響推薦結果,所以根據因果推理中的do算子,可以用[P(C|do(U,I))]來代替[P(C|U,I)]來計算交互概率[5],[P(C|do(U,I))]中do算子的意義就是對C的概率預測只考慮U和I的匹配,將其混淆因子Z剪枝掉,即保證產品流行度只有一條路徑影響推薦結果,如圖3所示。
圖3中,移除了產品流行度對汽車產品的影響,同時使用傳統推薦系統中的歷史數據來計算[P(C|do(U,I))]。為了便于公式推導,將圖2的因果圖數據空間定義為G,而將干預的因果圖(圖3)的空間為[G'],那么利用do算子在兩個空間上的計算得到:
[P(C|do(U,I))(1)PG' (C|U,I)]
[(2)zPG' C|U,I,zPG'(z|U,I)]
[(3)zPG' C|U,I,zPG'(z)]
[4zP(C|U,I,z)P(z)] (2)
這里,[PG'(·)]為在[G']上的概率函數,這一步是利用后門準則,因為I<-Z->C,這里被[do(U,I)]阻斷Z到I的路徑所得。式(2)中的各步驟說明如下:a.步驟(1)是根據貝葉斯公式所得;b.步驟(2)因為在[G']上,已經阻斷了Z到I,所以U和I已經和Z獨立;c.步驟(3)中[P](C|[U],[I],z)=[PG'C|U,I,z]是因為阻斷Z到I后,兩個空間中{U,I,C}到C的關系是一樣的,[P](Z)=[PG'](Z),因為Z在兩個圖中有相同的前驅和后繼。
依據此公式,可以先估計[P](C|U,[I],Z),再利用公式估計[zP(C|U,I,z)P(z)]即可得到[P](C|[do(U,I])),從而解決了流行度偏差的問題,消除了流行度偏差帶來的不良影響,更好地挖掘出用戶的興趣,提高推薦系統的準確性。
5 結語
本文深入分析了汽車產品推薦系統中的產品流行度偏差問題,并用當下流行的因果推理來解決該偏差問題,將流行度偏差當作混淆因子進行處理,更準確地獲取用戶的興趣,提高推薦系統的準確性。同時,一定程度上緩解了個性化推薦系統中的長尾分布問題,讓各類產品得到了更公平的展示,有助于優化汽車產品推薦系統的生態,從而提供更完善的智能個性化推薦。本文在因果和推薦算法中的研究,可為汽車推薦系統未來的發展提供新的思路。
參考文獻:
[1]范磊.基于大數據分析的汽車互聯網產品需求預測與個性化推薦研究[J].互聯網周刊,2023(24):62-64.
[2]王暉,張慧.個性化商品推薦系統的混合推薦算法研究[J].科技資訊,2023,21(22):248-252.
[3]岳添駿.基于LDA主題模型的協同過濾推薦算法[J].數字通信世界,2017(10):279+282.
[4]Zhang Yang,Feng Fuli,He Xiangnan.Causal Intervention for Leveraging Popularity Bias in Recommendation[C]//SIGIR’21,Virtual Event,Canada,2021.
[5]丁建立,何雨峰,王靜.基于因果干預的微服務系統故障根因分析方法[J].計算機應用,2021(5):1-11.
作者簡介:
張宏,女,1986年生,工程師,研究方向為體系管理和零部件法規管理。