李友 馬曄赟 陳楊陽
摘 要:P2P網絡借貸的興起使得網絡借貸平臺上投資用戶數目以及貸款項目數目迅速激增,同時帶來海量的借款人信息以及貸款信息,投資用戶在眾多貸款項目中找到自己感興趣的貸款項目變得愈加困難。本文在研究推薦系統相關算法的基礎上,詳盡的實驗了基于隱因子模型的推薦算法,在挖掘用戶感興趣的貸款的準確率。為了說明算法的有效性,本文做了相關推薦算法的多組對比實驗。對比實驗結果表明,基于隱因子模型的推薦算法能夠更有效地預測投資用戶的投資偏好,并且對推薦系統應用到P2P借貸平臺具有借鑒意義。
關鍵詞:P2P借貸;推薦系統;隱因子模型
DOI:10.16640/j.cnki.37-1222/t.2016.04.233
0 引言
伴隨信息技術的迅速發展,互聯網金融在近年來迅速興起。其中P2P網絡借貸憑借低成本,快速便捷等特點正成為人們投資理財的新選擇。網絡借貸平臺是新興的金融市場,通過互聯網通道產生的海量交易數據促使了許多相關學術研究。關于網絡借貸的研究大致可以分為對投資者出借意愿的研究[1]、對貸款項目評估的研究[2]以及對網絡借貸中社交網絡的研究[3]。
本文的研究內容是使用推薦算法,分析用戶的相關信息,從正在招標的貸款項目中挖掘出用戶可能感興趣、可能投資的項目,并推薦給相應的投資用戶,實現提高網絡借貸平臺上借貸雙方的匹配效率的目的。本文的創新工作:(1)從信息檢索和機器學習方法的角度考慮,挖掘并推薦給出借人感興趣的項目,實現提高資本需求雙方匹配效率進而提高平臺運營效率的研究還是從未有過的;(2)推薦系統目前主要應用于電子商務與社交網絡領域,將其運用到網絡借貸平臺上的情況也不曾有過;(3)使用具有高可擴展性的機器學習方法--矩陣分解技術[4],將推薦系統[5]應用到網絡借貸平臺。
1 相關知識
本部分將介紹論文研究所要用到的相關知識以及本文實驗數據集。
1.1 協同過濾推薦算法
協同過濾推薦是基于這樣的假設:如果用戶之間的歷史行為與偏好是相似的,那么我們可以向他們推薦他們之間相互感興趣但未發掘的內容。
其方法是將原有的信息構建成一個用戶評分矩陣R,行向量代表每一個用戶,列向量代表每一個項目,其中的每一個值代表特定用戶對特定項目的評分(喜好程度)。目前協同過濾算法主要有基于內存的推薦和基于模型的推薦。矩陣分解即是屬于基于模型[5]。
1.2 本文數據介紹
由于我國網絡借貸平臺數據未被公開,所以無法獲得,故本文數據采用的是美國的網絡借貸平臺Prosper.com上的數據。本文實驗只需用到Bids與Loans表。Bids表保存了投資者的出借記錄,Loans表記錄了借款項目的基本信息和狀態。
在網絡借貸中,并沒有投資者對貸款的評分。但從投資用戶對貸款項目的投資金額來看,可以預見,越多的出借數額代表投資用戶對該貸款項目越有興趣,評分也越高。即將投資金額離散為10個等級,從1至10表示金額越大則級別越高,級別越高則表明越感興趣,我們稱它為“投資等級”。
2 基于隱因子模型的推薦算法
矩陣分解模型是當前基于模型的協同過濾算法中應用最流行的一種[5],并且獲得了較理想的推薦效果。Yehuda Koren在Netflix比賽中使用稱作LFM(latent factorization model)的矩陣分解方法,推薦效果得到顯著提升。
2.1 隱因子模型算法實現
對于M*N的評分矩陣,傳統的是使用SVD進行分解,而實際上這種直接計算特征值的傳統方法的計算復雜度很高,在大規模的矩陣上基本不可行,而實際中系統動輒就是上千萬的用戶和上百萬的物品,所以這種方法無法使用。因此,在實際應用中我們使用LFM方法來進行矩陣分解求解。LFM方法的形式化描述如下所示:
(1)
其中Ui表示的是一個f維的用戶因子向量,Vj代表的是一個f維的項目因子向量;UiTVj表示用戶i對貸款j的估計投資等級。
求解目標函數(1),通常有兩種方法,一種是交叉最小二乘法,一種是隨機梯度下降法。由于交叉最小二乘法計算復雜且運算速度慢,所以使用隨機梯度下降法。
2.2 實驗介紹
(1)數據預處理。從Bids表中導出每個投資者的投資記錄,Loans表中導出每個借款成功的貸款項目記錄,并按投標日期排序。由于Prosper.com公開的數據有限,為了保證信息的及時性,我們采用最新的2009年至2010年的投資記錄進行實驗并評估推薦效率。
(2)結果分析。經過隱因子分解之后計算內積得到原矩陣的逼近矩陣,得出了每個用戶對借款的投資等級預測值。在評估我們的實驗算法時,我們使用評估推薦效率常用的算法:采納率、精確率、召回率和F值來表示。實驗結果發現,隨著推薦項目的增多,各項評估指標也增大。當對每個投資用戶推薦10個貸款時,最終有86%的用戶至少投資了10個貸款中的一項,并且精確率、召回率和F值各項指標也分別達到24%、43%和30.8%。
基于內存的推薦也是協同過濾算法家族使用最為廣泛的推薦算法之一。基于內存的推薦的投資等級預測公式如下:
(2)
在式中,表示用戶u的平均投資等級;ωu,i表示用戶u和i之間的相關性,在實驗中我們選取皮爾森相關性系數來計算相關性;α是歸一化因子;n表示參照用戶數,對n的選取,常用的有兩種方式,一種是指定相關度閾值θ,一種是選擇固定的K個鄰居數。
為說明基于隱因子模型的算法比基于內存的推薦算法相對有效,我們使用同樣的訓練和測試數據集,和使用指定密度閾值θ和鄰居數K的基于內存的協同過濾推薦算法在最優時的表現對比(經過多次實驗得出θ=0.1和K=15)。實驗結果表明,在推薦10個貸款項時,LFM的推薦準確性要優于基于內存的推薦算法超過10%。
3 基于借貸行為差異的改進算法
在現實生活中,投資用戶的出借行為是存在差異的。某些投資者的閑散資金比較充裕,他們的平均投資額超過普遍的用戶;同時,貸款之間也存在差異。如有的借款被看好,投資用戶愿意出借更多的資金,而使得貸款的平均出借額更高。因此,借款人的投資行為以及貸款項目的優劣都會對出借額的多少產生影響。
3.1 模型改進
現將借貸行為差異考慮到(1)中的模型內。若全體投資用戶對一個項目的平均出借等級為A,用戶i對一個項目的平均出借等級比A高出Bi(Bi大于0即表示i的投資等級高于平均值,小于0則表示低于平均值);同理,若全體貸款的每一個出借人的平均出借等級為C,貸款j目前的平均出借等級比C高出Lj(Lj大于0即表示j的出借等級高于平均水平,小于0則低于平均水平),這里的Bi與Lj即為出借人的出借偏好和貸款項目的好壞差異。則用戶i對貸款j的估出投資等級為的表達式修改為下式:
(3)
同樣優化公式將修改為下式:
(4)
3.2 結果分析
將改進后的模型重新做預測,可以發現精確率、召回率、F值都有部分提升。當向每個用戶推薦10個貸款時,最終有89%的用戶至少投資了其中一項,可以發現采納率在改進后提高相對明顯,對于推薦特定K個項目,改進后的采納率平均提高4%。
4 結束語
對于網絡借貸平臺,如果能夠使用有效的推薦系統,向投資用戶推薦他們感興趣的貸款項目,不僅可以減少用戶在投資決策時的信息篩選,提升用戶體驗,還能提高借款效率而提高運營效率。通過Prosper網站真實數據實驗,結果表明,基于隱因子模型的推薦算法可以有效的利用用戶的歷史投資記錄,找出用戶感興趣的貸款項目;并且當考慮不同用戶與貸款項目的個體偏見時,可以更好地提升推薦效率。
參考文獻:
[1]宋文,韓麗川.P2P網絡借貸中投資者出借意愿影響因素分析[J].西南民族大學學報:自然科學版,2013,39(05):795-799.
[2]Li S, Qiu J, Lin Z, et al. Do borrowers make homogeneous decisions in online P2P lending market? An empirical study of PPDai in China[C]// Service Systems and Service Management (ICSSSM),2011 8th International Conference on.IEEE,2011:1-6.
[3]Berger S C,Gleisner F.Emergence of Financial Intermediaries in Electronic Markets:The Case of Online P2P Lending[J].BuR - Business Research,2010,2(01):39-65.
[4]程明松,劉勺連.一種實用快速非負矩陣分解算法[J].大連理工大學學報,2013,53(01):151-156.
[5]J.Bobadilla,F.Ortega,A.Hernando,A.Gutierrez.Recommender systems survey. Knowledge-Based Systems,2013,46(01):109-132.
作者簡介:李友(1990-),男,江西贛州人,碩士研究生,主研領域:數據挖掘。