999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于層級注意力機制的互聯網用戶信用評估框架

2020-08-25 06:57:38陳彥敏馬建輝杜東舫趙洪科
計算機研究與發展 2020年8期
關鍵詞:用戶實驗方法

陳彥敏 王 皓 馬建輝 杜東舫 趙洪科

1(中國科學技術大學計算機科學與技術學院 合肥 230027)2(新疆師范大學計算機科學技術學院 烏魯木齊 830054)3(騰訊科技(北京)有限公司 北京 100080)4(天津大學管理經濟學院 天津 300072)(ymchen16@mail.ustc.edu.cn)

隨著社會信用體系的逐漸建立,用戶信用日益受到公眾的重視.在金融領域,用戶信用評分是金融機構評估個人信貸能力的量化指標,用于提高授信機構的授信可靠性.在互聯網的領域,用戶信用評分不僅在金融信貸,還在移動通信、社交媒體等多個互聯網產品中廣泛采用.這些產品根據用戶信用的評估分數給用戶提供了不同類型的信息服務.然而在互聯網平臺中用戶數據類型豐富多樣,使得用戶信用評估過程更加復雜.因此,如何在互聯網平臺中對用戶進行有效可靠的信用評估,成為一個值得探索的問題.

傳統的用戶信用評估主要是以金融信貸為背景的研究方法[1-4].例如Yao等人提出的基于SVM算法的混合信用評分模型,通過SVM來選擇出最佳輸入特征子集,實現對申請人的信用評估[2].以及Oreski等人通過神經網絡和遺傳算法來建立用戶信用屬性的最優特征子集,提高信用信貸風險評估的分類準確性[4].然而這些信貸研究主要側重于用戶單一的金融還貸能力,較少考慮用戶在互聯網平臺中復雜的建模情況.

與傳統信貸研究方法中的信貸數據相比,互聯網平臺中的用戶數據類型多樣,包括用戶個人信息、行為軌跡、瀏覽習慣及消費行為等各方面的用戶信息.因此如何利用互聯網平臺得到的用戶多源異構數據,從多方面刻畫出用戶信用特征,是互聯網用戶信用評估方法需要解決的難點.在用戶特征構建的研究中,有些方法借助用戶畫像來描述用戶特征[5-7].例如Lu等人設計了一種基于維基百科概念圖的用戶畫像方法來描述用戶,實現對用戶興趣的挖掘[5].在用戶畫像研究的基礎上,有些研究利用社交網絡來構建用戶信用的評估[8-11].郭光明等人提出一種根據用戶的社交行為數據來構建用戶信用畫像的方法,提高用戶信用評估的準確性[8].

但在已有的互聯網用戶信用評估的研究工作中,忽略了用戶屬性在信用評估中不同層次結構的重要程度的刻畫.例如圖1(a)展示了一個互聯網用戶具有的各種屬性,代表用戶在不同類別的用戶行為,這些類別之間具有不同的層次關系和結構性.因此本文首先依據一個有效的準則來構建不同層次結構粒度的互聯網用戶的信用畫像.通過信用畫像可以發現不同粒度的用戶信用畫像對用戶信用具有不同的權重關系.例如在圖1(b)中用圓圈標出的“Credit”和“Consumption”這2個類別,具有很高的用戶信用相關度.因此,挖掘出屬性不同層次粒度的權重關系,能夠更好地刻畫用戶信用的特征.為了實現這一目標,本文需要解決的挑戰有:1)為了體現用戶屬性層次結構關系,如何對用戶屬性構建具有不同層次結構的用戶信用畫像;2)如何在多層次結構的用戶信用畫像中,挖掘出不同粒度屬性的重要程度.

針對以上問題,本文提出了一種基于用戶畫像的層級注意力機制的互聯網用戶信用等級評估模型(hierarchical attention model for user credit evalua-tion, HAM-UCE).該方法的建模過程主要分為2個步驟:首先為了構建用戶信用畫像,針對互聯網中用戶數據的多樣性,本文依據5C原則構建層級的用戶信用標簽體系,對用戶屬性進行不同粒度的刻畫;其次,為了刻畫在不同粒度的結構中用戶屬性的重要性,本文提出了一個層級注意力機制來計算在不同粒度下屬性的重要程度,從而使得權重值大的屬性在用戶信用評估中占有更大的作用.該模型在公開的真實數據集上進行的大量實驗結果表明,與傳統的用戶信用評估算法相比,本文所提出的HAM-UCE能夠更精準地評估用戶信用等級,并且能夠有效地驗證在不同粒度的用戶信用評估結構中,用戶屬性對信用評估的重要程度.

Fig. 1 Hierarchy of user attributes圖1 用戶屬性層級結構

綜上所述,本文所提出方法的主要貢獻包含4個方面:

1) 通過研究發現用戶屬性對用戶信用的不同的重要性,能夠更有效地評估互聯網用戶的用戶信用度.

2) 依據可解釋性的5C準則,構建了具備不同層次結構粒度的用戶信用畫像,刻畫出用戶不同粒度的用戶屬性關聯性.

3) 在用戶信用畫像的基礎上,設計了一個層級結構的注意力機制模型,能夠驗證出不同層級結構的用戶屬性對用戶信用評估的重要性.

4) 在真實數據集上的大量實驗結果證明:和基準實驗方法對比,該方法能夠有效地提升實驗效果,并具有良好的性能和魯棒性.

1 相關工作

本節首先介紹用戶信用評估的研究進展,然后介紹用戶畫像在信用評估的相關研究.

1.1 信用評估

用戶信用評估的研究工作,根據研究過程可以分為3類:1)專家評定和定性分析的方法;2)基于統計和機器學習的方法;3)基于深度學習的方法.

最初的個人信用評估工作是通過專家評定的方式,依據專家的經驗來對用戶進行打分,這種方式的主觀性和隨意性較強,可靠性和廣泛性不足.因此逐漸引入數學理論來建立個人信用評估模型進行信用的定性分析.在定性分析方法中,層級分析法(analytic hierarchy process, AHP)是一種多準則決策的方法,它將與目標相關的要素分析成多個層級,使復雜問題條理化、層級化.這種方法的缺點是需要定性的數據過多、指標過多、計算較為復雜[11].

統計學習和機器學習的算法可以解決數據量大、計算復雜的情況[12-20].其中支持決策樹[13]、向量機[16]、K-近鄰[16]、邏輯回歸[16]以及遺傳算法等已經廣泛地應用在信用評估模型中.例如Wiginton等人[16]最早提出將邏輯回歸方法應用到信用評估模型中;Wang等人[1]提出一個基于決策樹的信用評分方法,通過折疊和隨機子空間處理屬性特征來提高分類的準確性;Luo等人[17]提出了一種無核支持向量機的兩階段聚類方法,應用于信用風險評估;Arora等人[18]提出了一個利用Bootstrap來選擇具有一致性和相關性用戶特征的隨機森林算法,實現對信用風險的評估.

隨著深度學習模型的廣泛應用,一些基于深度學習的方法也被引入到用戶信用評估領域[21-26].例如Lee等人[21]提出一種基于人工神經網絡和多元自適應回歸樣條的兩階段混合信用評分模型;Kang等人[22]結合支持向量機和神經網絡方法來提高信用評估模型的準確率;Mohammadi[23]考慮了多種BP算法訓練多層感知機神經網絡模型來對客戶信用進行風險評估;劉欣陽等人[24]用自注意力機制方法提取用戶特征,然后利用多層感知機來預測用戶的違約率;Yu等人[25]提出一種多階段神經網絡集成學習方法的信用風險評估方法.

然而,這些方法大多都是基于銀行金融信貸的信用評估研究,使用的數據也基本來自于信貸領域,缺少在互聯網領域的用戶數據研究工作.在分類結果上,只區分信用好和壞的用戶,并不對用戶進行不同信用的等級劃分[24].與這些工作不同,本文的研究對象是互聯網的用戶,這些用戶屬性的數據類型多樣,并且用戶的評價類別也不僅局限于信用好和信用壞的二元分類,而是對用戶信用等級進行的多分類研究.

1.2 用戶畫像

用戶畫像是通過對產品或服務的目標人群的特征的刻畫,對目標用戶的信息構建用戶標簽的體系[27-31].最早Pazzan等人[27]通過分析網頁的瀏覽信息來構建用戶的畫像,用來發現用戶感興趣的網站.在目前的研究中,用戶畫像的研究集中在用戶主題、用戶興趣和用戶行為這3個方面,實現對用戶的行為趨勢預測;在基于主題的用戶畫像方法中,Tang等人[29]提出了一個統一的概率模型,用于整合從不同來源提取的用戶信息,并使用概率主題模型對提取的用戶資料進行建模,構建用戶興趣模型;在基于用戶行為的用戶畫像方法中,Lee等人[30]根據用戶、發布者和廣告客戶數據層次結構的以往效果進行觀察,對用戶的行為進行構建;在基于用戶信用的研究中,Guo等人[10]提出了一種基于社交數據用戶隱式的用戶信用畫像,利用用戶在社交網絡上產生的行為數據,對用戶的信用進行評估.因此,采用用戶畫像,通過研究目標人群的特征,構建用戶標簽體系,可以有助于對用戶不同方面的屬性進行有效的分析.然而,目前在用戶信用畫像的研究中,較少考慮標簽層級的關聯性和重要性.本文通過設計層級用戶信用畫像,有效地得到用戶標簽層級的關聯性和重要性.

2 層級用戶信用畫像

本節主要介紹如何依據傳統金融信貸的信用劃分標準,構建互聯網用戶的信用評估標準體系.首先將數據集的用戶屬性依照金融信貸的5C原則進行分析,然后建立互聯網用戶信用的多粒度標簽,形成層級用戶信用畫像.其次介紹如何對互聯網用戶進行信用評估等級的劃分.

2.1 數據集

本文采用的數據集是一個公開的用戶信用數據集來自某移動公司提供的真實客戶樣本.該數據集共包含50 000個用戶的樣本,每個樣本有30個屬性.包括用戶的基本資料、通訊支出、歷史消費值、用戶話費敏感度、看電影次數、去商場次數以及網購使用次數等多種類型用戶屬性.

2.2 用戶信用標簽建模

在傳統金融信貸領域中,個人信用評分是授信人針對個人進行信用風險的綜合評價和判斷[29-36].傳統的信用評分系統依據信用的5C原則來進行用戶信用特征的分析.這5C原則分別是能力(capacity)、個性(character)、資本(capital)、抵押物(collateral)和環境(conditions).其中能力是用戶償還貸款的經濟能力;個性是用戶的性格特點和用戶償還的主觀意愿;資本和抵押物是指可用作信用償還的等價物;環境是指整體的環境以及借貸人的特殊條件.

對比傳統信貸的5C原則,在互聯網領域的用戶屬性中,其中既有可依照5C原則劃分的用戶屬性,也有互聯網用戶特有的屬性.例如在數據集中,用戶的通訊支出可以反映用戶的資本;用戶的基本資料可以反映用戶的個性.另一方面,數據集中特有的用戶線下的購物行為屬性和線上的消費行為屬性,雖然不能直接得到消費的數值,但是可以通過分析用戶消費行為反映出用戶消費的能力.因此,借鑒傳統信貸5C原則,依照數據集的用戶屬性特點,構建出符合互聯網用戶的信用評估體系.該體系具有粗粒度和細粒度兩級劃分,通過逐層細化,反映出用戶的信用特征.首先構建粗粒度級的特征維度,參照5C信貸原則,形成用戶信用的5個特征維度準則,如表1所示,分別介紹為:

1) “個性特征”維度,表示用戶的基本用戶屬性.依照用戶的“個性”原則進行劃分.

2) “繳費歷史”維度,表示用戶在過去時期的繳費記錄的用戶屬性.體現了用戶繳費的主觀意愿,反映了用戶的“資本”原則.

3) “履約能力”維度,表示用戶話費敏感度及用戶的欠費情況的用戶屬性,主要反映了用戶的“能力”原則.

4) “人際交往”維度,表示用戶的通話交往的屬性,反映了用戶的“環境”原則.

5) “消費能力”維度,表示用戶出入消費場所和在線消費能力的用戶屬性,反映了用戶消費的“能力”原則.

通過以上的設定,得到用戶信用的特征維度的劃分準則.然后根據這個準則,對各種類型的用戶屬性進行對應歸納劃分,形成了用戶信用的細粒度級的用戶屬性,具體的劃分對應如表1所示.

Table 1 Example of User Attribute Credit Dimension Division表1 層級用戶信用畫像舉例

因此,通過兩級信用評估體系,構建出具有粗細粒度的層次化用戶畫像,實現對用戶信用特征的描述.其中粗粒度級的特征維度表示用戶屬性之間的關聯,細粒度級的用戶屬性能夠發現屬性的偏好關系.

2.3 用戶信用等級設定

為了表示用戶的不同信用等級,本文借鑒了在信用評估領域中廣泛使用的國際FICO評價標準,將評分區間設置為300~850分,評分的高低代表用戶的信用程度[25].在本文的數據集中,統計用戶的信用分區間在[0,715]之間,參照移動公司對用戶設定的信用等級的劃分,本文劃分出5個區間,將信用等級分為5級,用戶信用分等級劃分如表2所示,等級越高,用戶信用越好.

Table 2 User Credit Grade表2 用戶信用等級劃分

3 問題定義

通過已經建立的用戶層級畫像和信用等級劃分準則,本文將基于層級用戶畫像的互聯網用戶信用評估,具體定義為:

定義1.給定用戶屬性U={u1,u2,…,un}和信用等級值Y={y1,y2,…,yn},希望學習到一個函數F(U)→Y來預測用戶的信用等級.

其中U對應不同類型的用戶屬性,例如在“繳費歷史”維度中的“用戶近6個月平均消費值”屬性,在“消費能力”維度中的屬性“用戶看電影的次數”,屬性的數據類型各不相同.用戶信用等級Y對應按照FICO劃分的不同的分類準則.

為了進一步更好地捕捉用戶層級畫像中不同屬性的重要性,本文提出一個用戶信用等級評估模型(HAM-UCE)框架,來更加有效地預測用戶的信用等級劃分.

4 基于層級注意力機制的信用評估框架

在本節中,我們將詳細介紹用戶信用等級評估模型(HAM-UCE)框架的具體細節,圖2展示了該模型的主要框架,主要分為3層:用戶屬性向量化層、層級注意力網絡層、用戶信用等級評估層.具體來說,首先將不同類型的用戶屬性進行向量化表示,對每個屬性得到一個低維的向量表征.然后通過本文提出的層級注意力網絡來捕捉粗細粒度用戶屬性的重要性,最后通過廣泛使用的交叉熵損失函數得到用戶信用等級評估的目標函數.

Fig. 2 The framework of user credit evaluation based on hierarchical attention mechanism圖2 基于用戶畫像的層級注意力機制的互聯網用戶信用等級評估模型框架

4.1 用戶屬性向量化

Fig. 3 The representation of user attribute圖3 用戶屬性向量化表示

從2.1節介紹的數據集可以得知,用戶的屬性具有不同類型的數據格式.具體來說,數據集的用戶屬性uk可以分為2種類型:類別特征和連續值特征.例如屬性“當月是否景點游覽”屬于類別特征類型,“用戶賬單當月總費用”屬于連續值特征類型.因此,為了能夠得到一個統一的細粒度標簽向量表示,本文分別對這2種不同類型的用戶屬性進行向量化,將其轉化成統一的低維向量.

其中類別特征是指屬性的值域是一組離散的值.包括單值屬性和多值屬性,例如屬性“是否大學生客戶”是一個單值屬性,屬性值是0和1,采用one-hot編碼形式進行編碼.屬性“用戶的話費敏感度”的屬性值分為5個檔次,屬于多值屬性.將多值屬性通過類別轉換函數進行one-hot編碼,轉換成特征向量.

連續值特征是指屬性的值域是連續值,如屬性“用戶年齡”就是一組連續分布的值.這種特征的數值區間大,數值的分布不均勻.本文通過等頻算法將這些連續值的屬性值域劃分成多個子區間,并保持子區間內的數據量均等.然后將這些連續值依照對應的子區間轉化成離散化的表示,類似多值屬性的轉換方法,通過類別轉換函數,進一步轉換成特征向量的形式.

4.2 層級注意力網絡層

在得到用戶屬性的向量化表示之后,為了刻畫不同粒度標簽對用戶信用的重要性,分別設計細粒度級的屬性注意力層和粗粒度級的維度注意力層來獲取用戶屬性和用戶維度多個層次的用戶信用重要性.

4.2.1 細粒度級的屬性注意力層

通過分析可知,在同一維度下不同屬性的重要性是不同的.例如在“繳費歷史”特征維度中,用戶屬性“用戶近6個月平均消費值”反映了用戶長期的繳費行為,對用戶信用的評估有重要的參考作用.因此為了發現屬性的重要性,本文設計了一個細粒度級的屬性注意力網絡層.

(1)

(2)

(3)

4.2.2 粗粒度級的維度注意力層

不同的特征維度對用戶的信用評估的影響也不同,例如在特征維度中“履約能力”是反映用戶履行合約的能力,重要的特征維度對用戶信用的評估有重要作用.因此本文設計粗粒度級的維度注意力網絡層.

類似細粒度級的屬性注意力層,本文設{Nl*}為粗粒度級的維度注意力集合,用|{Nl*}|表示粗粒度標簽集合的大小.特征維度l的注意力值設為

(4)

(5)

在得到每個粗粒度標簽的信用值β(m,l)后,用戶m的維度注意力層級向量表示:

(6)

4.3 用戶信用等級評估層

(7)

經過MLP層之后,通過Softmax函數對用戶的信用等級進行評估:

(8)

(9)

5 實 驗

針對本文提出的基于用戶畫像的層級標簽注意力機制的用戶信用等級評估模型(HAM-UCE),本節進行了大量的實驗來驗證模型的有效性.實驗主要包括:1)定量分析實驗.與最新的相關工作進行對比,驗證采用用戶畫像的層級注意力機制的模型(HAM-UCE)是否能夠有效地提升用戶信用評估的性能.2)定性分析實驗.分析層級用戶信用畫像建立和層級注意力網絡機制的有效性.3)參數敏感性實驗.對HAM-UCE模型中重要參數進行敏感度分析驗證.

5.1 數據處理

實驗所用數據集是2.1節中所介紹的數據集,包括用戶屬性和用戶信用分值兩大部分.在對數據預處理中,實現3個步驟:1)層級用戶畫像構建.首先將數據集的用戶屬性根據2.2節提出的屬性劃分標準,共得到5個粗粒度標簽,建立了用戶在用戶信用方面的5個特征維度,將屬性劃分到相關的粗粒度級的特征維度集合中,建立細粒度級的用戶屬性,從而構建出層級的用戶信用畫像.2)數據向量化處理.進一步按照屬性值的特點,將用戶屬性分別按照類別特征和連續值特征進行向量化轉化,轉化成統一的特征向量.3)用戶信用等級劃分.依照2.3節介紹的等級劃分標準,將數據集中的用戶信用分值轉化為相應的用戶信用等級類別.

在實驗過程中,為了驗證模型的有效性,本文隨機選擇一部分數據作為訓練數據,其余部分作為測試數據.具體地,本文分別隨機劃分數據集的40%,60%和80%來得到不同比例的訓練數據集進行模型訓練,并將數據集對應的60%,40%,20%部分分別作為測試數據集對模型的效果進行測試,對每個劃分數據集獨立重復10次試驗,并且取平均值作為最后的實驗結果.

5.2 實驗評價指標

為了衡量本文所提出的用戶信用等級評估方法是否能夠有效地預測用戶的信用等級,本文采用廣泛使用的精確率(Precision)、召回率(Recall)和F1-score三個分類評價指標,來對比評價HAM-UCE和其他實驗方法在數據集上的實驗效果.具體地,精確率、召回率和F1的定義為

(10)

其中,TP為被評估用戶中所有用戶實際被正確評估用戶等級的數量;FP為被評估用戶中所有用戶實際未被正確評估的數量;FN為所有待評估的用戶中實際未被正確評估的數量.精確率的值越高,表示預測為正的樣本實際被正確評估的越多.召回率越高,說明被正確評估樣本越多.F1-score是精確率和召回率的綜合.精確率、召回率和F1-score的值越高時,說明分類模型越穩健.

5.3 實驗參數設置

在模型具體實現的過程中,本文采用Adam作為模型的優化器.為了降低過擬合的風險并加速收斂,在用戶信用等級評估層部分,采用了Dropout層和Batch-Normalization層來實現對模型的訓練優化.

本文在訓練初始階段,設置用戶屬性向量化的維度為n=50,2層信用預測全連接層的維度分別設為200和160.在模型訓練時,總的訓練Epoch為50,Batch大小為92.優化器Adam參數設為 0.000 2,Dropout設為0.15.對所有的對比方法,模型調節到最優參數來對比實驗結果.

5.4 對比實驗方法

為了驗證本文提出的模型在用戶等級評估的效果,在用戶信用評估方面本文采用了4種重要的機器學習評估方法和深度學習的方法實現對模型的對比驗證.

1)KNN方法[37].K近鄰分類算法是用戶信用評估中常用的一種評估方法,根據用戶樣本的附近的K個最近用戶的屬性類別的數差,來判斷該用戶信用的類別方法,實現對用戶信用的分類.

2) DT(decision tree)方法[17].決策樹算法是一種分類與回歸算法,該方法通過樹結構的分支來對該類型的對象依靠屬性進行分類.在用戶信用評估中該方法將用戶的屬性進行決策樹節點的分類,實現用戶信用的等級分類.

3) Xgboost方法[38].Xgboost是一種優化的Tree Boosting算法,在GBDT的基礎上對損失函數進行了二階泰勒展開,通過對多個決策樹集成,優化實現的分布式梯度的集成學習方法.

4) MLP(multi-layer perceptron)方法[24].MLP方法即使用多層感知機進行計算的神經網絡模型.在該方法中,向量化后的用戶屬性沒有采用層次結構,而是直接進行拼接,通過多層感知機神經網絡來實現對模型的評估.

5.5 定量分析實驗

本文實現了2個定量分析實驗來驗證模型的有效性.1)性能對比實驗,是模型和其他對比算法在實驗評價指標上的對比,驗證模型的性能.2)消融對比實驗,是模型和模型自身的變體進行的對比實驗,驗證模型每部分的有效性.

5.5.1 性能對比實驗

將模型和5.4節所描述的對比方法在不同比例的訓練數據集中進行驗證.最終的對比實驗結果展示在表3,其中黑色加粗字體表示最好的實驗效果.通過觀察表3的實驗結果,可以看出:

Table 3 Precision, Recall and F1-score of Different Evaluation Methods in Different Percentage Test Sets表3 不同評估方法在不同比例測試集下的精確率、召回率和F1-score

1) 與所有的對比方法相比,HAM-UCE方法在不同比例的訓練數據集中,都取得比較好的實驗結果,尤其在準確率Precision和F1-score評估上取得了最好的結果,這證明了HAM-UCE在用戶信用等級的分類評估上對比相關的研究方法能夠實現更有效的實驗性能提升.

2) 與KNN,DT方法相比,HAM-UCE在所有指標上實現了更好的性能.因為KNN方法僅考慮有限的相似樣本關系,DT方法通過單一的用戶屬性進行樣本劃分,這些方法都難以學習屬性之間的層次結構性和不同的重要性.

3) 在對比實驗方法中,Xgboost是最具有競爭力的方法,它通過使用多個決策樹模型進行集成學習,綜合考慮了用戶屬性之間的關聯性.從對比實驗結果可以看出,在召回率方面,Xgboost取得了最好的實驗結果,但是在精確率方面,HAM-UCE方法取得了比Xgboost更好的效果,尤其是在F1-score中,HAM-UCE方法取得了最好的效果.說明HAM-UCE方法能夠通過注意力網絡機制,更好刻畫地屬性之間復雜的交互關系,并能學習到用戶屬性對用戶信用評估不同的重要性,從而實現更好的實驗效果.

4) 對比MLP和HAM-UCE的方法,MLP方法直接采用了屬性拼接的方法,而沒有采用層次結構的注意力機制.從實驗結果中可以看出,MLP的實驗結果不如HAM-UCE.因為MLP方法通過拼接用戶屬性構成n維向量進行計算,沒有對用戶屬性進行有效地歸納處理,難以刻畫屬性之間的復雜層級結構和交互關系.與此對應,HAM-UCE方法通過建立層次化的用戶畫像表示,并通過層級的注意力網絡機制來刻畫不同用戶屬性的重要性來實現更好的實驗結果.通過對比MLP方法,說明采用層次結構的HAM-UCE方法能夠更好地捕捉到用戶屬性的特性,層級結構對用戶信用評估的準確性有重要的作用.

因此,通過以上的性能對比實驗可知,HAM-UCE方法能夠取得更好地實驗效果,并且通過對比其他的實驗方法,HAM-UCE方法采用兩級層級結構的注意力機制對用戶屬性的重要性進行學習,驗證了層次結構的有效性.

5.5.2 消融模型對比實驗

為了驗證對比注意力機制在模型的層級結構的重要性.本文進行了消融模型實驗來進行對比驗證,具體選擇2個HAM-UCE變體模型的對比方法:

1) HAM-UCE-NA方法.該方法是HAM-UCE方法的簡化,模型保留了原有的用戶屬性的層級結構關系,但是在用戶屬性層和特征維度層均不采用注意力網絡機制,只采用平均化的操作來代替原來的注意力機制中的權重相加.

2) HAM-UCE-FA方法.該方法是HAM-UCE方法的簡化版本,模型在原有的層次結構基礎上保留在用戶屬性層上的注意力網絡機制,在特征維度層上采用平均化的操作實現的方法.

最終,HAM-UCE與所有變體模型的對比實驗結果如圖4所示:

Fig. 4 Ablation experiments with Precision, Recall, and F1-score in different percentage test sets圖4 不同比例測試集下的精確率、召回率和F1-score的消融實驗

1) 通過比較HAM-UCE-NA和MLP的實驗結果可以看出:HAM-UCE-NA能夠實現更好的實驗結果,說明采用基于5C準則設計的層級結構用戶畫像能夠有效地刻畫出用戶屬性間的內部關系,從而有助于提升對用戶信用的評估.

2) HAM-UCE-FA方法驗證了用戶屬性層采用注意力機制的作用,該模型與MLP方法相比較,在各項的評價指標上均比MLP方法的效果好.且在與HAM-UCE-NA相比較,在精確率和F1-score上能夠實現更好的實驗效果.說明在用戶屬性層實現注意力網絡機制,可以進一步在層級結構的基礎上,找到和用戶信用評估相關的重要用戶屬性.而與HAM-UCE比較,HAM-UCE-FA缺乏在用戶維度層面方面對不同的用戶維度進行重要性刻畫,從而模型的效果不如HAM-UCE.

3) 對比所有實驗方法可以看出,HAM-UCE模型在所有評估指標中均取得了最好的實驗效果.這個結果證明了采用層級的用戶畫像和注意力網絡機制的HAM-UCE方法,通過設計基于5C準則的用戶畫像能夠劃分用戶屬性之間的關聯性,并通過層次注意力網絡有效地刻畫用戶屬性和用戶維度不同的重要性,學習到不同粒度層級屬性的重要性實現最好的模型效果.

因此,通過以上的消融模型對比實驗,本文可以證明,HAM-UCE采用的層次用戶畫像結構和多層注意力網絡機制是有效的.

5.6 定性分析實驗

在定性分析實驗中,本文從模型的不同方面,分別進行2個定性分析實驗:1)不同維度的分析實驗;2)特征維度注意力機制可視化實驗.

5.6.1 不同維度的分析試驗

為了驗證不同維度的重要性,本文分別除去某一特征維度來驗證這一類維度在標簽劃分的重要性.具體粗粒度特征維度模型設置為:

1) HAM-UCE-U方法.該模型去掉“個性特征”的標簽模塊.

2) HAM-UCE-H方法.該模型去掉“繳費歷史”的標簽模塊.

3) HAM-UCE-C方法.該模型去掉“用戶履約能力”的標簽模塊.

4) HAM-UCE-R方法.該模型去掉“人際交往”的標簽模塊.

5) HAM-UCE-B方法.該模型去掉“消費能力”的標簽模塊.

本文將以上5個模型在80%的訓練集中進行測試,實驗結果如圖5所示,說明了不同維度都是重要有效的,即每個部分的屬性對用戶信用評估具有不同的作用.

Fig. 5 F1-score of different dimensions model圖5 不同維度模型的F1-score值

5.6.2 特征維度注意力機制有效性實驗

在本節中我們驗證了模型的注意力機制的可視化實驗.該實驗在80%的訓練集上進行了實驗.在模型的訓練過程中,記錄粗粒度級的特征維度上的注意力attention值.實驗結果如圖6所示.

在圖6中,顯示了5個粗粒度標簽的注意力值.其中顏色越深,代表著標簽權重越大,表明這部分的信息重要程度越高.從圖6中可以看出,“繳費歷史”,“履約能力”和“消費能力”這3個細粒度標簽的顏色最深,也表明了這個3個粗粒度標簽和用戶信用的評估最相關.這些都直接反映了用戶信貸方面的能力.該實驗驗證了采用注意力機制能夠有效地表示出對用戶信用起到重要作用的用戶屬性.

Fig. 6 Visualization of attention values of different dimensions圖6 粗粒度注意力值可視化

由于細粒度的用戶維度過大,在這里本文忽略了對細粒度的attention值的可視化,但是我們仍能觀察到和用戶維度attention可視化相似的現象,能夠有效地學習到在不同維度下不同屬性的重要性.

5.7 參數敏感性實驗

在本節中我們將介紹HAM-UCE中2個重要參數的敏感性分析實驗,具體的實驗結果如圖7所示.

Fig. 7 Parameter sensitivity圖7 參數敏感性實驗

第1個實驗采用的方法主要是評估用戶屬性在進行向量化后,采用不同的向量維數n對實驗效果的影響.本文在40%,60%,80%比例的訓練數據集上進行了實驗,在Precision,Recall,F1-score指標上我們都能觀察到相似的實驗現象,因此在這里為了文章的簡潔性,選用F1-score值來展示最終的實驗結果.從參數敏感性分析圖7(a)中可以看出,用戶屬性向量化維度從25維到50維,隨著向量維度的增加,F1-score的值也逐步增高,這是因為更多的維度可以學習到更多有用的特征信息.但是當向量維度繼續增加時,F1-score的值開始逐漸降低,原因當屬性維度太大時,可能會引入更多維度的空余和噪聲影響,從而降低了實驗性能.因此在實驗中,采用50維作為用戶維度值,HAM-UCE可以達到最佳性能.

第2個實驗是統計在模型訓練過程中,驗證模型參數的收斂速度,從圖7(b)中可以看出,在訓練輪數達到10次左右,HAM-UCE損失函數Loss值快速下降,并逐漸降低達到了收斂狀態,同時地,模型的準確率也逐步達到穩定狀態,說明HAM-UCE具有良好的模型收斂性.

6 總 結

用戶信用越來越廣泛地應用在互聯網的各個領域.與傳統信貸領域的用戶信貸數據不同,互聯網的用戶信用數據類型多樣.如何對互聯網用戶的信用做更好的評估成為一個值得研究的問題.

但是已有的互聯網用戶信用評估的工作,忽略了不同的用戶屬性對用戶信用具有不同的重要性.本文圍繞如何挖掘用戶屬性的重要性,在粗粒度特征維度和細粒度級用戶屬性2個層級上,參考5C原則,構建出符合互聯網用戶的用戶信用畫像.從而在用戶畫像的基礎上,為了進一步挖掘用戶屬性的重要程度,提出粗粒度特征維度和細粒度級用戶屬性2個層級的注意力機制網絡,建立出基于用戶畫像的互聯網用戶的層級注意力機制的用戶信用評估模型(HAM-UCE).在真實數據集上的大量實驗證明,本文所提出的基于用戶信用評估模型能夠取得更好的實驗效果.

本文所提出的方法在用戶行為模式上做了一定的探索,如果將用戶屬性的語義信息和用戶在其他領域的關聯性等信息進行考慮,會進一步增強用戶的特征屬性,這也是未來的研究方向之一.

猜你喜歡
用戶實驗方法
記一次有趣的實驗
做個怪怪長實驗
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 国产精品2| 免费看黄片一区二区三区| 亚洲一区二区无码视频| 先锋资源久久| 色综合天天娱乐综合网| 无码不卡的中文字幕视频| 中文字幕无线码一区| 久久情精品国产品免费| 欧美区一区| a级毛片免费在线观看| 国产在线精彩视频二区| 国产精品久久自在自线观看| 国产又大又粗又猛又爽的视频| 婷婷激情五月网| 国产精品久久久久久搜索 | 亚洲国产亚洲综合在线尤物| 精品一区二区三区四区五区| 欧美成人免费午夜全| 精品第一国产综合精品Aⅴ| 欧美精品亚洲精品日韩专区| 黄色一级视频欧美| 国产91全国探花系列在线播放| 亚洲欧美一区二区三区蜜芽| 欧美爱爱网| 大香伊人久久| 国产精品露脸视频| 91系列在线观看| 一级看片免费视频| 1级黄色毛片| 成年人视频一区二区| 在线免费观看AV| 91精品专区| 欧美日韩va| 亚洲天堂在线免费| 青草娱乐极品免费视频| 久久久久无码精品| 97超爽成人免费视频在线播放| 一本综合久久| 日韩av电影一区二区三区四区| 国产欧美精品一区二区| 日韩第一页在线| 国产精品片在线观看手机版 | 一级毛片免费不卡在线 | 97色伦色在线综合视频| 国产va在线| 国产精品无码AⅤ在线观看播放| 亚洲一级毛片免费观看| 一级全免费视频播放| 亚洲an第二区国产精品| 久久天天躁狠狠躁夜夜2020一| 青青极品在线| 黄色免费在线网址| 中文字幕66页| 乱系列中文字幕在线视频| 欧美国产在线一区| 欧美日韩资源| 成人国产一区二区三区| 毛片视频网址| 精品国产一区二区三区在线观看| 亚洲精品视频网| A级毛片高清免费视频就| 国产成人1024精品下载| 亚洲色图综合在线| 日本免费新一区视频| 亚洲中文无码h在线观看| av一区二区三区高清久久| 亚洲人成在线精品| 1级黄色毛片| 成人一区专区在线观看| 久久久波多野结衣av一区二区| 免费观看亚洲人成网站| av一区二区三区高清久久| 日韩人妻少妇一区二区| 国产精品久久久精品三级| 91人妻在线视频| 欧美不卡视频一区发布| 91视频精品| 亚洲欧美成aⅴ人在线观看| 成人久久精品一区二区三区| 中文字幕日韩丝袜一区| 国产在线一区视频| 色综合狠狠操|