999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多頭注意力機制的BM-Linear信用貸款評估模型

2023-01-27 10:46:10趙雪峰吳德林吳偉偉王世璇
系統管理學報 2023年1期
關鍵詞:特征文本模型

趙雪峰 ,吳德林 ,吳偉偉 ,王世璇 ,龍 森

(1.哈爾濱工業大學(深圳) 經濟管理學院,廣東 深圳 518055;2.哈爾濱工業大學經濟與管理學院,哈爾濱 150001)

因我國國際形式變化及境外貿易摩擦加劇[1-2],為保證市場穩定需提高放貸效率[3-8]。其中,合理選擇信貸評估模型可大幅提高放貸效率[9-11]。目前已衍生出一批優異的信貸模型研究方法,主要包括模型特征選擇和模型結構改進兩個方面。

在模型特征選擇方面的研究有:王馨等[12]探究綠色信貸政策對信用貸款的影響;王性玉等[13]通過Logit及Tobit回歸模型分析農戶貸款發現,高信譽特征能夠有效增加農戶信貸可得性和信貸額度;趙志沖等[14]通過最小顯著差異法確定“年凈收入/省人均GDP”區間在10.02~19.24 內,居住狀況是“共有住房”特征的貸款農戶的違約風險最大;Zh等[15]構建博弈模型研究補貼對貸款的影響;Jiménez等[16]采用結合貸款用戶和放貸機構的固定效應,發現較低的隔夜利率會導致資本水平較低的放貸機構向事前風險較高的貸款用戶發放更多貸款申請等結論。

在模型結構改進方面的研究有:趙雪峰等[7]針對目前貸款評估過程存在特征預處理復雜、受主觀因素干擾、準確率較低等問題,利用Word2Vec及卷積神經網絡(CNN)組建了WV-CNN 信貸評估模型;王小燕等[17]構建logit-quantile模型,并在模型中添加Lasso 懲罰,結果表明,在零膨脹比例為80%及高維情形時,該模型表現最優;Li 等[18]提出基于半參數混合分布的集合模型預測信貸收益率,并通過盈利貸款評估回報風險,最終形成信貸投資組合的優化方法;石寶峰等[19]建立由年齡、非農收入/總收入等13個指標組成的農戶小額貸款信用評級指標體系,并利用熵權法求解評價指標權重,構建了基于ELECTRE III(消去與選擇轉換評價)的農戶小額貸款信用評級模型;遲國泰等[20]從貸款的整體風險和風險分散度兩個方面,構建基于CVaR 和改進熵的全貸款組合優化模型;Liu等[21]提出一種基于梯度提升機的序列集成信用評分模型,該模型利用特征重要性得分去除冗余變量,并采用貝葉斯超參數優化方法自適應調整模型超參數;文忠平等[22]結合信貸機構資本運用效率及風險承受能力,建立風險調整后的資本收益率最大化和風險最小化的多目標行業貸款組合模型,改進了現有貸款組合研究需假設模型約束變量數值的缺陷;Wang等[23]利用Word2vec 將貸款文本轉換為向量,并使用LSTM 網絡預測用戶違約概率;Pang等[9]從貸款客戶類型和違約貸款角度構建基于C5.0 決策樹、CART 決策樹和CHAID 決策樹的貸款違約客戶預警模型。

綜合而言,特征選擇及結構改進等信貸研究已對當下我國經濟復蘇及社會轉型做出巨大貢獻[2,24-25]。但客觀而言,高效放貸依然受如下3 種因素干擾:

(1) 信貸模型應用場景受限。如將 WVCNN[23]應用于農戶信貸預測中,為保證WV-CNN的預測準確率,需構建農戶信貸特征訓練集;同理,若將梯度提升信用評分模型[21]應用于跨境電商用戶,則需構建跨界電商用戶特征的訓練集。由此可見,因為信貸模型與訓練集的對應關系,限制了信貸模型的應用場景,難以實現高效評估[33]。

(2) 離散及缺失特征預處理繁瑣。如logitquantile[17]、基于Logit及Tobit構建的回歸模型[13]等,均利用離散型信貸特征執行信貸評估,但由于離散型特征涉及降維、相似度計算及定性至定量轉換等[26-27],極大地影響信貸評估效率。而且,當涉及缺失特征時,業內缺少統一的特征填充標準,造成主觀填補特征現象,在影響信貸評估效率的同時,甚至影響信貸評估的公正公平。

(3) 信貸文本詞向量固化。有學者為克服離散信貸特征的弊端,已通過信貸文本執行信貸評估。趙雪峰等[7]利用Word2Vec詞向量化信貸文本,并通過卷積神經網絡(CNN)執行信貸預測,但由于Word2Vec等方法是通過詞袋與詞語的對應關系實現向量化,這種固定的對應關系導致模型無法解決一詞多義及通篇理解信貸文本的問題,進而影響信貸評估準確率。

針對上述問題,本文以自然語言處理技術為基礎,組合Bag-of-Words[28-29]與Bert模型[30-31],并添加多元線性激活函數構建信貸評估模型BM-Linear(Linear activation credit loan model based on Bagof-Words and Multi-Head Attention)。詳細地,BM-Linear首先對待評估用戶文本執行包括分詞、去停用詞的預處理;然后,基于Bag-of-Words模型與Multi-Head Attention組合模型,對預處理后的用戶文本執行詞向量化;最后,利用多元線性激活函數對詞向量化后的數據執行激活處理,從而實現貸款評估預測。

此外,為探究BM-Linear是否能有效解決因對應關系造成應用場景受限、離散及缺失特征處理繁瑣以及詞向量固化的問題,首先引入多組不同應用場景下的信貸數據集,并使用核密度估計、參數擬合等方法發現在不同信貸特征下所展現的信貸現象;其次,創造性地提出參數獨立訓練及參數共用訓練兩種訓練方法,發現BM-Linear可有效緩解因對應關系造成的模型應用場景受限及詞向量固化問題;最后,引入多組公認信貸表現優異的評估模型與BM-Linear組成對比實驗,得出BM-Linear在對缺失特征不做處理的情況下,其信貸表現依然領先其他多數模型的結論。

1 模型構建

按照信貸文本在BM-Linear的處理過程,可將BM-Linear分為3個部分,依次為信貸文本預處理、信貸文本詞向量化以及線性激活,整個模型結構如圖1所示。

圖1 BM-Linear模型結構

由于信貸文本包括標點符號、停用詞等無用特征,這類無用特征會干擾信貸評估準確率,占用模型對信貸文本的計算時間,故需利用預處理手段剔除無用特征并規范信貸文本,以提高后續Bag-of-Words及Bert的詞向量化質量。

其中,本文預處理手段共包括5個步驟,依次為文本分詞、去停用詞、去標點、去異性詞及語句重組,在此不再贅述。需要強調的是,BM-Linear核心在于詞向量化,其中詞向量化包括兩個步驟,依次為Bag-of-Words詞向量化及Bert 所包括的Multi-Head Attention詞向量化,在詳細闡述兩個步驟之前,需要先解釋相關理論知識背景及參數。

1.1 背景知識及參數定義

詞袋模型的詞向量化主要基于Huffman編碼及詞袋原理生成Huffman 二叉樹,通過Huffman二叉樹來表示詞對詞之間的關系,進而生成不受詞語在文本中語句順序限制的詞向量[28-29]。

多頭注意力機制主要以注意力模型為基礎而構建,現已被廣泛使用在自然語言處理、圖像識別及語音識別等各種不同類型的深度學習任務中,是深度學習技術中最值得關注與深入了解的核心技術之一[30-31]。進一步,本文多頭注意力機制由6組自注意力機制垛疊組成,為進一步提高詞向量化精準度,在6組自注意力機制后繼續添加殘差連接及前饋神經網絡。

上述各技術專有名詞的詳細解釋如下:

(1)Huffman二叉樹。為了對數據集執行有效劃分,構建出非線性數據結構劃分法,即稱為樹,其中二叉樹是每個結點最多僅有兩棵分支子樹的樹,兩棵子樹分別稱為左子樹和右子樹,若存在一棵二叉樹的路徑長度最小,則稱為Huffman二叉樹。

(2) 結點。結點包括葉子結點、非葉子結點及根結點。其中,根結點是所有結點的起點,非葉子結點表示可執行數據結構劃分的結點,葉子結點與葉子結點相反,表示無法進一步執行數據結構劃分的結點。

(3) 詞典。若干不重復的詞所組成的集合稱為詞典。

(4)自注意力機制 (Self-Attention)。Attention機制是一種從海量數據中選擇與當前任務關聯性更強信息的一種實施手段,Self-Attention是Attention的特殊情況,表示每個單詞需與該單詞之外的其他單詞執行Attention計算。

(5) 前饋神經網絡。一種單向多層結構的神經網絡,每一層包含若干神經元,各神經元可接收前一層神經元的信號,并產生輸出至下一層。其中,第0層稱為輸入層,最后一層稱為輸出層,其他中間層稱為隱藏層。

(6) 殘差連接。將神經元的輸出表述為輸出和輸出的非線性變換的線性疊加,以防止因神經網絡的網絡深度增加而導致信息丟失的一種技巧手段。

1.2 詞向量化

應該了解的是,信貸文本內包括可供放貸機構評估的重要評估信息,若詞向量操作的細膩度低,會直接影響后續信貸預測的準確率,因此,本文將詞向量分為兩個步驟,分別為Bag-of-Words的初次詞向量及Multi-Head Attention的二次詞向量。詞向量化過程如圖2所示。

圖2 BM-Linear的詞向量過程

由圖2可見,BM-Linear的詞向量過程可簡述為:首先接收已預處理完成的信貸詞語集,根據每個信貸詞語在信貸文本的位置及預構建的詞袋,將每個信貸詞語編碼為初級詞向量。進一步,通過6組Self-Attention、殘差連接及前饋神經網絡,將每組初級詞向量執行再次編碼,得到可直接進行線性激活的標準詞向量。

具體地,Bag-of-Words是一種求解詞典?內詞語ω的詞向量,從而完成信貸詞語集的初次詞向量化過程,Bag-of-Words包括輸入層、投影層和輸出層,各層之間的流程如圖3所示。

結合圖3,Bag-of-Words首先遍歷出信貸文本內的信貸詞語,并將每個信貸詞語假設為已知的詞向量,通過求和與反向迭代的方式更新假設出的詞向量。其中,輸入層的主要作用是根據信貸詞語在信貸文本的位置Context(ω),預設信貸詞向量V(Context(ω)),并根據信貸詞語與其他詞語的位置關系,構建得到輸入向量V(Context(ω)1),V(Context(ω)2),…,V(Context(ω)2c)。

圖3 Bag-of-Words詞向量過程

進一步,投射層將所有詞向量累加求和,即

對詞向量進行結點分類,本文約定分到二叉樹左邊為負類,分到右邊為正類,則根據sigmoid函數計算結點被分到正類的概率為

輸出層基于Huffman的二叉樹編碼原則,聯立式(1)及路徑pω內lω-1個分支的概率乘積和,構建條件概率及條件概率的對數似然函數分別為:

聯立式(3)~式(5),可得出對數似然函數恒等式為

設ζ(ω,j)表示式(6)花括號內函數,由式(6)可以發現,條件概率對數似然函數與ζ(ω,j)成正比關系,因此,最優化ζ(ω,j),即可得出對數似然函數最優解為

根據上述推導總結,當輸出層得到映射層的累加向量Xω后,利用式(1)、(8)和式(9),更新詞ω的詞向量V(ω),有

但是由于Bag-of-Words是以詞袋與信貸詞語的一一對應關系實現詞向量的目的,因為對應關系固定,所以導致詞向量固化。這種信貸詞語到詞向量的靜態轉化首先無法解決一詞多義的問題,其次難以通篇理解信貸文本,從而影響后續信貸評估[31]。因此,為實現動態詞向量,引入Bert模型中的Multi-Head Attention 以克服Bag-of-Words靜態詞化所帶來的缺點,以圖2 為參考,細化Multi-Head Attention的詞向量過程,得到圖4。

圖4 Multi-Head Attention詞向量過程

由圖4 可見,多頭注意力機制由多個Self-Attention Layer組成,其中Self-Attention Layer的層數需要根據信貸詞向量的復雜度確定。需要格外說明的是,每個Self-Attention Layer對初級詞向量執行自注意力運算均是并行處理,且不同Self-Attention Layer之間互不影響,因此,根據Self-Attention Layer的層數生成對應數量的注意力向量。例如圖4 中的Self-Attention Layer若有10層,則1組初級詞向量經過多頭注意力機制會生成10組注意力向量。

此外,Self-Attention Layer 除了具有并行計算、互不干擾的優點之外,還能有效捕捉信貸文本之間的順序關系,自動忽略信貸文本信息中大量無用的文字,并篩選出少量重要信貸信息,繼而聚焦到此類重要信貸信息上執行詞向量化,為后續提高信貸預測準確率提供前置基礎[31]。

參閱圖5 關于Self-Attention Layer的自注意力運算,根據Bag-of-Words所得到的初級詞向量z1,z2,…,z i,…,z n,以z1為例展開自注意力運算過程,如下式所示:

圖5 Self-Attention Layer的自注意力運算

根據a1初始化3個矩陣,分別為問題矩陣、鍵值矩陣及搭配矩陣,如下式所示:

需要解釋的是,a1對應q1、k1和v1,以此類推,a i對應q i、k i和v i。下面以問題矩陣q1為例,分別計算與所有鍵值矩陣k1,k2,…,k i,…,k n的乘積,如下式所示:

根據前述可知,注意力向量b1是以問題矩陣q1相乘每個鍵值矩陣為基礎,通過softmax函數激活并相乘搭配矩陣求和得到的矩陣向量,以此類推,依次計算得到與q2對應的注意力向量b2、與q i對應的注意力向量b i,匯總得到信貸詞語集對應的注意力向量集b1,b2,…,b i,…,b n。

結合圖3 可知,Multi-Head Attention 包括多層Self-Attention Layer,每個Self-Attention Layer均生成對應的注意力向量集b1,b2,…,b i,…,b n,若Multi-Head Attention具有10層Self-Attention Layer時,則對應生成10 組注意力向量集b1,b2,…,b i,…,b n。

進一步,結合圖2可知,當得到多組注意力向量集后,依次將每組注意力向量集與初級詞向量組執行殘差連接及歸一化后輸入至前饋神經網絡執行映射計算,并將映射值再一次執行殘差連接及歸一化操作得到標準詞向量組。最后,本文將經過兩次詞向量化所得到的標準向量組執行線性激活,進而得到對應的信貸評估結果。

1.3 基于Pytorch的BM-Linear實現

由于本文所使用的Bag-of-Words 及Multi-Head Attention具有計算量大、復雜度高的特點,難以通過普通程序實現,故結合Pytorch深度神經網絡框架執行BM-Linear部署,Pytorch 是當前最受歡迎的神經網絡實現框架,具有靈活性高、運行速度快、代碼部署簡單清楚等優點[32]。

如圖6所示,根據BM-Linear模型所包括的信貸文本預處理、文本詞向量化及線性激活3個階段,首先,導入numpy、nltk、gensim 和jieba等文本預處理包,并從預處理包中調用split、cut 和stopswords等函數,依次對信貸文本執行切分、分詞、去停用詞等操作,從而完成信貸文本預處理;其次,BM-Linear核心在于Bag-of-Words及Multi-Head Attention,特別地,Multi-Head Attention計算復雜度很高。因此,本文結合Pytorch部署其實現過程。具體地,調用 Wore2 Vec 包構建Bag-of-Words詞向量程序,然后從Hugging Face中下載bert模型的參數包bert-base-chinese,利用Pytorch在bert-base-chinese后接入多元線性激活函數并封裝,最后構建fine-tune 程序訓練得到的BMLinear,從而實現BM-Linear部署。

圖6 BM-Linear的部署邏輯

需要解釋的是,Pytorch不僅具有簡易化實現模型的優點,同時也提供便捷的功能實現函數,如 Feedforward Neural Network 函 數、Skip-Connect函數及歸一化函數等,通過封裝這類功能實現函數,可以形成端到端的BM-Linear模型,從而提高信貸評估流暢性,弱化評估中間過程[32]。

綜合而言,BM-Linear 模型一方面由于使用Bag-of-Words機制,可將信貸詞語進行相似度聚類,提高信貸詞向量化準確率;另一方面,為克服Bag-of-Words因詞袋與信貸詞語的對應關系所帶來的詞向量固化問題,引入Multi-Head Attention實現動態詞向量,規避詞向量固化,從而提高詞向量精準度。

2 實驗驗證

2.1 數據采集及文本合成

研究發現,影響信貸結果的特征具有多樣性。姚宇韜等[33]發現,申請人為女性、家庭負擔越重、健康狀況越差、受教育水平越低、年收入越高、貸款期越長、實際貸款利率越高,則貸款違約概率越高。因此,為確保模型評估公正性,最大化收集不同信貸特征,下載文獻[34-35]中所使用的Bank Marketing Dataset、LendingClub 以 及Default of Credit Card Clients Dataset共3組信貸數據集。其中,Bank Marketing Dataset累計11 162 組、LendingClub累計42 538組、Default of Credit Card Clients Dataset累計30 000組,在執行異常缺失特征的清理、填充及維度消散等操作后,Bank Marketing D ataset剩余10 461 組、LendingClub剩余41 761組、Default of Credit Card Clients Dataset剩余28 603組。最后,文本合成每組數據,得到可用于訓練、測試的BM-Datasets (Datasets used to train and test the BM-Linear model)。

由表1 可以看出,BM-Datasets共有3 組數據集,分別為Bank Marketing Dataset、LendingClub和Default of Credit Card Clients Dataset,每組數據集的信貸特征按照類別均可劃分為基本特征(BF)及財務特征(PF),但每組數據集均有與眾不同的信貸特征,如Bank Marketing Dataset所獨有的參與營銷活動次數特征、LendingClub獨有的征信局記錄的信用產品數、公眾不良記錄數以及Default of Credit Card Clients Dataset的每月賬單金額特征等。可見,不同數據集所關注的信貸特征不盡相同。因此,對于信貸模型BM-Linear而言,不同信貸數據集是否會影響BM-Linear的表現,是本文后續需要研究的內容。

表1 BM-Datasets的信貸特征簡介

此外,根據上述理論構建知,BM-Linear的較佳操作對象是連續性信貸文本,而非表1所示的離散型特征,故將表1中的各信貸特征按照中文語言敘述的規律進行復現。

表2所示為部分語言復現后的文本。例如,信貸文本S1,其對應的離散型特征包括老師(職業)、未婚(婚姻情況)、大專畢業(受教育程度)、市區一套自住房(住房)、兩次(參與營銷活動次數)以及具有存款(賬戶余額)等。通過關鍵字合成技術合成得到“大專畢業的未婚老師,目前有存款,且市區一套自住房,曾兩次參與銀行營銷活動”,從而節約為測試BM-Linear模型而整理信貸文本所花費的時間,提高本文研究效率。

表2 信貸文本部分復現

2.2 特征分析

由于BM-Datasets數據集數量龐大,累加Bank Marketing Dataset、LendingClub 以 及Default of Credit Card Clients Dataset共計超8萬條,為探究如此龐大數據可能產生的信貸現象,首先利用Pandas、matplotlib等數據包分析不同信貸特征對信貸結果的影響。

根據2005~2011年多個地區貸款因素對信貸影響的研究發現[36],年收入支出、貸款者年齡等對信用貸款有重要影響。因此,本文進一步探究不同年齡段所展現的信貸現象。首先使用seaborn、matplotlib.pyplot 及pandas 等 數 據 包,從BMDatasets中依次提取每組信貸年齡,并利用直方圖可視化不同年齡段的信貸比例;其次,參考非參數檢驗方法之一的核密度估計方法[37],擬合上述直方圖得到信貸年齡分布曲線,從而直觀地顯示信貸年齡在信貸中的分布特征(見圖7)。

圖7 核密度估計下信貸年齡趨勢走向

根據核密度估計,未來使用信貸方式解決資金短缺困境的年齡分布段主要集中在[25,40]歲,且在[25,30]階段信貸比例呈陡峭上升,當臨近30歲時,信貸比例達峰值后呈平緩下滑趨勢。由此可見,[25,30]階段的信貸用戶對資金的渴求度最激烈,結合社會現象,該年齡段伴隨初入社會對生活質量需求度的提升、成家立業所需經濟壓力或維持新婚家庭成本開支等,已成為刺激市場消費的主力軍。因此,在當下疫情影響市場經濟并驅動形成國內國際雙循環格局的雙重背景下,政府及信貸機構可采取對該年齡段降低信貸評估門檻的方法,達到快速注入資金至該年齡段的目的,從而加快市場經濟復蘇及雙循環格局的形成。但是否需要針對該年齡段設置違約還款督促措施,以防止因信貸門檻降低所帶來的違約比例上升問題? 為探究該問題,從Default of Credit Card Clients Dataset中提取是否逾期的還貸標簽,得到逾期還貸數據6 636組,準時還貸數據23 364組,逾期與準時分別占總數據集22.1%及77.9%。進一步,利用pandas庫中cut函數,依次計算不同年齡區間在Default of Credit Card Clients Dataset的逾期與準時還貸的占比,并通過占比擬合出隨年齡變化的逾期還貸曲線圖(見圖8)。根據圖8所示,將信貸年齡分為8個區間并可視化出直方圖(底X軸,左Y軸),總體上,不同年齡段準時還貸人數均遠大于逾期還貸人數,屬信貸可控范圍。另外,結合圖7可知,年齡段[26,40]歲是目前貸款主力軍,但伴隨年齡的不斷增加,信貸人數呈規律下降現象。可見,當前經濟背景下,信貸的主要服務人群依然為青中年人群,做好青中年信貸服務尤其重要。但不可否認的是,年齡段影響逾期率,通過逾期擬合曲線發現(頂X軸右Y軸),雖然年齡段[31,35]的信貸人數基數龐大,但信貸違約率最低,信用狀況最優,而剛成年年齡段[20,25]及年長年齡段[50,80]信貸違約率相對最高。總之,逾期率呈現“倆頭違約高,中間違約低”的sin函數現象。

圖8 準時還貸與逾期還貸占比及擬合曲線

因此,對青中年人群降低信貸評估門檻,快速注入資金至該人群,可加快市場經濟復蘇及雙循環格局的形成,但參照逾期率所表現的“倆頭違約高,中間違約低”的sin函數現象,剛成年年齡段信貸需求大。但由于該年齡段違約比例高,應落實一套針對該年齡段的違約還款督促措施,以防止因信貸門檻降低所帶來的違約比例再次攀高的問題。

此外,本文分析了消費額與付款額的關聯分布,并根據關聯分布探究信貸在消費額與付款額之間的承接關系。利用pandas庫的列索引依次提取每個用戶在不同月的消費賬單及支付額度,并通過matplotlib庫中的scatter函數,以月為單位可視化出消費額與支付額的散點圖,如圖9所示。

參考圖9付款額與消費額的散點關系,多數信貸用戶每月付款額均大于實際消費額,且從X、Y軸的坐標數值得出,用戶每月消費額主要集中在[0,400 000]區間,但付款額集中于[0,50 000]區間,理應做到消費與付款的收支平衡,但實際情況卻是消費額遠大于付款額,兩者額度數值比例高達8∶1。因此,多數用戶均利用信貸方式填補消費額缺口,出現了在以消費額背景下支付額與信貸額的“1+7”現象。

圖9 各月消費額與付款額的散點分布

通過“1+7”現象折射出當下信貸用戶消費需求量大,但滿足自身消費需求能力較弱,需要通過信貸維持收支平衡。因此,從政府協調市場的角度而言,在信貸的放款額度上,應通過放貸機構制定與“1+7”現象相匹配的額度值,防止因信貸額度過少帶來信貸用戶消費缺口太大所導致的市場不穩定,或信貸額度過高引發的市場通貨膨脹等問題。

2.3 模型訓練

由于BM-Datasets 包括Bank Marketing Dataset(BM)、LendingClub(LC)以 及Default of Credit Card Clients Dataset(CC)等3種類型的信貸數據集,考慮到不同數據集所包括的特征種類不同,為多角度探究BM-Linear的信貸表現,采用參數獨立訓練和參數共用訓練兩種訓練方法探究模型表現。其中,參數獨立訓練是指按照不同類型的數據集而構建對應數量的BM-Linear,如上述3種類型的信貸數據集,則構建3 組初始參數相同的BMLinear模型,每組BM-Linear模型對應一種類型數據集(簡稱獨立-BM-Linear模型)。以此類推,參數共用訓練即訓練階段只采用一組BM-Linear模型(簡稱共用-BM-Linear模型)同時訓練3 種類型數據集,在訓練階段每組數據集均共用一組BMLinear的內部參數,直至完成訓練,得到可在不同數據集之間通用的BM-Linear模型參數。

綜上所述,利用Pytorch框架首先構建出4組初始參數相同的BM-Linear。其中,3組作為獨立-BM-Linear用來執行參數獨立訓練,第4組作為共用-BM-Linear用來執行參數共用訓練。然后,按照訓練集與測試集8∶2的數量比,依次接收文本化之后的BM、LC及CC執行訓練,如圖10所示。

由圖10可見,當利用BM、LC 及CC 這3組數據集依次完成BM-Linear的參數獨立訓練及共用訓練后,發現獨立訓練下的BM-Linear評估錯誤率相比于共用訓練有較大幅度降低,且錯誤率會因訓練集變化伴有波動性,其中在BM 訓練場景下模型表現最優,錯誤率可降低至7%左右。與獨立訓練相比,共用訓練下的BM-Linear因需同時滿足3組數據集的標簽要求,導致訓練時相鄰散點錯誤率變化大,訓練過程具有波動性,最終錯誤率約為16%。

2.4 模型測試及對比

當BM-Linear訓練完成后,為探究其實際表現構建各模型對比實驗。一方面,根據文獻[38-39]中的研究,引入隨機森林、XGBoost及AdaBoost等模型進行對比實驗;另一方面,為探究詞向量固化是否會造成評估準確率下降的問題,根據文獻[7,23]中的研究,組合Word2Vec與線性激活函數得到Word2Vec-Linear,經對比得到如下結論。

如表3所示,BM-Linear利用信貸文本可直接執行信貸預測,無需通過平均值、眾數填充等方法處理信貸文本中缺失特征,從而降低人為填充特征的主觀因素干擾,且BM-Linear在對缺失特征不做填充處理的情況下,每組測試準確率依然領先其他模型。可見,其信貸評估依然優異。綜合面言,BMLinear在提高信貸評估準確率的同時,也弱化缺失特征的處理步驟,可有效提高信貸評估效率,縮減信貸資本回流至個人的時間。

表3 各模型測試表現 %

此外,BM-Linear相比于其他模型,可直接進行參數共用訓練,即多組數據集共用一組BMLinear模型參數,且參數共用訓練的BM-Linear測試準確率依然領先多元線性回歸模型,信貸預警表現較為優異。從實際意義而言,當僅使用一套模型可完成對不同特征數據的信貸預測時,即解決信貸模型受限于應用場景的問題,可有效加快信貸評估效率。例如,居民A 和B 提供至信貸機構的信貸特征具有差異性,但利用相同模型即可完成兩個不同特征居民的信貸評估,極大地減少了居民A 或居民B再次收集特征或信貸機構重新訓練信貸模型的時間,從而進一步提高信貸評估效率、加速資金回流盤活周期,在當下打造國內外雙循環背景下具有重要意義。

最后,相比于 Word2Vec-Linear,由于BMLinear添加了多頭注意力機制,解決Word2Vec向量化過程詞袋與信貸詞語的對應關系限制,將靜態詞向量過渡為動態詞向量,解決不能根據全篇文本及一詞多義實現詞向量化過程,從而提高基于信貸文本的信貸預測準確率。

3 結論

合理構建及選擇信貸評估模型,可加快個人信用貸放貸效率、縮減放貸評估時間,防止因經濟下滑帶來居民生活成本提高及資金周轉困頓問題。本文以自然語言處理技術為基礎,通過Pytorch框架組合Bag-of-Words及Bert中的多頭注意力機制,添加多元線性激活函數構建得到信貸評估模型BMLinear,其后引入多組不同類型的信貸數據集并結合其他信貸模型進行實驗驗證。

本文的貢獻體現在:

(1) 弱化模型與訓練集的對應關系,解決了應用場景受限問題。BM-Linear在實現參數共用訓練下,其預測準確率依然高于多元線性回歸,對比XGBoost及AdaBoost等模型僅接收離散信貸特征,導致與訓練集具有嚴格對應關系,無法實現參數共用訓練而言,BM-Linear在保證預測精度的同時,擴大了信貸模型的應用場景,極大地減少了因反復訓練模型所帶來的資源消耗問題,從而提高信貸評估效率。

(2) 忽略缺失特征并將離散特征轉為信貸文本,解決了預處理繁瑣問題,提高了信貸評估效率。BM-Linear在不處理缺失特征的情況下,可利用信貸文本執行評估,且評估準確率依然領先其他多數模型。與按照特征補齊、定量、歸一化、降維及預測的傳統信貸評估流程相比,BM-Linear在保證信貸評估準確率的前提下,進一步提高信貸評估效率、縮減信貸資本回流至個人的時間周期。

(3) 利用多頭注意力機制解決詞向量固化問題,提高了信貸評估準確率。BM-Linear 引入Multi-Head Attention,克服因詞袋與信貸詞語的對應關系所帶來的詞向量固化,導致難以理解一詞多義及整體信貸文本的問題。與僅利用靜態詞向量如Word2Vec構建的Word2Vec-Linear等相比,BMLinear實現了動態詞向量,提高了詞向量化精準度,進而評估準確率相比靜態信貸模型大幅提高。

本文提出一種信貸評估新模型BM-Linear,可提高信貸場景應用范圍,并簡化離散及缺失特征處理步驟,達到降低信貸評估操作成本的目的。另外,BM-Linear將靜態詞向量轉為動態詞向量,進一步提高評估準確率。綜上所述,本文可為放貸機構及政府多提供一種信貸評估可選模型。

猜你喜歡
特征文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 欧美h在线观看| 久久国产毛片| 久久美女精品国产精品亚洲| 国产靠逼视频| 欧美高清三区| 四虎成人精品在永久免费| 中文字幕首页系列人妻| 婷婷激情五月网| 亚洲无码四虎黄色网站| 亚洲精品在线91| 伊在人亚洲香蕉精品播放 | 尤物在线观看乱码| www.av男人.com| 无码又爽又刺激的高潮视频| 亚洲国产日韩一区| 免费久久一级欧美特大黄| 在线综合亚洲欧美网站| 久久国产精品无码hdav| 国产精品刺激对白在线| 人妻无码一区二区视频| 久久频这里精品99香蕉久网址| 日韩天堂网| 国产午夜看片| 伊人精品成人久久综合| 亚洲无码在线午夜电影| 国产喷水视频| 99久久精品免费观看国产| 亚洲视频免| 久久一级电影| 欧美性精品| 国产精品极品美女自在线| 欧美日韩动态图| 成·人免费午夜无码视频在线观看 | 色屁屁一区二区三区视频国产| 国产精品久久久久久久伊一| 制服丝袜无码每日更新| 亚洲色图欧美视频| 国产欧美日韩18| 国产美女自慰在线观看| 国产精品亚洲天堂| 无码内射在线| 91精品视频播放| 日本五区在线不卡精品| 亚洲看片网| 国产h视频在线观看视频| 久久精品国产一区二区小说| 日韩毛片在线播放| 欧美亚洲国产日韩电影在线| h视频在线播放| 亚洲va欧美va国产综合下载| 天堂久久久久久中文字幕| 54pao国产成人免费视频| 国产手机在线小视频免费观看| 国产丝袜第一页| 丰满人妻一区二区三区视频| 伊人激情综合| 99热这里都是国产精品| 97国产成人无码精品久久久| 亚洲三级电影在线播放| 亚洲色偷偷偷鲁综合| 国产在线视频二区| 久久无码av三级| 日韩精品高清自在线| 真实国产精品vr专区| 天天色天天综合网| 国产成人啪视频一区二区三区| 色综合五月| 国内精品免费| 成人在线综合| 国产午夜在线观看视频| 久久精品66| 成年av福利永久免费观看| 国产乱子伦精品视频| 日本在线视频免费| 99精品福利视频| 成人免费网站久久久| 国产免费羞羞视频| 精品日韩亚洲欧美高清a| 亚洲精品天堂在线观看| 欧美区一区| 亚洲bt欧美bt精品| 日本在线免费网站|