999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于核SVM的銀行客戶分類研究

2021-06-15 15:13:04倪非凡趙黎麗謝立
中國市場 2021年13期

倪非凡 趙黎麗 謝立

[摘 要]人工智能技術為金融行業的發展帶來更多的機遇。針對銀行客戶潛在價值的分析與發掘,幫助金融機構制定合理的策略,處理客戶關系。文章面向真實銀行數據集,提出基于支持向量機(SVM)模型的客戶分類方法,并引入核函數來增強SVM的擬合能力,通過與K-means、隨機森林、決策樹等傳統機器學習分類算法進行實驗分析比較,結果表明,基于核函數的SVM算法具有良好的效果,能準確地實現客戶分類,更有助于加強對客戶的了解。

[關鍵詞]SVM;核函數;銀行客戶分類

[DOI]10.13939/j.cnki.zgsc.2021.13.017

1 引言

隨著信息技術的發展,銀行等金融機構對智能信息分析技術的依賴逐漸增加。客戶的分類分析有助于金融機構對客戶進行資源整合、價值發掘以及關系管理,從而為金融機構實現利益最大化提供幫助。但大部分金融機構僅僅注重客戶資產等基本的屬性,不能發掘客戶的潛在特征,這是銀行發展現狀的短板,需加強與高新技術的結合,利用大數據、人工智能等新技術,為進一步探索客戶特征提供可能。

目前在銀行領域應用SVM算法進行客戶分類的研究成果還不多見。為了使得金融行業能夠更加準確地把握客戶信息,增強客戶管理能力,實現客戶的精準分類,文章首先將銀行客戶真實數據進行清洗,并進行數據集劃分;其次,在SVM模型中引入核函數,增強SVM模型的泛化能力;最后,進行模型的性能測試。同時對分類結果進行分析,與幾個常用的機器學習算法在分類準確度上進行比較,并從健壯性和性能角度綜合評價了SVM模型,結果表明,引入核函數的SVM模型具有良好的分類能力。

2 基于核SVM的銀行客戶算法

文章采用SVM算法對銀行客戶進行分類分析研究,同時引入核函數加強SVM的分類能力。

SVM是一種二分類機器學習模型,其本質上為定義在特征空間上的最大間隔分類器,當SVM算法增加核函數后,其實質上變為非線性。SVM的目的是找到最大間隔的分類界限。

設樣本集合X={X1, X2, X3, …, Xn}中包含正樣本和負樣本兩類樣本,樣本Xi(i=1, 2, 3, …, n)對應標簽yi(i= 1, 2, 3, …, n), yi具有兩種取值,當yi=1時,表示yi屬于正樣本;當yi=-1時,表示yi屬于負樣本。樣本集合X可分為線性可分和線性不可分兩種類型,下面分別針對不同類型進行簡要說明。

2.1 樣本線性可分

直接對樣本集合X進行分類。超平面α為分類對間隔,表達式如下所示:

ω×a+b=0 (1)

其中,ω為超平面α的法向量。a為系數,b為任意常數。此時分類問題轉變為尋找最優的超平面α,即尋找最優系數a和最優常數b,使SVM具有最好的分類效果,該最優問題可以歸結為下面公式:

min‖ω2‖2+ρnk=1ζk(2)

s.t.Yk(ω2·Xk+b)≥ζk, ζk≥0, k=1, 2, 3, …, n(3)

其中,ρnk=1ζk是損失項,ρ為損失系數。

根據式(2)和式(3)構建拉格朗日函數,由于不容易直接求得原問題的解,但與其對偶問題有相同的最優解,因此該問題的解可由其對偶問題求得:

max f(γ)=L(ω, b, γ)=nk=1γk-12nk-1nl=1γkγlYkYlXTkXl(4)

s.t.nk=1γkYk=0, 0<γk<ρ(5)

假設拉格朗日乘子γ*k的最優值根據式(4)和式(5)求得,那么原問題的最優解由下式表示:

ω0=nk=1γ*kYkXk(6)

b0=1n1+n2n1k=1(1-ω0X(s1)k)+n2k=1(-1-ω0X(s2)k)(7)

其中,X(s1)k為正樣本中的第k個支持向量,n1為正樣本中支持向量的總個數,X(s2)k為負樣本中第k個支持向量,n2為負樣本中支持向量的總個數。

首先將SVM分類器進行樣本訓練,然后將實時數據輸入到SVM中,根據下式可計算輸出樣本的類別:

L(ω0X(t)+b0)=1,X∈T-1,X∈F(8)

其中,X(t)為測試樣本,T表示該樣本屬于正樣本,F表示該樣本屬于負樣本。

2.2 樣本線性不可分

當分類樣本線性不可分時,需將每一個樣本的維度進行升高,在高維空間實現線性可分。

此時式(4)和式(5)變為如下形式:

max f(γ)=nk=1-12nk=1nl=1γkγlYkYlψ(Xk)Tψ(Xl)(9)

s.t.nk=1γkYk=0, 0<γk<ρ(10)

其中,ψ為線性空間變換,樣本Xk的映射結果為ψ(Xk)。 令P(Xk, Yl)=ψ(Xk)Tψ(Yl), Qk, l=YkYtP(Xk, Xl), 代入式(9)和式(10)得到如下公式:

min(12γTQγ-eTγ)(11)

s.t.YTγ=0, 0≤γk≤ρ(12)

其中,Q稱為核函數。

文章選取了真實的銀行客戶數據,具有多維特征,屬于樣本線性不可分數據類型,因此需要引入核函數解決此問題。通過選取核函數,可實現樣本從低維向高維空間轉換,并求解式(11)和式(12)。

3 算法框圖

本研究主要采用SVM算法實現對銀行用戶的分類,首先對客戶數據進行預處理,然后輸入訓練數據對SVM分類器進行模型訓練,再將測試數據輸入分類器進行測試,最后對分類結果進行了分析。整體的框架如圖1所示。

4 實驗分析

4.1 數據集描述

文章的權威數據集來自某銀行的真實客戶信息[1]。包含年齡、工作類型、婚姻狀況、文化水平、是否有負債、年收入、有無房貸、有無個人貸款等信息。

原始數據中眾多特征是離散型的變量,同時存在缺失值,這些因素對實驗結果產生重大影響,因此對原始數據進行了預處理。首先去除數據集中的缺失值,其次對離散數據進行預熱處理。將整個數據劃分為訓練集和測試集,分別存儲于不同的文件中,便于讀取。

4.2 數據預處理

對數據集中所有的特征均采用預熱處理,具體來說,將年齡分成4個類別,將年收入分成5個類別,將每年最后一次聯系的月份情況分為3個類別,將距離上一次聯系客戶的天數的相關情況分為5個類別,將在此活動之前和此客戶執行的聯系人數的相關情況分為4個類別。

4.3 評價指標

本研究比較了SVM、K-means[2-4]、決策樹(Decision Tree)[5]、隨機森林(Random Forest)[6]四種常見機器學習分類模型的性能,涉及的實驗均使用python語言編譯,8核CPU下運行,編譯環境為jupyter notebook。

其中SVM采用了不同類型的核函數,具體情況如表1所示。

研究采用準確率(accuracy)、精確率(precision)、召回率(recall)評價各模型的預測性能,計算公式如下。

其中,TN表示將負類預測為負類的數量,FP表示將負類預測為正類的數量,FN表示將正類預測為負類的數量,TP表示將正類預測為正類的數量。

5 實驗結果

本小節主要從模型的分類準確度、模型效率以及模型健壯性角度對SVM以及各類常見分類算法進行了對比說明。

5.1 模型分類的準確度

SVM具有較高的準確率和較低的損失,其中引入poly核函數的SVM具有最高的準確率、精確率和召回率,具有最低的損失,因此具有最好的分類效果。引入poly核函數的SVM模型的準確率達到93%,精確率達到88%,召回率達到34%,損失僅為2.79,同時引入rbf核函數、sigmoid核函數和linear核函數的SVM模型的準確率依次為91%、89%和89%,精確率分別為70%、68%和66%,召回率依次為20%、28%和17%,分類損失依次為3.35、3.60和3.64,證明了SVM在二分類問題上具有很強的適應能力,也很大程度上得益于選取的核函數。在本研究中,選取poly核函數的SVM分類器分類效果最佳。

5.2 魯棒性分析

數據采集的過程中受不可抗拒因素的影響,導致部分數據出現缺失或收集到無關數據的情況,實驗階段首先對數據進行了預處理,補全了缺失值,去除了無關數據,理論上更具理想化,與真實數據存在一定差異。為了說明模型對真實數據同樣具有較強的擬合能力,進行了健壯性分析,即隨機在訓練集和測試集上加入不同比例的噪聲后進行預測,模型預測結果如表2所示。

結果表明,增加噪聲后,SVM-poly模型當分類準確率略微有所降低,從93%稍稍降低到85%,損失略微有所升高,從2.79稍稍升高到3.23,因此,SVM模型原始數據具有魯棒性。

5.3 模型性能分析

為了更加全面地評估各模型的分類能力,分別計算了各模型在訓練和預測時所需的時間,如表3所示。

6 結論

文章采用SVM模型對銀行客戶進行了分類分析,引入核函數,并與常見機器學習分類算法K-means、決策樹和隨機森林進行了對比研究,從分類的準確度、健壯性以及性能方面進行了詳細的分析,充分證明了SVM分類算法在二分類問題上的優越性,并得到如下結論。

(1)在分類準確度方面,準確率提升了2.20%~46.77%,精確度平均提升20.70%,召回率平均提升53.84%,分類的損失平均降低22.61%。

(2)在健壯性方面,SVM-poly模型在添加不同噪聲的數據集上依然能夠準確地分類,準確率僅僅稍微有些降低。

(3)在時間效率方面,SVM-poly稍微耗費時間,這可能是由于SVM模型本身的計算較為復雜,同時引入了核函數的緣故。

綜上,在二分類問題上,SVM模型具有較強的分類能力。加入合適的核函數會加強SVM模型的分類能力,但依然存在進步的空間。隨著經濟的發展,金融行業與信息技術緊密結合,將機器學習算法應用到實際中,可以為金融行業帶來更多的機遇。

參考文獻:

[1]https://archive.ics.uci.edu/ml/machine-learning-databases/00222/[Z].2020-08-27.

[2]謝修娟,李香菊,莫凌飛.基于改進K-means算法的微博輿情分析研究[J].計算機工程與科學,2018,40(1):155-158.

[3]郭璘,周繼彪,董升,等.基于改進K-means算法的城市道路交通事故分析[J].中國公路學報,2018,31(4):270-279.

[4]周本金,陶以政,紀斌,等.最小化誤差平方和k-means初始聚類中心優化方法[J].計算機工程與應用,2018,54(15):48-52.

[5]KIM Y H,KIM M J,SHIN H J,ET AL.MRI-based decision tree model for diagnosis of biliary atresia[J].European Radiology,2018.

[6]XIA J,GHAMISI P,YOKOVA N,ET AL.Random forest ensembles and extended multi-extinction profiles for hyperspectral image classification[J].IEEE Transactions on Geoence & Remote Sensing,2018(1):1-15.

[作者簡介]倪非凡(1998—),女,漢族,浙江杭州人,研究方向:經濟統計、數據分析等。

主站蜘蛛池模板: 国产乱子伦手机在线| 国产精品自在线天天看片| 国产网站一区二区三区| 久无码久无码av无码| 无码内射中文字幕岛国片| 丝袜亚洲综合| 91日本在线观看亚洲精品| 亚洲欧美综合另类图片小说区| 99久久精品国产综合婷婷| 呦系列视频一区二区三区| 国产黑人在线| 亚洲黄色成人| 亚洲va视频| 99久久精品免费看国产免费软件 | 久久精品只有这里有| 国产又色又刺激高潮免费看| 亚洲91在线精品| 欧美啪啪视频免码| 午夜福利在线观看入口| 毛片网站在线看| 黄色网在线免费观看| 久久国产乱子伦视频无卡顿| 伦精品一区二区三区视频| 成人午夜天| 久久亚洲AⅤ无码精品午夜麻豆| 久久女人网| 在线观看欧美国产| 久久伊人操| 国产黄在线观看| 欧美亚洲中文精品三区| 亚洲福利一区二区三区| 国产JIZzJIzz视频全部免费| 四虎影视无码永久免费观看| 国产欧美性爱网| 成人在线不卡视频| 毛片a级毛片免费观看免下载| 精品伊人久久久久7777人| 青草视频免费在线观看| 91精品国产丝袜| 中文字幕亚洲另类天堂| 91伊人国产| 狼友av永久网站免费观看| 日韩美毛片| 亚洲天堂免费在线视频| 好紧好深好大乳无码中文字幕| 伊人激情综合网| 美女无遮挡被啪啪到高潮免费| 欧美在线伊人| 永久成人无码激情视频免费| 国产永久免费视频m3u8| 国产成人喷潮在线观看| 久久精品中文字幕免费| 亚洲av无码专区久久蜜芽| 亚洲一区黄色| 日本高清成本人视频一区| 色婷婷综合激情视频免费看 | a国产精品| 欧美在线精品一区二区三区| 国产99精品视频| 亚洲男人天堂网址| 国产成人无码播放| 欧美精品1区| 国产一区二区福利| 五月天综合婷婷| 欧洲av毛片| 国产视频欧美| 国产在线拍偷自揄拍精品| 国产女人水多毛片18| 成人免费午间影院在线观看| 日韩成人高清无码| 国产在线精品99一区不卡| 久久9966精品国产免费| 夜夜操天天摸| 国产91熟女高潮一区二区| 成人年鲁鲁在线观看视频| 91无码人妻精品一区| 黄色成年视频| 91午夜福利在线观看精品| 日韩成人午夜| 91免费观看视频| 日本午夜视频在线观看| 大陆国产精品视频|