999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于K-means算法的企業信用無監督分類研究

2021-09-14 00:14:25施天虎韋詩玥
電腦知識與技術 2021年22期
關鍵詞:分類

施天虎 韋詩玥

摘要:企業信用分類的應用,能夠為商業銀行降低信貸業務的風險,隨著市場競爭的不斷加劇,機器學習和大數據的應用,越來越多的計量方法不斷革新,并廣泛運用到信用分析領域。本文設計了一個基于K-means算法的企業信用無監督分類方法,通過對企業信息進行大數據分析,提取企業信用相關的內容,再使用K-means算法對企業數據進行聚類,對目標企業根據其聚類所在簇來評估信用等級,以此對企業的信用進行分類。

關鍵詞:企業信用;信貸風險;K-means算法;分類;特征選擇

Abstract: The application of corporate credit classification can reduce the risk of credit business for commercial banks. With the continuous intensification of market competition, the application of machine learning and big data, more and more measurement methods continue to innovate and are widely used in the field of credit analysis. This paper designs an unsupervised classification system for corporate credit based on the K-means algorithm. Through big data analysis of corporate information, the content related to corporate credit is extracted, and then the K-means algorithm is used to cluster the companies, and the target companies are based on their The clusters where the clusters are located are used to evaluate the credit rating and thus classify the credit of the enterprise.

Key words: Corporate credit; Credit Risk; K-means algorithm; classification; Feature selection

1引言

金融行業積累了大量的企業脫敏數據信息,企業的有效劃分及標識在企業信用評估、企業風險監測中具有重要作用并受到各大平臺的重點關注[1]。金融場景中企業作為信貸主體的數據覆蓋互聯網、政府、線上應用等來源的方方面面,數據量大,來源廣泛、涉及企業的維度豐富[2]。企業信用分類的應用,為商業銀行降低企業信貸業務風險,創新風險管理理念,探索出一條行之有效的解決辦法[3]。隨著大數據、人工智能的發展和市場競爭日益加劇,大量基于機器學習的信用評估分類方法提出并廣泛應用于企業信用分析[4]。本文將企業脫敏數據信息進行特征選擇,提取信用分類相關的內容,再使用K-means算法對數據進行聚類,按聚類簇劃分信用等級。

2 關鍵技術

2.1 K-means算法

2.2 特征選擇

特征選擇是重要的數據預處理方法,在數據中選出重要特征可以降低數據維度、去除多余的變量,提高算法的精度和效率。

本文使用皮爾森相關系數[6]對數據進行特征選擇,皮爾森相關系數能夠獲取特征和變量之間的線性相關系,其計算公式如下:

3 基于K-means算法的企業信用無監督分類

3.1 提取相關特征

計算數據所有特征與信用分類的皮爾森相關系數,根據結果判斷該特征是否與信用分類相關。設企業的信用類別為C={x1,x2,...,xn},特征項為T={t1,t2,...,tn},相關閾值為x,當該特征項與信用類別的皮爾森相關系數大于閾值x即滿足下式時選用該特征。

3.2 使用K-means算法聚類

在選取到相關特征后,使用K-means算法對企業數據進行聚類。K-means算法聚類效果的好壞很大程度上取決于初始聚類中心的選擇,若選取的K個中心點中有離群點或者各中心點相互距離較近,則常導致聚類的效果不佳。針對這個問題,本文使用基于最大距離和密度相結合的初始中心選取方法。其過程如下:

Step1:設置密度閾值q,隨機選擇一個樣本密度小于q的點作為第一個初始中心點K1。

Step2:在所有滿足樣本密度的點中,選擇離K1最遠的點作為第二個初始中心點K2。

Step3:同上方法尋找第三個點,以此類推,直至獲得K個初始中心點。

用此方法可以使聚類初始中心間的距離較大,且避免存在離群點。

在將數據進行聚類后得到K個簇,以簇內企業數據占比最多的信用類別來表示該簇的類別,對目標企業計算其到各簇中心的距離,距離最近簇所表示的信用類別即表示對該企業預測的信用類別。

4 實驗與分析

本文采用浪潮公司發布的企業脫敏數據進行仿真實驗,從數據集中取1萬條數據,數據集共36個特征。實驗結果如下圖所示:

從圖1可以看出,在K取值為5時,本文算法擁有最佳準確率,表示分類效果最好。

5結束語

本文設計了一個基于K-means算法的企業信用無監督分類方法,首先提取企業信息中與信用分類相關的特征,再將企業數據使用改進中心點選取的K-means算法進行聚類,通過判斷目標企業所在簇判斷其信用類別,為企業信用評估提供參考。

參考文獻:

[1] Simon Rogers,MarkGirolami.機器學習基礎教程[M].郭茂祖,譯.北京:機械工業出版社,2014.

[2] 李恩,劉立新.小微企業信用評價指標體系研究綜述[J].征信,2013,31(1):67-70.

[3] 張杏枝.基于機器學習的信用評分模型研究[D].重慶:西南大學,2019.

[4] 張萌.基于層次分析法的商務領域企業信用評價模型的構建[J].中國商論,2019(14):232-233.

[5] 黃曉輝,王成,熊李艷,等.一種集成簇內和簇間距離的加權k-means聚類方法[J].計算機學報,2019,42(12):2836-2848.

[6] 馬克勤,楊延嬌,秦紅武,等.結合最大最小距離和加權密度的K-means聚類算法[J].計算機工程與應用,2020,56(16):50-54.

【通聯編輯:梁書】

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 99热这里只有精品久久免费| 手机在线免费不卡一区二| 亚洲激情99| 国产精品第一区| 黄色网址免费在线| 亚洲精品无码专区在线观看| 国产一区自拍视频| 午夜性爽视频男人的天堂| 在线看免费无码av天堂的| 日本三区视频| 97国产在线视频| 91免费国产高清观看| 成人福利在线免费观看| 91视频日本| 久久伊人操| 国产网站一区二区三区| 人禽伦免费交视频网页播放| 无码中文字幕精品推荐| 午夜三级在线| a级毛片免费网站| 亚洲毛片一级带毛片基地| 亚洲成aⅴ人片在线影院八| 亚洲色大成网站www国产| 国产精品视频猛进猛出| 亚洲国产中文综合专区在| 蜜桃视频一区二区三区| 日本一区高清| 日本少妇又色又爽又高潮| 免费看一级毛片波多结衣| 在线观看的黄网| 亚洲精品无码专区在线观看| 国产成人1024精品下载| 女人18一级毛片免费观看| 中文字幕乱码二三区免费| 高清欧美性猛交XXXX黑人猛交| 亚洲国产精品人久久电影| 亚洲综合精品第一页| 91黄视频在线观看| 日日拍夜夜操| 97色婷婷成人综合在线观看| 国产在线第二页| 日韩A级毛片一区二区三区| 免费99精品国产自在现线| 亚洲三级片在线看| 色综合日本| 三级国产在线观看| 人妻91无码色偷偷色噜噜噜| 国产成人免费手机在线观看视频| 久久五月天综合| 亚洲午夜福利在线| 狠狠色婷婷丁香综合久久韩国| 国产高清在线精品一区二区三区| 污网站免费在线观看| 青青青国产免费线在| 国产精品无码AV中文| 亚洲色图欧美| 亚洲AV一二三区无码AV蜜桃| 国产一区二区三区在线精品专区| 日韩精品一区二区深田咏美| 亚洲第一福利视频导航| 巨熟乳波霸若妻中文观看免费| 91福利在线观看视频| 亚洲精品卡2卡3卡4卡5卡区| 国产麻豆精品久久一二三| 国产幂在线无码精品| 欧美日韩在线亚洲国产人| 日韩小视频在线播放| 国产小视频在线高清播放| www.91在线播放| 国产小视频在线高清播放| 久久亚洲国产最新网站| 国产一在线观看| 亚洲无码久久久久| 99激情网| 国产午夜无码片在线观看网站| 九色国产在线| 久热精品免费| 在线网站18禁| 萌白酱国产一区二区| 国产精品冒白浆免费视频| 99热这里都是国产精品| 国产精品久久精品|