999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Isomap融合樸素貝葉斯分類器的信用預(yù)測

2021-02-28 11:53:54許義仿陳晉李林張波司思思
電腦知識與技術(shù) 2021年35期

許義仿 陳晉 李林 張波 司思思

摘要:因?yàn)榻鹑跀?shù)據(jù)存在海量、高維度、非線性的特點(diǎn),所以如何選擇原始數(shù)據(jù)中的本質(zhì)特征關(guān)系到分類器的精度。本文提出了一種基于Isomap算法的樸素貝葉斯分類器。該算法的核心本質(zhì)是對高維大樣本的金融數(shù)據(jù)運(yùn)用Isomap算法進(jìn)行降維處理,進(jìn)而在此基礎(chǔ)上運(yùn)用樸素貝葉斯分類算法進(jìn)行分類。選取1069家公司的財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行實(shí)證分析,結(jié)果證明該分類器的預(yù)測準(zhǔn)確率優(yōu)于樸素貝葉斯分類器。

關(guān)鍵詞:Isomap;樸素貝葉斯;信用風(fēng)險(xiǎn)評估

中圖分類號:TP311 ? ? ?文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2021)35-0125-02

1 引言

信用評估指的是信用評估機(jī)構(gòu)使用專家判斷和數(shù)學(xué)分析方法, 對企業(yè)或個(gè)人履約各種承諾能力、詳細(xì)評價(jià)其信譽(yù)程度, 并用簡潔的文字或符號表達(dá)出來,進(jìn)而滿足贖回需要的市場行為。

鑒于此,本文在現(xiàn)有的研究基礎(chǔ)上針對非線性、高維度的財(cái)務(wù)數(shù)據(jù)提出了基于Isomap的樸素貝葉斯(ISOMAP-NB)信用評估模型, 把數(shù)據(jù)降維當(dāng)成數(shù)據(jù)預(yù)處理中的一步,簡化了樸素貝葉斯分類模型的結(jié)構(gòu), 并選取了1069家企業(yè)的財(cái)務(wù)指標(biāo)數(shù)據(jù)集進(jìn)行實(shí)證研究,結(jié)果證明該模型好于樸素貝葉斯分類模型,在企業(yè)信用預(yù)測方面提高了預(yù)測的準(zhǔn)確率。

2 ISOMAP-NB模型

2.1 Isomap 算法

Isomap算法是在多維尺度變換(MDS)的根基之上,力圖保持?jǐn)?shù)據(jù)點(diǎn)的內(nèi)在幾何性質(zhì),也就是說保持2點(diǎn)間的測地距離。

Isomap算法步驟如下[1]:

步驟1 算出樣本點(diǎn)之間的歐氏距離矩陣, 構(gòu)建鄰域關(guān)系圖[GV,E],對每個(gè)[xi(i=1,2,...,N)]計(jì)算其[k]近鄰[xi1,xi2,…xik], 記為[Nj], 以點(diǎn)[xi]為定點(diǎn), 歐氏距離[d(xi,xij)]為邊, 建立鄰域關(guān)系圖[GV,E]。

確定近鄰點(diǎn)有2種方法:

i) 利用[ε-]近鄰法, 如果[xi-xj2≤ε],則點(diǎn)對[xi,xj]可視為近鄰點(diǎn).

ii) 利用[k-]近鄰法, 事先給定近鄰個(gè)數(shù)[k], 然后確定近鄰點(diǎn)。

步驟 2 計(jì)算測地距離[D=(dij)n×n],在近鄰關(guān)系圖[GV,E]中尋找最短路徑,即:

[dij=dij?xj∈Ni or xi∈Nminkdij,dik+dkjotherwise]

步驟3 對距離[D=(dij)N×N]運(yùn)用古典MDS方法,求出最低維嵌入[Y={y1,y2,...,yN}]。

2.2 樸素貝葉斯分類算法

樸素貝葉斯的分類說明步驟如下[2-4]:

(1) 把每個(gè)數(shù)據(jù)樣本數(shù)值化,用一個(gè)[n]維特征向量[X={x1,x2...xn}]表示樣本屬性的[n]個(gè)度量。

(2) 假定[m]個(gè)類[C1,C2,...,Cm]。給定一個(gè)待分類的樣本[X], 根據(jù)貝葉斯定理可得樣本[X]的概率為:

[P(Ci|X)=P(X|Ci)P(Ci)P(X)]

(3) 由于[P(X)]對所有類都是常數(shù),即只需[P(X|Ci)P(Ci)]最大。假如類的先驗(yàn)概率不明,則通常情況下這些類是等概率的。即[P(C1)=P(C2)=...P(Cm)],所以只需[P(X|Ci)]為最大。

(4) 為了計(jì)算[P(X|Ci)],我們往往做類條件獨(dú)立的樸素假定. 則:

[P(X|Ci)=k=1nP(Xk|Ci)]

即概率[P(X1|Ci),P(X2|Ci),…P(Xn|Ci)]由訓(xùn)練樣本估計(jì),其中:

i) 如果[Ak]是分類屬性,則:

[P(Xk|Ci)=SikSi]

其中[Sik]是屬性[Ak]上具有[Xk]的類[Ci] 的訓(xùn)練樣本數(shù), 而[Si]是[Ci]中的訓(xùn)練樣本數(shù);

ii) 假如是連續(xù)屬性, 則往往假設(shè)該屬性服從高斯分布。 因而:

[P(Xk|Ci)=g(xk,uci,σci)=12πσcie(x-uci,)22σci2]其中給定類樣本的[Ci]的訓(xùn)練樣本屬性[Ak]的值[g(xk,uci,σci)]是屬性[Ak]的高斯密度函數(shù),因而[uci],[σci]分別為平均值和密度差。

(5) 對未知樣本[X]分類, 計(jì)算[P(X|Ci)P(Ci)],比較[P(X|Ci)P(Ci)]與[P(X|Cj)P(Cj)],如果[P(X|Ci)][P(Ci)>] [P(X|Cj)P(Cj)],則[X]被分到[Ci]類中,反之則分到[Cj]。

3 實(shí)證分析

3.1 研究樣本的獲取

我們利用在滬深交易所上市的1069家企業(yè)2015年的財(cái)務(wù)指標(biāo)數(shù)據(jù)(數(shù)據(jù)均選自新浪財(cái)經(jīng)),并從其中選用了15個(gè)財(cái)務(wù)指標(biāo)當(dāng)成關(guān)鍵變量,且這15個(gè)指標(biāo)都是數(shù)值型屬性變量, 類變量是有兩個(gè)狀態(tài){good, bad}, 相應(yīng)地將1069家企業(yè)劃分為兩類:good, 代表“具有信用好的條件”的企業(yè)和bad表示“不具有信用好的條件”的企業(yè). 并從其中抽取769個(gè)樣本作為訓(xùn)練集, 剩下300個(gè)樣本作為測試集。

3.2 指標(biāo)體系的選擇

財(cái)務(wù)指標(biāo)指的是企業(yè)概括和評價(jià)財(cái)務(wù)狀況和經(jīng)營成果的相對指標(biāo)。我們往往通過分解和解剖企業(yè)的財(cái)務(wù)指標(biāo)對企業(yè)經(jīng)濟(jì)效益的好壞做出準(zhǔn)確的評價(jià)與推斷,用來判定銀行是否貸款給這些企業(yè)。

經(jīng)過研究文獻(xiàn)[5-7]以及大公國際信用評級的關(guān)鍵財(cái)務(wù)指標(biāo),本文選取了上市公司的15個(gè)財(cái)務(wù)指標(biāo)。這15個(gè)財(cái)務(wù)指標(biāo)分為四大類:償債能力指標(biāo)(現(xiàn)金比率、流動(dòng)比率、資產(chǎn)負(fù)債率、速動(dòng)比率)、運(yùn)營能力(存貨周轉(zhuǎn)率、流動(dòng)資產(chǎn)周轉(zhuǎn)率、應(yīng)收賬款周轉(zhuǎn)率)、盈利能力(凈資產(chǎn)收益率、毛利率、凈利率、每股主營業(yè)收入)、發(fā)展能力(股東權(quán)益增長率、凈資產(chǎn)增長率、總資產(chǎn)增長率、每股收益增長率)。

3.3 構(gòu)建ISOMAP-NB模型

通過Isomap算法對數(shù)據(jù)進(jìn)行降維并將其當(dāng)成樸素貝葉斯分類算法的前置數(shù)據(jù)預(yù)處理系統(tǒng)。對非線性、高維度的企業(yè)財(cái)務(wù)樣本實(shí)行降維處理,進(jìn)而精簡了樸素貝葉斯分類模型結(jié)構(gòu),減少訓(xùn)練時(shí)間, 提高分類精度。

融合Isomap數(shù)據(jù)降維的樸素貝葉斯分類模型架構(gòu)圖如圖1所示。

算法描述如下:

(1) 指標(biāo)體系的建立:從財(cái)務(wù)數(shù)據(jù)庫中選取描述企業(yè)信用級別的指標(biāo)。

(2) 特征提取:利用Isomap算法減小特征向量的維數(shù)。

(3) 建立分類器:利用樸素貝葉斯算法將樣本進(jìn)行分類處理。

3.4 離差標(biāo)準(zhǔn)化處理

依據(jù)原始數(shù)據(jù)顯現(xiàn)的特征,如果數(shù)據(jù)之間存在很大的變異程度, 就考慮實(shí)行離差標(biāo)準(zhǔn)化處理[8]。由于本文選取的數(shù)據(jù)量綱不同且數(shù)據(jù)的差異很大,故我們對源數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化處理,利用公式[xik=xik-min(xk)Rk]將原始數(shù)據(jù)變化到(0,1)之間。

3.5 利用Isomap降維

本文利用Isomap算法對高維數(shù)據(jù)進(jìn)行降維處理中,我們使用了最近鄰居方法,帶入[k]值[(k=3,…30)], 以此進(jìn)行參數(shù)尋優(yōu), 直至找到產(chǎn)生最小殘差的[k]。[k]是Isomap算法中最近鄰居點(diǎn)個(gè)數(shù). 本文在Matlab軟件上運(yùn)行Isomap代碼, 并不斷改變參數(shù)[k]的值取得一系列低維嵌入的殘差圖,通過對取不同[k]值得到的殘差圖進(jìn)行分析,表明[k=4]的時(shí)候產(chǎn)生的是最小殘差,殘差圖如圖2。隨著橫坐標(biāo)維數(shù)(Isomap dimensionality)的增加,縱坐標(biāo)殘差也隨之變小, 這表明了通過Isomap算法是可以實(shí)現(xiàn)數(shù)據(jù)的維數(shù)降低的。但是,需要經(jīng)過尋找曲線突然停止顯著下降的“肘”點(diǎn)來判斷[9]數(shù)據(jù)的“內(nèi)在”維度。

從圖2得知,當(dāng)維數(shù)[d<3]時(shí),殘差曲線顯著下降至“肘”點(diǎn),當(dāng)維數(shù)[d>3]時(shí),殘差曲線明顯變得平緩、殘差幾乎相同, ?這表明我們成功實(shí)現(xiàn)對1069家企業(yè)的財(cái)務(wù)數(shù)據(jù)進(jìn)行了降維。進(jìn)而可以得出結(jié)果:通過Isomap算法降維后,得出[d=4]是真實(shí)“內(nèi)在”維數(shù)。

3.6 對比試驗(yàn)

為了驗(yàn)證ISOMAP-NB評估模型的分類性能, 我們選擇未用Isomap算法進(jìn)行數(shù)據(jù)降維的樸素貝葉斯模型做對比分析。

非降維的樸素貝葉斯分類器對“good”這類企業(yè)數(shù)據(jù)的預(yù)測準(zhǔn)確率是99.3%,優(yōu)于樸素貝葉斯的預(yù)測準(zhǔn)確率98.95%。這兩種模型對“bad”這類企業(yè)數(shù)據(jù)的預(yù)測準(zhǔn)確率基本持平。總的來說, 降維后的分類器的準(zhǔn)確率為95.4%,非降維的樸素貝葉斯分類器的準(zhǔn)確率為95%,結(jié)果數(shù)據(jù)表明ISOMAP-NB評估模型在一定程度上好于樸素貝葉斯模型.綜上所述,基于Isomap的樸素貝葉斯分類模型在經(jīng)過Isomap的降維處理后,不但簡化了樸素貝葉斯分類模型結(jié)構(gòu),減小了樸素貝葉斯模型的計(jì)算復(fù)雜度, 并且提高了模型的分類精度。在一定程度上協(xié)助銀行對企業(yè)進(jìn)行較為客觀的信用評估。

4 結(jié)束語

針對非線性、高維度的大樣本財(cái)務(wù)數(shù)據(jù)進(jìn)行分類處理,本文首先應(yīng)用了Isomap算法做降維處理,將原始數(shù)據(jù)從15維變量降到了4維變量,然后再利用樸素貝葉斯分類器對降維后的數(shù)據(jù)做分類處理,構(gòu)建了基于Isomap的樸素貝葉斯分類模型,并選取2015年1069家企業(yè)的財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)研究,結(jié)果顯示該分類模型有效地提高了樸素貝葉斯的分類精度。不但把Isomap用在非線性的金融數(shù)據(jù)上,還可以為銀行信用評估創(chuàng)新了一種判斷方法。

參考文獻(xiàn):

[1] 段志臣,芮小平,張立媛.基于流形學(xué)習(xí)的非線性維數(shù)約簡方法[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2012,42(8):230-241.

[2] 曹根,葛孝堃,楊麗琴.基于K-近鄰法的局部加權(quán)樸素貝葉斯分類算法[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(9):267-268,291.

[3] 孫程,邢建春,楊啟亮,等.基于改進(jìn)樸素貝葉斯的入侵檢測方法[J].微型機(jī)與應(yīng)用,2017,36(1):8-10,14.

[4] 楊光祖,王國軍.一種新的樸素貝葉斯屬性選擇算法[J].科學(xué)技術(shù)與工程,2009,9(4):978-980.

[5] 趙志沖,遲國泰.基于似然比檢驗(yàn)的工業(yè)小企業(yè)債信評級研究[J].中國管理科學(xué),2017,25(1):45-56.

[6] 遲國泰,張亞京,石寶峰.基于Probit回歸的小企業(yè)債信評級模型及實(shí)證[J].管理科學(xué)學(xué)報(bào),2016,19(6):136-156.

[7] 劉麗杰.中國企業(yè)債券信用評級指標(biāo)體系研究與創(chuàng)新[J].中國證券期貨,2010(9):23.

[8] 王志.基于PCA-NBC算法的股票分類研究[D].蘭州:蘭州大學(xué),2014.

[9] Tenenbaum J B,de Silva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323.

【通聯(lián)編輯:李雅琪】

主站蜘蛛池模板: 中文字幕在线欧美| 丁香五月亚洲综合在线| 午夜福利视频一区| 日韩小视频在线观看| 国产成人毛片| 成人毛片在线播放| 国产乱子伦精品视频| 成人字幕网视频在线观看| 日韩经典精品无码一区二区| 国产中文一区二区苍井空| 久久国产精品嫖妓| 国产91精品最新在线播放| 孕妇高潮太爽了在线观看免费| 无码'专区第一页| 国产麻豆aⅴ精品无码| 亚洲人网站| 午夜精品久久久久久久2023| 欧美一区福利| 欧美日韩国产在线观看一区二区三区| 日本国产一区在线观看| 国产成人综合亚洲欧美在| 男人天堂亚洲天堂| 久无码久无码av无码| 狠狠亚洲五月天| 香蕉视频在线精品| 91精品国产丝袜| 国产麻豆精品手机在线观看| 国产成人精品综合| 美女免费黄网站| 国产精品无码AV片在线观看播放| 国产成人三级| 永久免费无码日韩视频| 国产亚洲高清视频| 国产精品午夜福利麻豆| 台湾AV国片精品女同性| 欧美国产视频| 五月天综合网亚洲综合天堂网| 亚洲精品动漫在线观看| 久久婷婷六月| 美女视频黄又黄又免费高清| 中文字幕无码电影| 婷婷成人综合| 这里只有精品国产| 色噜噜狠狠狠综合曰曰曰| 一级毛片无毒不卡直接观看 | 欧美午夜视频| 一级爱做片免费观看久久| 麻豆国产在线观看一区二区| 麻豆精品在线视频| 天天色综合4| 免费人成网站在线观看欧美| 久久99精品久久久大学生| 日韩精品高清自在线| 国产一级无码不卡视频| 亚洲无码电影| 精品一区二区三区四区五区| 久精品色妇丰满人妻| 国产另类乱子伦精品免费女| 国产97区一区二区三区无码| 国产精品护士| 又黄又湿又爽的视频| 国产精品视频久| www精品久久| 色婷婷综合激情视频免费看 | 伊人中文网| 不卡国产视频第一页| 丁香婷婷激情网| av一区二区三区高清久久| 大陆精大陆国产国语精品1024 | 亚洲天堂日韩av电影| 国产在线一区视频| 九九视频免费在线观看| 伊大人香蕉久久网欧美| 熟女成人国产精品视频| 欧美一级大片在线观看| 午夜日韩久久影院| 国产99视频精品免费视频7 | 国产伦片中文免费观看| 白丝美女办公室高潮喷水视频| jizz亚洲高清在线观看| 91久久偷偷做嫩草影院免费看| 色首页AV在线|