999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

貝葉斯網絡在用戶信用評估中的應用研究

2018-09-04 09:37:16楊立洪葉成達
軟件導刊 2018年6期

楊立洪 葉成達

摘 要:為了彌補傳統樸素貝葉斯分類器在實際應用中代價不敏感的缺點,基于最小風險準則構建樸素貝葉斯模型和樹增強樸素貝葉斯網模型,通過預先設置損失矩陣,分類器可以區分各種誤判情形產生的代價,利用1 000條德國信用卡樣本數據進行實驗。研究發現,在以損失最小為導向的用戶信用評估方面,基于最小風險準則構建分類器產生的總損失更小,綜合性能更好;在分類性能上,簡單的樸素貝葉斯模型可與復雜的基于爬山算法建立的貝葉斯網絡模型相媲美;從整體經濟效益看,樸素貝葉斯模型更勝一籌。

關鍵詞:樸素貝葉斯;樹增強樸素貝葉斯網;代價敏感;最小風險準則;爬山算法

DOI:10.11907/rjdk.171519

中圖分類號:TP319

文獻標識碼:A 文章編號:1672-7800(2018)006-0146-04

Abstract:In order to make up for the shortcoming that the traditional Naive Bayes is not sensitive in the practical application, Naive Bayes and Tree augmented naive Bayesian network are established based on the minimum risk criterion. By pre-setting the loss matrix, the classifier can distinguish the costs of various miscarriages.1 000 German credit card samples were used for experiments. Experiment results have shown that the classifier based on the minimum risk criterion produces less total loss and better overall performance in the least-cost-oriented user credit evaluation. In terms of classification performance, the simple Naive Bayesian model can be compared with the complex Bayesian network model based on the hill-climbing algorithm. The Naive Bayes model is superior in the overall economic efficiency.

Key Words:Naive Bayes; tree augmented naive bayesian network; cost sensitive; minimum risk criterion; hill climbing algorithm

0 引言

貝葉斯網絡是貝葉斯方法與圖形理論的有機結合[1]。1986年Pearl首次在專家系統中引進了貝葉斯網絡[2]。貝葉斯網由于在理論上具有嚴格性和一致性,能直觀表達圖形化知識等特點,已經成為人工智能領域的研究熱點。貝葉斯網的學習包括構建有向無環圖的學習、結構學習及每個變量局部條件概率分布的學習即參數學習。貝葉斯網本身是一種不定性因果關聯模型,具有強大的不確定性推理能力,利用條件概率表示各變量間的相關性。樸素貝葉斯分類器基于一個簡單的假設:在給定分類特征條件下屬性值之間條件是相互獨立的。在現實世界中,它的屬性獨立性假設使其無法表示實際應用中各屬性之間的依賴關系,影響了分類性能。因此,針對實際應用對樸素貝葉斯分類模型進行改進,使之在屬性獨立性假設不滿足的條件下依然具有較高分類精度。由于“樸素貝葉斯假設”在實際中往往不成立,因此對樸素貝葉斯分類器的改進,一般從放松樸素貝葉斯假設入手,當屬性間存在依賴時,采用合適的方法對分類器結構進行修正。隱藏樸素貝葉斯[3]考慮屬性間的依賴關系,并采用條件互信息進行計算。樹增強樸素貝葉斯(Tree Augmented Naive Bayesian Classifier, TAN分類器)假設在貝葉斯網中,每個屬性除了有類別屬性作為父節點外,還可以有至多一個其它屬性作為父節點,所有屬性節點可以構成一個最大支撐樹。TAN模型通過發現屬性對之間的依賴關系放松樸素貝葉斯中任意屬性之間獨立的假設[4]。貝葉斯網的結構學習一般需要考慮模型選擇和模型優化兩個方面[5]。模型選擇決定了評判不同模型優劣的準則,而模型優化則是把最優模型結構找出來。1992年Cooper等[6]發現基于爬山搜索算法和貝葉斯評分準則的經典K2算法效果良好;1994年Remeo[7]提出K3算法,使用MDL評分函數進行貝葉斯網絡結構學習;1995年Chickering等[8]將模擬退火算法應用于貝葉斯網絡結構學習中;Gamez等[9]應用爬山算法進行貝葉斯網絡結構學習。本文根據實際應用中的具體情況,通過建立貝葉斯網模型解決信用系統中常見的用戶信用評估問題。傳統的樸素貝葉斯模型不具有代價敏感特性,這一缺點使得模型輸出產生較高的經濟損失。考慮代價的分類學習稱為代價敏感學習[10]。Maloof[11]提出了處理不平衡數據集中類別誤判代價不相等且不確定的解決方案。Elkan[12]詳細介紹了代價敏感分類決策的基本概念,并通過實驗證實了改變訓練正負樣本的比例對最終分類效果影響不大。在實際數據挖掘應用中,存在許多在線分類問題,Wang等[13]利用在線梯度下降算法的思想,提出了代價敏感學習在線分類算法。在信用評估中,如果把信用良好的客戶誤判為信用差的客戶固然會使銀行損失一筆收益,但如果將原本信用差的客戶錯判為信用良好,就會造成更大損失。 顯然這兩種不同的錯誤判斷所造成損失的嚴重程度是有顯著差別的,后者的損失比前者更嚴重。本文在傳統的貝葉斯網模型中加入代價敏感學習,使得最終模型輸出產生的總損失有所減小,以提高分類器的綜合性能。

1 數據集

本文以德國信用卡數據為例,在R數據分析軟件工作環境下進行實證分析。原始數據集中共有1 000個樣本、21個變量指標。數據中混有連續數據和離散數據,為了滿足軟件的輸入,對21個變量指標進行處理,包括離散化處理和變量分解處理(性別與婚姻狀況變量marital分解為性別sex和婚姻狀況marriage兩個變量),最后得到22個變量指標。部分變量說明如表1所示。

2 樸素貝葉斯與樹增強樸素貝葉斯網算法理論

2.1 基于最大后驗概率準則的樸素貝葉斯模型算法

3 算法實驗與結果

3.1 基于最大后驗概率準則的信用評估模型實驗

該處類別變量為信用級別變量指標good_bad,可取值為good和bad,分別有700和300個。根據1 000個樣本,采用10折交叉檢驗方法進行計算,最后通過計算10次平均誤分率和總損失評價模型性能,其中模型總損失是根據損失矩陣計算出來的。基于最大后驗概率準則的損失矩陣:

其中:c-12=1表示把原本信用好的客戶判為信用不好的客戶,損失1個單位;c-21=1表示把原本為信用不好的客戶判為信用好的客戶(造成更大損失),損失1個單位。采用10折交叉檢驗方法,會得到10個混淆矩陣,混淆矩陣的形式為:

其中,a表示類別變量good_bad取值為bad(共有a+c個)時,有a個模型輸出為bad,c則表示有c個模型輸出為good;b表示類別變量good_bad取值為good(共有b+d個)時,有b個模型輸出為good,d則表示有d個模型輸出為bad。

最大后驗概率準則樸素貝葉斯模型信用評估的效果見表2。

最大后驗概率準則TAN模型信用評估效果見表3。

3.2 基于最小風險準則的信用評估模型實驗

針對德國信用卡數據,對客戶進行分類,由于把原來為“bad”的客戶判為“good”,會造成更大損失,于是提出分類風險概念。通過將基于最大后驗概率進行分類換為基于最小風險進行分類的方法,使得將原來為“bad”的客戶判為“good”的情況減少。此時,損失矩陣:

其中:c-12=1表示把原本為信用好的客戶判為信用不好的客戶,損失1個單位;c-21=5表示把原本為信用不好的客戶判為信用好的客戶(造成更大的損失),損失5個單位。不同準則下的樸素貝葉斯與TAN模型的綜合信用評估效果對比如表4所示。

加入最小風險準則的概念后,“bad”誤分率和總損失明顯下降,達到預期效果。根據表格數據可知,樸素貝葉斯模型“bad”誤分率從0.480 2降至0.165 9,下降了65.45%,TAN模型“bad”誤分率從0.516 2降至0.261 1,下降了49.42%,但代價是增加了“good”誤分率與總體誤分率。

4 利用爬山算法構建貝葉斯網絡模型進行信用評估

基于爬山算法建立的貝葉斯網絡結構相比樸素貝葉斯和TAN網絡結構更加復雜。有向邊連接父節點和子節點,并由父節點指向子節點,表示給定父節點變量取值,子節點變量與網絡其它節點變量條件獨立。模型選擇階段的評分函數選為AIC[15],并對建立的貝葉斯網絡模型進行條件獨立性檢驗,即給定某變量父節點變量,該變量與其它變量獨立,確保網絡結構的合理性。10組測試部分結果見表5(假設α=0.05)。

根據表5可以發現,變量“property”與“duration”相關性很強,所以需要添加有向邊;給定“amount”,“duration”、“property”和“job”具有很強的不獨立性,將“amount”指向“duration”的有向邊刪除。“property”(財產狀況)與“duration”(貸款時間)之間的有向邊方向,指定由“property”指向“duration”。

基于爬山算法構建的貝葉斯網絡模型使用最大似然估計和貝葉斯估計兩種參數學習方法,信用評估效果如表6所示。

由表6可知,基于爬山算法、評分函數為AIC建立的貝葉斯模型分類預測結果,與樸素貝葉斯、TAN模型的信用評分效果很接近,同時使用最大似然估計和貝葉斯估計的參數學習方法,其模型評估效果接近一致。

5 結語

通過實際數據,分析了貝葉斯網絡中的樸素貝葉斯網和樹增強樸素貝葉斯網(TAN)對德國信用卡數據的評估效果,結果顯示兩種分類器的性能差異不大,分類精度較高,但損失代價較大。在最小風險準則下,評估效果相比最大后驗概率準則沒有發生明顯變化,總損失有所下降,綜合性能相對提高。基于爬山算法建立的貝葉斯網絡模型評估效果與前兩種模型接近,說明簡單的樸素貝葉斯模型可以產生更高的經濟效益。在此基礎上分析了最大似然估計和貝葉斯估計方法的模型評估效果。結果顯示,兩種參數學習方法的模型評估效果很接近,這是因為數據量足夠大,使得貝葉斯估計趨近于最大似然估計。

參考文獻:

[1] PAN H P, LIU L. Fuzzy Bayesian networks[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2000,14(7):941-962.

[2] JUDEA P. Probabilistic reasoning in intelligent systems: networks of plausible inference[D]. CA :San Mateo, 1988.

[3] ZHANG H, JIANG L, SU J. Hidden Naive Bayes [C]. National Conference on Artificial Intelligence, 2005:919-924.

[4] FRIED N, GEIGER D, GOLDSZMIDT M. Bayesian network classifiers[J]. Machine Learning, 1997,29(2-3):131-163.

[5] ZHANG L W, GUO H P. Introduction to Bayesian networks[M]. Perking: Science Press, 2006.

[6] COOPER G F, HERSKOVITS E. A Bayesian method for the induction of probabilistic networks from data[J]. Machine Learning, 1992,9(4):309-347.

[7] BOUCKAERT R R. A stratified simulation scheme for inference in Bayesian Belief[C].Proceedings of the Tenth Conference on Uncertainty in Artificial Intelligence, 1994:110-117.

[8] CHICKERING D, GEIGER D, HECKERMAN D. Learning Bayesian networks: search methods and experimental results[C]. Proceedings of the 5th Conference on Artificial Intelligence and Statistics, 1995:112-128.

[9] GAMEZ J A, MATEO J L, PUERTA J M. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood[J]. Data Mining and Knowledge Discovery, 2011,22:106-148.

[10] TURNEY P D. Types of cost in inductive concept learning[J]. In Proceedings of Workshop on Cost-Sensitive Learning at the 17th International Conference on Machine Learning, 2002:15-21.

[11] MALOOF M A. Learning when data sets are imbalanced and when costs are unequal and unknown[C]. Washington, DC: In Proceedings of the ICML′03 Workshop on Learning from Imbalanced Data Sets, 2003.

[12] ELKAN C. The foundations of cost-sensitive learning[C]. Seventeenth International Joint Conference on Artificial Intelligence,2001:973-978.

[13] WANG J, ZHAO P, HOI S C H. Cost-sensitive online classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2014,26(10):2425-2438.

[14] 茆詩松.貝葉斯統計[M].北京:中國統計出版社,1999.

[15] 何德琳.貝葉斯網絡結構學習算法改進研究[D].北京:北京化工大學,2008.

(責任編輯:何 麗)

主站蜘蛛池模板: 国产成人三级| 欧美国产精品不卡在线观看| 亚洲欧美日韩精品专区| 亚洲欧美成人影院| 亚洲av日韩av制服丝袜| 欧美日韩国产精品va| 国产成人综合网| 免费亚洲成人| 高清久久精品亚洲日韩Av| 在线观看亚洲精品福利片| 不卡视频国产| 亚洲国产精品日韩欧美一区| 成人福利一区二区视频在线| 久久精品国产一区二区小说| 精品国产乱码久久久久久一区二区| 日韩毛片在线播放| 欧美精品亚洲日韩a| a毛片在线播放| 国产探花在线视频| 欧美成人日韩| 欧美亚洲欧美| 日韩国产欧美精品在线| 玩两个丰满老熟女久久网| 国产色婷婷视频在线观看| 精品国产一二三区| 国产亚洲精久久久久久久91| 四虎国产成人免费观看| 天堂亚洲网| 国产精品无码AV片在线观看播放| 草草线在成年免费视频2| 青青热久麻豆精品视频在线观看| 国产凹凸视频在线观看| 国产高清不卡| 国产成人1024精品下载| 国产在线视频福利资源站| 四虎成人在线视频| 亚洲中文无码h在线观看 | 亚洲欧美日韩动漫| 久久久久青草大香线综合精品| 国产激情第一页| 99热这里只有成人精品国产| 亚洲精品777| 久久无码高潮喷水| 国产91在线|日本| 精品中文字幕一区在线| 好紧太爽了视频免费无码| 免费中文字幕在在线不卡| P尤物久久99国产综合精品| 欧美曰批视频免费播放免费| 免费在线国产一区二区三区精品| 免费国产高清视频| 国产福利在线观看精品| 激情国产精品一区| 日韩 欧美 国产 精品 综合| 成人综合在线观看| 99在线视频免费观看| 欧美有码在线观看| 亚洲国产午夜精华无码福利| 91福利片| a级毛片免费看| 亚洲精品男人天堂| 高清无码一本到东京热| 1769国产精品免费视频| 伊人久久大香线蕉影院| 亚洲bt欧美bt精品| 99999久久久久久亚洲| 国产人成在线视频| 亚洲色中色| 亚洲精品无码在线播放网站| 在线精品亚洲一区二区古装| 午夜精品福利影院| 欧美亚洲一区二区三区在线| 青青青视频91在线 | 亚洲色图欧美一区| 成人在线天堂| 国产高颜值露脸在线观看| 亚洲国产精品VA在线看黑人| 国产电话自拍伊人| 国产高清不卡| 中文字幕亚洲综久久2021| 成人一区专区在线观看| 中文字幕va|