王培靜 趙乃萱 王培吉
(1.中國人民銀行包頭支行,內蒙古 包頭 014010;2.西南大學經濟管理學院,重慶 400715;3.內蒙古科技大學理學院,內蒙古 包頭014010)
為了科學、有效利用數據信息資源,對數據只進行存取和查詢,已不能滿足人們對數據進行知識抽取、發現數據間隱藏的依賴關系,從而為做出合理決策提供科學支持的需要,由此產生并發展了多種用于數據理解和分析的數據挖掘理論和方法,數據挖掘[1]是指從數據庫或數據倉庫的數據源中提取出隱含的、先前未知的、對做出合理決策有潛在價值的知識、規則、模式,為決策者提供前瞻的,基于知識的科學、有效的決策意見。
1993年AgrawalR.等人首先提出的挖掘顧客交易數據庫中項集之間的依賴關系(規則、知識、模式)-關聯規則及其挖掘問題,將關聯規則挖掘用于分析消費者的購買習慣,幫助企業進行科學決策、制定最優營銷策略。AgrawalR.于1994年提出了挖掘關聯規則的經典算法,這就是一直普遍使用的Apriori算法[2]。
基于Apriori算法的關聯規則數據挖掘模型中主要解決兩個問題:一是從事務數據庫中挖掘所有的頻繁項集;二是由頻繁項集產生基于支持度-置信度關聯規則評估體系的強關聯規則。
第一,輸入信息系統S={U,I,F}和最小支持度min-sup,生成分辨矩陣D,壓縮分辨矩陣;
第二,挖掘頻繁項集LK:
求頻繁1-項集(k=1):(1)把分辨矩陣D中每個項目的支持計數和最小支持度比較,取那些支持計數大于或等于最小支持度行,生成頻繁1-項集L1;(2)刪除分辨矩陣中那些支持計數小于最小支持度所對應的行;(3)k=2。
求頻繁k-項集(k>=2):(1)將用于保存每個項目在頻繁k-1-項集中出現次數的數組置零;將用于統計頻繁k-項集中項集的個數的變量清零;(2)分辨矩陣中分辨行向量(行向量)進行對位與運算,通過比較支持計數和最小支持度,找出頻繁k-項集;(3)k=k+1。
給定事務集D中的關聯規則AB,D中事務同時包含A,B的百分比S,稱為關聯規則AB在事務集D中成立具有支持度S;包含A的事務中同時包含B的百分比C稱為關聯規則AB在事務集D中成立具有置信度C,分別衡量規則有用性和確定性。D中事務包含B的百分比EC,稱為關聯規則AB的期望置信度;置信度C與期望置信度的比值稱為該關聯規則的興趣度i。
擬按以下步驟由頻繁項集產生強關聯規則:
第一,當興趣度等于1時,事務包含A與事務包含B是獨立的;
第二,當興趣度大于1時,事務包含A與事務包含B是正相關的,從頻繁項集L中產生滿足最小支持度、最小置信度和最小興趣度的強關聯規則;
第三,當興趣度小于1時,事務包含A與事務包含B是負相關的,過濾無趣關聯規則,從頻繁項集L中產生滿足最小支持度、最小置信度和最小興趣度的含負屬性項強關聯規則。
通過對銀行客戶數據庫的關聯規則數據挖掘,發現數據中隱含的依賴關系,得出金融信息之間的有用的強關聯規則,依據數據挖掘的結果,對客戶進行科學的分類,為各類客戶科學設計相應的金融產品,從而給不同類的客戶提供不同的金融產品,完善銀行的專業化服務功能和水平。
1.數據預處理,包括數據清理。對銀行客戶數據庫,消除噪音或不一致數據;數據集成:組合多種數據源在一起;數據選擇:從金融數據信息系統中提取與分析數據挖掘任務相關的數據;數據變換:數據變換或統一成適合數據挖掘的形式;
2.利用頻繁項集基本定理:頻繁項集的非空子集是頻繁項集;非頻繁項集的超集是非頻繁項集,識別滿足最小支持度的頻繁項集;
3.從頻繁項集中挖掘滿足最小支持度、最小置信度和最小興趣度的關聯規則;
4.結合挖掘目標,識別提供知識的真正有趣的模式,解釋關聯規則;依據有趣的關聯規則,對客戶進行科學的分類,針對不同客戶,設計不同的金融產品。
1.挖掘對象。銀行客戶數據庫:存放客戶信息數據,其中一個客戶看作一個記錄,一種信息看作一個屬性,數據記錄數為客戶人數,屬性數減1為信息種數。
金融服務產品舉例
2.挖掘頻繁項集L。輸入:銀行客戶數據庫和最小支持度0.2;輸出:頻繁項集 L={i14,i16,i17,i34,i45,i46,i47,i48,i56,i67,i146,i147,i167,i456,i467}。
3.挖掘關聯規則。輸入:頻繁項集L,最小置信度0.7,最小興趣度 1.5;輸出:R1:i1?i47(s=0.2959,c=0.7632,i=2.3372),R2:i7i14(s=0.2959,c=0.8788,i=2.6097)等。
4.解釋規則。規則R1:客戶是教師、月收人6000元以上,貸款買房的支持度、置信度、興趣度分別為0.2959,0.7632,2.3372。
5.應用規則。如頻繁項集“客戶是教師、月收人6000元以上且貸款買房”產生的強關聯規則的支持度、置信度、興趣度分別滿足支持度、置信度、興趣度的閾值,說明:教師職業、月收人6000元以上、貸款買房,它們之間具有較強的影響力,銀行由此設計并提供相應的金融產品,提高銀行金融服務的有效性、科學性和針對性。