張鴻雁
(晉中學院 信息技術與工程學院,山西 晉中 030619)
?
探討嵌入式數據挖掘模型在銀行卡業務中的運用
張鴻雁
(晉中學院 信息技術與工程學院,山西 晉中 030619)
針對既有數據的挖掘系統算法運行效率比較低、結構松散揭合等問題,建立嵌入式的數據挖掘相關模型,以便完成算法組件化的管理,同時把整個數據的流程歸入到數據庫中,這樣不僅可以對數據的挖掘過程進行簡化,而且能夠大幅度提高數據的挖掘效率。
嵌入式;數據挖掘模型;銀行卡
數據挖掘主要從相關數據庫中挖掘相關知識,其是在銀行卡數據儲存方式的基礎上,采取有效分析研究工具與方法,從傳統失誤型的數據庫中獲取深層次信息。但是,在數據的挖掘技術逐漸發展的過程中,怎樣充分結合數據倉庫的挖掘系統以及數據庫的系統,開始變成數據挖掘中的一個重要問題。
1.1關聯分析
通過關聯規則的挖掘,可以發現很多數據項集間存在相關關系或者是關聯性,如果兩個以及多個變量取值間存在規律,就可稱作某一種關聯,如兩個以及多個數據項取值間重復率比較高,就會存在關聯性[1]。
1.2分類分析
分類過程需要找出相關數據,同時對概念模型與數據進行區分,這樣對于標記與預測對象類比較方便。通常數據的分類主要包含兩步的過程,也就是建立模型、使用模型。而導出模型主要在訓練數據分析基礎上,應用多種模式對挖掘數據進行分析。
1.3聚類的分析。
聚類分析主要是把數據與對象分為不同的類,在同類中對象相似度比較高,但是在不同類中,對象之間存在較大差異,其相似度主要是按照對象屬性描述值進行計算,現階段常用度量方式主要是距離。通過對聚類進行分析可以加強對于客觀知識的了解,同時成立宏觀的概念。
1.4異常的檢測
在數據庫中,相關數據有諸多異常的情況,對數據進行分析時容易發現,該異常情況容易影響到數據挖掘的準確性,需要引起人們的重視。而異常包含很多較為有用的知識,例如分類中異常的反例。異常的檢測目的主要是為了尋找結果和參照間存在的差異,了解觀察域值情況[2]。
目前,嵌入式數據的挖掘模型一般是使用各類數據庫的訪問技術,在數據的挖掘系統之中嵌入算法。這個模型支持根據相關標準規范開發挖掘的算法,同時將算法發布,并嵌入到各種數據的倉庫以及數據庫中,把數據庫的功能轉化為眾所周知的、可以進行二次開發,便于發揮靈活的、通用的數據庫功能。該系統一般包含用戶層、數據挖掘層以及算法嵌入層等,這個系統模型從圖1中可以看出。

圖1 嵌入式的數據挖掘模型
2.1用戶層與數據層
數據層一般包含數據倉庫或者是數據庫中元數據以及大量的業務數據,其是數據挖掘中的一個重要部分。在此模型中,用戶層主要包含數據的管理人員、算法的發布人員以及數據的分析人員,可以讓數據挖掘涉及更多用戶[3]。
2.2數據的挖掘層
2.2.1預處理的模塊
數據的預處理主要在數據的倉庫中進行,其實現途徑包含兩條,其一,直接應用數據庫管理體系SQL加工處理數據庫中的各種數據,然后對數據表實施加工與處理;其二,與挖掘算法抑制,通過高級語言來實現,再將其嵌入數據庫中,使得用戶可像一般儲存過程那樣,可以對預處理的手段進行調用,再對數據實行預處理。
2.2.2關于結果處理的模塊
相關結果的處理流程跟算法的調用一般都是保持同步,而在EXE的應用DLL的計算方式,其產生結果經常會返回EXE的文件之中。這時,該文本的結果在經過處理以后,可以寫回到數據的倉庫中,以便展示給相關用戶。
2.3算法的嵌入層
算法發布的過程主要將算法發布至特定數據倉庫的系統中,給數據倉庫的系統中數據挖掘體系執行打下基礎;而算法的調用過程一般是數據的倉庫系統中執行,通常是通過數據庫中儲存使用戶及時了解銀行卡參數,再調出上一步的發布計算方式,對銀行卡用戶所指定數據進行挖掘。
2.3.1計算方式發布
首先,算法發布的過程一般需要將算法封裝為DLL類型的文件,再將調用計算方式接口編譯為EXE的文件,將算法DLL的文件以及相關EXE的文件發布至相關數據庫中,而在相關數據庫之中,儲存創建的過程,可以稱之為SP,其流程從圖2中可以看出。

圖2 算法發布的過程
2.3.2算法的調用
在實際調用的過程中,因為各種數據倉庫的系統儲存過程功能與大小存在差異,各種數據倉庫的系統對于EXE的文件以及DLL的文件調用方式存在巨大的差別,因此,在不同的數據庫系統下具體實現細節同樣存在巨大的區別。在這個模型之中,數據庫終端的調用儲存過程,即SP,主要是指將用戶參數與算法參數傳入系統進行儲存的過程中,再讓儲存系統對EXE的文件進行調用,通常EXE文件是用來處理儲存的過程中所傳入參數,以便對DLL算法獲得挖掘結果進行調用[4]。
3.1在銀行卡的業務中對于嵌入式的挖掘數據應用
現階段,在銀行卡的業務上對于數據挖掘的技術應用,尚存在以下三方面局限。第一,效率比較低。尤其在進行海量數據的挖掘時,經常達不到預期的效果;第二,專業化的程度比較低,無法針對相關銀行卡的業務實施挖掘。而嵌入式數據能夠將傳統管理轉變為算法組件化的管理,換句話說,主要是針對各種銀行卡開發情況選用相關組件的計算對策,而且,進行銀行卡數據挖掘,能夠準確地對客戶進行歸類,可以及時發現一些較優質的客戶,同時嵌入式的數據挖掘能開發出單獨計算方式,其目的是為了滿足客戶的分類需要。此外,嵌入式的數據挖掘體系屬于靈活性比較高的一種數據挖掘體系,并且客戶可在系統中改進算法以及添加新算法,便于實施二次開發,大幅度節省大型系統二次開發成本[5]。
3.2實例應用研究
為對嵌入式的數據挖掘中相關模型自身有效性進行驗證,和央行的某分行進行合作,通過信用卡的業務數據,對比分析了非嵌入式以及嵌入式的挖掘系統運行情況,主要在PC機,即在HY DDR512M RAM與P42.5GCPU上進行測試,選擇Apriori以及CMP兩種數據的挖掘計算方式。所選嵌入數據庫是SQLServer 2005的實驗數據,由10000條如實記錄至160000條的記錄,對以上兩種計算方式進行測試,可充分了解不同計算方式在銀行卡數據集上,使用非嵌入式以及嵌入式的數據挖掘時,其潛在性能方面的差異,其中,在銀行卡的業務中對嵌入式的數據挖掘應用一般包含分類挖掘與關聯規則的挖掘。
3.2.1分類挖掘
分類挖掘需要按照持卡人交易方式以及使用情況,將持卡人群分成各種類別,一般分成流失的客戶、優質的客戶、潛在流失的客戶以及潛在的優質客戶等,這種分類方式是現階段較為常用的一種分類方式。在整個分類挖掘的過程中,通過關聯規則之中Apriori的算法,可以有效挖掘實例中存在的數據,其算法時間從表一中可以看出,從表1中的數據對比中能夠看出,在銀行卡具體業務數據的挖掘中采取嵌入式的數據挖掘,兩種不同算法的計算效率都有明顯提高。無論是Apriori亦或是CMP,計算效率均提高了兩三倍,從實際應用情況來看,伴隨銀行卡業務數據量的增加,使用嵌入式的數據挖掘方式可以大幅度節約時間。換句話說,嵌入式的數據挖掘系統效果比較好,將其應用在銀行卡的業務數據挖掘中切實可行[6]。
表1 Apriori算法

算法數據量(條)嵌入式(s)非嵌入式(s)Apriori10000403970492000832114664000020133304768000043086454016000092162145476
3.2.2關聯規則的挖掘
經過對持卡人基本情況與用卡行為進行綜合分析,可以導出具可信度、支持度比較高的用卡習慣人群,構成關聯的規則。此外,在選用計算方式過程中,主要選取wangH等人所提出的:高效新型決策的數算法,也就是CMP的計算方式。將這種計算方式應用在實例中,效果比較好,如果實例中數據呈現出倍數增長,數據的挖掘需要時間從表2中可以看出。
表2 CMP計算情況

算法數據量(條)嵌入式(s)非嵌入式(s)100005025785320001052616136CMP4000021556330198000042884671321600008711013606
總而言之,應用嵌入式的數據挖掘系統模型,可以使挖掘計算方式變得更加方便與簡單,此模型即將向著第四代數據挖掘模型系統發展,同時是商業智能化平臺以及數據倉庫體系的關鍵性發展方向之一。將新嵌入式的數據挖掘模型應在銀行卡的業務之中,不僅能夠對嵌入式的數據挖掘模型優越性進行驗證,而且能夠給商務智能化應用技術軟件的升級提供參考。
[1]仲蓁蓁.嵌入式移動信息終端在銀行自助設備配送管理中的應用研究[J].機械設計與制造工程,2013(12):23-25.
[2]趙竹明.數據挖掘技術對村鎮銀行信用風險預測系統的嵌入研究[J].青島職業技術學院學報,2015(3):123-125.
[3]呂志剛.大數據驅動下的銀行應用分析平臺整合模式——廣發銀行統一數據挖掘分析平臺實踐[J].中國金融電腦,2015(8):
[4]郭佳.數據挖掘技術在村鎮銀行信用風險預測中的應用研究[J].科技經濟市場,2014(6):67-68.
[5]黃昶君,王林.大數據助推銀行零售業務量化經營——大數據時代的零售數據挖掘和利用探索[J].海南金融,2014(1):34-36.
[6]卓麗娟.數據挖掘在企業財務核算中的運用——來自第三方支付公司的例子[J].城市建設理論研究:電子版,2015(10):12-14.
(責任編輯:高 堅)
2016-03-18
晉中學院教學改革創新項目(ZL2016jg06)
TP368.1
A
167-8535(2016)03-0014-04
張鴻雁(1979-),女,山西壽陽人,晉中學院信息技術與工程學院教師,碩士,研究方向:計算機應用、數據挖掘。