曾萬里
(長沙民政職業技術學院,湖南 長沙 410004)
基于 SNMP的信用卡數據挖掘研究
曾萬里
(長沙民政職業技術學院,湖南 長沙 410004)
利用 SNM P網絡管理協議進行數據分析和數據挖掘是業界的研究熱點。文中分析了 SNM P的應用現狀和特點,提出了一種將 SNM P應用于信用卡的數據挖掘結合技術,設計了相應的模型,介紹了其工作過程,實例證明此方法能有效地降低成本,提高效率。
SNM P;數據挖掘;信用卡;Sybase;數據倉庫
隨著貨幣的電子化和互聯網的迅猛發展,信用卡在銀行業務中所占的比例越來越大。信用卡業務的開發、應用、服務、管理越來越多地趨向網絡化,對信用卡業務數據的分析、挖掘已離不開網絡,這使得網絡的管理問題日益成為相關部門關注的重點。網絡管理系統也日益受到網絡提供商的重視。網絡管理系統一般包括網絡性能管理、網絡故障管理、網絡安全管理、網絡資源管理、網絡配置管理等。網絡管理通常被分為四類:被管理節點 (或設備)、代理、網絡管理工作站、網絡管理協議。作為網絡管理協議的一種,SNM P在網絡管理方面已得到廣泛應用,贏得了廣大用戶和網絡廠家的認可和支持。對于一個網絡管理系統,全面、及時、準確的數據信息是重中之重,因此,穩定高效的數據采集是有效實現網絡管理的基礎和前提。而對于網絡數據統計和信息采集的最方便的工具莫過于 SNM P網絡管理系統。
SNM P(Simp le Network M anagem ent Protoco l)的前身是簡單網關監控協議 (SGM P),用來對通信線路進行管理。隨后,人們對 SGM P進行了多次修改,特別是加入了符合 Internet定義的 M IB。現在 SNM P已經出到第三個版本的協議,其功能得以加強和改進。
SNM P是一系列協議組和規范,包括管理者 (M anager)、管理代理 (Agent)、管理信息庫 (M IB)、SNM P協議,提供了一種從網絡上的設備中收集網絡管理信息的方法。其管理模型如圖 1所示。

圖 1 SNM P管理模型
SNM P網絡管理最早開始于 20世紀 70年代,相對于 OSI標準,SNM P簡單、易實現、成本低、效率高,對于網絡管理非常有效,已得到眾多產品供應商的支持和廣泛的應用。許多網絡通信設備商如 IBM,Cisco等都提供基于 SNM P的實現方法。
SNM P管理模型具有典型的 C/S(客戶端/服務器)體系結構。網絡管理站運行 SNM P管理軟件的客戶端程序 (通常稱為 M anager或 Client,管理站或管理者),而被管理的網絡設備運行軟件的服務器端程序(通常稱為 Agent,代理或代理服務)。網絡管理站啟動管理器進程,監視并控制被管設備的運行,而被管設備上運行著代理進程,對
管理器進程發出的各種請求作出響應。管理對象的信息存放在被管設備的M IB庫中。管理器進程將各種操作維護命令組裝成 SNM P報文,發送到代理進程,代理進程通過操作 M IB庫響應這些請求,并且把結果送回管理站進程,從而完成管理功能。
每個被管理的 SNM P設備均維護一個包含統計信息及其他數據的數據庫,稱之為管理信息庫或M IB。M IB的每一項包含一種信息:對象類型、語法、訪問及狀態等。

圖 2 基于 SNM P的數據挖掘模型
2.2.1 良好的可擴充性。該協議版本采用基于用戶的安全機制,是在原來的基礎上進行大量的評議以后進行了更新,并且對協議的邏輯功能模塊進行了劃分。進而保證良好的可擴充性。
2.2.2 良好的安全性。SNM P要求在發送每一個消息時都附帶一條特殊的口令。這樣,SNM P代理就可以判斷是否有權訪問M IB信息。這個口令被稱作 SNM P共同體名。SNM P在實現時,允許使用不同安全級別的共同體名,這樣可以進一步增加 SNM P操作的安全性。
2.2.3 功能完善。合理的管理信息結構,支持分布式管理,效率高,可以實現大量的數據傳輸,支持管理器與管理器間的通信。
數據挖掘從一開始就表現出明確的目的性,數據倉庫都是圍繞某一確切的主題而建立的。目前已成功建立的數據挖掘模型有客戶細分模型、客戶激活模型、客戶流失模型、申請記分模型、行為記分模型、欺詐監測模型等。這里,主要應用數據挖掘對客戶行為進行分析。
本模型包括系統初始化,信息采集,數據處理,數據挖掘,規則評估等五個部分,如圖 2所示。其中系統初始化、信息采集系統與系統配置數據庫由 SNM P網絡管理系統組成;數據處理部分由數據預處理與統計信息庫組成;數據挖掘部分由規則庫與多個規則挖掘模塊組成;規則評估由規則修訂模塊組成。
在系統啟動時,初始化程序由數據庫中及網絡設備讀取配置信息,根據這些信息 SNM P控制將采集到的數據存儲到指定的數據庫中。然后數據庫中的這些信息由數據處理模塊進行處理,生成標準格式的信息,存入統計信息庫。數據挖掘模塊根據屬性相關性挖掘出關聯度最高的規則,放入規則庫。SNM P根據實時統計信息與規則庫標準進行比較,驗證規則的可靠性,進行規則評估,并根據實際比對情況對規則進行修訂。
數據采集的任務是收集網絡數據,主要是與網絡設備通信,同時接受上層系統的控制。SNM P系統是實現該功能的主要設備,該系統可以獨立出來,上層系統可以通過配置數據庫以及使用網絡通信來控制信息采集系統。
數據表與數據項的選取:為了獲取準確的特征量,經過分析,我們從數據庫中找出 7個與分析主題有關,而且可以滿足分析需要的數據表:客戶基本表,存放所有客戶的基本信息;個人客戶表,存放個人卡客戶的信息;公司客戶表,存放公司客戶的信息;卡表,存放信用卡的基本信息;卡賬戶表,存放信用卡的賬戶信息;余額歷史表,存放各卡賬戶的余額變動歷史;卡賬戶交易日志表,存放各卡賬戶的歷史交易信息。
另外,個人客戶表中收入數據項數據嚴重缺失,我們從代發工資信息中獲取部分持卡人的工資收入信息,生成收入數據表,有 2個數據項:身份證號,月工資收入。
獲取輸入輸出數據:統計表明,顧客的消費行為在相當程序上受到顧客本身的個體特征影響,主要包括年齡、性別、職業、收入、信用等級、授信額度等,這里選取了其中的四個特征量年齡、收入、是否學生和信用等級,作為網絡的輸入。
樣本輸出數據對客戶消費行為分析尤為重要。一般采用兩種途徑獲取:根據卡賬戶交易日志表獲取;根據用卡行為記錄獲取。本文中主要分析客戶最終是否購買了電腦,也就是說網絡輸出模式包括兩種形式:已購買:1;未購買:0。
一般來說,為提高挖掘的正確性、有效性和可伸縮性,需要對樣本數據做以下數據清洗和相關性分析等預處理。本研究中主要對樣本數據進行了規格化、異常數據清除、缺失數據的處理、錯誤糾正、重復數據的清除等處理。
此處選用某國有商業銀行的交易金額大于零的信用卡交易記錄數據作為實例數據集。總共有 328位持卡人、21個特約商戶的 2019條交易記錄,經數據預處理,保留了 210條有效記錄。原始數據是從該行的信用卡業務系統的 Sybase數據庫中以文本文件的格式導出,共有 7個表 111個字段。具體訓練樣本如表 1所示 (假設運算次數為 2000,允許的精度為 0.001)。

表 1 訓練樣本表
訓練結果為:
TRA INGDX,Epoch 0/1000,M SE 0.327714/0.001,Gradient0.221671/1e-006
TRA INGDX,Epoch 25/1000,M SE 0.310266/0.001,Gradient0.214608/1e-006
TRA INGDX,Epoch 50/1000,M SE 0.267559/0.001,Gradient0.161483/1e-006
TRA INGDX, Epoch 75/1000,M SE 0.1533/0.001,Gradient0.208459/1e-006
TRA INGDX,Epoch 100/1000,M SE 0.030825/0.001,Gradient0.0359417/1e-006
TRA INGDX,Epoch 125/1000,M SE 0.0101365/0.001,Gradient0.0157687/1e-006
TRA INGDX, Epoch 144/1000, M SE 0.000932271/0.001,Gradient0.00397282/1e-006
TRA INGDX,Perform ance goalm et.
可見經過 144次訓練后,網絡的目標誤差達到要求。
數據挖掘應用領域已越來越廣泛、深入,傳統的數據挖掘技術往往無法滿足客戶的需求。基于 SNM P進行數據挖掘能及時準確地收集網絡統計數據,充分利用網絡軟硬件資源,有效提高數據挖掘效率和準確度,彌補了傳統數據挖掘的不足。本文對這一方法進行了研究和論述,初步的實驗結果表明,這種方法是有效的。將該方法應用于更廣范圍、更多領域、更深層次并系統化,這是下一步工作的方向。
[1]楊海蘭,程龍,吳功宜 .基于 SNM P進行數據挖掘的入侵檢測系統研究[J].計算機工程 .2004,(2).
[2]W illiam Stallings.SNM P網絡管理[M].北京:中國電力出版社,2001.9.
[3]李金宇 .基于 SNM P的網絡信息采集系統的研究[D].長春:吉林大學,2008.
[4]雷莉 .基于大唐交換機 SNM P網絡管理代理的設計與實現[D].西安:西安電子科技大學,2006.
[5]何小衛,王申康 .網管平臺中 SNMP Probe的設計與實現[J].計算機工程,2000,(7).
TP393
B
1671-5136(2010)01-0117-03
2010-02-15
曾萬里 (1979-),男,湖南邵陽人,長沙民政職業技術學院軟件學院教師、碩士。研究方向:數據挖掘。