華順航 江孟源 張蓉 王偉杰



摘? 要:為了有效檢測ATM機數據出現的問題,本文通過對ATM機交易量、交易成功率和交易響應時間進行分析處理,提取特征參數,建立成功率和響應時間基于歐式距離的異常檢測模型。采用k-means聚類分析,確定異常的具體情況,建立多級化報警系統。此外,運用拉依達準則,針對聚類分析后判定的正常數據再劃分,使異常檢測模型更加精確。
關鍵詞:k-means聚類分析;拉依達準則;異常檢測;單樣本k-s檢驗
引言
隨著近幾年來ATM機的迅速發展,帶來了經濟前所未有的騰飛。ATM機人力資源投入少,使用頻率高以及24小時全天營業的優點。隨之而來的,是ATM機數據大,分析困難的問題。當ATM機出現故障或者卡頓時,用戶們往往抱怨,甚至波及到后面排隊等候的人群。所以幫助銀行及時發現出現異常的營業點,提高運行效率是很有必要的。
為了檢測ATM機運行異常情況,我們針對成功率和響應時間建立一套異常檢測方案,在基于現實生活中ATM機異常點稀疏,正常點集中的假設下,對成功率和響應時間采用K-means聚類分析,根據數據點的分布范圍來均勻生成K個質心。一輪循環后,監測點被劃分為正常點、疑似異常點以及異常點。對于正常點,我們使用拉依達準則,剔除正常點包含的少量異常點,將得到的異常點匯總,分為三個等級報警。
1.數據分析處理
(1)數據的預處理
為了使模型更加具有說服力,我們采用了2017年深圳杯B題1-4月的數據用作數據的分析,當然,由于數據存在少量的不完整,我們對缺失的時間段的數據補 0 處理。
(2)數據分析
每日成功率隨時間變化分布圖---以一月為例
基于以上的圖形,可得結論有:①每日成功率在凌晨六點之前波動最大,之后的時間比較平穩。②每日里響應時間的波動非常大,但由響應時間的頻數分布圖可知:正常的響應時間應該約在55-130 范圍內。
此外,我們對數據還進行了相關分析。發現一天之中的交易時刻與交易量存在正相關性、響應時間和成功率呈負相關性
2.異常檢測模型的建立
(1)成功率-響應時間異常模型建立
根據上文所描述的數據特征,我們截取兩個具有明顯差別的時間段分別對數據進行探索。這兩個時間段分別是晚上十點到第二天清晨六點,及中午十點到下午三點。以下分析以第二段時間為例。
我們先對數據進行K-means聚類分析,將數據劃分為三類。我們假定周圍數據點最多的聚類質心為正常點聚類質心,數據量最少的為異常點聚類質心,介于其中的為疑似異常點聚類質心。聚類分析結果如下:
由上圖,我們發現,① 聚類質心2附近包含26841條案例,且成功率最高、相應時間最低,我們稱其為正常點。② 對于聚類質心1,其成功率低,響應時間高,可以確認是故障點情況。③ 聚類質心3在這兩者之間,我們判斷為疑似異常點。因此,我們得到了粗略分類的三種情況,接下來我們運用拉依達準則確定正常點的界限。
由于對聚類質心2附近點的分布(即成功率和響應時間)分別用單樣本k-s檢驗的p值為0,因此,我們對數據正態化轉換,采用Blom比例估算公式計算正態得分,公式如下:
(r-3/8)/(w+1/4)? ? ? ? ? ? ? ? ? ? ? ? ? (1)
其中w 是個案權重的總和,r 是等級。
運用個案排秩后得到的數據進行單樣本k-s檢驗,發現處理得到的數據是服從正態分布的,且保留五位小數后平均值為0,標準差為1。因此,我們對處理后的數據當作標準正態分布處理。
得到正態化轉換數據后,我們用拉依達準則對數據劃分,拉依達準則是指先假設一組檢測數據只含有隨機誤差,對其進行計算處理得到標準偏差,按一定概率確定一個區間,認為凡超過這個區間的誤差,就不屬于隨機誤差而是粗大誤差,含有該誤差的數據應予以剔除。這種判別處理原理及方法僅局限于對正態或近似正態分布的樣本數據處理。
(2)實驗驗證
為檢驗本研究的提出的方法的準確性和實踐性,選取聚類處理后質心2附近的點作為拉依達準則檢測有效數據。對于成功率,我們取置信區間為? ,對于實際生活中,我們希望成功率越大越好,因此只選取下限,不考慮上限。對于響應時間,同上選取置信區間為 ,不考慮其下限,只考慮上限。
運用SPSS軟件對數據篩選個案之后,我們得到了72個異常值。其中成功率異常有36個,響應時間異常共有36個。由于篇幅的限制,以下部分檢測數據為例
我們發現,交易成功率異常檢測值基本在93%以下,響應時間在350ms以上判定為異常。而對于聚類質心1和聚類質心3類附近的點,這些點的響應時間異常程度比通過拉依達準則篩選出來的更大,但是成功率高于93%。
另外,為了更精確的發現異常值,定義由拉依達準則判定的成功率異常為藍色預警。我們對拉依達準則分析出來的響應時間異常點和聚類質心1和3處的點合并分析,并區分紅色預警和橙色預警。觀察該時間段(上午十點至下午三點)異常出現的次數,判定在五個小時內出現同種類型的異常來決斷。由以上分析,我們有信心確定,該方法具有較好的篩選能力:
設定1類的權值為 ,二類(拉依達準則判定后)的權值為 ,三類的權值為 ,閾值為 。 小時內,發生一類的次數為 ,發生二類異常的次數為? ,發生三類異常的次數為 ,則滿足下述條件的被判定為紅色預警點:
這里的參數我們無法得知,需要下一步專家確定,這里我們給出一種我們假定的參數來測試效果。設 ;間隔 分別為五個小時內發生1類、2類、3類異常的次數。即當滿足以下條件時,五個小時內的異常點被判定為紅色預警點。
在我們的參數設定情況下,374處交易量異常點中有153處為紅色預警,221處為橙色預警。
3.結論
本文對大量數據進行聚類分析和拉依達準則判定提取了特征參數,深入探討了ATM 指標中響應時間和成功率之間的關聯性。本文模型對大數據分析有著獨特的優點,并且對初步分析的數據設定權重比,提升模型的全面性和可信度,將模型出現誤差的可能性降到最低。本文所提方法對于龐大的數據,不能進行實時分析,只是按類進行分類的分析,從而得到分析結果的過程中存在一定缺陷,但這并不影響對異常數據的判斷結果和實際的運用。
參考文獻
[1]? 董天文,葉勇超,俞周瑜,等.ATM交易狀態特征分析與異常檢測[J].數學建模及其應用,2017,6(3):42- 54.
[2]? 張敏,袁輝;拉依達(PauTa)準則與異常值剔除[J];鄭州工業大學學報;1997年01期:85-89
[3]? 柴洪峰等.基于數據挖掘的異常交易檢測方法[M]計算機應用及軟件.2013.1
[4]? Chan P K,Fan W,Prodromidis A L,et al. Distributed Data Mining in Credit Card Fraud Detection[J]. IEEE Intelligent Systems & Their Applications,1999,14(6):67-74..
[5]? Ben-Haim Y,Tom-Tov E. A Streaming Parallel Decision Tree Algorithm.[J]. Journal of Machine Learning Research,2008,11(11):849-872.