[摘 要]本文采用聚類算法對ATM機上的日取用數量進行聚類,之后把每日的日取用數量替換成聚類類標號,然后再通過EVIEWS軟件,對這些包含時間屬性的聚類類標號進行回歸,生成回歸方程式,用來預測未來的日貨幣存放量。
[關鍵詞]聚類 EVIEWS 回歸分析 預測
一、引言
聚類分析是一種重要的人類活動。早在孩提世代,通過不斷地改進下意識的聚類模式來學習如何區分貓和狗,或動物和植物。聚類分析已經廣泛的應用于許多應用領域,包括市場研究、模式識別、數據分析和圖像處理。在電子商務中,聚類分析能夠幫助市場分析人員根據購買模式從顧客庫中發現不同的顧客群。在生物學中,聚類能用來推到植物和動物的分類,根據相似功能對基因進行分類,獲得對種群中固有結構的認識。聚類可以定義如下:基于數據的相似性把數據集合劃分成組。相對于數據分類而言,聚類是觀察式學習,他不需要事先指定,而是根據自己的觀察得出組信息。
各個銀行網點每日需要的貨幣數量是一個不確定的值,既不能在銀行存放過多貨幣,也不能讓客戶來銀行取款時無錢可取,ATM機器也是一樣。在無錢可取時,銀行必須得雇用保安公司或者警察押送貨幣,如果某一天的貨幣數量不夠,那么因為押送而多支付給保安公司或警察的錢就會增加,對于銀行來說,這是一筆很大的負擔。要非常準確的預測下一天的貨幣使用量,這個將會是一個很困難的問題,但是,如果要預測下一天的貨幣使用范圍,這個還是有一定的可行性的。
本文就是首先對一個ATM機器上的日貨幣使用量進行聚類,把日貨幣量劃分為幾個類別,例如:60萬到70萬之間為一類,70萬到80萬之間為一類。在聚類完成以后,把每日的貨幣使用量采用類標號來代替,然后通過EVIEWS進行回歸分析,來進行預測下一天的貨幣使用范圍。
二、聚類分析
本文是通過K-MEANS來進行聚類。該算法如下圖所示:
當我們把聚類數量設置為10時,簇中心為下表所示。
得到以上聚類結果后,參考了銀行專業人士的意見,每次運鈔應該是一個整的單位,不會是出現小數,故在這里以50萬作為基準,由此可以把聚類結果分為50萬以下,50到100萬,100萬到150萬,150萬到200萬,200萬到300萬,300萬以上。
三、回歸分析
在分別用類標號代替日需貨幣量以后,我們通過EVIEWS進行回歸分析。拿最新的數據作為預測數據,實驗結果顯示,準確率可以達到70%以上。
四、結論
在對ATM機的日貨幣量采用聚類做預處理以后,再通過EVIEWS進行回歸分析以后,發現預測效果達到了70%(目前正在實施的預測方法的準確率僅為50%),說明該預測方法有可行性,在一定程度上減少了因為預測的不準確導致產生的費用。
因為目前只有一個ATM機器的數據,該算法的有效性還應根據多個ATM機器上進行反復測試,在證明算法有效以后,真正拿去實施應用。但這個預測的方法可以供參考,也可以采用這種方法預測其他數據。
參考文獻:
[1]辛愛莉:聚類算法在電子商務客戶細分中的應用[J].商場現代化,2008.02 p164
[2]葛繼科:數據挖掘技術在個人信用評估模型中的應用[J].計算機技術與發展,2006.12pp172~174 p177
[3]JiaWeiHan范 明 孟曉峰:數據挖掘概念與技術[M].機械工業出版社,2006
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文