摘要:從模糊集的基本理論入手,通過定義模糊概念軟化屬性域的劃分邊界,提出了一種新的基于模糊概念的量化關(guān)聯(lián)規(guī)則方法。本方法克服了因劃分區(qū)間而造成數(shù)據(jù)缺失的不足。最后通過將某市2004年的實(shí)際數(shù)據(jù)運(yùn)用到建立的算法中,驗(yàn)證算法的有效性,為有效開展可疑金融交易識別提供了有益的參考。
關(guān)鍵詞:反洗錢;關(guān)聯(lián)規(guī)則;模糊集;隸屬函數(shù)
中圖分類號:F830文獻(xiàn)標(biāo)識碼:A 文章編號:1002-2848-2007(02)-0057-04
隨著反洗錢工作的不斷深入,對海量金融交易數(shù)據(jù)進(jìn)行有效挖掘,從中判別出可疑金融交易已經(jīng)成為反洗錢工作的關(guān)鍵環(huán)節(jié)之一。具有多種成熟算法的關(guān)聯(lián)規(guī)則挖掘算法成為最具挑戰(zhàn)性的挖掘工具,最早的關(guān)聯(lián)規(guī)則挖掘問題由Agrawal等人提出[1],通過幾年的發(fā)展,已有了很多成熟有效的算法[2,3],但傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘問題僅能處理布爾屬性的數(shù)據(jù),即項(xiàng)目存在或是不存在。而在金融交易數(shù)據(jù)中存在大量的表(關(guān)系),包含著豐富的屬性類型。有的屬性是數(shù)量型的(如年齡,交易金額等)或者是分類型的(如郵政編碼,電話號碼等),這些屬性間蘊(yùn)涵著豐富的關(guān)聯(lián)關(guān)系。有效的發(fā)現(xiàn)這些關(guān)聯(lián)關(guān)系,對于實(shí)際決策過程具有十分重要的意義。
量化關(guān)聯(lián)規(guī)則由Srikant等人于1996年提出,其算法的主要思想是采取分區(qū)技術(shù),將需進(jìn)行量化處理的屬性的域劃分成一個(gè)一個(gè)區(qū)間,并對相鄰區(qū)間適當(dāng)?shù)暮喜ⅲ瑥亩鴮栴}轉(zhuǎn)化為布爾關(guān)聯(lián)規(guī)則的問題進(jìn)行解決[4]。盡管這一方法為解決量化關(guān)聯(lián)規(guī)則的挖掘問題提供了一條有效途徑,但也存在明顯的不足:首先,造成明顯的邊界問題,即在挖掘過程中,對靠近區(qū)間邊界值的作用,要么過分強(qiáng)調(diào),要么被忽略;其次,劃分的區(qū)間可能不簡明或無實(shí)際意義,不利于專家理解和信息抽取。
同時(shí),通過對已知的洗錢行為的分析,可以發(fā)現(xiàn),大量的犯罪分子在了解可疑金融交易報(bào)告體制的條件下,往往會故意減少一點(diǎn)交易金額(使交易金額在監(jiān)管范圍以外),從而達(dá)到規(guī)避金融部門進(jìn)一步檢查的目的。針對以上問題,本文提出了基于模糊概念的量化屬性關(guān)聯(lián)規(guī)則挖掘方法。該方法以模糊集理論為基礎(chǔ),通過在數(shù)據(jù)屬性域上定義一組模糊概念,將隱含于量化屬性間的關(guān)聯(lián)關(guān)系轉(zhuǎn)化為模糊概念間的問題而解決。這樣,就可以解決因區(qū)間劃分不明確而引發(fā)的問題,并且使得到的結(jié)果簡明、便于理解。
一、問題定義
(一) 模糊概念表示
由于金融交易數(shù)據(jù)的多樣性與復(fù)雜性,其中很多數(shù)據(jù)需要借助模糊概念進(jìn)行表示。雖然模糊概念的內(nèi)涵與外延都不明確,但人腦卻善于判別與處理不精確、非定量的模糊概念,并從中得出具有一定精度的結(jié)論。所以,對數(shù)據(jù)庫的量化屬性處理不采用區(qū)間劃分的方法,而采用模糊概念對其進(jìn)行抽象、概括,從而使得最終挖掘出的規(guī)則表示自然、簡明、易于專家理解。模糊概念的數(shù)學(xué)表示就是模糊集合論,其不明確的內(nèi)涵與外延隸屬函數(shù)定量描述。所以,模糊概念實(shí)際上是在一定論域中的一些模糊集合。
為便于與量化屬性統(tǒng)一處理,對屬性類型,可將其值映射成整數(shù),從而將類型屬性轉(zhuǎn)化為量化屬性進(jìn)行處理:而對于精確概念將其看作模糊概念的特殊情況進(jìn)行處理,即隸屬函數(shù)的值域退化為{0,1}。這里的模糊概念及其對應(yīng)的模糊集和相應(yīng)的隸屬函數(shù)可由反洗錢領(lǐng)域的專家定義,或是對大量數(shù)據(jù)進(jìn)行模擬測試,經(jīng)訓(xùn)練得到。
(二) 模糊關(guān)聯(lián)規(guī)則定義
利用模糊概念表示的關(guān)聯(lián)規(guī)則也稱為模糊關(guān)聯(lián)規(guī)則。首先定義模糊概念模式及其支持率,然后給出模糊關(guān)聯(lián)規(guī)則的定義及其興趣性度量方法。
為挖掘有效的模糊關(guān)聯(lián)規(guī)則,用戶必須預(yù)先給定最小支持率minsup和最小置信度mincon。所以,模糊關(guān)聯(lián)規(guī)則的挖掘問題就是對給定的數(shù)據(jù)庫D和量化屬性域上定義的模糊概念集N,發(fā)現(xiàn)支持率和置信度分別大于minsup和mincon的所有模糊關(guān)聯(lián)規(guī)則。
(三) 早期量化關(guān)聯(lián)規(guī)則算法
1.等深劃分(equi-depth partitioning)
劃分為N個(gè)區(qū)間,每一個(gè)包含大致相同的樣本個(gè)數(shù)。Fukuda提出的等深度劃分方法[5]在一定程度上解決了過小支持率和過小置信度問題。這種方法趨向于將支持率較高的區(qū)域劃分為多個(gè)小區(qū)間,離散化后原本相近的連續(xù)屬性取值分散到不同的區(qū)間,降低了包含該屬性峰值區(qū)域的項(xiàng)集支持率;當(dāng)支持率降到最小支持率以下的時(shí)候?qū)е滦畔G失。當(dāng)數(shù)據(jù)分布在某個(gè)點(diǎn)附近達(dá)到峰值時(shí),等深度劃分這種機(jī)械的方法并不能反應(yīng)出數(shù)據(jù)本身的特點(diǎn),因此,我認(rèn)為對像金融交易數(shù)據(jù)這樣的高偏度數(shù)據(jù)處理效果不理想。
2.部分k度完全方法(partial k-compelement)
當(dāng)數(shù)據(jù)分布在某個(gè)點(diǎn)附近達(dá)到峰值時(shí),等深度劃分不能反映出數(shù)據(jù)本身的特點(diǎn)。另一方面,聚類方法可以定量地確定對象之間的親疏關(guān)系,對于給定的大樣本,在沒有已知模式參考情況下,聚類方法能夠按照樣本的本性將對象分類,在解決數(shù)量關(guān)聯(lián)問題中,應(yīng)用聚類方法將屬性值分類,得到的每一類,構(gòu)成一個(gè)區(qū)間,可以解決等深度劃分不能解決的問題,能體現(xiàn)出數(shù)據(jù)的分布情況。
Agrawal等人提出的基于支持率的部分k度完全方法的優(yōu)越之處在于:所得到的區(qū)間支持率大于最小支持率,不會因過小支持率而被忽略,同時(shí)給出了置信的降低程度,在一定程度上限制了過小置信度導(dǎo)致的信息丟失[4]。
二、模糊關(guān)聯(lián)規(guī)則的挖掘算法
由頻繁模糊概念模式生成模糊關(guān)聯(lián)規(guī)則的算法,通常采用Agrawal在文獻(xiàn)中給出的算法。算法中符號分別定義為:D金融交易數(shù)據(jù)庫;N模糊概念集;長度為k的候選模糊概念模式;長度為k的頻繁模糊概念模式;p.sum記錄對模糊概念模式P的支持率之和。
輸入:金融交易數(shù)據(jù)庫D,模糊概念集N及對應(yīng)的模糊集和隸屬函數(shù),最小支持率minsup。
輸出:頻繁模糊概念模式L。
三、算法驗(yàn)證
為分析方便,僅以個(gè)人金融交易數(shù)據(jù)為例。表1是經(jīng)過垂直分割后提取的具有代表性的金融交易數(shù)據(jù)記錄,分別為交易標(biāo)識號(ID)、交易人年齡(Age)、交易收付標(biāo)志(OutorIn)、交易人本月內(nèi)交易次數(shù)(NumMon)和交易金額(Num)。
表1個(gè)人原始交易數(shù)據(jù)表
表2 在屬性Age,OutorIn,Num,NumMon上定義的模糊概念、模糊集和隸屬函數(shù)
表2分別給出了在屬性Age,OutorIn,Num,NumMon上定義的模糊概念、模糊集和隸屬函數(shù)。其中,OutorIn為類型屬性,為便于處理,在挖掘中將其轉(zhuǎn)化為數(shù)量屬性,用1表示Out,0表示In。
以上關(guān)聯(lián)規(guī)則就為我們得出部分普遍性規(guī)律,如果某位交易客戶違背了這種規(guī)律,就可以認(rèn)為是可疑金融交易行為,可對其進(jìn)行進(jìn)一步的分析調(diào)查。
四、結(jié)束語
與基于分區(qū)方法的量化關(guān)聯(lián)挖掘算法比較,該算法的優(yōu)點(diǎn):(1)通過定義模糊概念軟化了屬性域的劃分邊界,在集合和非集合元素之間提供平滑的變遷,在挖掘時(shí)充分地、合理地考慮各個(gè)元素所作的貢獻(xiàn),克服了因劃分區(qū)間而造成的不足,也減少了屬性-值對應(yīng)的數(shù)目。(2)用模糊概念表示屬性間的關(guān)聯(lián)關(guān)系,自然、簡明、便于工作人員進(jìn)行具體的分析。(3)用戶可在屬性上定義不同數(shù)目的模糊概念,方便地控制關(guān)聯(lián)規(guī)則的普遍化與具體化的程度。通過實(shí)驗(yàn)驗(yàn)證,算法是有效的。
參考文獻(xiàn):
[1]Agrawal R, Imielinski T, Swami A. Mining association rules between set of items in targe databases. In:Proceedings of the 1993 ACM-SIGMOD Conference on Management of Data, Washington,D.C, 1993:207-216.
[2]Agrawal R, Strikant R. Fast algorithms for mining association rules. In: Proceedings of the 20th VLDB Conference, Santiago, Chile, 1994: 247-299.
[3]Park J, Chen M, Yu Y. An effective hash-based algorithm for mining association rules. In: Proceedings of 1995 ACM SIGMOD International Conference on Management of Data, San Jose, USA, 1995: 175.
[4]Srikant R, Agrawal R. Mining quantitative association rules in large relational Tables. In: Proceedings of the ACM SICMOND International Conference on Management of Data, Monreal, Canada, 1996:1-12.
[5]Fukuda T et al. Mining optimized association rules for numeric attributes[C]. In Proceedings of the Fifteenth ACM SIGACT-SICMOND-SIGART Symposium on Principles of Database Systems, Montreal, Canada, 1996.182-191.
責(zé)任編輯、校對:趙西寧
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文