[摘要] 本文重點討論了在CRM中應用關聯規則挖掘技術進行房地產業客戶意向分析的問題。對調查數據進行了挖掘得出了較多有價值的模型和規則,并比較客觀地反映了城市居民對住房的需求情況。
[關鍵詞] 數據挖掘客戶關系管理(CRM)關聯規則[摘要] 本文重點討論了在CRM中應用關聯規則挖掘技術進行房地產業客戶意向分析的問題。對調查數據進行了挖掘得出了較多有價值的模型和規則,并比較客觀地反映了城市居民對住房的需求情況。
[關鍵詞] 數據挖掘 客戶關系管理(CRM) 關聯規則
一、引言
消費者已經進入了“以客戶為中心”時代,各方面的需求都進入了個性化、定制的階段,這也正是目前房地產行業客戶關系管理(Customer Relationship Management , CRM)系統應用與現實的矛盾所在。隨著數據挖掘技術的發展,能夠幫助企業從大量的、不完全的、有噪聲的、模糊的、隨機的CRM數據中提取潛在有用的信息和知識,來解決這些問題。
二、關聯規則挖掘技術
關聯規則挖掘(Association Rules Mining)是數據挖掘技術中的一個重要研究方向,它是由Agrawa1,Imielinski和swami于1993年首先提出的。關聯規則是數據挖掘的眾多知識類型中最為典型的一種。
關聯規則挖掘的算法有多種, 最經典的是Apriori 算法, 許多關聯規則挖掘算法都是基于該算法。因此, 這里用Apriori 算法開采頻集, 并由頻集產生相應的關聯規則。具體做法詳見文獻。下面給出發現頻繁項集的Apriori算法的偽代碼描述。
Input: A dataset D,with min_sup
output: The frequent itemsets of D
Method:
(1)L1=frequent1-itemsets Li(D);
(2)for (k=2:Lk-1≠Φ;k++)
(3)begin
(4)Ck=apriori_gen(Lk-1,min_sup);
(5)for each transactions t∈D
(6)output Ct=subset(Ck,t);
(7)for each candidates C∈Ct
(8)c.count++;
(9)end
(10)Lk={c∈ck|c.count>=min_sup};
(11)end
(12)return L;
上面的代碼清晰的描述了Apirori算法.
三、關聯規則挖掘技術在房地產客戶關系管理系統中的應用
下面是一個基于房地產客戶分類的關聯分析,如某小區購置不動產隨機數據產生頻繁項目集的過程:
用項目集在數據中出現的次數來作為支持度,設min_sup=3,從圖中看出,C3到L3的產生過程,引入修剪后候選集的規模比原來減小了。
根據交易數據,產生頻繁項目集過程:
數據說明:I1表示:”購買多層戶型”; I2表示:”購買小高層戶型” ;I3表示:”購買高層戶型”; I4表示:”租賃車位”; I5表示:”購買車位”;例如T1表示:”購買多層戶型”,“租賃車位”。
這關聯規則是否可信,則要根據規則的支持度(support)和置信度(confidence)做出量化判斷。由支持度的計算公式和置信度的計算公式:
經過挖掘發現一些有價值的關聯規則:
可見, 表中列出的關聯規則均具有較高的支持率和可信度。然而, 為了更加準確地挖掘出有意義的關聯規則, 還可以進行更深一步地挖掘即對挖掘出的關聯規則更換因果關系, 形成新的關聯規則。
四、結束語
房地產行業是一個數據量大、關聯性強、影響因素多的復雜非線性系統。數據挖掘技術在房地產行業的應用是一個年輕且充滿希望的研究領域,人們對它的研究正日益廣泛和深入。解決好這些問題,對于政府部門合理分析產業發展,制定產業政策及開發企業和個人正確判斷房地產市場形勢、做出投資或購房決策具有重要意義。
參考文獻:
[1]張蓉:數據挖掘技術在房地產客戶關系管理系統中的應用.現代情報,2006.6
[2]Pang-Ning Tan Michael Steinbach Vipin Kumar,Introduction to Data Mining,Post Telecom Press ,2006.5
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。