

【摘要】針對房產銷售困難問題,提出了采用離群數據挖掘技術從客戶信息集中提取隱含知識的方案,該方案具有效率高、成本低的特點。方案利用LOF挖掘算法發現現有客戶集中具有潛在購房意向者,并對試驗結果質量進行評價. 算例結果驗證了方案的可行性。
【關鍵詞】 數據挖掘;離群數據;基于密度;房產銷售;潛在客戶
1、引言
隨著房地產銷售行業競爭加劇,房地產商的資金回籠率降低,這直接影響到房產業的健康發展。
根據Gartner的HPC研究表明,“隨著數據捕獲、傳輸和存儲技術的快速發展,用戶將更多的需要采用新技術來挖掘市場值,采用更為廣闊的并行處理系統來創建新的商業增長點”。數據挖掘[1]技術(Data Mining, DM)將在未來的商業領域中扮演越來越重要的角色。在房產銷售客戶數據庫中,知識發現(Knowledge Discovery from Database, KDD)可以從日常經營的海量客戶信息中發現潛在的、有成交意向的客戶,從而促進成交,必然能取得更好的經營效果,增強企業自身的核心競爭力。
2、離群數據挖掘算法的關鍵技術
數據集中明顯偏離大部分數據,不滿足數據的一般行為或模式,通常被稱為離群數據。該數據一開始并沒有受到人們的重視,通常以為是錄入錯誤或者測量錯誤等造成的噪聲。然而,部分離群數據可能比正常數據更有價值,它背后可能蘊藏著更多新穎的知識。Hawkins在80年代給出了一個關于離群點[2]的定義,該定義在一定程度上揭示了離群數據點的本質,他說:“離群點與其他數據是如此的不同,以至于讓人們懷疑它是不同的機制產生的。”
2.1 離群數據挖掘算法
離群數據挖掘[3-4]在國外已經獲得了廣泛的應用,代表性的有MM Breunig的Optics、D Yu的Findout、T Johnson的DEEPHLOC、Hp knegel的Lof、M Joshi的prule、E Knorr的FindAllouts D等方法。從選取數據集種類上可以分為:
基于統計的方法、基于深度的方法、基于偏離的方法、基于聚類的方法、基于距離的方法和基于密度的方法。其中,基于統計的方法只能在那些只有一個屬性值的數據中檢測離群點,無法對實際中的多維數據進行挖掘。而基于深度的方法需要復雜的幾何運算,對于高維數據的計算效率低下。再者,基于偏離的方法尚處于理論研究階段,實際中較少采用。最后,基于密度的離群挖掘算法[5-9]無需獲取過多的數據集的先驗知識,只需要專注于離群特性本身,在局部范圍內挖掘,這樣既避免參數選取困難,又可最大限度的避免離群數據漏檢。
例如圖1是一個二維數據集,數據集中有兩個聚類,分別是C1和C2,可以看出C1和C2的密度有很大不同,其中C1稀疏,C2稠密,依照Hawkins的離群點定義,對象O1和O2是離群點,但如果按基于距離的方法,O1能被輕易的挖掘出來,但要挖掘O2卻很困難。假如設定參數p和d的值,使得O2是離群點,那么C1中的某些點都變成了離群點。為了能夠避免以上情況發生,Breunig在2000年就提出了局部離群因子---LOF(Local Outlier Factor)。加入LOF的算法中解決了局部離群程度的度量和挖掘問題。算法的基本過程如下:
定義1 對象p的k距離:p與它的k個最近鄰居中相距最遠的點的距離,計為k-distance(p)。計算p的k距離是為了檢測哪些數據是p的鄰居。對象p的k距離是p與數據集中對象的o的距離d(p,o),其中對象滿足兩個條件:(1)至少有k個對象o’∈D\{p},滿足d(p,o’)≤d(p,o);至多有k-1個對象o” ∈D\{p},使得d(p,o”) 對于任意兩個數據對象,xi,yj 有xi={Vi1,Vi2,…Vim} 和Yj={Vj1, Vj2,…Vjm}。則歐幾里徳距離為: 如果數據對象屬于標度區間類型,其應為曼哈頓距離: 總之,其距離可以表示為明考斯距離: 其中,h=1表示曼哈頓距離,h=2表示歐幾里得距離。 從公式可以看出,p的LOF函數為p的所有k距離鄰居的局部可達密度與p的局部可達密度的比值的平均值。p的局部可達密度相比于它的k鄰居越小,則LOF的值就會越高,p的離群程度就會越高,從此證明了LOF離群因子的有效性。 3、密度離群挖掘算法的指標評價 我們可以通過準確度(Precision)、召回率(Recall)和排序度(Rankpower)來評價信息系統質量,當然也可以通過對這三個指標適當裁剪,用以評價LOF算法的基于密度的離群數據挖掘有效性。假設數據D=D0∪Dn,在這里,D0表示數據集中離群數據的集合,Dn表示數據集中正常數據的集合。當m≥1(m為正整數),Dm表示該算法中排在前m的離群點的集合,且n(n∈m)個離群點構成的集合為R0。三個指標可以表示為: 4、算法實現 本數據源采用杭州某房產公司(2013-2014年度新增客戶)統計數據,該數據集有550條數據,16個屬性。根據相關知識,我們先對屬性集進行清洗、轉化和裁剪,取出來訪次數、年齡、家庭年收入、職業,四項數據進行研究。針對該房產項目排屋項目的單套房總價格區間[900萬-1400萬],采用LOF算法來挖掘數據集中的離群數據,根據以往經驗最近鄰居個數取值為14,另外,為了保護個人信息,本研究對客戶姓名用英文字母來代替,圖2為運算結果的前6條記錄: 從以上結果分析,離群度高的C先生,來訪4次,民營企業主,年收入較高,對于總價千萬的排屋項目,購買意向較大,是可以爭取的對象。D女士,來訪次數5次,收入較高,金融工作者,離群度較高,成交的幾率較大。 結論: 營銷管理中采用數據挖掘技術,能有效地從大量營銷數據中發現數據之間有價值的模式或規律,從而幫助企業管理層做出精準且及時的反應,并能為企業可持續發展注入新活力。 參考文獻: [1]朱明.數據挖掘[M].合肥:中國科學技術大學出版社,2002. [2]Hawkins D. Identifi-cation of Outliers[M].London: Chapman and hall,1980. [3]Edwin M Knorr, Raymond T Ng,Vladimir Tuckov.Distance-based outliers:algorithms and application[J].VLDB Journal, 2000,8(3-4):237-253. [4] Breunig M,Kriegel H. P,Ng R T,et al.LOF: Identifying density-based local outliers[C].In:Proe.Of ACM SIGMODC on ference,Dallas,2000:93-104. [5]唐志剛,楊炳儒,楊珺.一種基于馬爾科夫鏈的高緯離群點挖掘算法[J].系統工程與電子技術,2010,32(12):71-74. [6] 劉書志.基于密度的局部離群數據挖掘方法的研究和改進 [D].重慶.重慶大學,2014,4. [7]史東輝.基于規則的分類數據離群挖掘方法研究[J].計算機研究與發展,2000,37(9):1094-1100. [8]Malik Agyemang.Local Sparsity Coefficient-Based Mining of Outliers[J].Windsor Ontario:University of Windsor, 2003:75-103. [9]S.P.Lloyd.Least Squares Quantization in PCM[J].IEEE Trans.Information Theory,1982,28:128-137. 作者簡介: 呂圣軍(1975-),男,碩士,講師,主要研究方向: 數據挖掘及其應用