劉曉云++焦亞琴++張銀葉



〔摘要〕隨著互聯網技術的發展,電子商務進入了海量數據時代,從這些海量數據里挖掘出有用的模式具有非常高的商業價值。常規的數據挖掘模型會依賴于特定的數據挖掘平臺,而目前的數據挖掘平臺并不能做到隨時隨地跨平臺交換數據挖掘模型。文章提出基于PMML的電子商務數據挖掘方法,只要數據挖掘平臺兼容了PMML規范就可以真正做到跨臺平交換數據挖掘模型。文章重點研究了PMML語言是如何表示完整數據挖掘模型,并就某電商平臺挖掘潛在客戶的數據進行實驗并分析實驗結果,從而驗證了方案的有效性。
〔關鍵詞〕電子商務;數據挖掘模型;PMML;跨平臺
DOI:10.3969/j.issn.1008-0821.2015.08.012
〔中圖分類號〕F71336〔文獻標識碼〕A〔文章編號〕1008-0821(2015)08-0057-04
電子商務是互聯網技術迅速發展的必然產物,伴隨著電子商務的快速發展,隨之而來的是電子商務、網絡日志、社交網絡以及互聯網搜索引擎等每天都在各類平臺上產生大量的數據信息。IDC最新的數字宇宙研究結果表明,預計到2020年,世界上的數據存儲總額將達到35ZB(1ZB等于1萬億GB字節)。信息爆炸帶來的是無限的商機,目前無論是國內企業(例如淘寶),還是國外公司(例如Amazon、Ebay等)均已通過分析客戶購買行為并利用分析結果提高了企業的服務質量,通過對客戶購買行為的數據進行挖掘和分析可以幫助我們更好地理解客戶的行為模式,進而對客戶進行分類,從而制定更為精準的營銷策略以及提高利潤率和網絡購物的滲透率。在這樣的大環境下數據挖掘技術得到了迅速的發展。
數據挖掘技術自20世紀90年代被提出以來一直在電子商務領域得到了重點研究,對于如何定義數據挖掘概念目前有很多版本,本文認為數據挖掘(又稱KDD,即數據庫知識發現)是針對數據的一種提取隱含在其中的信息的操作,目的是為了將數據庫中大量的、不完全的、有噪聲的、模糊的、隨機的數據提取出來,使之變為可利用、有規律、能為決策提供支持的有價值的信息。目前國內外對數據挖掘的研究主要集中在數據挖掘領域的關鍵技術、關鍵算法研究,數據挖掘的實際應用以及有關數據挖掘理論方面研究,發掘方法與用戶交互問題等。盡管數據挖掘技術在電子商務領域的應用由來已久,但它依然存在一些亟待解決的問題。主要表現在數據量巨大,數據變化速度快,數據挖掘模型中數據屬性的選擇十分關鍵;對數據變化的預測至今還沒有非常成熟的技術;挖掘模型的可靠性與挖掘結果的準確性還沒有統一的標準;在挖掘用戶信息的前提下如何保護客戶隱私的安全性也是一個亟待解決的問題[3]。本文主要針對海量電子商務數據的跨機構、跨平臺數據挖掘進行研究。
傳統的小規模數據集的數據挖掘很容易在獨立平臺實現,然而電子商務數據面臨海量、異構、多樣、動態等問題,特別是當前互聯網發展迅速,服務器會異地部署,數據分散導致處理過程非常復雜,在這種情況下,跨機構、跨平臺進行數據挖掘交互十分頻繁也十分必要。與此同時,傳統的數據挖掘算法面臨海量數據時需要進行改進,實際建模過程中可能出現重復執行同一個數據處理操作,在帶有參數的情況下,手工執行會比較麻煩,必須借助腳本實現;在常規數據挖掘模型執行過程中,默認數據流是順序執行,倘若存在改變執行順序的需求,則需要使用腳本實現;傳統的數據挖掘平臺是用戶首先在人機界面上調試好執行順序,可以通過腳本語言來實現模型節點的自動執行、自動更新和導出執行結果;實際實施過程中可能面臨批量修改現有的數據,為提高構建模型效率,需要采用腳本語言[4]實現。
實際上,傳統的數據挖掘平臺都有各自的一套處理流程標準,要想實現同一數據挖掘模型的跨平臺運行給數據挖掘研究帶來了巨大的挑戰。目前國內外關于數據挖掘在跨平臺交換數據挖掘模型方面的研究還比較稀少,更沒有形成統一的標準,即在一個平臺上運行的數據挖掘模型還不能很輕易地遷移到另外一個平臺。IBM公司的SPSS Modeler實現了用腳本語言定制一些數據挖掘過程的功能,但是定制的模型有限,而且模型僅僅適用與其系列數據挖掘工具。RapidMiner開發了適用其平臺定制數據挖掘流程的腳本語言,但是這種腳本語言沒有得到業界的認可[5],不利于推廣。VMStudio實現了用S語言來實現數據過濾與統計的功能,但是該平臺沒有開放源碼,不利于二次開發。跨平臺的重要性不言而喻,例如在一個平臺進行的數據挖掘結果可以遷移到另外一個平臺進行效果評估。所以本文提出基于跨平臺的PMML語言來定制數據挖掘模型,實現數據挖掘模型的真正跨平臺運行。
11PMML概述
1999年DMG(Data Mining Group)在XML的基礎上制定出了預測模型標記語言PMML(Predictive Model Markup Language)。PMML是一種與平臺無關的統計和數據挖掘(Data Mining,DM)模型表示規范,它以XML為基準將數據挖掘任務規范化,可以把某平臺所創建的數據挖掘模型遷移到其它任何滿足PMML標準的系統或者產品中。通過定義統一的以及標準化的數據挖掘模型表達方式,PMML分離了模型的構造與應用。PMML使得數據挖掘模型的部署不再束縛于模型開發和產品整合,其框架結構圖見圖1,從而為將來的數據挖掘應用提供了一種創新的方法。PMML擺脫了模型開發和部署局限于某一個特定的數據挖掘平臺,從而為電子商務系統、數據倉庫和云計算中的數據挖掘應用提供了一種新的方法。目前已有許多公司或組織加入了PMML規范的制定,便于其推廣。需要PMML語言的主要原因可以簡要歸納[6]為以下3點。
111模型交換的需要
數據處理的任務非常復雜,有時候甚至需要不同的數據處理工具,這些不同的數據處理工具之間必須能交換處理的結果。
112模型部署的需要
PMML使得模型部署跨越Internet更加容易,軟件提供商能更加容易的將數據處理結果導入到支持PMML標準的平臺里。endprint
113跨平臺需要
PMML提供了一種不定義模型的執行方法,只定義模型的描述跨平臺方案,使得數據挖掘更具有開放性。
12PMML結構與模型表示
怎樣從海量數據挖掘到事先未知具有潛在價值的信息,然后依據商業目的進行預測和評估,是數據挖掘研究亟待解決的主要問題之一[7],PMML標準是描述數據挖掘過程的一個規范,它按照數據挖掘任務處理步驟,定義了數據挖掘各個階段的處理描述信息[8],主要包括頭部信息、數據詞典、數據預處理、模型表示、模型輸出和預測評價等部分。PMML是用XML來表示數據挖掘流程的,整個PMML文檔都是用XML的DTD進行描述的,一個根元素為PMML類型的XML元素的文檔可以包含多個模型部分,其中數據詞典和模型表示是PMML文檔的核心部分。PMML規范里的元素主要分為兩類:描述元素和模型元素,結構見圖2,描述元素主要用來描述一些流程基本信息,例如元素的一些屬性定義等,模型元素主要用來描述數據處理流程算法相關信息的。
14基于PMML的可視化
可視化就是利用簡單界面的方式來顯示數據,把用戶需要的數據進行可視化呈現,增加了用戶對數據的掌握程度,進而可以透徹的分析與挖掘信息的關系。PMML包含數據字典、預處理、模型等部分,非常適合進行可視化展示[10]。目前42版本支持數據可視化、模型可視化和驗證結果可視化功能。其中數據可視化部分是對數據集信息的可視化,PMML文件中元素MiningSchema的屬性Importance表示數據變量的重要性,可以作為可視化的數據源。模型可視化是指利用PMML文件的信息將其結構可視化顯示出來,方便挖掘模式進行顯示。驗證可視化是指對模型驗證的結果以可視化的形式展示,例如,當預測分類數據時,混淆矩陣能夠用來說明預測精確度,PMML規范提供了ConfusionMatrix元素來配置混淆矩陣可視化信息。
2實驗分析
為了驗證本文提出的基于PMML跨平臺電子商務數據挖掘研究方法,采用某電商平臺為了挖掘潛在用戶的數據進行驗證,實際選取了2 000個樣本,其中每一位用戶為一個樣本點,非潛在用戶為負樣本,用0表示,潛在用戶為正樣本,用1表示,數據存儲在數據庫的表結構見圖3。從數據集合里隨機抽取1 500個充當訓練樣本,500個充當測試樣本,實現對決策樹算法、貝葉斯算法、支持向量機和其改進算法(LIBSVM)[11]進行驗證,實驗結果見表1。PMML規范里的Model Explanation元素提供了一系列的評價指標來評價模型的結果,主要有針對分類模型的Predictive Model Quality元素和針對聚類模型的Clustering Model Quality元素。本文引入可視化技術把模型評價的結果進行顯示,主要的形式有ROC曲線和混淆矩陣。ROC曲線是把分類模型靈敏度和特異性按照可視化方式顯示,分類模型的優劣可以通過曲線下方的面積來評價,好的分類模型應該最大可能的靠近圖形的左上角,簡單的隨機猜測模型應位于主對角線附件?;煜仃囍饕脕肀容^實際值與分類結果,可以把分類精度顯示在一個矩陣里,矩陣的每一行代表了分類信息,每一列代表了實際的測得信息。其中部分字段的ROC曲線見圖4。
根據圖4的實驗效果可知,屬性Co16、Co14具有很好的預測性能,屬性Co13、Co11和Co15具有很好的隨機預測性能,屬性Co17和Co18并不適合用來預測。根據表1可知,貝葉斯和決策樹算法隨著樣本數量的增加,訓練時間也上升得很快,然而分類準確率并沒有隨著上升,LIBSVM單次訓練時間線性度要好很多,顯然SVM改進以后隨著樣本數據的遞增,訓練時間得到了很好的改善,而且分類準確率得到了很好的提升。
3總結
隨著互聯網技術的發展,電子商務進入了海量數據時代,現有的數據挖掘平臺在跨機構、跨平臺進行數據挖掘時存在很大困難,本文提出基于PMML的電子商務數據挖掘方法,分析了PMML如何描述數據挖掘流程與其跨平臺優點,在研究的基礎上利用某電商平臺挖掘潛在客戶數據設計了實驗進行驗證,并對結果進行了分析,從而證明了本文提出的基于PMML的電子商務數據挖掘方法具有很好的跨平臺交換模型的功能,結合可視化技術可以把挖掘結果以更加直觀的方式展現給用戶。
參考文獻
陳發鴻.電子商務發展與政府應對策略[J].管理科學研究,2011,12(5):3-4.
Turban E,King D.Electronic Commerce:A Managerial Perspective[J].Prentice Hall,2006,4(7):11-16.
[3]李桂華,姚唐.影響企業購買行為因素的概念化模型及其分析[J].現代財經,2007,11(27):110-129.
[4]趙文,胡文蕙,張世琨,等.工作流元模型的研究與應用[J].軟件學報,2003,6(14):53-59.
[5]方駿,方云,肖杰.數據挖掘的工業標準的現狀和展望[J].計算機應用研究,2004,12(6):8-10.
[6]Raspl S.PMML Version 30 Overview and Status[C].Seattle,WA,2004.
[7]Haym Hirsh.Data Mining Research:Current Status and Future Opportunities[J].Statistical Analysis and Data Mining,2008,2(1).
[8]汪加才,朱藝華.基于PMML的自組織神經網絡元模型[J].計算機應用與軟件,2006,23(11).
[9]Wang Chao,Zhou Nan,Qiu Li-juan.Based on the java support PMML code three layer data mining systems[J].Agriculture Information Network,2004,15(8).
[10]Donald Heam,等.計算機圖形學[M].蔡士杰,等譯.北京:電子工業出版社,2007.
[11]Lee Y C.Application of Support Vector Machines to Corporate Credit Rating Prediction[J].Expert Systems with Applications,2007,33(1):67-74.
(本文責任編輯:孫國雷)endprint