摘要:描述了網絡信息挖掘的含義以及與數據挖掘之間的區別,提出了在電子商務應用中采用網絡信息挖掘幫助企業實現最大化利潤的方法,最后指出了網絡信息挖掘未來的研究方向。
關鍵詞:網絡信息挖掘;Web挖掘;電子商務
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2008)22-650-02
Network Information Mining in Application in E-commerce System
ZHANG Yong-jun, LIU Jin-wei
(Hunan Urban Construction College, Xiangtan 41110, China)
Abstract: Describes the information network and the excavation of the meaning of the distinction between data mining, made in e-commerce applications on a network of information mining enterprises to help maximize the profits of methods, concluded that the network of information mining the future direction of research.
Key words: Network Information Mining; Web mining; e-commerce
1 引言
網絡信息挖掘是不同于傳統的數據倉庫技術平和簡單的知識發現,它面對的海量信息不是全簡單的結構化數據,而常常為半結構化的數據,如文本、圖形、圖像數據,甚至是異構型數據。數據挖掘是從大量數據中提取出可信的、新穎的、有效的并能被人們理解的模式的高級處理過程, 傳統的數據挖掘技術處理的數據對象主要是結構化數據,很少處理Web上的異質、非結構化信息,因此,對Web上的數據進行挖掘具有極大的挑戰性, 也極大地推動了Web 數據挖掘的研究工作,Web 數據挖掘成為數據挖掘的一個新主題,引起了人們的極大興趣。
1996 年,Etzioni首次給出了Web 挖掘的定義:Web 挖掘就是使用數據挖掘技術從與WWW相關的資源和用戶瀏覽行為中自動抽取用戶感興趣的、有用的模式和隱含的信息。它所處理的對象包括:靜態網頁(文字、多媒體信息等) 、Web 數據庫、Web頁面的內部結構、Web結構、用戶使用記錄等信息。通過對這些信息的挖掘, 可以得到僅通過文字檢索所不能得到的信息。
網絡信息挖掘大致分為4個步驟:1)資源發現,即檢索所需的網絡文檔;2)信息選擇和預處理,從檢索到的網絡資源中自動挑選和預先處理得到專的信息;3)概括化,即從單個的Web站點以及多個站點之間發現普遍的模式;4)分析,對挖掘出的模式進行確認或解釋。
2 網絡信息挖掘的分類
根據挖掘的對象不同,網絡信息挖掘可以分為網絡內容挖掘、網絡結構挖掘和網絡用法挖掘。
1)網絡內容挖掘,即從網絡的內容/數據/文檔中發現有用信息的過程。網絡信息資源類型眾多,從網絡信息源的角度看,大量的網絡信息資源可以直接從網上抓取、建立索引、實現檢索服務,但是還有一些網絡信息是“隱藏”的,如南用戶的提問而動態生成的結果,或是存在DBMS中的數據,或是那些私人數據,它們無法被索引,從而無法提供對它們有效的檢索方式;從資源形式看,網絡信息內容是由文本、圖像、音頻、視頻、元數據等形式的數據組成的,因此網絡內容挖掘是一種多媒體數據挖掘形式。
2)網絡結構挖掘,即挖掘Web潛在的鏈接結構模式。這種思想源于引文分析,即通過分析一個網頁鏈接和被鏈接數量以及對象來建立Web自身的鏈接結構模式,可以用于網頁歸類,并且可以由此獲得有關不同網頁間相似度及關聯度的信息,有助于用戶找到相關主題的權威站點。
3)網絡用法挖掘。通過網絡用法挖掘,可以了解用戶的網絡行為數據所具有的意義。網絡內容挖掘、網絡結構挖掘的對象是網上的原始數據,而網絡用法挖掘則面對的是在用戶和網絡交互的過程中抽取出來的第二手數據。這些數據包括:網絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息用戶提問式等。
3 網絡信息挖掘的應用領域
網絡信息挖掘在實際工作中具有重要的實踐意義和廣闊的應用前景,可以應用在電子商務、科學研究、市場營銷、金融投資、產品制造、教學管理及網絡管理方面。
網絡信息挖掘在電子商務中的應用主要是了解客戶,針對不同客戶提供不同的產品,提供個性化服務,確定顧客消費的生命周期,制定相應的營銷策略,分析潛在的目標市場,優化電子商務網站的經營模式。網絡信息在電子政務中主要用于民情信息的挖掘分析,為政府重大政策出臺提供決策支持,通過對網絡各種經濟資源的挖掘,確定未來經濟的走勢,從而制定出相應的政策,這樣可以較大程度地提高政府信息化水平。網絡信息挖掘作為一種開發利用網絡資源的有力工具,在企業競爭情報系統的工作中發揮重要作用。通過對大量專利數據的分析歸納,發現權威站點和有重要價值的隱藏信息,并能監視和預測用戶的訪問習慣,通過對大量專利數據的分析歸納,挖掘出現有專利的模式和發展趨勢,可以評價企業的競爭能力。網絡信息挖掘還可以應用于搜索引擎,網絡上存在著大量重復的網頁,通過網絡信息挖掘技術判斷出重復的網頁,并屏蔽掉這些重復信息,消除了重復信息的查詢結果界面更加有序且方便于用戶。
4 網絡信息挖掘在電子商務中的應用
4.1 電子商務中網絡信息挖掘的主要方式
1)數據抽取:網絡信息挖掘的任務之一,就是從零散的、無規則的數據中尋找有用的、規則的數據,其基本的方法就是數據抽取。數據抽取是從數據泛化的角度來進行數據總結。數據泛化是一種把最原始、最基本的數據從低層次抽象到高層次上的過程,可采用多維數據分析方法和面向屬性的歸類方法來分析。在電子商務活動中,常采用多維數據分析方法進行數據抽取,它針對的是電子商務活動中的客戶數據倉庫。
2)聚類分析:聚類技術可以將具有相同特征的數據項聚成一類,即從網絡信息數據中聚集出具有相似特性的客戶、數據項集。在電子商務活動中,聚類分析技術可以分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好地幫助電子商務的用戶了解自己的客戶,向客戶提供更合適、更面向客戶的服務。
3)關聯規則發現:用于從用戶訪問序列數據庫的序列項中挖掘出相關的規則,其發現的主要對象是事務型數據。在電子商務活動中,對于銷售數據庫,一個事務一般由事務處理時間、客戶購買的物品、客戶標識號等組成。有關部門可以收集大量的售貨數據和客戶資料,對這些歷史事務數據進行分析并發現關聯規則,然后對客戶的購買行為提供有價值的信息,幫助電子商務的用戶規劃市場,確定商品的種類、價格、質量等。
4)分類發現:分類的目的是使用一個分類函數或分類模型。分類發現一方面可以挖掘網絡數據信息某些共同的特性,根據這個特性對新添到數據庫里的數據項進行分類。另一方面,還可以從個人信息或共同的訪問模式中得出訪問某一個服務器文件的客戶特征。在電子商務活動中,將具有相同特性的數據分類后,就可以針對這類客戶的特點展開商務活動,提供個性化的信息服務。
5)序列模式發現:序列模式分析的側重點在于分析數據間的前后或因果關系,挖掘出交易集之間的有時間序列的模式。在電子商務活動中,網站服務器日志中客戶的訪問是以一段時間為單位記載的,經過數據凈化和事件交易確認后是一個間斷的時間序列。
其反映的客戶行為有助于幫助商家印證產品所處的生命周期階段;另外挖掘出來的一些暫時性的序列模式,可以分析企業戰略實施或產品促銷的效果。
4.2 電子商務中網絡信息挖掘的流程
在電子商務活動中,對在線訪問客戶數據的挖掘主要有兩部分:一部分是客戶訪問信息的挖掘另一部分是客戶登記信息的挖掘。客戶瀏覽信息被網絡服務器自動收集并保存在訪問日志、引用日志和代理日志中。面對大量的訪問日志信息,需要組合應用計算機并行處理、神經元網絡、模型化算法和其他信息處理技術手段,進行分析加工,從中得到商家用于特定消費群體或個體進行定向營銷的決策信息。同時有效地對這些日志進行定量分析揭示其中的關聯關系、時序關系、頁面類屬關系、客戶類屬關系和頻繁訪問路徑、頻繁訪問頁面等,不但可為優化網絡站點拓撲結構提供參考,而且還可為商家更有效地確認目標市場、改進決策獲得更大的競爭優勢提供幫助。可以說,在電子商務活動中,網絡信息挖掘實際上就是網絡日志挖掘。網絡日志挖掘一般分為四個部分:數據預處理、挖掘算法實施、模式分析、可視化。
4.3 網絡信息挖掘在電子商務中的應用
通過內容挖掘,可進行電子商務海量信息采集;通過使用記錄挖掘,可輔助商家理解客戶行為,識別電子商務的潛在客戶,從而改進站點結構,調整銷售策略,提供個性化服務。網絡信息挖掘在電子商務中主要有以下幾個方面的應用。
1)挖掘客戶資源:在對客戶訪問記錄的挖掘中,利用分類技術可以在網絡上尋找潛在客戶。對于新來訪者,通過分類發現,識別出該客戶與已經分類的老客戶的一些公共屬性,從而對其進行正確分類,然后根據歸類判斷,決定將其作為潛在客戶對待。通過網絡信息挖掘,可以掌握客戶的忠誠度,以便對其進行個性化營銷,挽留老客戶。
2)提供個性化服務:商家必須記錄訪問者的特征及條款特征,才能使網絡信息挖掘技術得到更好的應用。訪問者特征包括人口統計特征、心理特征和技術特征等;條款特征包括網絡內容信息和產品信息等。當訪問者訪問電子商務網站時,有關訪問者的數據便會逐漸累積起來,商家在對網絡信息進行挖掘之后獲知訪問的個人愛好,更加充分地了解客戶的需要,根據個細分市場,甚至是每一個客戶的獨特需求提供性化服務。
3)延長客戶駐留時間:通過對客戶訪問信息的挖掘,可以了解客戶的覽行為,獲知其興趣及需求,根據需求動態向其薦頁面,提供特有的一些商品信息和廣告,以使繼續保持訪問站點的興趣。
4)改進站點設計:對站點鏈接結構的優化可以從兩個方面考慮一是通過對網絡日志的挖掘,發現客戶訪問頁面的相關性,在密切聯系的網頁之間增加鏈接,方便客戶使用;二是通過網絡日志的挖掘,發現客戶的期望頁面。若在期望頁面的訪問頻率高于實際頁面的訪問頻率,可考慮在期望頁面和實際頁面之間建立鏈接,實現站點優化。
5)提高系統效率:通過網絡日志的挖掘,可以提供網站服務效率方面的信息,有助于找到平衡服務器的負荷,優化傳輸,減少阻塞,縮短客戶等待的時間,提高系統的效率和服務。
5 結束語
目前,知識發現研究的重點正從理論轉向應用,凡是涉及數據和數據庫的地方,都有與知識發現有關的課題等待我們去探討。網絡信息知識發現是一個較新的研究領域,具有廣泛的應用前景,許多問題還有待進一步研究:網絡信息挖掘方法、構建適合網絡信息知識發現系統、分布式協作挖掘策略、滿足個性化需求的網絡服務等。我國的網絡信息資源建設形成了一定的規模,但信息資源重復建設現象比較嚴重,網絡信息的標準化和網絡信息使用記錄的挖掘還要進一步研究。
參考文獻:
[1] 易久.電子商務中數據挖掘技術的應用[J].工業技術經濟,2004,23(2):105-106.
[2] 李廣都,李勇.基于Web挖掘的個性化服務研究[J].信息系統,2004,27(1):54.
[3] 陳金海.基于信息挖掘的知識發現系統[J].情報雜志,2003,22(2):15-16.
[4] 于麗娜.網絡信息挖掘初探[J].信息化與網絡建設,2004,24(3):65-66.
[5] 張冬梅.論基于Web用戶訪問信息挖掘技術的個性化定制服務[J].圖書館雜志,2002,21(5):53-55.