李浩波
摘要:當前,隨著以電子商務為特征的新經濟逐步走向成熟,企業的競爭優勢不再是企業的信息搜集能力,更重要的是分析信息并發現有用知識的能力,如何鑒別有效的、新穎的、潛在有用的、并最終可以被理解的知識模式是當今企業最關心的問題。以數據挖掘技術為主要手段的商業智能技術在企業進行知識管理和決策中扮演越來越重要的作用。
關鍵詞:貝葉斯;電子商務;數據挖掘
數據挖掘是利用合適的方法和技術從大量數據中汲取模式和知識的過程,關于數據挖掘的研究已經取得了許多非常重要的成果,如關聯規則挖掘、聚類分類,模式抽取等方法等。但是這些傳統數據挖掘技術和方法主要面向目標數據內容的挖掘,即從數據內容、文檔、屬性中發現有用信息的過程。傳統數據挖掘的目標是基于個體數據的抽取模式,致力于提取數據內容反映的有用知識。但是,基于內容的數據挖掘技術不能表現網絡資源個體所組成的拓撲結構,缺乏從這些結構中提取有用知識的能力。例如,數據挖掘是通過分析某用戶的歷史購買行為來預測用戶的需求,但是這種預測沒有結合其他消費者對該用戶的影響,而實際上一個人決定購買某種商品很大程度上受到其朋友、身邊熟悉的人以及生意伙伴等等的影響。在這些有影響的人群當中,他們對該用戶購買某種商品所起作用是不同的,有些可能較大,有些可能很小。
網絡結構挖掘不同于傳統的數據挖掘中基于個體目標數據模式抽取的方法,而是基于目標之間的關系進行模式挖掘,這種基于對象間的關系進行模式挖掘的目的是在目標網絡中提取正確的、新穎的、有用的結構模式。結構模式指的是網絡結構中的蘊涵的規律、內在機制、變化趨勢等知識,例如:在商務系統中,誰是最有影響力的消費者,其購買決策可能影響著其他的消費者;在科學引文數據庫中,哪些文獻是在引文中經常被引用的經典文章;在互聯網瀏覽過程中,如何幫助人們在互聯網上查找和定位最有價值的網頁等等。
在智能商務信息服務中,除了面向內容的數據挖掘外,也非常關注面向網絡結構模式提取的網絡結構挖掘。例如,在商務網絡中如何查找網絡中的關鍵資源,從而確定哪些企業、產品或者消費者在商務網絡中起著關鍵的作用;通過對商務系統中用戶群的分析和挖掘,研究和提取用戶在消費中相互的影響和作用,發現消費習慣是如何在網絡中傳播的,研究網絡結構的相互影響及其傳播速度,以及隨著時間的變化,網絡結構的動態模式如何變化,網絡結構如何進化,以及其進化機制如何,等等;通過對商務系統中商品群的分析和挖掘,研究商品之間的關系模式,提取重要商品結點或者利潤最大化的商品結點,從而發現通過哪些商品或產品的增大生產或者推廣能夠為企業帶來更多的效益。網絡結構模式挖掘彌補了智能商務中傳統數據挖掘的不足,開展商務網絡結構挖掘的研究有助于更廣范圍的進行企業決策支持。
同其他數據挖掘領域相比,雖然網絡結構知識挖掘的研究起步比較晚,但是這一問題已經得到許多研究人員和機構的重視,研究領域包括了社會學、數學、物理學、計算機科學、以及生物學等許多方面。在社會學研究方面,采用社會網絡分析手段對社會成員之間的關系和交互方式進行分析和挖掘,以便發現潛在的社會結構。這種社會網絡結構分析方法的最顯著特征就是使用結構或相互信息來研究或測試社會學理論。不僅僅是考慮社會成員的屬性,如他們的年齡、性別、社會經濟狀況、受教育情況,還要考慮社會成員之間的關系特性,如自然關系、強度、和關聯頻率等,這些都被認為是影響社會結構的重要因素。社會網絡分析也被用來進行組織行為分析和組織交互關系分析等。在統計物理學中,文獻采用網絡拓撲統計分析方法來進行網絡結構模式分析,該方法不同于靜態的結構處理方法,而是將網絡結構看成是某種進化的過程,通過某種統計機制進行描述和建模。在因特網的應用中,許多文獻研究將網絡結構模式挖掘用于查找網絡中的關鍵資源問題。一個網絡可以看成是資源的集合,在因特網網頁中,網頁文本的內容就可以看成是信息資源,計算機網絡中的電纜電線也可以看成是資源,這些資源的損壞可能導致網絡的故障。在網絡中的起關鍵作用的人、文本、關系或通信通道通常是網絡功能的重要部分。應用于關鍵資源查找的技術已經應用于多種應用系統,文獻用于挖掘網頁中的高質量頁面,文獻用于在計算機通信網絡中查找網絡上使得網絡性能降低的電纜以及結點等故障。此外在其他領域也得到了廣泛應用研究,如:科學文獻的引用模式分析、在協同工作的網絡上搜索特定問題的處理專家以及在犯罪和恐怖組織網絡中確定領導者和跟隨者等等。
雖然網絡結構知識挖掘在許多領域進行了廣泛的研究和應用,但面向商業智能領域來說還面臨許多挑戰:
第一,已有的研究中大多數以數據資源為研究對象,缺少一種完整的、面向商務環境的關于網絡結構挖掘的知識資源表示框架。網絡中的信息或數據資源是智能商務知識的基礎,已有的研究中多數采用數據形式描述這些資源并據此構建數據關聯模型。而知識服務要求對商務環境下的網絡資源進行知識標引與表示,并通過知識之間的關聯表示資源之間的關系和資源的動態維護。因此研究框架應該包括有關商務網絡結構的大多數共性問題,并且需要包括網絡資源和結構的統一觀點和方法論,為將來的研究和應用提供指導。
第二,已有的研究中大多數是關于網絡結構資源的靜態結構進行研究,反映的是在某單一時間點上所觀察到的網絡資源結點和關系所處的狀態和特征,發現的是在某時間觀測到的結點和關系的特定配置結構和規則。由于商務網絡應用大多數是網絡在線進行的,個體的變化可能也會影響整個網絡結構的改變,這種變化由于實時在線的原因可能頻繁改變,因此研究和分析動態的網絡模式是智能商務應用非常重要的問題。同時,網絡結構模型的進化規律反映了模型從一種形態轉化為另一種形態的過程和趨勢,特定的結構模型進化過程導致了特定的網絡結構,這些結構又進一步影響了網絡的功能和執行,因此這種模型的進化問題也是特別重要的。目前,關于商務知識動態結構模型及其進化的研究還處于初級階段。
第三,現有的基于內容的數據挖掘技術已經取得顯著的研究成果,如何將這類數據挖掘技術與網絡結構挖掘技術相結合,開展面向商務智能的綜合性知識發現研究還有待進一步加強。傳統的數據挖掘對單一的挖掘方法或技術的研究較多,對方法的適應性和綜合應用的研究較少,對商務智能應用中經典問題的綜合解決缺乏有效的方法,基于內容挖掘與基于網絡結構挖掘技術相融合的研究不多。在商務智能中,研究現有數據挖掘方法與其它結構挖掘技術相結合,從而既能夠從目標中提取有用的知識和模式,還可以發現目標個體與個體、個體與子群、個體與整體之間的關系模式,也是未來該領域研究的重點內容。
基于以上分析,我們提出基于貝葉斯網絡的網絡結構知識挖掘研究這一課題。擬從模型理論的角度,進一步研究基于數據挖掘平臺的網絡結構知識挖掘研究,探索將面向個體內容的數據挖掘提升為面向網絡整體的結構挖掘的途徑。
基金項目:2020年度浙江省高等教育學會高等教育研究課題科研資助項目“基于貝葉斯網絡模型的電子商務數據挖掘應用研究”(KT2020214)。