摘要:隨著因特網的飛速發展,各種信息可以以非常低的成本在網絡上獲得,這樣因特網的迅速發展對萬維網信息的查找與發現提出了巨大的挑戰。對于大多數用戶提出的與主題或領域相關的查詢需求,傳統的通用搜索引擎往往不能提供令人滿意的結果網頁,所以Web挖掘技術便應運而生,并引起了人們的極大興趣。本文主要對Web內容挖掘的概念及相關技術進行了分析與討論。
關鍵詞:Web內容挖掘;文本挖掘;非結構化文檔
隨著Internet的迅猛發展,信息容量呈爆炸性增長趨勢,然而信息檢索工具和分析工具的相對落后,導致了信息過載。目前,人們從Web上獲取信息的主要途徑是通過搜索引擎,搜索引擎雖然部分地解決了資源發現問題,但其精度不高,不能為用戶提供結構化信息,也不能提供文檔分類、過濾等功能。因此,人們迫切需要能夠從Web上快速、準確、有效地獲取所需資源和有用模式的方法和技術,Web挖掘技術便應運而生,并引起人們的極大興趣。人們將傳統的數據挖掘技術和Web相結合,進行Web挖掘,從半結構或無結構的Web頁面中,以及使用者的活動中,抽取感興趣的、潛在的模式,分析、研究,并加以利用。
1Web內容挖掘的定義
Web內容挖掘是指從Web上的網頁內容及其描述信息中獲取潛在的、有價值的知識模式,從文本、圖像、音頻、視頻、動畫等各種形式的網絡資源中發現所需的特定化信息,以實現Web資源的自動檢索,提高Web數據利用率的過程。總體上說,有Web文本挖掘和Web多媒體挖掘。Web文本挖掘是對Web上的大量文檔集合的內容進行總結、分類、聚類和關聯分析等。Web多媒體挖掘是指從Web多媒體數據如音頻、視頻、數據和圖像等中抽取事先未知的、隱藏的、完整的和新穎的知識。Web內容挖掘可以看作是Web信息檢索(IR)和信息抽取(IE)的結合。目前的研究主要集中在詞頻統計、分類算法、機器學習、元數據(Meta Data)、部分HTML 結構信息發現、數據間隱藏的模式(Pattern)發現并生成抽取規則(Extraction Rule),從頁面中分離出概念(Concept)和實體(Entity)數據。此外,文本挖掘也可以認為是Web 內容挖掘的組成部分之一,其不僅指的是單獨文檔中的信息提取,同時也包括分析文檔集合的模式和趨勢。文本挖掘包括對文本的分類/歸類,涉及到決策樹等算法。當前Web內容挖掘側重的是從文檔中抽取有關事實,它對文檔和知識的結構和表達感興趣。
2Web內容挖掘的關鍵技術
Web上的內容挖掘多為基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比較類似。利用Web文檔中部分標記,如Title、Head等包含的額外信息,可以提高Web文本挖掘的性能。Web文本挖掘的關鍵技術主要包括文本的表示模型、文本特征的選取算法、Web挖掘的分類算法、聚類算法、主題探測和追蹤算法和模型評測指標。其中有關文本的表示模型、文本特征的選取算法、Web挖掘的分類算法、聚類算法和模型評測指標的研究國外已經有大量的研究成果。文本總結:文本總結是指從文檔中抽取關鍵信息,用簡潔的形式對文檔內容進行摘要或解釋。其目的是對文本信息進行濃縮,給出它的緊湊描述。這樣,用戶不需要瀏覽全文就可以了解文檔或文檔集合的總體內容。文本分類:分類是在已有數據的基礎上學會一個分類函數或構造出一個分類模型,即通常所說的分類器。文本聚類:文本聚類把一組文檔按照相似性歸成若干類別。方法大致可分為層次凝聚法和平面劃分法兩種類型。關聯規則:發現關聯規則的算法通常要經過以下三個步驟:連接數據,作數據準備;給定最小支持度和最小可信度,利用數據挖掘工具提供的算法發現關聯規則;可視化顯示、理解、評估關聯規則。
3從資源查找(Information Retrieval)的觀點挖掘非結構化文檔
非結構化文檔主要指Web上的自由文本,包括小說、新聞等。在這方面的研究相對比較多一些,大部分研究都是建立在詞匯袋(bag of words)或稱向量表示法(vector representation)的基礎上,這種方法將單個的詞匯看成文檔集合中的屬性,只從統計的角度將詞匯孤立地看待而忽略該詞匯出現的位置和上下文環境。屬性可以是布爾型,根據詞匯是否在文檔中出現而定,也可以有頻度,即該詞匯在文檔中的出現頻率。這種方法可以擴展為選擇終結符、標點符號、不常用詞匯的屬性作為考察集合。詞匯袋方法的一個弊端是自由文本中的數據豐富,詞匯量非常大,處理起來很困難,為解決這個問題人們做了相應的研究,采取了不同技術,如信息增益,交叉熵、差異比等,其目的都是為了減少屬性。另外,一個比較有意義的方法是潛在語義索引(Latent Semantic Indexing),它通過分析不同文檔中相同主題的共享詞匯,找到他們共同的根,用這個公共的根代替所有詞匯,以此來減少維空間。例如:“informing”、“information”、“informer”、“informed”可以用他們的根“inform”來表示,這樣可以減少屬性集合的規模。其他的屬性表示法還有詞匯在文檔中的出現位置、層次關系、使用短語、使用術語、命名實體等,目前還沒有研究表明一種表示法明顯優于另一種。
4用資源查找(Information Retrieval)的觀點挖掘半結構化文檔
與非結構化數據相比,Web上的半結構化文檔挖掘指在加入了HTML、超連接等附加結構的信息上進行挖掘,其應用包括超連接文本的分類、聚類、發現文檔之間的關系、提出半結構化文檔中的模式和規則等。
5從數據庫(Database)的觀點挖掘非結構化文檔
數據庫技術應用于Web挖掘主要是為了解決Web信息的管理和查詢問題。這些問題可以分為三類:Web信息的建模和查詢;信息抽取與集成;Web站點建構和重構。從數據庫的觀點進行Web內容挖掘主要是試圖建立Web站點的數據模型并加以集成,以支持復雜查詢,而不止是簡單的基于關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web數據倉庫或Web知識庫或虛擬數據庫來實現。相關研究主要是基于半結構化數據進行的。數據庫觀點主要利用OEM(Object Exchange Model)模型將半結構化數據表示成標識圖。OEM中的每個對象都有對象標識(OID)和值,值可以是原子類型,如整型、字符串型、gif、htm等,也可以是一個復合類型,以對象引用集合的形式表示。由于Web數據量非常龐大,從應用的角度考慮,很多研究只處理半結構化數據的一個常用子集。一些有意義的應用是建立多層數據庫(MLDB),每一層是它下面層次的概化,這樣就可以進行一些特殊的查詢和信息處理。對于在半結構化數據上的查詢語言研究也得到了人們的重視并做了專題研究。由于在數據庫觀點下數據的表示方法比較特殊,其中包含了關系層次和圖形化的數據,所以大部分建立在扁平數據集合之上的數據挖掘方法不能直接使用,目前已經有人針對多層數據庫挖掘算法進行研究。
基于以上分析,Web內容挖掘在特定領域尤其是搜索引擎的研究上將成為一個重要的應用方向,而基于Web 挖掘和信息檢索的智能搜索引擎及相關技術的研究,將Web 挖掘技術與搜索引擎技術相結合,向用戶提供個性化、智能化的服務,也是下一步互聯網技術發展的方向之一。
參考文獻:
[1] Kosala R,Blockeel H.Web Mining Research[M].ASurvey.SIGKDDExlloration,2000.
[2] 謝丹夏.Web上的數據挖掘技術和工具設計[J].計算機工程與應用,2000(1):57.
[3] 韓家煒,孟小峰,王靜.挖掘研究[J].計算機研究與發展,2001(4):1720.
[4] 涂承勝,魯明羽.陸玉昌Web 挖掘研究綜述[J].計算機工程與應用,2003(2):47.
[5] 朱麗紅,趙燕平.Web 挖掘研究綜述[J].情報技術,2004(7):36.
[6] 岳巖,鄭麗英.Web挖掘技術研究[J].科技咨詢導報,2007(3):3434.
作者簡介:崔敏(1979—),女,山東濱州人,碩士,山東省東營職業學院教師教育學院教師,主要研究方向:計算機應用技術。