基于網頁結構與鏈接關系的中文文本分類方法

2010-04-12 00:00:00郭曉,蔣宗禮

現代電子技術 2010年22期

摘要:提出一種通過綜合考慮網頁的HTML結構信息以及網頁間的鏈接關系，修改網頁文本在向量空間模型表示中的權值，對網頁進行分類的方法。考慮到頁面里處在不同HTML標記下的內容具有不同的語義含義，某些特殊標記下的內容具有較重要的意義，對網頁的分類起較大的作用，因此對不同標記下的內容賦以不同的權值，可以提高分類效果。考慮到頁面正文中鏈接指向的頁面內容與原網頁相關度較高，通過綜合考慮這些頁面的內容，可以有效加強類別關鍵詞的權值，減少噪聲，提高分類效果。經過實驗證明這一方法提高了分類結果的F1值。關鍵詞:中文文本分類;HTML結構; 鏈接關系; 向量空間模型

中圖分類號:TN911-34; TP391 文獻標識碼:A

文章編號:1004-373X(2010)22-0054-03

A Novel Chinese Text Calssification Method Using Webpage Tags and Hyperlinks

GUO Xiao， JIANG Zong-li

(College of Computer Science， Beijing University of Technology， Beijing 100124， China)

Abstract: A webpage classification method using the HTML tags and hyperlinks to improve the vector space model representation is introduced. Because the content in different HTML tags has different semantic meaning and plays different role in webpage classification， assigning weights to the content by the importance can improve the classification accuracy. In addition， to better model the webpage for classification， combining the information provided by the webpage that are referred in the body of the original webpage， considering they are relevant and can enhance the weights of relevant words and reduce the weighs of irrelevant words. The experimental results demonstrate that the proposed method effectively improves F1 measure.

Keywords: Chinese text calssification; HTML tags; hyperlinks; vector space model

收稿日期:2010-06-19

隨著計算機技術、通信技術等信息技術的高速發展，以及互聯網基礎設施建設與網絡信息工具的大量推廣應用，網絡上的信息正在以幾何級數進行著增長。如何使用戶能夠方便地從網絡上海量的信息資源中獲得其期望的部分，成為了當前信息領域重要的研究課題。

網絡搜索引擎，是用來進行網絡文本索引的一種重要手段，是針對網絡中大量網頁文本信息進行信息挖掘的有效手段。在網絡搜索引擎的構建中，網頁文本分類問題是一個關鍵性的核心問題。高質量高效率的網頁文本自動分類，對構建高效、實用的搜索引擎起著重要的作用。同時在解決主題搜索、個性化信息檢索、搜索引擎的目錄導航等相關問題時，網頁文本分類技術也是十分重要的。因此研究如何提升網頁文本分類性能，對研究新一代搜索引擎有著重要意義。

1 網頁文本分類技術簡析

網頁文本分類是指按照預先定義的主題類別，根據海量網頁文檔的內容，確定相應網頁的類別。

目前，網頁文本分類采用的技術基礎是基于內容的純文本分類。基本方法是，在抓取到的網頁集合中，對每篇網頁文本進行純文本的內容抽取，得到相應的純文本文檔。再將抽取出的純文本組成新的文檔集合，在新的文檔集合上應用純文本分類算法，進行分類。再根據純文本和網頁文本的對應關系，對網頁文本進行分類。即應用網頁的純文本內容信息，對網頁進行分類。

上述方法的本質，是將網頁文本的分類問題映射成為純文本分類的問題。但是，由于網頁文本是超文本標記語言(HTML)，并非純文本的自然語言。因此，這樣的映射，不能很好地反映網頁分類問題的本質。所以僅應用基于網頁內容的純文本分類方法，會對網頁文本分類的準確率造成一定的不良影響[1]。

針對這個問題，目前已經有一些改進的技術。一類改進方法，是在對網頁進行文本內容提取時，基于網頁HTML結構信息，對提取出的純文本的向量表示進行某些修改[2-4]。還有一類改進，是針對網頁文本中的超級鏈接，利用不同頁面間的鏈接關系進行分類。

2 HTML結構與超級鏈接綜合的網頁分類

本文提出以基于網頁內容的文本分類為基礎，綜合考慮網頁頁面的HTML結構信息以及網頁間的鏈接關系，對網頁進行分類。考慮到純文本分類技術的成熟性，仍然采取基于內容的純文本分類方法作為網頁分類的基礎，再從網頁文本向純文本的轉換過程中增加一個中間的步驟，即首先對網頁文檔進行頁面結構和鏈接關系分析，生成待處理的中間文檔集，再通過一定的算法將中間文檔轉化為純文本，從而應用純文本的分類算法進行分類。其核心思想是，將網頁文檔轉化為純文本，進而應用向量空間模型對純文本進行表示并分類，在這個過程中，增加一個修改向量權值的中間過程。通過這一步處理，使得向量空間模型對網頁語義的表達更加準確，進而提升分類算法的綜合性能。

整個過程包括網頁預處理、中文分詞、文檔的向量化表示、特征提取和分類5大步驟[5]。HTML結構與超鏈接綜合利用出現在網頁預處理和文檔的向量化表示中。下面分別討論。

2.1 網頁預處理

對網頁集進行預處理，主要是針對網頁HTML標簽進行分析。應用傳統的標記窗算法對網頁內容進行分析，抽取出網頁正文部分(包括正文中的超級鏈接)。根據HTML標簽對Web頁面物理顯示所產生的影響，將HTML標簽進行分類。典型標簽如下[6]:

(1) 標簽及本身所修飾的內容不在瀏覽器中顯示，如。

(2) 標簽修飾的內容在瀏覽器上顯示，對其進一步劃分:

① 改變文本的物理顯示，如 ;

② 改變文本的內容樣式，通過改變文本的物理顯示來實現，如 ;

③ 物理顯示無變化，但標簽反映修飾內容屬性，如

: ;

④ 當鼠標懸停時顯示內容，如。

(3) 標簽本身在瀏覽器中顯示，包括



，這些標簽用于定義列表項。

(4) 根據瀏覽器不同設置，標簽所修飾的內容可能顯示，也可能不顯示。

對頁面內各類HTML標簽做進一步的分析可以發現這些標記在頁面信息表達上的一些特點。第(1)類標簽對于頁面顯示無任何影響，可以認為其對網頁內容表達沒有貢獻，此類信息對于分類沒有幫助，故后續的處理中將其舍棄。在第(2)類標簽中，①和②兩類標簽是最常用的HTML結構標記，是網頁文本在內容表達上與無格式純文本有較大不同的地方。段落層次、加粗等結構標識突出了處于不同位置的文字信息的不同重要程度。因此將這類標記所表達的不同語義賦與對應文字以不同權值，可以提升文本語義表示的精確性。第(3)類標簽雖要在頁面中進行顯示，但是標簽本身表達的語義信息有限，多為列表格式信息，故后續的分析中對其舍棄。第(4)類標簽多為HTML標記中針對多媒體的應用，而這正是網頁頁面有別于純文本的地方。這些標簽所修飾的多媒體信息對于整個網頁內容的表達起了相當巨大的作用。但是，傳統的文本提取與向量化表示對多媒體信息無法有效的表達。例如網頁中的圖片信息對于整個網頁的內容表達有非常重要直觀突出作用。但是，圖片信息無法直接轉化為文本表示并對其內容進行表達。一個重要應用是對于標簽的“ALT”屬性，用戶可以通過瀏覽器設置來決定是否下載圖像。“ALT”屬性表示圖像不能顯示時的替換文本，通常能夠反映圖片的內容。對這類標簽的處理可以很好地利用網頁中的多媒體信息。

除了HTML標簽表達了重要的語義信息之外，頁面上超級鏈接也表達了一定的語義信息。傳統的處理方式多是單獨利用網頁間的拓撲鏈接關系進行分析，較少的考慮鏈接的語義關系。本文提出的改進方案，考慮了網頁上的到其他頁面的鏈出鏈接的語義內涵。

2.2 文檔的向量化表示

(1) 應用向量空間模型，對文檔本身進行向量化[7]。將分詞處理后的文檔按照改進權值分配的TF-IDF公式進行向量化表示，計算各詞的權值。將每個頁面P轉化為向量V。

TF*IDF:W(ti，d)=tf(ti，d)*log(N/ nt+L)

其中:W(ti，d)為詞ti在文本d中的權重;tf(ti，d)為詞ti在文檔d中的加權詞頻，具體計算公式見后面;N為訓練集文本的總數;nt為訓練文本集中出現詞ti的文本數;L為平衡因子，為了防止對數內出現1使得對數為零，故選擇較小的正實數施加影響，本實驗中選擇L=1.0E-4。

tf(ti，d) =∑(w(ek)#8226;tf(ti，ek，d))

其中:ek表示的是上文分析的HTML文本的組成部分。tf(ti，ek，d)表示在網頁文檔d中，ek部分特征項ti 的出現頻率;w(ek)為預先定義的HTML位置權重參數。根據前文所述的分類，對HTML標簽分配權重。

標簽 (ek) 權重

… 10

…

…5

… 5

…5

…

… 3

(2) 利用頁面的鏈接關系，修改文檔的向量表示。

網頁制作者在進行信息發布的時候，不僅是將自己需要表達的內容制作成頁面放在網上供人們瀏覽，通常還會利用到一些網絡上已經存在的頁面或資源，對其自身內容進行解釋與補充。或者提供一些經過搜集整理的網絡上的相關內容，進行對照說明。并且在通常情況下，網站的制作者不會在自己的頁面主體部分中加入主題無關的垃圾鏈接。充分考慮這些相關鏈接所提供的信息，對網頁分類的準確性會有一定的影響，現在已經提出的基于網頁鏈接關系的技術有PageRank算法和HITS算法[8-9]。

可以假設網頁正文中鏈接的語義含義是:鏈接指向的頁面內容是對原網頁內容的補充與強調，是主題相關的。因此，充分利用這些頁面的內容信息有利于對原網頁的內容進行表達。本文采用的方法是通過將這些被鏈接的頁面的內容以一定的比例附加在原網頁上，來達到附加信息量以提高區分度的目的。

對每個頁面中正文部分的鏈出鏈接進行分析。設頁面P0的正文部分具有n個分別指向P1，P2，…，Pn頁面的鏈接。采用向量空間模型對頁面進行表示，設向量Vi代表Pi頁面。基于前面的假設，對P0頁面的向量表示V0進行修改。用V表示V1，V2，…，Vn的重心:V=(V1+V2+，…，+Vn)/n，取V0=V0 +ΔV。其中，ΔV= |V|*V/|V0+V|，即用|V|*V/|V0+V|修改原向量。

假設極限條件下，頁面P0自身的內容為空，僅有指向外部的鏈接。這個頁面可以看作一個Hub頁面，它所表達的內容信息，就是它所指向的頁面的內容信息的總和。根據上面公式可得:ΔV=V，即V0=0+V=V，符合語義含義。在另一種極限情況下，頁面P0不具有指向其他頁面的鏈接。則V=0，ΔV=0，V0=V0，即頁面的權值具有不變性，符合語義含義。在中間情況下，ΔV采用帶模的調和平均作為改變量，對原向量進行修改。充分考慮了原網頁和鏈接指向網頁內容的信息量的大小分布，符合語義含義。

3 實驗

3.1 實驗數據集

實驗語料選用北大天網提供的大規模中文Web測試集CWT200g(Chinese Web Test collection with 200 GB web pages)。其中包括37 482 913個網頁。采用20%~80%切分，選取其中的80%作為訓練集，其余作為測試集。

3.2 評估方法

分類效果評估是指一些用來評價分類器分類準確度的量化標準[10]。通常采用以下5種標準從不同的方面評價一個分類器:查準率(precision)、查全率(recall)、F1標準、宏觀平均值(macro-averaged score)、微觀平均值(micro-averaged score)。其中:

查全率=分類正確文本數/總文本數×100%

查準率=分類正確的文本數/實際分類的文本數×100%

F1為查全率與查準率的調和平均，綜合的反映了分類的效果。

3.3 實驗結果

實驗中，在所選用的訓練集上，分別應用傳統方法和本文提出的改進方法對網頁進行預處理并進行向量化表示，然后對分類器進行訓練。分類器采用支持向量機方法(SVM)[10-11]。然后在測試集上分別應用分類器進行分類，并按照類別計算F1值。實驗結果對比了傳統方法和本文提出的改進方法的分類結果。如圖1所示，列出了9個主要類別的分類情況，其中柱狀圖數值分別代表對該類別分類的F1值。

圖1 各類別F1值

3.4 實驗結果分析

從實驗結果可以看出，本文提出的改進方法在各個類別上都比傳統的分類方法獲得更高的F1值。說明在各個類別分類的綜合性能上具有一定的改進。其中特別是對那些在傳統方法分類中結果較差，類主題自身較不明確的教育、旅游、經濟等類的分類上有很大的提升。但是在如軍事、計算機等主題相對明確的類別上改進算法提升不是很顯著。

例如，旅游類別的網頁內容較雜，類別本身區分度較低，傳統的方法僅通過網頁正文內容信息進行分類，在內容上會和社會、經濟等類別的網頁發生嚴重的交叉。所以傳統方法對于這樣類別的網頁分類性能相對較差。在改進的方法中，由于網頁內鏈接所指向網頁的內容被引入，使得原文檔相對增長，信息量增加，文檔所表達信息的類別重疊程度下降，所以分類性能有了較大提升。

軍事類別的網頁內容較集中，該類別中的網頁內容具有較強的獨特性，類自身聚集程度較高。通過對原文檔增長的方法不能較顯著的改變分類性能。在某些情況下，還可能由于主題漂移而起到相反的作用。在測試集上的綜合分類效果來看，F1值由傳統算法的87.1%提升到了93.4%，具有顯著的改進。

4 結語

通過實驗證明，綜合考慮網頁HTML結構標識以及網頁鏈接關系所表達的語義信息，在應用向量空間模型對網頁進行表示的時候，修改權值以達到更好的表達效果。應用本文提出的改進方法，在測試集上進行分類，F1值由傳統算法的87.1%提升到93.4%，具有顯著改進。

另外，由于鏈接較多的頁面會導致原頁面主題發生漂移，針對這一現象還有待進一步研究。

參考文獻

[1]施聰鶯，徐朝軍，楊曉江.TFIDF算法研究綜述[J].計算機應用，2009(Z1):167-170，180.

[2]趙小華，馬建芬.文本分類算法中詞語權重計算方法的改進[J].電腦知識與技術，2009(36):209-213.

[3]陳素萍，謝麗聰.一種文本特征選擇方法的研究[J].計算機技術與發展，2009(2):112-115.

[4]陳笑筑，王東，陳笑蓉.基于頁面標簽的網頁分類研究[J].商場現代化，2009(19):100-101.

[5]臺德藝，謝飛，胡學鋼.基于位置權重的文本分類[J].安徽水利水電職業技術學院學報，2008(1):64-66.

[6] 劉海峰，王倩，王元元.基于Web的文本檢索位置加權模型研究[J].情報科學，2007(3):451-455.

[7]劉艷民.中文網頁分類方法的研究[J].微電子學與計算機，2009(9):48-51.

[8]范聰賢，劉秋菊，徐汀榮.應用Web結構挖掘的PageRank算法的改進研究[J].計算機工程與應用，2010(9):127-129.

[9]常慶，周明全，耿國華.基于PageRank和HITS的Web搜索[J].計算機技術與發展，2008(7):77-79.

[10]楊創新.基于機器學習的高性能中文文本分類研究[D].廣州:華南理工大學，2009.

[11]姜鶴，陳麗亞.SVM文本分類中一種新的特征提取方法[J].計算機技術與發展，2010(3):17-19，23.

現代電子技術2010年22期

現代電子技術的其它文章: 中小型園區網的設計與實現; 基于IWT和FCM的曲線矢量數據壓縮方法; ZN12-10型真空斷路器常見故障原因分析及處理; 考慮儲備期間失效的可修復備件需求模型; 基于SOA的實驗教學管理原型系統的研究; 一種基于DDS和Qt的“所見即所得”波形發生器