王 靜 ,劉觀寧 ,張鈺輝
(1.西安電子科技大學 計算機學院,陜西 西安 710071;2.安徽省技術創新服務中心,安徽 合肥 230001)
隨著互聯網的高速發展,Web已經成為最大的信息來源。但是如何獲取這些Web信息為我所用則是大家面臨的共同問題。網頁去重是Web網頁信息處理的重要環節,只有在對網頁的去重基礎上才可以準確處理網頁中的信息。本文介紹網頁的去重算法。
提取出來的網頁,有些內容可能很相似,對于這些內容相似的網頁沒必要保存。針對系統中的人才招聘網頁更是必要:一個公司的招聘信息很可能會在數十家招聘網站以及自己公司主頁同時發布,所以有必要對這些網頁去重。
詞、詞組和短語是組成文檔的基本元素,在不同內容的文檔中各詞條出現頻率有一定的規律性,不同的特征詞條可以區分不同內容的文本。因此可以抽取一些特征詞條構成特征矢量,在VSM[1]模型中把 t1,t2,…,tn看成一個N維的坐標系 w1(d),w2(d),…,wn(d)為相應的坐標值,因而文本d被看成是N維空間中的一個規范化特征矢量:V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d);)
對于網頁,ti就表示特征詞條,wi(d)就是文本d中ti的權值。用這個特征矢量來表示網頁文本。在網頁表示中,對任一特征而言有兩個因素影響特征的權值。一是詞在HTML文檔中出現的詞頻,另一個是該詞在該文檔中出現的位置。詞頻指的是某一詞條在文檔中出現的頻率,頻率越高 (當然不包括那些停用詞)則說明該詞越重要,越能代表該網頁的內容。對于網頁的主題包含在之間的詞組比在之間的詞組更具有代表性。因此本文提出了一種把該詞出現的頻率以及該詞出現的位置相結合的權重計算方法,能夠更有效地表示網頁。公式如下:


這里α=2,α=3,α=4和α=6都是經過實驗得到的。實驗結果也證明了此改進算法對網頁分類正確率的有效性。
使用VSM模型表示法時,表示文檔的特征向量的維數會達到成百上千。同時,具有代表性的特征以及詞匯特征也會很大,并且是冗余的。這種未經處理的文本矢量會給后繼的處理工作帶來巨大的計算開銷。特征提取主要用于排除那些被認為無關或關聯性不大的特征。基于VSM常用的特征項提取算法有:詞頻、信息增益、互信息量[2]及X2統計量[3]等。在中文文本分類中使用較多的是互信息量和X2統計量。
(1)互信息量
互信息是信息論中的概念,它用于度量一個消息中兩個信號之間的相互依賴程度。在特征選擇領域中人們經常利用它來計算特征t與類別c之間的依賴程度,將特征t與各個類的互信息融合起來作為特征的權重。特征t與第i類的互信息計算公式如下(兩個公式等價):

其中:tk表示任意特征項 (特征詞);ci表示任意類別;g為訓練集中所有文本數;P(tk,ci)為tk和ci同時出現的概率(即對于任意一篇文章X,含有特征項tk且文章X屬于類別 ci的概率);P(tk)為文章中出現特征項 tk的概率;P(ci)為文章屬于類別ci的概率,類似地不難理解
(3)聯合特征提取方法
雖然X2統計量法是目前常用的特征提取方法之一,但該方法仍存在一些缺點,如它提高了在指定類中出現少而在其他類中出現較高的特征的權重以及降低了低頻詞的權重等。根據公式(3)~(5),對于指定類中出現頻率低而其他類中出現頻率高的詞語,當P(t,ci)→0,而 P(t)和 P(ci)均不趨向于零,則 P(t,ci)/(P(t)P(ci))→0,于是I(t,c)將趨向于負無窮,故這些詞語會被過濾掉。根據式(6),對于有相同 logPr(t|c)的詞語來說,低頻詞的權重將更高,即在多類中普遍出現的高頻詞的權重將比只在特定類中出現的低頻詞的權重低。這樣就很好地解決了上述問題,所以本文提出一種聯合特征提取的方法,該方法綜合了X2統計量法和互信息量法,可以獲得較好的結果。該方法可以描述為:

其中E1(t,c)是使用X2統計量法得到的特征權重;E2(t,c)為使用互信息量法得到的特征權重。
向量的歸一化是對輸入向量進行預處理的第一步。其目的是把所有不同長短和方向的向量變成方向不變、長度為1的單位向量。設:

在網絡訓練過程開始時,定義獲勝節點的鄰域節點是為了能使二維輸出平面上相鄰輸出節點對相近的輸入模式類做出特別反應。假設本次獲勝節點為Nj,它在t時刻的鄰域節點用 NEj表示,NEj(t)是包含以 Nj中心而距離不超過某一半徑的所有節點。隨著訓練過程的進行,NEj(t)的半徑逐漸減小,最后只包含獲勝節點 Nj本身,也就是說在訓練的起始階段不僅對獲勝節點做權值調整,而且也對其較大范圍內的幾何鄰節點做相應的調整,隨著訓練過程的繼續進行,與輸出節點相連的權向量也越來越接近其代表的模式類。這時,在對獲勝節點的權值進行比較細微的調整時,只對其幾何鄰節點比較近的節點進行相應的調整,直到最后只對獲勝節點本身做細微的調整。在訓練過程結束后,幾何上相近的輸出節點所連接的權向量既有聯系又有區別,這樣,保證了對某一類輸入模式獲勝節點能夠做出最大“響應”,而相鄰節點做出“較大”響應。幾何上相鄰節點代表特征上相近的模式類別。
自組織特征映射學習過程包括描述最佳匹配神經元的選擇和描述權矢量的自適應變化過程兩部分。SOM輸出層通常由兩維m×m的網格節點組成,從輸入向量到網絡輸出層的每個節點j的權值向量定義為w,w和xi的維數是相同的,設為d,影射節點的數量從數十個到數千個決定SOM正確性和概化能力。
其算法步聚如下: