杜衛華,翁傳芳
(南昌航空大學科技學院,江西 九江 332020)
對Web日志記錄進行分析可以挖掘網站用戶的訪問模式,在此基礎上獲得用戶在網站中的訪問規律,這種技術在商業智能、系統改進和個性化推薦等領域中得到了廣泛的應用[1]。目前挖掘用戶在網站中的訪問模式常用的方法包括樹形拓撲結構法、最大向前序列法和參考長度法,但上述方法都存在以下問題:
1)用戶的訪問興趣僅通過用戶在網站中的瀏覽頻度進行反映,挖掘精度低[2];
2)由于數據在Web分布上具有海量、動態和異構等特點,上述方法無法處理海量的日志數據。
在這種背景下,亟需對網站用戶訪問模式挖掘方法進行研究。王福[3]等人通過最大頻繁模式挖掘方法分析網站用戶訪問特點,聚類處理網站中的用戶,根據積累結果獲得類型不同的用戶在網站中頻繁使用的訪問模式,實現挖掘。該方法沒有對網站信息進行過濾處理,在挖掘過程中受噪聲的干擾,延長了挖掘時間,存在挖掘效率低的問題。楊陽[4]等人對項集對應的最大概率權重值進行計算,在Spark框架中通過剪枝方法建立模式樹,實現網站用戶訪問模式的挖掘,該方法存在挖掘準確率低和挖掘效率低的問題。
為了解決上述方法中存在的問題,提出基于頻繁偏愛度的網站用戶訪問模式挖掘方法。
信息過濾的時間可通過信息預處理得以降低[5],基于頻繁偏愛度的網站用戶訪問模式挖掘方法通過切分標志法獲取網絡信息的切分標志,建立網絡信息的特征集合。并通過統計學方法選取覆蓋度、直線斜率和集中度作為切分標志,對網頁信息進行處理。
設S(Ti)代表的是詞T在文檔中的覆蓋率,其計算公式如下

(1)
式中,ni描述的是文檔數量;N代表的是學習語料數量。
設C(Ti)代表的是詞T在文檔中的集中度,其表達式為

(2)
式中,σ(Ti)代表的是詞Ti對應的標準方差;E(Ti)代表的是詞Ti對應的頻率數學期望;fik代表的是文檔中詞Ti出現的頻率。
根據數理統計,用Y描述詞頻,用X描述文檔編號,詞頻在文檔中的分布通常情況下符合一元線性回歸方程Y=α+βX+ε,利用一元線性回歸方程計算詞頻分布直線斜率G(Ti)

(3)
通過相關規則和描述表示網站中存在的文檔以及文檔構成的集合[6]。通過這些描述和規則在網頁信息過濾過程中對文檔類、給定文檔和未知文檔的相似度進行評價[7]。
基于頻繁偏愛度的網站用戶訪問模式挖掘方法采用VSM模型結構化表示網絡文檔,其原理是將特征詞條Term(t)作為基本單位對文檔Document(d)進行表示,用Weight(w)描述文檔中特征詞條對應的權值,集合D={di}由文檔構成,用|D|=S描述文檔在D中的數量,其中,1≤i≤S,集合T={tj}由特征詞構成,特征詞的數量用|T|=M表示,其中,1≤j≤M,將t1,t2,…,tm作為基坐標,用M維向量(wi1,wi2,wi3,…,wim)表示文檔di,構建文檔di的向量空間模型Vi,其表達式如下
Vi=(ti1,wi1;ti2,wi2;…;tim,wim)
(4)
基于頻繁偏愛度的網站用戶訪問模式挖掘方法采用VSM模型結構化處理文檔的具體過程為:
1)構建詞頻矩陣,對特征詞對應的詞頻進行統計,詞頻矩陣的行和列分別是特征詞t和文檔d向量,用空間向量V表示文檔,詞頻用來反映文檔d和特征詞t之間存在的關聯度,即向量值。
2)對特征詞對應的權重進行計算,根據計算結果建立文檔向量。
用t1,t2,…,tM描述文檔集中存在的特征項,通過下式對其權值進行計算

(5)
由上述計算得到的權值獲得向量(wi1,wi2,wi3,…,wim),其中,tfik代表的是在文檔di中詞條tk出現的頻率數;nk代表的是存在tk的文檔數量;對上式進行分析可知,權值wik的大小隨頻率數tfik發生變化。
通過下式規范化處理特征向量,使其映射到單位空間向量中

(6)
特征權值越大表明其越重要,越可以描述文檔中存在的內容,反之亦然。
3)將t1,t2,…,tM作為基坐標,通過M維歐式空間的向量(wi1,wi2,wi3,…,wim)表示文檔di,構建向量空間模型Vi=(ti1,wi1;ti2,wi2;…;tim,wim)。
從文檔向量空間角度分析,當兩篇文檔相關或者相似時,表明其對應的矢量距離較小,即這兩個矢量構成的夾角不大,對余弦函數的性質進行分析可知,余弦值大,相關度高,余弦值小,相關度低。當余弦值為1時,表明矢量構成的夾角為0,說明兩篇文章此時完全相符,設Sin(Di,di)代表的是文檔之間存在的相關度,其計算公式如下

(7)
網絡信息過濾的具體過程為:
1)用m描述文檔類型數量,建立文檔矩陣Vi=(ti1,wi1;ti2,wi2;…;tim,wim);
2)通過文檔向量{di}=(wi1,wi2,…,wim)建立矩陣D;
3)對不同類型文檔之間存在的相關系數Sim(Di,di)進行計算,根據計算結果構建相關系數矩陣Sm×n=V×DT;
4)修正相關系數,優化相關系數矩陣,利用優化后的矩陣判定文檔屬性,實現網頁信息過濾。
選取過濾處理后的Web日志,建立訪問矩陣,在行向量的基礎上建立Hamming距離矩陣[8,9],對比Hamming距離矩陣中的值和相似度閾值,根據對比結果確定候選興趣子路徑2-項集。在候選興趣子路徑2-項集中通過頻繁偏愛度剔除不符合的子路徑,獲得用戶偏愛的瀏覽路徑,完成網站用戶訪問模式的挖掘。
用戶訪問網站的信息通常都存在于Web日志中,通過信息過濾方法對Web日志中存在的數據進行過濾處理,日志的格式經過處理后表示為S=
通過訪問信息建立URL_R-URL矩陣,其中元素值為支持度,即訪問URL的頻率,矩陣中的列和行分別為URL、URL_R。用戶可能在網頁中、書簽訪問和地址欄鍵入URL結束訪問,不用通過其它站點鏈接或網頁進入目的網頁,因此,需要將NULL引入第一行和第一列中,如果網站中URL的數量為n,則構成的矩陣M(n+1)(n-1)屬于(n+1)階,其表達式如下

(8)
式中,Aij為矩陣M(n+1)(n-1)中存在的元素,上述矩陣的對角元素為0,為了平衡進出,矩陣中t列總和應該與矩陣中t行總和相等,此時存在下式

(9)
式中,0≤t≤n。
1)建立Hamming距離矩陣
基于頻繁偏愛度的網站用戶訪問模式挖掘方法對矩陣中存在的所有元素進行掃描,當?M[i,j]>0時,令M[i,j]的值為1,對上述矩陣進行變換

(10)
基于頻繁偏愛度的網站用戶訪問模式挖掘方法利用Hamming矩陣度量上述矩陣行和列的相似度,當X,Y∈{0,1}n,且n≥1時,通過下式計算X、Y之間存在的Hamming距離Hd(X,Y)

(11)
通過上式計算結果,獲得對稱矩陣Mr,由行向量Hamming距離構成,其表達式如下

(12)

2)獲取用戶瀏覽興趣子路徑
設?代表的是相似度閾值,其主要作用在于判斷用戶瀏覽興趣子路徑在矩陣Mr中的相似度,其計算公式如下:

(13)

在上述過程中,沒有對URL之間的訪問頻率進行考慮,因此需要進一步確認interset_path_set2,此時基于頻繁偏愛度的網站用戶訪問模式挖掘方法引入頻繁偏愛度Pthreshold,通過下式對瀏覽子路徑的頻繁偏愛度Pthreshold進行計算:

(14)
刪除候選子路徑集中頻繁偏愛度Pthreshold較小的子路徑,在集合interset_path_set2中存儲被剔除的子路徑。
基于頻繁偏愛度的網站用戶訪問模式挖掘方法通過上式計算結果確認interset_path_set2時,需要提前設置閾值,當閾值設置不合理時,會出現規則冗余或規則丟失的現象,此時會影響系統的運行效率。
3)模式挖掘
基于頻繁偏愛度的網站用戶訪問模式挖掘方法通過逐步合并法對上述獲取的頻繁偏愛度Pthreshold較大的子路徑進行合并處理,獲得用戶瀏覽興趣路徑,實現網站用戶訪問模式的挖掘。
為了驗證基于頻繁偏愛度的網站用戶訪問模式挖掘方法的整體有效性,需要對其進行測試。
分別采用基于頻繁偏愛度的網站用戶訪問模式挖掘方法、文獻[3]方法和文獻[4]方法進行如下對比測試。
1)時間測試
分別采用所提方法、文獻[3]方法和文獻[4]方法進行測試,在以下兩種情況下對比上述方法的時間性能。
①在不同日志文件大小情況下對比上述方法模式挖掘所用的時間,測試結果如圖1所示。

圖1 不同日志文件大小下的執行時間
②采用上述方法對多個訪問模式進行挖掘,對比執行時間,測試結果如圖2所示。

圖2 不同模式數量下的執行時間
由圖1和圖2可知,隨著日志文件大小的增加,模式種類的增加,所提方法、文獻[3]方法和文獻[4]方法的執行時間逐漸增加,但所提方法在以上兩種情況下的執行時間均低于文獻[3]方法和文獻[4]方法的執行時間,表明所提方法的挖掘效率高,因為該方法對網站用戶訪問模式進行挖掘之前,對網站信息進行了過濾處理,消除了網站中存在的冗余信息和噪聲信息,避免挖掘過程受到影響,提高了所提方法的挖掘效率。
2)準確率
采用所提方法、文獻[3]方法和文獻[4]方法對網站用戶訪問模式進行挖掘,測試上述方法在模式訪問挖掘過程的準確率,結果如圖3所示。

圖3 挖掘準確率測試結果
根據圖3中的數據可知,采用所提方法、文獻[3]方法和文獻[4]方法對不同用戶在網站中的訪問模式進行挖掘時,所提方法的挖掘準確率均在90%以上,高于其它兩種方法的挖掘準確率,通過測試可知,所提方法可準確地實現對不同類型用戶在網絡中的訪問模式挖掘。
3)覆蓋率
分別采用所提方法、文獻[3]方法和文獻[4]方法進行訪問模式挖掘測試,對比不同方法的覆蓋率,測試結果如表1所示。

表1 覆蓋率測試結果
對表1中的數據進行分析可知,隨著挖掘路徑條數的增加,所提方法、文獻[3]方法和文獻[4]方法的覆蓋率均有所提升,通過對比發現,所提方法獲取的覆蓋率在不同挖掘路徑條數下均高于文獻[3]方法和文獻[4]方法,表明所提方法具有良好的挖掘性能。
用戶在網上進行股票交易、學習和購物等活動的頻率隨著Web技術的發展不斷增加,但信息過載等問題逐漸成為人們高效使用網絡的制約因素,在海量Web日志數據中對用戶訪問模式進行挖掘,可以優化網站網頁的架構,因此需要對網站用戶訪問模式挖掘方法進行研究。目前網站用戶訪問模式挖掘方法存在挖掘效率低、挖掘準確率低和挖掘覆蓋率低的問題,提出基于頻繁偏愛度的網站用戶訪問模式挖掘方法,首先對網站中存在的信息進行過濾處理,其次通過頻繁偏愛度實現網絡用戶訪問模式的挖掘,解決并優化了傳統方法中存在的問題,為網站網頁架構的優化奠定了基礎。