摘要:信息時代的到來,網站信息量呈現出的爆炸式發展導致用戶無法定位其中信息,使用網站信息可視化輔助用戶導航網站是解決上述問題的主要方法。由于網站中信息復雜多變,如何融合展現網站中的各類信息是目前的難點問題。在此使用RadialView樹型布局算法繪制由超鏈接信息組成的網站拓撲結構。提出一種可視化規則在網站結構圖的基礎上添加對網頁關聯、熱度等使用信息的可視化;以聚變數據庫網站為實際應用案例,分析了該文關于網站信息可視化方面的工作在輔助用戶導航網站方面的效果。
關鍵詞:網站信息可視化;結構信息;網站使用信息;聚變數據庫
中圖分類號:TN91134文獻標識碼:A文章編號:1004373X(2012)18006704
引言
隨著網站信息量的擴展,網站結構愈加復雜,如何迅速在網站中尋找信息越來越困難。使用網站信息可視化方法對網站進行導航是解決上述問題的主要途徑[1],因此網站的信息可視化逐漸成為一個熱點研究領域。早期使用可視化技術主要關注網站的結構信息,如E.H.Chi在文獻[2]中使用conetree的可視化技術展現WebSpace結構,文獻[3]使用圖布局技術可視化網站等。但是上述研究無一例外地忽視了網站的一個重要組成因素:網站用戶。隨著網站用戶的增多以及網站使用信息量的擴充,分析并可視化網站使用信息逐漸被提及和關注,如文獻[45]中可視化了諸如用戶的訪問模式、網頁的訪問頻率等網站使用信息。其中如何將網站的結構信息與日志文件中所包含的使用信息相融合,并以容易理解的方式可視化出來是一個難點問題。鑒于此,JiyangChen在文獻[6]中提出了一種新的多邊形可視化技術,可以在保持網站原有鏈接結構的基礎上,展示一種及多種網站使用信息;Makiko在文獻[7]中融合展現了網站鏈接結構信息和訪問模式信息。
基于上述已有的一些網站信息可視化工作,本文提出使用RadialView[8]樹型布局算法對網站的結構信息進行了可視化;并在網站結構信息可視化結果的基礎上添加網站使用信息的可視化效果。在此認為,對網站的此類信息進行可視化能夠輔助用戶在網站中尋找信息,有利于重構網站即對網站內容重新布局。
1方法概述
有很多利用信息可視化方法輔助導航網站用戶的案例,其可視化信息內容的主要關注點有:一個是關注網站本身的信息結構,因為一個清晰的信息空間結構和網頁結構有利于簡化迷失方向的問題;另一個是可視化網站的使用信息??傊褂镁W站信息可視化結果對輔助用戶導航網站效果較為顯著。
所以本文提出并實現了一種可視化網站的結構信息和使用信息的方法,具體過程見圖1所示。主要包括以下幾個步驟:
(1)為了讓用戶可以從總體上把握整個網站的內容分布,對網站結構一目了然,本文使用網絡爬蟲工具抓取網站的超鏈接結構信息,使用點線的布局算法,即節點代表網頁,線代表網頁間的超鏈接關系,繪制網站的結構圖形,生成網站地圖。
(2)本文還從網站的服務器日志中提取網頁的熱度信息和關聯信息,目的讓用戶可以選擇對熱度值較高的網頁進行訪問,同時在選擇某個網頁時,與該網頁相關的一系列網頁呈現給用戶,從而減少用戶導航網站時間,提高信息命中率。
(3)為了在一個可視化空間內有效展現網站中各類信息,本文定義一套可視化策略,用以融合顯示網站背后隱藏的使用信息和網站結構信息。
由圖1可知,本文關于網站信息可視化的工作主要分為兩部分,即網站信息的提取和具體信息的可視化。
2網站信息的提取
網站信息可視化的前提是要獲取網站中的各類信息,本文實現網站信息可視化的數據主要來源于:
(1)通過網絡爬蟲工作構建的網站拓撲結構信息。
(2)通過網站服務器日志獲取的網頁關聯和熱度信息。
本文使用的服務器日志數據默認是標準的格式,即收錄了網站用戶的IP、訪問的網頁URL和時間等信息。
2.1結構信息的提取
網站中負責頁面間跳轉的是網頁中的超鏈接信息,可以將超鏈接視為線,網頁視為結點,這樣就組成了一個圖的結構,被稱之為網站的拓撲結構。本文使用基于htmlparser[9]的網絡爬蟲工具提取網頁中的超鏈接信息,同時剔除了網頁中夾雜的無效鏈接、多媒體鏈接和站外鏈接。由于網站拓撲結構呈現出來是圖結構,不利于用戶的理解和導航,本文擬將其組織成層次性結構,所以本文特別設計了圖的廣度遍歷算法將網站的拓撲結構轉換成樹型結構,以便用戶認知和使用。
2.2使用信息的提取
(1)網頁間關聯信息的提取
網頁關聯關系的提取過程如圖2所示,首先對網站服務器日志進行預處理,識別出其中的會話,如圖2(a)中對會話期間訪問的網頁進行標識;接著使用關聯規則算法分析會話期間訪問的網頁集合,如圖2(b)所示,得到最終的最大頻繁項集,可以認為該項集中的網頁具有一定潛在的關聯關系。
(2)網頁熱度信息的提取
使用一般的統計方法抽取網頁的熱度信息,以標識a的網頁為例,從處理過后的日志數據中可以得到所有網頁出現的次數:maxValue,網頁a出現的次數為a.num,那么可以認為網頁a的熱度信息值:a.hot=f(a.num/maxValue)3網站信息的可視化
本文的基礎工作是對網站結構信息的可視化。由于網站結構復雜,不利于用戶理解和認知,所以本文在對網站結構進行可視化的同時,提出一種可視化策略,用以融合網頁的熱度信息和關聯信息。其中熱度信息用于簡化網站的拓撲結構,關聯信息用于增強網站信息可視化的使用效果。
3.1結構信息的可視化
在網站的信息可視化中,所使用的信息可視化技術不僅要增強單個頁面的可理解性,還要揭示整個網站的結構。本文采用點線的方式繪制網站結構,結點代表網頁,線代表網頁間的超鏈接關系,當視某個網頁為根節點時,該網頁中超鏈接所指向的網頁作為其子節點,這種鏈接關系被描述成圖3所示的父親孩子結構。
鑒于網站內容組織結構具有層次性的特點,在此采用樹型結構來展現網站。此外網站信息結構的還具有如下特點:
(1)網站鏈接結構具有層次性,網頁結點繁多,可視化樹的葉子結點數量龐大。
(2)網站中有效數據大都分布在樹型結構中葉子結點頁面。