摘要:首先介紹了分塊重要度模型及網頁分塊方式,通過分析網頁結構的頁面空間特征和內容特征,提出了一種改進的網頁分塊及分塊模型重要度計算和標注的方法,并給出了基于此方案的終端顯示策略。該方案兼顧了頁面的總體預覽和塊的詳細顯示,較好地解決了移動終端上瀏覽信息和使用無線搜索等一系列服務問題。
關鍵詞:分塊; 分塊重要度; 空間特征; 相關度
中圖分類號:TP393文獻標志碼:A
文章編號:1001-3695(2008)02-0584-03
0引言
互聯網和無線通信的發展已經給人們的生活帶來了巨大影響,人們可以通過計算機與互聯網連接獲取信息。移動電話以無線通信方式方便地提供隨時隨地的交流與溝通。但互聯網發展到今天,人們已經不再滿足于個人電腦的連線上網,越來越多的人因為職業和生活的需要,希望隨時隨地收發電子郵件#65380;查閱新聞#65380;股市行情#65380;訂購各種急需商品,即實現移動互聯。由于移動終端(主要包括PDA#65380;SmartPhone)的顯示屏幕過小,當終端瀏覽信息時用戶不得不頻繁地移動滾動條以調整合適的窗口查看消息,這就給人們瀏覽信息帶來了極大的不便。為此國內外進行各種努力在不損失信息量的情況下,充分利用移動終端的顯示特性來解決移動終端瀏覽信息的問題。
解決此問題的方法大體上可以分為三類:a)轉換已經存在的網頁顯示布局,使得它們適合移動終端顯示。該方法是最直接的做法:將頁面上的內容轉換成一列在移動終端上顯示,這樣消除了因為終端屏幕限制顯示而需要頻繁地水平滾動的煩惱[1,2]。b)通過引入新的網頁布局方式或機制使得網頁能夠在終端上更好地顯示。這類方法通過引入新方式或機制對網頁布局進行調整并對網頁上的各個不同部分進行解析以適合不同移動終端的顯示[3,4]。c)在保留整個網頁布局的基礎上,使用圖像預覽的方式顯示整個頁面,并采用了一組輔助工具來幫助用戶進行瀏覽[5~8]。
盡管這些方法能很好地處理一些特定結構的文檔顯示,但沒有從根本上給出一個比較通用的解決方案。它們都將網頁看成一個原子單元,并將這個單元中的每一部分同等處理,這其中也包括一些無用的信息(如廣告等);而且它們都沒有給出決定網頁上哪一部分更為重要的方法。由于移動終端顯示方面的缺陷,決定了必須把網頁中最重要的部分抽取出來并著重顯示,即必須對網頁的各個部分作不同的處理。
網頁中的信息由于所處的位置#65380;占據空間的大小或內容不同而具有不同的權重或重要度。因此可以根據網頁的內容來進行分塊,并賦予各個分塊相應的權值,使得用戶知道哪部分信息是最重要的。
1分塊重要度模型
分塊重要度模型(block importance model)是根據各分塊間的相關度(內容相關度#65380;空間相關度),并利用各個塊的空間特性和內容特性,采用一定的算法對各個分塊計算重要度值并賦予相應的模塊。可以定義為根據網頁中各個部分的不同特征映射成網頁重要度的一種模型,如下所示:
<塊特征>→塊重要度
1.1網頁分塊
一個完整的網頁中所包含的信息并不都具有相同的重要度,一般將最重要的信息放置在網頁的中央部分,而將導航條放置在頂部或者右側,版權等問題放在網頁的最底部。根據此種特性可以考慮將網頁分塊,比較網頁各個不同部分的重要度以作為分塊的尺度。
現階段存在幾種比較流行的對網頁進行分塊的方法[7,10]:a)基于位置關系的分塊法。此方法利用頁面布局進行分塊,一個網頁被分成上#65380;中#65380;下#65380;左#65380;右和中間部分。b)基于文檔對象模型(DOM)的分塊方法。此方法首先找到網頁的HTML文檔里的特定標簽,然后利用這些標簽將HTML文檔表示成一個DOM樹的結構,特定標簽包括H1-H6(heading)#65380;TABLE(table)#65380;P(paragraph)和UL(list)等。c)基于視覺特性(VIPS)的網頁分塊法。
本文采用一種改進的基于分塊重要度模型[11]的VIPS[12]法對網頁進行分塊。采用此種方法對網頁進行分塊,既要考慮網頁的空間特征,也要考慮網頁的內容特征,使得各個分塊具有較好的語義相關性和一致性。
1.2分塊重要度模型
1)分塊重要度模型空間特征
分塊重要度模型空間特征可以分為以下三類:
a)絕對空間特征。一個網頁被分割成若干個矩形區域,每個區域可以用塊中心橫坐標x#65380;塊中心縱坐標y#65380;矩形塊寬度和矩形塊高度四個特征值來表示。
b)相對空間特征。使用網頁的高度和寬度來對絕對空間特征進行規格化。每個矩形分塊可以用塊中心橫坐標x/網頁寬度#65380;塊中心縱坐標y/網頁高度#65380;矩形塊寬度/網頁寬度和矩形塊高度/網頁高度四個特征值來表示。
c)窗口空間特征。不再使用整篇網頁的高度而是使用一個固定窗口的高度來規范化。窗口空間特征表示為塊中心橫坐標x/網頁寬度#65380;Y#65380;矩形塊寬度P/網頁寬度#65380;矩形塊高度/窗口高度。其中,
Y=塊中心縱坐標y/(2×頁眉高度)當y<頁眉高度時
0.5當頁眉高度 1-(網頁高度-y)/(2×頁腳高度)其他 2)分塊重要度模型內容特征 網頁分塊的內容特征也與分塊的重要性相關。分塊的內容特征可以概括為分塊中包含的圖片數量#65380;圖片大小#65380;超鏈接的數目#65380;超鏈接文本長度#65380;HTML 標簽項的文本長度#65380;帶有#65380; 1.3分塊重要度標注 本文利用分塊的空間特征和內容特征,根據分塊重要度模型所述,給出分塊的四個級別,如表1所示。 2顯示策略 2.1策略描述 本文所討論的策略主要是解決網頁在終端顯示的問題,可以表示成如圖1所示的流程。 此流程可以作為搜索引擎的一個預處理模塊加載(圖2虛線框),它能在搜索引擎抓取網頁的同時處理頁面,然后通過用戶接口給移動用戶提供服務。 2.2頁面特征提取 本文采用基于視覺特征的網頁分塊法(VIPS)方式來提取頁面的特征。首先找到網頁HTML文檔里的H1-H6(hea-ding)#65380;TABLE(table)#65380;P(paragraph)和UL(list)等特定標簽;然后根據這些特定標簽去提取它們所在塊的空間特征和內容特征(包括塊相對于網頁的位置#65380;塊大小#65380;頭部#65380;尾部等)。此方法充分利用了諸如字體#65380;顏色#65380;大小#65380;塊位置等版面特征。它根據一定的語義關聯規則,將整個網頁表示成一棵HTML DOM 樹,然后通過橫豎線條將節點所對應的分塊在網頁中分隔開來,構成網頁的標準分塊。 2.3頁面分塊 在對頁面特征提取的基礎上,根據這些提取的空間特征和內容特征利用分塊重要度模型對整個頁面進行分塊,如圖3所示。 整個頁面被切割成四個分塊,并由塊①#65380;②#65380;③#65380;④來表示相應的分塊,以此表示各個分塊相對于網頁的重要度,且其中塊間的空間相關度為rel(Si,Sj)=∑iBj∈P,i≠j rel(P,Sj)×imp(Bj,P)。其中:Si#65380;Sj分別表示塊Bi#65380;Bj 的空間特征;rel(Si,Sj)表示塊 Bi#65380;Bj的空間特征相關度;imp(Bi,P)表示塊Bi相對于頁面P的重要度值。 2.4分塊重要度計算 當把一個完整的網頁P分為各個部分后,可以給每個塊計算相應的重要度值,并賦予各個分塊。 基于塊的空間特性和內容特性,可以使用特定的算法為每個分塊計算相應的重要度值。本文選用基于支持向量機的徑向基函數來計算相應塊的重要度值。使用基于支持向量機(SVM)[12]的徑向基函數(RBF)進行分塊取得了F1值為79%和準確率為85.9%的不錯成績,這表明使用此函數計算網頁各塊的重要度是可行的。本文各個分塊的重要度值為imp(Bi,P)=TopicCo(Bi,P)/∑|B|j=1TopicCo(Bj,P)。其中:Bi表示第i個分塊;TopicCo(Bi,P)表示塊Bi相對于頁面P的內容相關度;imp(Bi,P)表示塊Bi相對于頁面 P的重要度值,可以表示為impi。 于是可以將頁面 P切割成一系列分塊Bi,利用SVM的RBF來計算各個分塊Bi的重要度值impi,并將這些impi賦予相應的分塊Bi。這樣就能得到類似于鍵/值對應的一個集合:P={(Bi,impi)}。 2.5分塊顯示測試結果 為了更好地顯示各個分塊的內容,可以采用各種方法來實現,本文中采用的是SmartView中的策略。由于分塊后每個塊所要求的空間也會比較大(超過一屏所能顯示的容量),可以給每個分塊一個預覽的形式。SmartView是縮略圖的一種改進方式,它將各個分塊以縮略圖的形式展現給用戶。如圖4所示,在圖的左邊顯示的是根據分塊重要度模型所劃分的各個邏輯分塊的預覽,其中黑框部分的是最重要(第四級)的分塊;右邊顯示的是該區域的細節。當用戶選擇好要瀏覽的塊后,相應的塊將被抽取出來在瀏覽器中顯示,并且進行重新構建以適應移動終端狹小的顯示屏。相應塊的細節顯示可以用增強型縮略圖的策略來處理。 (a)(b) 3結束語 本文在深入研究的基礎上給出了一種如何解決移動終端顯示的方案。它充分考慮了頁面的空間特征和內容特征,利用這些特性來構造各個分塊的特征向量,并采用VIPS對網頁進行分塊來解決顯示問題。但本文并沒有對應用分塊重要度模型予以定量的討論,而且對于改變網頁布局重新生成新頁面的同時沒有給出空間特性和內容特性的具體權衡值。筆者的下一步工作將會對這些問題給予著重討論,并提出進一步的改進顯示方案。 參考文獻: [1]Opera[EB/OL].(2004-10). http://www.opera.com. [2]Pocket IE[EB/OL].(2005-05). http://www.microsoft.com/windowsmobile/. [3]BORNING A,LIN R K,MARRIOTT K. Constraint-based document layout for the Web[J]. ACM Multimedia Systems Journal ,2000,8(3):177-189. [4]Device independence activity[ EB/OL ].(2003-06).http://www.w3.org/2001/di. [5]BUYUKKOKTEN O,GARCIA-MOLINA H,PAEPCKE A, et al. Power browser: efficient Web browsing for PDAs[C]//Proc of SIGCHI Conference on Human Factors in Computing Systems. 2000:430-437. [6]CHEN Yu, XIE Xing,MA Wei-ying, et al. Adapting Web pages for small-screen devices[J]. IEEE Internet Computing, 2005,9(1):50-56. [7]CHEN Jin-Lin,ZHOU Bao-Yao,SHI Jin, et al. Function-based object model towards website adaptation[C]//Proc of the 10th International World Wide Web Conference. New York:ACM Press,2001: 587-596. [8]WOBBROCK J O,FORLIZZI J,HUDSON S E, et al.WebThumb: Interaction techniques for small-screen browsers[C]//Proc of the 15th Annual ACM Symposium on User Interface Software and Technology. New York: ACM Press, 2002:205-208. [9]LIN S H , HO J M. Discovering informative content blocks from Web documents[C]//Proc of the 8th ACM SIGKDD International Confe-rence on Knowledge Discovery Data Mining.New York: ACM Press, 2002: 588-593. [10]SONG Rui-hua, LIU Hai-feng,WEN Ji-rong, et al. Learning block importance models for Web pages[C]//Proc of the 13th International World Wide Web Conference. New York:ACM Press, 2004. [11]CAI Deng,YU Shi-peng,WEN Ji-rong,et al. VIPS: a vision-based page segmentation algorithm, MSR-TR-2003-70[R].[S.l.]:Microsoft Research, 2003. [12]MILIC-FRAYING N, SOMMERER R,RODDEN K, et al. SearchMobil: Web viewing and search for mobile devices[C]//Proc of the 12th International World Wide Web Conference.New York: ACM Press,2003. “本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”