999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Web結構挖掘在電子商務網站結構優化中的應用

2008-12-31 00:00:00顧海花
商場現代化 2008年31期

[摘要] 本文概述了Web結構挖掘技術并描述了其常見算法。針對Web結構挖掘算法,提出了提高網站結構合理性的對策。使用戶通過優化網站結構來獲取更多有效客戶,擴大網站影響力,從而提升網站價值。

[關鍵詞] Web結構挖掘 網站結構 超鏈接 PageRank HITS

一、前言

網站的推廣對電子商務網站而言尤為重要。網站在常用搜索引擎上的排名會直接影響到網站的推廣和網站的運營效果。因網站的結構不同,即使內容相同,外觀相同的網站,在常用搜索引擎中的排名也會不同。網站結構是否合理會影響到搜索引擎在網站頁面上抓取的結果,從而影響到網站的排名。在實際應用中,常使用PR(Page Rank)值來判斷網站結構是否合理, PR值越高說明網站結構越合理,搜索引擎就會收錄該網站更多的頁面,為網站帶來更多的流量。因此,提高網站結構的合理性,獲取更高的PR值就顯得尤為重要。只有用網站結構優化的理念去設計網站,才有可能設計一個成功的網站。基于Web的數據挖掘技術中的Web結構挖掘( Web Structure Mining)則是判斷網站結構是否合理的一個有效方法。使用Web結構挖掘方法可以提高網站結構的合理性,增加網站的PR值,擴大網站的流量。

二、Web結構挖掘的概念

基于Web的數據挖掘是指使用數據挖掘技術在Web數據中發現潛在的、有用的模式或信息。基于Web的數據挖掘一般可以分為三類:Web內容挖掘(Web Content Mining)、 Web結構挖掘( Web Structure Mining)及 Web 用法挖掘(Web Usage Mining)。其中Web 結構挖掘是對Web 的鏈接結構進行分析, 以對超鏈接分析來評估Web 資源, 從而發現有用模式, 提高搜索質量及提高網站被抓取的可能性。Web結構包括不同網頁之間的超鏈接結構和網頁內部用HTML,XML表示的樹形結構,以及文檔URL中的目錄路徑結構等。Web頁面之間的鏈接結構中包含了許多有用的信息,Web結構挖掘是從Web結構中推導知識,即對Web文檔的結構進行挖掘,挖掘Web潛在的鏈接結構模式,通過分析網頁間鏈接數量及對象來建立網站自身的鏈接結構模式。

Web結構挖掘的基本思想是將Web看成是一個巨大的以Web頁面為節點、頁面之間超鏈接為有向邊所構成的一個網狀結構的有向圖,然后利用圖論對Web的拓撲結構進行分析,從而確定其網站結構的合理性。

Web結構挖掘的算法一般可分為查詢相關算法和查詢無關算法兩類。HITS( Hypertext Induced Topic Search)和PageRank分別是查詢相關算法和查詢無關算法的代表。這些算法已經在實際的系統中實現和使用,并且取得了良好的效果。

三、Web結構挖掘算法描述

基于超鏈接分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其他一些學者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。對超鏈接進行挖掘的兩個典型的算法是:PageRank算法及HITS算法。

1.PageRank算法

PageRank算法是Web超鏈接結構分析中最成功的代表之一,該算法是評價網頁權威性的一種重要工具。Google、Yahoo、Baidu等都是基于該算法的搜索引擎。PageRank算法基于2個前提,一是若網頁A被多次引用,則A重要;若 A被重要網頁B引用,則A重要;B的重要性被平均的傳遞到它所引用的網頁。二是若用戶訪問網頁A,然后跟隨A的導出鏈接向后瀏覽網頁B而不退回A,那么瀏覽B的概率就是B的PageRank值。

PageRank在具體實現時會忽略掉頁面的文本和其他內容,只考慮頁面間的超鏈接。但由于網頁的鏈接范圍領域很廣,鏈接的頁面價值參差不齊,所以僅以簡單的鏈接數量來判斷網頁的重要性是不真實客觀的,所以其他研究者對PageRank算法提出了改進。改進的PageRank算法不僅考慮了網頁引用數量,還根據頁面的導入鏈接的權重來計算頁面的重要性。頁面導入鏈接的權重由鏈接提供頁面的重要性所決定,即當前頁面的重要性主要由其他頁面的重要性來決定,PageRank算法就是從鏈接結構中獲取網頁的重要性。

簡單PageRank算法描述如下:

PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

其中:PR(A):頁面A的PR值,

PR(Ti):頁面Ti的PR值,頁面Ti鏈向頁面A

C(Ti):頁面Ti鏈出的鏈接數量

d:阻尼系數,取值在0-1之間

N:互聯網上所有網頁的數量

由此可見,PageRank算法不以站點排序,頁面PR值由獨立的頁面決定。頁面的PR值由鏈向它的頁面的PR值決定,但每個鏈入頁面的貢獻值是不同的。如果Ti頁面中鏈出越多,它對當前頁面A的貢獻就越小。A的鏈入頁面越多,其PR值也越高。阻尼系數的使用,減少了其他頁面對當前頁面A的排序貢獻。所有頁面的PR值形成了一個概率分布,所有頁面的PR值之和為1。

簡單PageRank算法也可以用矩陣來描述,設T為一個矩陣,T的行和列對應頁面集的頁面。PageRank的算法是將T的行和列互換后得到的矩陣A。為了將各列矢量的總和變成1(全概率),把各個列矢量除以各自的鏈接數(非零要素數), 即如果網頁i有指向網頁j的一個鏈接,則Aij=1/Ni,否則Aij=0,就形成了一個 “推移概率行列”,各個行矢量表示頁面間的推移概率。由T倒置得到A的理由是,PageRank 并非重視“鏈接到多少地方”而是重視“被多少地方鏈接”。PR值的計算,就是求屬于這個推移概率行列最大特性值的固有矢量。

2.HITS算法

HITS算法綜合權衡了查詢內容與頁面鏈接的關系。HITS算法認為網頁的重要性依賴于用戶提出的查詢請求。HITS算法通過兩個評價權值——內容權威度(Authority)和鏈接權威度(Hub)來對網頁質量進行評估。內容權威度與網頁自身直接提供內容信息的質量相關,被越多網頁所引用的網頁,其內容權威度越高;鏈接權威度與網頁提供的超鏈接頁面的質量相關,引用越多高質量頁面的網頁,其鏈接權威度越高。HITS算法認為對每一個網頁應該將其內容權威度和鏈接權威度分開來考慮,在對網頁內容權威度做出評價的基礎上再對頁面的鏈接權威度進行評價,然后給出該頁面的綜合評價。

HITS算法是一個“迭代—收斂”的過程,在獲取了一個與查詢主題相關的返回頁面根集合(Root Set)S后,根據S中的頁面的鏈接關系再向集合S中擴充與S中頁面相鏈接的頁面, 將S擴展成一個更大的基礎集合(Base Set)T。可將T看作一個二分有向圖SG=(V1,V2,E),其中:頂點集Vl:T中的Hub網頁集;頂點集V2:T中的Authority網頁集;邊集E: Vl中的網頁到V2中的網頁的超鏈接。對V1中的任一個頂點v,用h(v)表示網頁v的Hub值,對V2中的頂點u,用a(u)表示網頁的Authority值。開始時h(v)=a(u)=1,對u執行I操作修改它的a(u),對v執行O操作修改它的h(v),然后規范化a(u),h(v),如此不斷的重復計算下面的操作I,O,直到a(u),h(v)收斂。

I 操作:(1)

O操作:(2)

每次迭代后需要對a(u),h(v)進行規范化處理:

式(1)反映了若一個網頁由很多好的Hub指向,則其權威值會相應增加(即權威值增加為所有指向它的網頁的現有Hub值之和)。式(2)反映了若一個網頁指向許多好的權威頁,則Hub值也會相應增加(即Hub值增加為該網頁鏈接的所有網頁的權威值之和)。HITS算法輸出一組具有較大Hub值的網頁和具有較大權威值的網頁。

HITS算法存在的主要問題:

(1)實際應用中,由S生成T的時間開銷很昂貴;

(2)站點內部網頁在權威度數值上可相互加強;

(3)網頁中一些無關的鏈接影響A,H值的計算;

(4)存在與查詢主題無關的網頁即主題漂移現象。

四、應用WEB結構挖掘算法提高網站價值

將WEB結構挖掘算法應用到自身網站的結構優化中來,對提高網站的價值有著重要意義。網站結構優化包括兩個方面,物理結構的優化與邏輯結構的優化。Web結構挖掘所有算法都將網頁中的鏈接(邏輯結構)作為主要挖掘的對象,特別在實際應用中,大多數用戶都是使用基于PageRank算法的Google、Yahoo和Baidu等搜索引擎。但網站物理結構的合理性也是影響網站價值的一個重要因素。因此采取以下幾種策略,將有助于用戶將網站定位到相關主題的權威站點,從而獲得更高的PR值,以提高電子商務網站在搜索引擎的排名,提高檢索結果的質量,提高網站的訪問率, 提升網站的檔次。

1.網站物理結構優化

網站物理結構是指網站真實的目錄及文件所存儲的位置所決定的結構。網站物理結構優化不但關系到網站的易用性,還會影響到網站在搜索引擎上的排名。合理的網站物理結構可以讓Google等搜索引擎輕松搜索到你網站的大多內容,收錄你大量的頁面,更多的關注你這個網站。雖然合理的鏈接可以取得一個比較理想的PR值,但由于Web結構挖掘過程是由機器搜索引擎蜘蛛(Spider)自動完成,因此就需要構建一個搜索引擎蜘蛛友好的網站物理結構。

要合理安排網站文件目錄結構,使目錄結構扁平,有序。網站的目錄結構最好不要超過3層,因為每深一級目錄,PageRank降低1-2個分值。重要內容放在頂級目錄。目錄文件夾命名應含關鍵詞,網頁文件名也應含關鍵詞。文件名是詞組時應用短橫線而不要用下劃線隔開。使用英文而不是拼音字母來命名文件及目錄。如果目錄超過三層,就應使用子域名來調整和簡化目錄結構層數。

2.網站邏輯結構優化

網站的邏輯結構(鏈接結構)是由網頁間鏈接所形成的邏輯的或鏈接的一個網狀結構。一般來說網頁被一些“重量級”的網站鏈接的次數越多,PageRank的值就會越高;同樣,網頁的鏈接指向越多,PageRank的值也會很高。搜索引擎在決定一個網站的排名時,不僅要對網頁內容和結構進行分析,還圍繞網站的鏈接展開分析,并給出相應的PR值。常用鏈接策略有:

(1)盡可能多地讓其他跟本站主題相關或互補的網站鏈接本站。

(2)同PR值更高的網站進行相互鏈接。

(3)在流量大、知名度高、頻繁更新的重要網站上出現本站鏈接。

(4)與內容質量高、PR值上升潛力大的網站鏈接。

(5)與以本站關鍵詞在搜索結果中排名前三頁的網站進行鏈接,有了這些網站鏈接,即使不向搜索引擎提交網站,搜索引擎也自然找到并給予好的排名。

(6)網站提供與主題相關的導出鏈接,尤其是被鏈接網站名稱(或者欄目名稱、文章摘要和標題等)中含有重要關鍵詞時,會豐富自己網站的關鍵詞并會被搜索引擎認為有豐富的與主題相關的內容,也有利于排名。

(7)要確保網站內沒有死鏈接,并保持網頁內容或鏈接的穩定性和持久性。

(8)站內頁面鏈接可以為網頁創造盡可能多被收錄的機會。一個網站被收錄的網頁數量增加,即使網站首頁的PR值不高,也增加了網站總體的搜索引擎可見性。

網站地圖是所有頁面的快速入口,是搜索引擎更全面索引收錄網站的重要因素。它可以方便搜索引擎蜘蛛快速遍歷網站所有需要發布的內容。網站地圖的三大因素:文本、鏈接、 關鍵詞,都極有利于搜索引擎抓取主要頁面內容。動態生成目錄的網站尤其需要創建網站地圖。網站地圖的導航能力會使訪問者更容易找到所需的東西,且有利于搜索引擎收錄更多的頁面以及在搜索引擎中得到更高的PR值。將網站地圖生成為XML格式文件并存放在網站根目錄中,并向搜索引擎提交,將有助于搜索引擎蜘蛛更快地遍歷網站。

3.頁面代碼優化

精簡代碼,減少頁面的體積,不但使得網頁可以得到更快的下載,而且還影響到搜索引擎對該頁面的收錄及直接影響網站排名。搜索引擎傾向于在頁面文件開始處查找本頁的關鍵性內容,而不是文件的正文。因此要做到代碼和頁面分離,把javascript文件和css文件分別存放在js和css外部文件中,把重要的頁面內容放到頁面頂部,以縮小文件體積,提高有效內容占頁面體積的百分比,從而提高關鍵詞在頁面中的比重,以利于搜索引擎快速準確地抓取。另外格式化標簽也盡量少用。頁面布局應采用DIV+CSS模式并減少表格嵌套, 盡量不要使用很難被搜索引擎收錄的IFRAME或Frame框架及對搜索引擎蜘蛛不友好的Flush動畫等,并保持頁面簡潔,以利于搜索引擎的收錄。

五、結語

目前各大搜索引擎都采用了Web結構挖掘技術中的PageRank算法,為了提升自身網站在各大搜索引擎中的排名,用戶應使用Web結構挖掘技術來對自身網站進行評估,發現自身網站結構的不足,并對優化網站結構提供決策依據。通過采取有效措施,提高自身網站結構的合理性,從而提高網站在搜索引擎中的排名,以達到為網站帶來更大流量,發掘更多有效用戶的目的。隨著電子商務迅猛地發展,企業更應該重視并采用這種被挖掘的技術,以提高自身網站的價值。

參考文獻:

[1]何曉陽吳強吳治蓉:HITS算法與PageRank算法比較分析,情報雜志2004年第2期

[2]王曉宇周傲:萬維網的鏈接結構分析及其應用綜述,軟件學報

[3]曹軍:Google的PageRank技術剖析,情報雜志2002年第10期

[4]劉麗珍等:網絡結構挖掘的關鍵分析.計算機應用研究,2003(5) 116-118

[5]陳定權:Web結構挖掘研究.情報理論與實踐 ,2003(1) 59-61

[6]Sergey Brin,Lawrence Page,Google的技術剖析,http://www.51web.biz

主站蜘蛛池模板: 欧美成人看片一区二区三区 | 九九视频在线免费观看| 亚洲AⅤ综合在线欧美一区| 久久99国产综合精品1| 亚洲欧美综合另类图片小说区| 日韩精品免费一线在线观看| 手机精品视频在线观看免费| 国产精品hd在线播放| 欧洲亚洲一区| 国产在线啪| 毛片视频网址| 在线观看亚洲精品福利片| 日本免费新一区视频| 91精品啪在线观看国产| 片在线无码观看| 人妻无码一区二区视频| 日韩区欧美国产区在线观看| 久久久久久国产精品mv| 欧美激情二区三区| 一级爆乳无码av| 色婷婷亚洲综合五月| 久久精品这里只有国产中文精品| 亚洲第一在线播放| 精品国产aⅴ一区二区三区| 亚洲成a人片7777| 97视频免费在线观看| a毛片在线| 午夜国产大片免费观看| 女人18毛片水真多国产| 国产三级国产精品国产普男人| 国产成人高精品免费视频| 欧洲精品视频在线观看| 亚洲高清国产拍精品26u| 伊人久久大香线蕉成人综合网| 国产AV毛片| 伊人久久福利中文字幕| 成年人久久黄色网站| 天天色综网| 香蕉蕉亚亚洲aav综合| 精品国产香蕉伊思人在线| 欧美日韩北条麻妃一区二区| 亚洲成A人V欧美综合天堂| 老司机久久99久久精品播放 | 久久免费视频播放| 六月婷婷综合| 国产在线日本| 精品成人一区二区三区电影| 在线观看亚洲天堂| 青青青国产视频手机| 自拍偷拍欧美日韩| 国产精品福利一区二区久久| 精品综合久久久久久97超人该| 国产精品视频猛进猛出| 萌白酱国产一区二区| 国产丝袜第一页| 四虎亚洲国产成人久久精品| 久久美女精品| 色综合手机在线| 伊人久久综在合线亚洲2019| 91精品国产一区| 午夜视频在线观看免费网站| 另类重口100页在线播放| 国产乱人视频免费观看| 91九色国产在线| 免费毛片全部不收费的| 国产精品人成在线播放| 欧美不卡视频在线观看| 18黑白丝水手服自慰喷水网站| 中文字幕va| 一区二区三区成人| 国产欧美日韩综合在线第一| 欧美自慰一级看片免费| 亚洲欧美日韩高清综合678| 国产精品福利在线观看无码卡| 亚洲 成人国产| 青青草原国产av福利网站| 亚洲中文字幕在线一区播放| 亚洲性日韩精品一区二区| 国产永久无码观看在线| 国产日韩欧美视频| 国产成年女人特黄特色毛片免| 日韩中文欧美|