999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web結構的數據挖掘中HITS算法的研究

2018-07-22 15:10:32趙炎
黑龍江教育·理論與實踐 2018年5期
關鍵詞:數據挖掘

趙炎

摘要:信息技術的發展催生了更多更先進的數據挖掘技術,其中基于Web結構的數據挖掘技術獲得業界普遍關注。文章從Web結構挖掘深入研究運用Hyperlink-Induced Topic Search(HITS)算法挖掘web數據,從而準確判斷web鏈接頁面的重要性,分析了HITS算法的基本思想和存在的問題,并提出了HITS算法的改進方案。

關鍵詞:Web結構挖掘;HITS算法;數據挖掘

Web擁有海量的信息,為人們提供豐富多樣的信息服務。隨著信息技術的發展和Web信息量的指數級增長,快速準確地從Web網絡中獲取信息變得愈發重要。因此,如何從海量的Web網絡中尋找有價值的數據信息已然是現階段Web結構挖掘的一個非常重要的研究課題。在實際應用場景中,用戶往往需要在獲得Web頁面的基礎上快速找到高質量的所謂權威頁面。在Web結構挖掘中鏈接分析的作用非常重要,而以鏈接分析為基礎建立的HITS算法能夠高效地篩選出Web頁面中的權威資源。常常用于分析超鏈接以確定權威信息源。本文研究HITS算法,分析了傳統HITS算法存在的問題,并在此基礎上運用基本集縮減法優化HITS算法,從而實現更有效率的權威網頁檢索,提高提高算法的效率和靈活性。

一、HITS算法基本原理

作為數據提起算法的典型算法之一,HITS算法的應用和需要檢索的主題有直接關系。HITS算法的基本思想是先提取出Web鏈接結構中用戶需要檢索的相關頁面,組成Web鏈接結構子圖,再運用HITS算法分析計算這個連接結構子圖。而Web鏈接主要有以下幾點特征。

其一,有些鏈接的作用是廣告或導航,只有具有注釋性的鏈接才能用于權威性的評判。

其二,商業競爭因素的影響下,權威網頁鏈接至Web網頁競爭領域的情況很少。

其三,一般來說,權威網頁都缺少明顯的描述,如百度搜索主頁并不會將與Web信息檢索引擎有關的具體描述信息呈現給用戶。

可見,Web鏈接的實際情況與平均分配權值不相符。因此,在HITS算法中新增了一種新的網頁類型,也就是Hub網頁。Hub網頁集中了鏈接至權威網頁的鏈接。實際上,很少有網頁指向Hub網頁,但是Hub網頁中集中了鏈接至權威網頁的鏈接。如,排列在課本主頁上的一列參考文獻。在常規情況下,高質量的Hub網頁指向了大量的權威網頁,而一個高質量的權威網頁擁有許多指向它的Hub網頁,但是一個頁面的authority等于鏈接至這個頁面的全部hub的和;一個頁面的hub等于它指向的頁面的全部authority的和。而Hub和Authority網頁之間的關系是自動查詢權威網頁和Web結構和資源的重要工具。這就是HITS算法的基本原理。

二、傳統HITS算法存在的問題

傳統的HITS算法主要存在以下幾個問題。第一,下載、分析網頁包含的鏈接,并且排除重復的鏈接需要耗費大量的時間,計算量比Page Rank算法大。第二,某些情況下,大量主機A上的網頁會指向另一臺主機B上的某一個特定網頁,從而使主機A上的網頁Hub值和主機B上網頁的Authority增加,反之也一樣。HITS算法假設決定某一個網頁權威值的組織和個人不同,上述情況對主機A和B上網頁的Hub和Authority的值有所影響。第三,網頁中的一些無關鏈接指向的網頁中包含的無關鏈接對Hub和Authority值的計算造成影響。網頁在制作的過程中往往會被加入一些無關鏈接,如廣告、友情鏈接都對HITS算法的精確度有影響。第四,主題漂移是HITS算法存在的最大問題。Web鏈接結構的自組織性,使WWW中主題一樣或相關的頁面通過超鏈接形成一個個緊密鏈接區域。當用戶查詢范圍較寬的定義主題或者多個主題時,鏈接結構子圖會因為多個子主題對應多個信息形成多個相對緊密鏈接區域。而HITS算法屬于迭代算法,因此,緊密鏈接區域的頁面權值必然會增大,從而干擾檢索的精確度,使用戶獲得的結果發生漂移,這種現象叫做主題漂移。第五,在查詢主題時采用HITS算法時有一定的幾率出現主題泛化的現象,也就是說結果中出現了新的與查詢無關的主題。

三、利用基本集縮減法優化HITS算法

在HITS算法的基本集中含有很多互相之間毫無關聯的網頁,因此,需要對基本集進行精簡。可以通過剔除與根集沒什么關系的網頁,從而有效抑制主題偏移問題,同時大大降低運算量。為了實現這個目的,可以對HITS算法進行優化,以優化獲取基本集的方式,產生新的HITS算法改進方案——基本集縮減法。所謂基本集縮減法,是指通過考慮指向或來自根集中網頁的鏈接數目縮減基本集,再從提取適當的Web Communities。基本集縮減法向S中加入被S引用的網頁和引用S的網頁將S擴展成一個更大的集合T。HITS算法改進:首先加入所有的根集網頁指向的網頁以及最多d個指向根集R中網頁的Web網頁,將根集R的規模擴展至n,構建基本集S,再篩選已建立的基本集S,只選擇指向至少k個根集網頁以及被至少k個根集網頁鏈向的網頁,從而實現基本集的縮減。由此,可以總結出采用基本集縮減算法提取authorities網頁的步驟。

第一步,輸入特定的關鍵詞,檢索到的r個等級的結果網頁構成根集Rσ。

第二步,擴展根集R的規模至n,構建基本集Sσ,加入所有的根集網頁指向的網頁以及最多d個指向根集R中網頁的Web網頁,將根集R的規模擴展至n,構建基本集S,再篩選已建立的基本集S,只選擇指向至少k個根集網頁以及被至少k個根集網頁鏈向的網頁,從而實現基本集的縮減。

第三步,用G(Sσ)表示根據基本集Sσ中的網頁鏈接關系推導而來的結構子圖,則G(Sσ)中包含內鏈、外鏈兩種鏈接。所謂外鏈是指域名不同的Web網頁之間的鏈接,內鏈是指相同域名的網頁之間的鏈接,在實際情況下,只考慮了外鏈,而忽略基本集Sσ中的所有內鏈。

第四步,結合基本集Sσ構造鄰接矩陣矩陣A和轉置矩陣AT,計算其每個特征值及所對應的特征向量。

第五步,特征向量歸一化后會以authorities值返回具有較大絕對值的元素。縮減基本集可以減少鄰接矩陣階數,降低特征值的計算量。

縮減基本集方法中的計算量的預估方法如下:從與基本集S對應的一個n*n鄰接矩陣中選取出鏈接至根集R中元素的多個網頁,從鄰接矩陣中從第n-r行中選擇前r個元素之和≥2的行,可預估其計算量為r(n—r)。與之類似,選取多個根集網頁鏈接的網頁所需計算量一樣。運用該方法可以將基本集縮減為原先的一半,考慮到計算與Web數據挖掘中HITS算法有關的特征向量的計算量為n3,計算是加上2r(n—r)的額外計算量,運用基本集縮減法還可以有效減少計算量,同時基本集縮減法能夠有效抑制主題偏移問題。

四、結語

綜上所述,HITS算法雖然存在一些問題,但是相對于其他Web結構挖掘算法來說,優勢非常明顯。HITS算法的基本思想以頁面之間的鏈接關系為基礎。從Web結構挖掘的本質入手,分析了HITS 算法的基本思想,探討了HITS算法的基本原理。但是由于篇幅限制無法進一步深入研究其算法,通過分析HITS算法的缺陷,找到相應的改進方案,進而提高HITS算法的使用效果,促進其在信息檢索領域的運用。在研究改進HITS算法的過程中,應該先深入研究傳統的HITS算法中存在的不足,針對主題偏移現象和減少基本集鄰接矩陣特征值和特征向量的計算量,提出使用基本集縮減法對HITS算法進行改進,根據網頁與根集元素之間的鏈接數量進一步提取基本集,使基本集規模進一步縮減,從而使搜索結果更加集中于根集,有效降低計算開銷,從而有效提升HITS算法的計算效率和精確度。

參考文獻:

[1]劉軍. 基于Web結構挖掘的HITS算法研究[D]. 中南大學, 2008.

[2]盧虹宇. Web結構挖掘中HITS算法的研究[D]. 西南交通大學, 2008.

[3]范聰賢, 徐汀榮, 范強賢. Web結構挖掘中HITS算法改進的研究[J]. 微計算機信息, 2010, 26(3):160-162.

[4]馬潔. web結構挖掘中HITS算法的研究[J]. 軟件:電子版, 2013(5).

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲欧美日韩另类在线一| 手机精品福利在线观看| 2021国产精品自产拍在线观看| 亚洲乱码精品久久久久..| 国产成本人片免费a∨短片| 国产精品毛片一区视频播| 免费国产小视频在线观看| 国产剧情国内精品原创| 污污网站在线观看| 青青青国产在线播放| 欧洲一区二区三区无码| 青青青伊人色综合久久| 亚洲一区二区在线无码| 成人午夜网址| 亚洲有无码中文网| 国产精品成人久久| 亚洲精品国产日韩无码AV永久免费网 | 激情五月婷婷综合网| 国产白浆在线| 超清无码一区二区三区| 人妻精品全国免费视频| 日韩av高清无码一区二区三区| 小说区 亚洲 自拍 另类| 国产在线自乱拍播放| 国产第二十一页| 欧美一区二区三区不卡免费| igao国产精品| 97在线国产视频| 精品无码国产自产野外拍在线| 日韩欧美视频第一区在线观看| 在线观看亚洲精品福利片| 一区二区三区在线不卡免费| 欧美午夜在线视频| 青青草久久伊人| 亚洲天堂2014| 五月天久久婷婷| 人妻无码一区二区视频| 亚洲性一区| 99国产精品免费观看视频| 久久公开视频| а∨天堂一区中文字幕| 亚洲午夜片| 999国产精品| 午夜a级毛片| 干中文字幕| 国产在线精彩视频二区| 日韩成人高清无码| 四虎永久在线精品影院| 亚洲综合色婷婷中文字幕| 内射人妻无码色AV天堂| 久久国产成人精品国产成人亚洲 | 日韩午夜福利在线观看| 久久国产亚洲欧美日韩精品| 国产精品自在在线午夜| 青草国产在线视频| 日韩无码真实干出血视频| 亚洲国产日韩一区| 777国产精品永久免费观看| 免费看av在线网站网址| 欧美日韩资源| 国产精品无码影视久久久久久久| 高清不卡一区二区三区香蕉| 久久99热这里只有精品免费看| 日韩av无码DVD| 日本欧美在线观看| 国产亚洲精品va在线| 亚洲天堂视频在线播放| 午夜啪啪福利| 亚洲天堂视频在线播放| 日日拍夜夜操| 在线亚洲精品自拍| 亚洲精品在线影院| 亚洲无码A视频在线| 国产精品亚欧美一区二区| 欧美一区二区自偷自拍视频| 91探花在线观看国产最新| 免费在线看黄网址| 日韩国产欧美精品在线| 久久亚洲中文字幕精品一区| 萌白酱国产一区二区| 免费一极毛片| 免费国产一级 片内射老|