999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

以主題爬蟲視角進行數字資源的建設探析

2014-10-29 22:32:33何鈞雷
電子技術與軟件工程 2014年16期
關鍵詞:建設

何鈞雷

摘 要

作為數字圖書館建設的重要方面之一,數字資源建設可以利用主題爬蟲對網絡中所蘊含的數字資源進行自動化搜集。主題網絡爬蟲是主題搜索引擎的重要構成方面,本文以本體指導主題爬蟲進行數字資源的建設,實驗結果顯示:以主題爬蟲為基礎進行數字資源建設具有一定的實用價值,但性能有待進一步提高。

【關鍵詞】主題爬蟲 數字資源 本體 建設

【關鍵詞】主題爬蟲 數字資源 本體 建設

數字資源在教育及科研等多個領域均具有舉足輕重的作用,圖書館是教學及科研的信息中心,因此,數字資源建設也是數字圖書館建設的重要方面之一。萬維網的推廣與應用使其成為數字資源的主要來源之一,但是,由于其海量化、異構化、增長快速化、半結構化、動態更新化等特點,導致手動搜索數字資源變得越來越費時、費力,主題爬蟲有效解決了這一問題。

1 主題爬蟲的概念與分類

所謂的“主題爬蟲”,指的是利用不同鏈接及爬取策略,從制定的主題資源入手,對各網頁鏈接進行分析,并對主題相關度進行計算,去除同主題不相關的資源及信息,保存同主題相關度較高的資源,有選擇性的爬取網頁。理想情況下,好的主題爬蟲可以準確分析網頁主題相關度,因而運行效率更高、更準,可以快速搜索到用戶所需資源。

根據不同的排序算法,可將主題網絡爬蟲分為三大類,即經典爬蟲、語義爬蟲、智能爬蟲。其中,經典爬蟲主要利用的是網頁文本的內容、結構及兩者相結合,對URLs 排序優先值進行計算,再進行降序排列;語義爬蟲利用的是本體相似度對URLs 排序優先值進行計算,再進行降序排列;智能爬蟲利用人工智能計算方式,對URLs排序優先值進行計算,再進行降序排列。

2 主題爬蟲關鍵技術分析

2.1 爬行策略

主題爬蟲搜索策略是按有規則的、預先安排好的方式對網頁進行搜集,爬蟲對網絡節點爬行方式是按照一定的次序,有目的性地進行抓取,因而可使爬行方式更科學、目表更明確,且可以對爬行路線進行有效辨別及解析。整體而言,主題爬蟲搜索策略包括兩種,即宏觀策略和微觀策略。前者針對的是如何對數據庫中的保存頁面更新進行宏觀分析、描述,爬蟲周期性連續工作,由于頁面獲取數量及數據庫資源的有限性,導致爬蟲也需要周期性地抓取頁面,其每循環一周期,就可對傳統數據庫信息進行獲取和更新,且出去所有相同頁面,對頁面信息缺乏的予以補充,如此循環往復下,確保頁面庫所有數據盡可能為最新的信息,提高了系統查詢功能的及時性與綜合性;后者搜索策略偏重于對爬蟲實際網頁獲取步驟進行研究,包括爬行規則、運行方式等。關鍵在于對爬蟲路徑及規則進行預先規定,確保爬蟲可以根據預先設定的方式爬取網絡節點,以便更好地對爬蟲行為進行預測和控制,實現了爬蟲效率的有效提升。對于多樣化的搜索策略,其主要依賴于所設定的不同的爬行準則,各策略爬蟲爬行目標網頁并不一致,且爬行路徑各不相同,通常結合多重因素的制約,尋找更有針對性的搜索策略。

2.2 獲取網頁

爬取網頁是主題爬蟲最先需要實現的操作,由于網頁存在于網絡多服務器上,因此,主題爬蟲需要先對網頁進行搜集。要想將網頁從服務器上進行抓取,必須遵循網絡相應的通信規則。應以HTTP超文本傳輸協議為依據,結合互聯網通信原理完成,在網頁解析時利用的是HTML語法進行分析,實現了網頁的獲取。

2.3 主題相關度

首先,需要從網頁中對信息資源進行提取。在此過程中,主題爬蟲系統預處理模塊將HTML文本轉換為數據流形式,并讀入內存中,以所對應內容為依據,執行相應的操作過程,然后對 HTML網頁的文本予以準確分析,獲取正文文本以及超鏈接信息,為相關度分析提供了依據。例如,在超鏈接提取時,網頁解析器先根據文件集合獲取頁面,對頁面的類型予以判斷,只處理“text/html”類型的頁面;依次讀取緩存數據流,一旦遇見等標記,將其URL鏈接記下,并提取為說明文字,用以解釋該超鏈接;將保存的超鏈接進行格式處理;對URL錨文本進行存儲,對網頁相關度進行計算;鏈接提取完畢。

其次,需要進行中文分詞。中文分詞指的是將漢字序列進行有效切分,成為單獨的詞,此過程需要根據所設置規則,將連續性的字序重新結合為新詞序列。分詞算法主要包括三類,即根據字符串匹配與否進行分詞算法、根據機器理解進行分詞的算法、以人工統計為依據進行計算的分詞算法。雖然分詞算法已經十分成熟,但要想利用電腦實現中文分詞并非易事,需要對歧義、新詞進行識別,可利用3GWS分詞系統來進行。

3 主題爬蟲視角下數字資源的建設分析

鑒于傳統以鏈接分析為基礎的方法缺乏必要的語義分析,為此,應充分結合網頁鏈接結構及其語義性,以本體為基礎,對URL隊列進行排序,以便為主題爬蟲的搜索方法及基于主題爬蟲基礎上的數字資源建設提供指導。

3.1 本體結構

本體是指用于人、數據庫及應用間信息的共享,不斷加強人和計算機之間的相互協作,因而在諸如數字圖書館、信息檢索等領域得到十分廣泛的應用。計算機領域將本體定義為六元組O={C,AC,R,AR,H,X}。其中,C為概念的集合。AC代表多屬性集合共同構成的集合,各屬性集合分別對應某個概念。R為關系集合,AR指的是由多個屬性集合共同構成的集合,其中各屬性集合分別對應R中的某個關系。H代表概念相互之間存在的層次結構關系,X為公理集合。

本體的直接目標即獲取,對相關領域的知識進行描述,提供對該知識的理解,對該領域都認可的詞匯進行明確,并分別從各層次形式化模式上對此類術語及相互間的關系給出清晰的定義。對于語義網而言,本體屬于核心元素,可用以對信息進行結構化,確保用戶及計算機可以對所需信息進行訪問,實現相互間的有效合作。由此可見,本體在網絡交互、訪問及通信中具有十分重要的作用,將本體思想充分應用于主題爬蟲模型中,可以有效提高網頁搜索與抓取的準確性。

猜你喜歡
建設
自貿區建設再出發
中國外匯(2019年18期)2019-11-25 01:41:56
基于IUV的4G承載網的模擬建設
電子制作(2018年14期)2018-08-21 01:38:28
《人大建設》伴我成長
人大建設(2017年10期)2018-01-23 03:10:17
保障房建設更快了
民生周刊(2017年19期)2017-10-25 10:29:03
數字電視分前端建設隨談
野三化冶建設
“三化”建設
“三化”建設
“三化”建設
“三化”建設
主站蜘蛛池模板: 911亚洲精品| 国产一区免费在线观看| 久久综合成人| 亚洲成人一区二区三区| 91在线高清视频| 亚洲精品高清视频| 秋霞午夜国产精品成人片| 欧美爱爱网| 国产精品三级专区| 成人噜噜噜视频在线观看| 中文字幕在线观看日本| 精品一區二區久久久久久久網站 | 国产剧情无码视频在线观看| 亚洲天堂福利视频| 在线亚洲精品自拍| 国产人免费人成免费视频| 亚洲无码精品在线播放| 无码福利视频| 爱色欧美亚洲综合图区| 丁香五月婷婷激情基地| 欧洲成人免费视频| 国产激情第一页| 又爽又大又黄a级毛片在线视频| 国产精品无码制服丝袜| 日韩 欧美 国产 精品 综合| 国产乱肥老妇精品视频| www.91在线播放| 国产亚洲精| 国产婬乱a一级毛片多女| 亚洲美女高潮久久久久久久| 国产精品观看视频免费完整版| 欧美成一级| 久久精品电影| 伊人91在线| 日本亚洲成高清一区二区三区| 麻豆国产精品视频| 高清国产在线| 亚洲综合狠狠| 亚洲欧洲自拍拍偷午夜色| 无码一区二区三区视频在线播放| 久久人体视频| 91香蕉视频下载网站| 香蕉在线视频网站| 欧美成人h精品网站| 国产黄视频网站| 中文字幕调教一区二区视频| 国产在线视频欧美亚综合| 乱系列中文字幕在线视频| 国产成人高清精品免费5388| 免费 国产 无码久久久| 三上悠亚精品二区在线观看| 内射人妻无套中出无码| 久久精品视频亚洲| 国产av剧情无码精品色午夜| 综合天天色| 成人国产免费| 国内熟女少妇一线天| 在线欧美日韩| 欧美亚洲国产一区| 欧美精品成人一区二区视频一| 免费人成视频在线观看网站| 久久性妇女精品免费| 国产性精品| 欧美精品1区2区| 老色鬼欧美精品| 四虎国产永久在线观看| 毛片久久久| 欧美在线免费| 91在线视频福利| 亚洲国产成人精品一二区 | 99国产在线视频| 91蜜芽尤物福利在线观看| 久久99国产综合精品女同| 欧美成人综合在线| m男亚洲一区中文字幕| www.亚洲一区| 自慰网址在线观看| 久久永久视频| 欧美啪啪一区| 激情爆乳一区二区| 国产成人欧美| 在线亚洲小视频|