999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)Web信息資源自動采集入庫的實現(xiàn)

2010-05-03 07:40:58陳天文
圖書館學刊 2010年10期
關(guān)鍵詞:圖書館資源信息

陳天文

(濰坊市圖書館,山東 濰坊 261041)

隨著信息技術(shù)的迅速發(fā)展,信息的生產(chǎn)、存儲和傳遞方式發(fā)生了革命性的變化,網(wǎng)絡(luò)已成為交流和共享信息資源的重要平臺,由于網(wǎng)絡(luò)上存在大量有關(guān)對文化遺產(chǎn)、學術(shù)研究具有重要價值的信息,因此網(wǎng)絡(luò)信息資源的采集和保存就顯得非常重要。圖書館作為人類信息資源的主要保存者,對開放存取的網(wǎng)絡(luò)信息資源的開發(fā)和利用,已成為圖書館資源建設(shè)的重要組成部分,因此構(gòu)建一個有效的網(wǎng)絡(luò)信息資源采集、保存、服務(wù)平臺,對網(wǎng)上零散的、無序的信息進行篩選、解構(gòu)、整合,使之有序化,實現(xiàn)知識增值已成為很多圖書館系統(tǒng)建設(shè)所關(guān)注的問題。傳統(tǒng)的網(wǎng)絡(luò)信息資源采集,主要以人工采集為主,輔之以相應(yīng)的計算機技術(shù)與網(wǎng)絡(luò)技術(shù)。近年來,信息技術(shù)的發(fā)展使自動采集成為網(wǎng)絡(luò)信息資源采集和利用的主要手段。自動采集可以減少重復(fù)性工作,大大縮短采集時間,節(jié)約人力物力成本,提高工作效率。

Web信息自動采集是利用爬行技術(shù)在網(wǎng)頁中自動采集,先指定采集的起始頁面,然后根據(jù)起始頁面中的超鏈接采集延伸頁面的信息。

1 圖書館W eb信息資源采集方法

圖書館網(wǎng)絡(luò)服務(wù)的快速發(fā)展使圖書館意識到采集Web信息資源、組織專題數(shù)據(jù)庫的重要性和實用性,圖書館對Web信息資源采集曾進行過不同層次的探索和實驗。目前主要采用兩種方法實現(xiàn):

一是手工采集、組織。手工采集是指圖書館工作人員在瀏覽過程中,發(fā)現(xiàn)所需要的信息后,手工下載保存。該方式檢準率高,但效率低下,不能滿足信息時效的要求,面對互聯(lián)網(wǎng)中變化無常的海量信息,圖書館信息內(nèi)容收集員不得不頻繁地登錄各大網(wǎng)站利用搜索引擎進行信息資料的發(fā)現(xiàn)、跟蹤與下載等人為操作。

二是利用成熟的商業(yè)化軟件。如TRS網(wǎng)絡(luò)信息雷達系統(tǒng)、清華同方KSpider網(wǎng)絡(luò)信息資源采集系統(tǒng)等,這些商業(yè)化軟件的優(yōu)點是技術(shù)成熟、操作方便、功能完善,大型圖書館采用的較多,但這類軟件價格昂貴,中、小型圖書館由于經(jīng)費限制難以承受,同時中、小型圖書館對自動采集的功能要求比較單一,所以如何開發(fā)一套適合自己的Web信息采集系統(tǒng),對于圖書館組織網(wǎng)絡(luò)信息資源意義重大。

筆者對Web數(shù)據(jù)自動采集的基本思路是通過分析特定網(wǎng)頁源文件信息結(jié)構(gòu)并根據(jù)HTML標識構(gòu)造正則表達式,從而分離出相關(guān)字段及其內(nèi)容,存儲在本地數(shù)據(jù)庫中構(gòu)造專題網(wǎng)絡(luò)信息資源庫。其基本流程為:首先確定信息列表的URL地址,對信息列表頁面的源文件進行分析,通過正則表達式提取出信息列表的超級鏈接集合,根據(jù)提取的超級鏈接集合自動轉(zhuǎn)到正文部分進行自動采集。

2 W eb數(shù)據(jù)自動采集的應(yīng)用范圍

采集、整合的Web信息資源大多來源于公開的網(wǎng)頁資源,即半結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)比較容易提取,因為數(shù)據(jù)中會有一些標識,如htm l文檔,可以利用文檔中的配對標識符來識別、抽取信息。這種方法的缺點是穩(wěn)定性不夠,比如htm l網(wǎng)頁中的標識改變,就不能正常工作了。

Web數(shù)據(jù)自動采集與信息提取是面向不斷增長和變化的某個具體領(lǐng)域的查詢,并且這種查詢是長期的、持續(xù)的。與傳統(tǒng)搜索引擎基于關(guān)鍵字查詢不同,信息提取基于查詢,不僅要包含關(guān)鍵字,還要匹配各實體之間的關(guān)系,如標題、發(fā)布時間、正文等。信息提取屬于技術(shù)上的概念,Web數(shù)據(jù)自動采集很大程度要依賴于信息提取的技術(shù),以實現(xiàn)長期的、動態(tài)的追蹤。同時,Web數(shù)據(jù)自動采集不是將Web查詢結(jié)果直接輸出給用戶,而且通過進一步的分析處理,查重去噪,整合數(shù)據(jù)等,將半結(jié)構(gòu)化的數(shù)據(jù)變?yōu)榻Y(jié)構(gòu)化的數(shù)據(jù),然后以統(tǒng)一的格式呈現(xiàn)給用戶,本示例是將網(wǎng)頁格式的信息轉(zhuǎn)化、存儲到ACCESS數(shù)據(jù)庫中。

3 開發(fā)環(huán)境:vb.net+asp.net+access2000

.NET技術(shù)是微軟Web架構(gòu)主流應(yīng)用,目前大多Windows應(yīng)用及Web應(yīng)用的開發(fā)都以.NET技術(shù)為架構(gòu);access主要應(yīng)用于中、小型系統(tǒng)的開發(fā),按照.NET的三層架構(gòu)開發(fā)的應(yīng)用程序可以平滑地提升到SQL、ORACLE等大型數(shù)據(jù)庫的應(yīng)用。

4 自動采集的關(guān)鍵技術(shù)

自動采集系統(tǒng)通過對網(wǎng)頁源文件進行分析,分離出信息的標題、發(fā)布時間、發(fā)布人、正文(包含圖片)等內(nèi)容。筆者主要通過構(gòu)造正則表達式的方法進行提取信息,正則表達式由于難以讀寫,容易出錯,所以找一種工具對正則表達式進行測試是很有必要的,它能夠根據(jù)構(gòu)造的正則表達式快速檢索出網(wǎng)頁源代碼中的信息塊,我們可以根據(jù)檢索結(jié)果不斷修正表達式,直到滿足要求為止。Web信息自動采集過程中用到的主要函數(shù)有:

GetHttpPage:主要功能是根據(jù)信息列表,URL自動提取網(wǎng)頁源代碼返回HTML文檔,該函數(shù)采用.net2.0的WebRequest和WebResponse兩個類實現(xiàn)。

Get_url_Array:按照正規(guī)則匹配相應(yīng)的數(shù)據(jù),該函數(shù)主要通過MatchCollection類型收集網(wǎng)頁源代碼中與正則表達式相匹配的數(shù)據(jù)集合,然后把數(shù)據(jù)集合分類存儲于本地ACCESS數(shù)據(jù)庫中。

ReplaceSaveRemoteFile:獲取源碼文件中正文部分的圖片并保存到本地根據(jù)日期形成的指定目錄。

GetDateDir:根據(jù)日期創(chuàng)建目錄,如20100320,根據(jù)日期建立目錄或文件增加其靈活性,防止出現(xiàn)重名現(xiàn)象。

GetDateFile:根據(jù)日期創(chuàng)建文件,主要用來保存圖片文件,如20100320001.jpg等。

DefiniteUrl:格式化連接地址。用于相對地址和絕對地址的轉(zhuǎn)換,該函數(shù)自動判斷獲取的源文件中的URL是絕對地址還是相對地址,根據(jù)具體URL自動組配為絕對地址。

NoHtml:清除所有html格式,如果在應(yīng)用程序過程中只保留純文本,則調(diào)用該函數(shù),如用于提取文章標題。

ScriptHtm l:過濾部分HTML,用于獲取正文內(nèi)容的處理,過濾掉包括字體、大小、顏色、表格的元素,只保留<IMG>表示圖片的標識符。

在以上函數(shù)中,格式化連接地址DefiniteUrl是整個采集系統(tǒng)的核心,在網(wǎng)頁信息列表的超級鏈接中有絕對地址和相對地址,其中相對地址有多種類型。所以在設(shè)計DefiniteUrl函數(shù)時必須把相對地址的類型全部包含進去,在采集開始前全部轉(zhuǎn)換為絕對地址,通過絕對地址直接訪問采集所需要的數(shù)據(jù)。組配絕對地址需要用到首頁地址、列表地址。絕對地址的組配主要有以下幾種類型:

首先確定要采集網(wǎng)頁的首頁地址(域名)和信息列表地址,如下所示:

http://www.nlc.gov.cn和http://www.nlc.gov.cn/book1/book2(例)

類型1:http://www.nlc.gov.cn/syzt/2010/0309/article_463.htm

該類型URL屬于絕對地址,通過GetHttpPage函數(shù)獲取源文件后直接提取所包含的相關(guān)信息。

類型2:/syzt/2010/0309/article_463.htm

該類型URL屬于絕對地址,“/”表示根目錄,與類型1描述方法不同,需要在該地址前面加上域名,組配結(jié)果為http://www.nlc.gov.cn/syzt/2010/0309/article_463.htm

類型3:./syzt/2010/0309/article_463.htm

該類型URL屬于相對地址,“./”表示當前目錄,需在該地址的前面加上當前列表地址,組配結(jié)果為http://www.nlc.gov.cn/book1/book2/syzt/2010/0309/article_463.htm

類型4:../syzt/2010/0309/article_463.htm

該類型URL屬于相對地址,“../”表示上一級目錄,所以必須把列表頁地址按照../的個數(shù)循環(huán)去除子目錄,然后鏈接該地址。本例組配結(jié)果為http://www.nlc.gov.cn/book1/syzt/2010/0309/article_463.htm

類型5:syzt/2010/0309/article_463.htm

該類型URL屬于相對址,組配方法同類型3。

信息正文采集圖片,圖片URL同樣按以上規(guī)則組配。

5 國家圖書館新聞頻道自動采集實例解析(以采集標題和正文內(nèi)容為例)

5.1 確定采集的網(wǎng)站首頁地址http://www.nlc.gov.cn

5.2 信息列表頁面地址:http://www.nlc.gov.cn/syzt/boke/index.htm

5.3 對信息列表網(wǎng)頁的源文件進行分析,確定以下項目及正則表達式

5.3.1 網(wǎng)站編碼:常見的編碼方式有GB2312/UTF-8,如果選擇網(wǎng)站編碼不正確,則會出現(xiàn)亂碼現(xiàn)象。國家圖書館網(wǎng)站使用的是GB2312編碼,在網(wǎng)站源文件頭中這一行說明。

5.3.2 獲取信息列表超級鏈接集合正則表達式:/syzt/2010.*?htm,該表達式屬于絕對地址,需按類型2進行組配。

5.3.3 獲取正文標題正則表達式:

在獲取正文標題后,用NoHtml函數(shù)過濾掉HTML格式。

5.3.4 獲取正文內(nèi)容正則表達式:

獲取正文內(nèi)容后用ScriptHtml函數(shù)過濾掉除圖片標識外所有HTML標識。

確定以上正則表達式后,就可以自動采集新聞頻道的標題和正文了。

表1說明了本例用到的正則表達式符號。

表1

5.4 自動入庫

自動入庫的實現(xiàn)是在處理正文數(shù)據(jù)時,通過循環(huán)每解析出一篇正文信息后當即把標題及正文內(nèi)容通過SQL語句插入ACCESS數(shù)據(jù)庫中,同時在入庫過程中需要根據(jù)標題等關(guān)鍵字段對采集的數(shù)據(jù)進行過濾、去重,保證數(shù)據(jù)的唯一性和有效性。

網(wǎng)絡(luò)Web信息資源的自動采集,為圖書館整合專題信息資源提供了方便,大大提高了圖書館服務(wù)效率和服務(wù)水平,通過不斷積累,可以形成一個良好的本地信息資源使用環(huán)境,進一步拓展圖書館的服務(wù)范圍。

(注:實驗源碼下載地址:http://www.wflib.com/cj.rar)

[1] 蔡焰.網(wǎng)絡(luò)信息資源自動采集探討.江西圖書館學刊,2009(2).

[2] 韓群鑫.網(wǎng)絡(luò)信息資源采集研究.農(nóng)業(yè)網(wǎng)絡(luò)信息,2007(4).

猜你喜歡
圖書館資源信息
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
資源回收
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
飛躍圖書館
圖書館里的是是非非
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
去圖書館
主站蜘蛛池模板: 激情综合图区| 亚洲欧美日韩动漫| 熟女视频91| 国产美女免费网站| 欧美色视频在线| 欧美在线国产| 美女一级毛片无遮挡内谢| 99视频精品全国免费品| 特级精品毛片免费观看| 国产精品视频免费网站| 五月天在线网站| 制服丝袜在线视频香蕉| 18黑白丝水手服自慰喷水网站| 国产综合日韩另类一区二区| 国产精品综合色区在线观看| 日韩国产高清无码| 国产色婷婷| 中文无码精品A∨在线观看不卡 | 欧美日韩中文字幕在线| 亚洲国产精品国自产拍A| 2021最新国产精品网站| 18禁高潮出水呻吟娇喘蜜芽| 亚洲精品久综合蜜| www亚洲天堂| 亚欧乱色视频网站大全| 亚洲浓毛av| 国产综合色在线视频播放线视 | 久久免费观看视频| 中文字幕人妻无码系列第三区| 国产成a人片在线播放| 国模视频一区二区| 99视频在线精品免费观看6| 3D动漫精品啪啪一区二区下载| 91娇喘视频| 亚洲一区免费看| 中日韩一区二区三区中文免费视频| 欧美色综合网站| 国产色伊人| 天天躁夜夜躁狠狠躁躁88| 波多野结衣二区| 一区二区偷拍美女撒尿视频| 久久情精品国产品免费| 中文字幕在线看| 伊人久久精品无码麻豆精品| 日韩麻豆小视频| 久久久久久久97| 久久不卡精品| 国产成人久久综合一区| 亚洲男人天堂久久| 在线观看无码a∨| 第一区免费在线观看| 丝袜无码一区二区三区| 55夜色66夜色国产精品视频| 亚洲精品视频免费看| 91精品人妻一区二区| 国产欧美日韩va| 亚洲日韩Av中文字幕无码| 国产精品视频久| 亚洲精品国产自在现线最新| 亚洲自偷自拍另类小说| 91精品国产91欠久久久久| 国产精品主播| 久久亚洲国产一区二区| 国内丰满少妇猛烈精品播| 亚洲欧美日韩中文字幕在线一区| 九色91在线视频| 亚洲欧洲国产成人综合不卡| 国产一级精品毛片基地| 国产成人精品视频一区视频二区| 在线播放91| 91精品免费高清在线| 国产精品亚欧美一区二区| 欧美日韩一区二区在线播放| www.亚洲一区| 色哟哟国产成人精品| 少妇精品网站| 性激烈欧美三级在线播放| a在线亚洲男人的天堂试看| 高清精品美女在线播放| 波多野结衣中文字幕一区| 亚洲娇小与黑人巨大交| 在线免费看片a|