999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)頁信息表格化提取程序

2017-04-15 19:13:47羅錦才
課程教育研究 2017年10期

羅錦才

【摘要】本文介紹了基于MSHTML設(shè)計(jì)開發(fā)的網(wǎng)頁信息表格化提取程序的原理、程序結(jié)構(gòu)和工作流程,使用網(wǎng)頁信息提取、網(wǎng)頁元素解析、采集配置管理三大功能模塊,實(shí)現(xiàn)對網(wǎng)頁及其內(nèi)部關(guān)聯(lián)信息的提取、解析、整理和表格化顯示,創(chuàng)新使用了對網(wǎng)頁屬性值和樹路徑值進(jìn)行確認(rèn)的二元檢查機(jī)制,能夠?qū)崿F(xiàn)對指定信息的準(zhǔn)確提取。本文還舉例說明了程序的操作步驟和實(shí)際效果。

【關(guān)鍵詞】MSHTML 信息自動提取 網(wǎng)頁元素屬性 表格化顯示

【中圖分類號】G64 【文獻(xiàn)標(biāo)識碼】A 【文章編號】2095-3089(2017)10-0229-02

引言

當(dāng)今是網(wǎng)絡(luò)高速發(fā)展、信息量急劇膨脹的信息時(shí)代,人們通過信息來互相交流,認(rèn)識世界。在信息中存在著大量有價(jià)值的信息要素,這些有價(jià)值的信息要素大都以網(wǎng)頁的形式存在,其內(nèi)容和格式千差萬別。如果通過瀏覽器進(jìn)行瀏覽和閱讀不存在問題,但若需要將感興趣的某類信息及其內(nèi)部關(guān)聯(lián)信息保存下來并進(jìn)行整理,目前常用的工具普遍存在著某些缺點(diǎn),比如網(wǎng)絡(luò)蜘蛛等爬蟲工具無法實(shí)現(xiàn)對內(nèi)部關(guān)聯(lián)信息的提取。因此,本人作者使用MSHTML語言設(shè)計(jì)了網(wǎng)頁內(nèi)部表格化提取的自動程序,可以完成對網(wǎng)頁及內(nèi)部關(guān)聯(lián)信息的保存、整理和表格化顯示,能夠明顯提高對信息的利用效率。

1.程序的設(shè)計(jì)思想

1.1 采集原理

眾所周知網(wǎng)頁是由HTML語言描述的,采集網(wǎng)頁中信息的實(shí)質(zhì)是從網(wǎng)頁的HTML代碼中提取我們需要的信息,如果直接從代碼中提取,只能采取諸如正則表達(dá)式等文本匹配的方式進(jìn)行采集。這樣就會產(chǎn)生以下問題:一是使用不便,使用者不僅要了解HTML,還要了解正則表達(dá)式,此外還需要在大量的HTML代碼中找到所需信息,然后考慮如何進(jìn)行匹配;二是容錯(cuò)性差,代碼中如果出現(xiàn)些許偏差就會導(dǎo)致文本匹配失敗,如碰到制表符、回車、空格等等。

經(jīng)過長期研究,作者發(fā)現(xiàn)MSHTML能夠有效解決這些問題。MSHTML是微軟公司的一個(gè)COM組件,該組件封裝了HTML語言中的所有元素及其屬性,通過其提供的標(biāo)準(zhǔn)接口,可以訪問指定網(wǎng)頁的所有元素。

MSHTML提供了豐富的HTML文檔接口,共包含IHTMLDocument、IHTMLDocument2、…、IHTMLDocument7等7種。其中,IHTMLDocument只有一個(gè)Script屬性,是管理頁面腳本用的;IHTMLDocument2接口跟C#的HtmlDocument類(即通過Web Browser控件直接獲得的Document屬性)很相似;IHTMLDocument3是跟Visual Basic 6.0里的文檔對象相似的一個(gè)接口,基本上可以用到的方法都在其中。MSHTML還提供封裝了對HTML元素完整操作的IHTMLElement接口,通過IHTMLElement,可以準(zhǔn)確地判斷HTML元素節(jié)點(diǎn)的類型,還可以獲取HTML元素節(jié)點(diǎn)的所有屬性。

1.2 二元檢查機(jī)制

通過對元素屬性值的比對,可以基本確定某個(gè)元素節(jié)點(diǎn)是否是要采集的節(jié)點(diǎn)。由于在網(wǎng)絡(luò)中網(wǎng)頁信息屬性值相同的元素節(jié)點(diǎn)比例很高,屬性值相同并不能唯一指定要采集的節(jié)點(diǎn),還需要其他約束條件。通過分析,發(fā)現(xiàn)MSHTML還提供了訪問當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)的功能,我們可以通過對父節(jié)點(diǎn)的回溯,取得該節(jié)點(diǎn)在HTML文檔樹中的路徑。這樣,同時(shí)比較網(wǎng)頁元素的屬性值和樹路徑值,就能夠精確判斷節(jié)點(diǎn)是否是需采集節(jié)點(diǎn)。

同時(shí)使用屬性值和樹路徑值進(jìn)行元素確認(rèn)的二元檢查機(jī)制,是作者的一項(xiàng)創(chuàng)新。這種技術(shù)不僅能夠極大提高采集節(jié)點(diǎn)的精確性,保證程序運(yùn)行的效果,而且由于在程序中使用了智能判斷語句,保證了程序的運(yùn)行效率,兼顧了用戶擁有良好的用戶體驗(yàn)。

1.3主要功能設(shè)計(jì)

網(wǎng)頁信息表格化提取程序能夠?qū)崿F(xiàn)對網(wǎng)頁信息的可配置采集以及對信息進(jìn)行表格化處理并保存,程序主要分三大塊功能模塊:

1.網(wǎng)頁信息提取功能模塊。提供信息提取功能的主界面,輸入采集網(wǎng)址,采集頁數(shù)及啟動采集。

2.網(wǎng)頁元素解析功能模塊。將html代碼解析成網(wǎng)頁元素列表,并自動生成采集項(xiàng)的DOM樹路徑,以方便腳本的編寫。

3.采集配置管理功能模塊。用于管理采集配置,提供新增,編輯,刪除等功能。

3.程序的主要功能實(shí)現(xiàn)方法

3.1采集配置管理

采集配置信息使用數(shù)據(jù)庫保存,主要由一對主從表來記錄。主表記錄相應(yīng)網(wǎng)站采集配置的名稱、域名、翻頁設(shè)置、載入等待設(shè)置等信息。從表記錄采集項(xiàng)的名稱、網(wǎng)頁元素的ID、ClassName、TagName以及DOM樹路徑等信息。

3.2網(wǎng)頁元素解析

本功能的目標(biāo)主要是將網(wǎng)頁HTML代碼解析成HTML DOM網(wǎng)頁元素并列出其各個(gè)屬性值。通過對網(wǎng)頁元素的遍歷,找出所要采集的數(shù)據(jù)項(xiàng)和下一頁的網(wǎng)絡(luò)元素,將其記錄到采集配置表中,同時(shí)將采集項(xiàng)的DOM樹路徑自動記錄到配置表中。

3.2 網(wǎng)頁信息自動抽取

本功能將網(wǎng)頁中需要采集的數(shù)據(jù)項(xiàng)采集出來形成數(shù)據(jù)表,最后以XML文檔的形式保存。程序運(yùn)行原理如下:

Step1: 遍歷網(wǎng)頁中的所有元素,count變量記錄網(wǎng)頁元素的數(shù)量。

Step2: 將每個(gè)元素與采集配置中的采集項(xiàng)配置做比較確定該元素是否是要采集的元素。tab_item是一個(gè)adotable變量,它記錄了當(dāng)前頁面的采集配置,webbro.OleObject.document.all.item(i)變量是網(wǎng)頁元素,itembyscript()函數(shù)將判斷網(wǎng)頁元素是否需要采集。

Step3: 如果該元素是需要采集元素,進(jìn)一步判斷數(shù)據(jù)列緩存row里是否有該采集項(xiàng)的數(shù)據(jù)。如果沒有,將采集來的數(shù)據(jù)存入row中,如果有,通過addrec()函數(shù)將采集來的數(shù)據(jù)行存入XML文檔中。

4.運(yùn)行測試

4.1 讀取頁面

本例將采用廈門本地知名論壇小魚社區(qū)的一個(gè)帖子做測試。網(wǎng)頁中的html代碼將被解析成網(wǎng)頁元素列表在“元素”頁中顯示。

圖1 讀取頁面信息

4.2 配置采集

將操作界面切換至“元素”頁,可以看到網(wǎng)頁元素列表,在列表中找出需要采集的網(wǎng)頁元素。設(shè)置采集配置如下:

(1)翻頁。首先找到了“下一頁”鏈接的網(wǎng)頁元素,其tagname屬性值為“A”,innertext屬性值為“下一頁”。將其設(shè)為“下一頁”采集項(xiàng)。

(2)作者。其所屬網(wǎng)頁元素,classname屬性值為“readName b”,tagname屬性值為“DIV”。

(3)正文。其所屬網(wǎng)頁元素,classname屬性值為“tpc_content”,tagname屬性值為“DIV”。

(4)DOM樹路徑。通過網(wǎng)頁元素列表,自動生成DOM路徑。

4.3查看采集結(jié)果

圖2 表格化顯示采集結(jié)果

5.結(jié)語

隨著網(wǎng)絡(luò)化的快速發(fā)展,人們對網(wǎng)頁元素的需求越來越轉(zhuǎn)向個(gè)性化分類和精確提取,以往面向全部內(nèi)容的野蠻采集方式已經(jīng)無法滿足目前的需求,對其進(jìn)行針對性的研究有著積極意義。

網(wǎng)頁信息表格化提取程序通過網(wǎng)頁信息提取、網(wǎng)頁元素解析、采集配置管理三大功能模塊的分工協(xié)作,實(shí)現(xiàn)對網(wǎng)頁及其內(nèi)部關(guān)聯(lián)信息的提取、解析、整理和表格化顯示,不僅克服了以往網(wǎng)頁信息抓取工具不能提取內(nèi)部關(guān)聯(lián)網(wǎng)頁信息的不足,使得程序的適用性、擴(kuò)展性明顯提高,而且程序中創(chuàng)新使用的對網(wǎng)頁屬性值和樹路徑值進(jìn)行確認(rèn)的二元檢查機(jī)制,能夠?qū)崿F(xiàn)對指定信息的準(zhǔn)確提取,極大提升了程序結(jié)果的精確性。

雖然網(wǎng)頁信息表格化提取程序在精確性、適用性和擴(kuò)展性上取得了進(jìn)步,但也存在一些不足,希望以后能找到更好的解決方法。

1.某些操作界面的用戶自動化程序不足,操作較為繁瑣。

2.對海量數(shù)據(jù)的兼容性不足,處理效率低下。由于程序的獲取頁面采用WebBrowser技術(shù),導(dǎo)致采集效率較低,在處理大數(shù)據(jù)時(shí)會出現(xiàn)效率低下的問題,還需要尋找更好的技術(shù)方法進(jìn)行優(yōu)化。

參考文獻(xiàn):

[1]房勇,李銀勝.基于DOM狀態(tài)轉(zhuǎn)換的隱網(wǎng)頁信息抽取算法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2015,(09):17-21.

[2]張建營,王嘉梅,湯雪,胡剛.彝文網(wǎng)頁信息采集技術(shù)研究[J]. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014,(12):6-8.

[3]孫寶華.企業(yè)社會媒體主題信息提取算法研究[J].煤,2014,(01):72-76.

[4]金濤.網(wǎng)絡(luò)爬蟲在網(wǎng)頁信息提取中的應(yīng)用研究[J]. 現(xiàn)代計(jì)算機(jī)(專業(yè)版),2012,(01):16-18.

[5]朱志寧,黃青松. 快速的中文網(wǎng)頁分類方法實(shí)現(xiàn)[J]. 山西電子技術(shù),2008,(04):7-9.

[6]高軍,王騰蛟,楊冬青,唐世渭.基于Ontology的Web內(nèi)容二階段半自動提取方法[J]. 計(jì)算機(jī)學(xué)報(bào),2004,(03):310-318.

主站蜘蛛池模板: 久久综合国产乱子免费| 55夜色66夜色国产精品视频| 99精品视频九九精品| 毛片网站在线看| 日本人妻丰满熟妇区| 欧美精品H在线播放| 在线精品欧美日韩| 免费在线不卡视频| 国产幂在线无码精品| 色吊丝av中文字幕| 日韩在线2020专区| 毛片在线播放a| 亚洲色图另类| 亚洲精品成人福利在线电影| 亚洲中久无码永久在线观看软件| 这里只有精品国产| 夜夜拍夜夜爽| 中国精品久久| 久久亚洲国产最新网站| 国产福利免费视频| 欧美日韩免费| 中国国语毛片免费观看视频| 中文字幕2区| 国产精品手机在线观看你懂的| 国产欧美一区二区三区视频在线观看| 亚洲性影院| 欧美成人综合视频| 欧美亚洲一区二区三区在线| 久热99这里只有精品视频6| 自拍中文字幕| 国产高清在线精品一区二区三区| 精品无码一区二区在线观看| 最新无码专区超级碰碰碰| 亚洲三级视频在线观看| 精品無碼一區在線觀看 | 久久香蕉国产线看观看精品蕉| 亚洲黄色成人| 欧洲日本亚洲中文字幕| 久久五月视频| 国产精品污污在线观看网站| 国产欧美成人不卡视频| 中文字幕一区二区人妻电影| 久久网欧美| 91在线播放免费不卡无毒| 动漫精品啪啪一区二区三区| 美女高潮全身流白浆福利区| 国产欧美日韩18| 中文天堂在线视频| 国产又粗又猛又爽| 原味小视频在线www国产| 蜜桃视频一区二区| 国产手机在线ΑⅤ片无码观看| 手机成人午夜在线视频| 亚洲国产精品久久久久秋霞影院 | 福利国产微拍广场一区视频在线| 在线国产91| 久久综合色视频| 狠狠做深爱婷婷久久一区| 久青草免费在线视频| 一级爱做片免费观看久久| 亚洲国产成人精品无码区性色| 国产成人免费手机在线观看视频| 亚洲热线99精品视频| 久久6免费视频| 男人的天堂久久精品激情| 国产精品视频白浆免费视频| 国产在线视频欧美亚综合| 日韩毛片免费视频| 五月天香蕉视频国产亚| jizz国产视频| 久久国产精品娇妻素人| 亚洲AV无码精品无码久久蜜桃| 国产情精品嫩草影院88av| 色综合久久88色综合天天提莫| 中国国产A一级毛片| 就去色综合| 第一页亚洲| 久久久久亚洲精品成人网 | 五月激情婷婷综合| 毛片视频网| 国产视频 第一页| 亚洲永久视频|