999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于時間頻率加權DOM的Web信息抽取方法

2011-02-10 01:56:54馬瑞民東北石油大學計算機與信息技術學院黑龍江大慶163318
長江大學學報(自科版) 2011年1期
關鍵詞:頁面定義規則

馬瑞民,錢 浩 (東北石油大學計算機與信息技術學院,黑龍江大慶163318)

當前,Web已經成為人們獲取信息的主要渠道。怎樣對Web上大量的數據信息進行抽取成了現今數據挖掘研究的熱點。Web信息抽取是從網絡中獲得用戶需要的信息的過程[1],目前已有的技術有基于歸納學習的信息抽取、基于DOM的信息抽取、基于Web查詢的信息抽取、基于自然語言處理的信息抽取、基于模型的信息抽取和基于本體的信息抽取[1]等。其中基于DOM的Web信息抽取的特點是,將Web文檔轉換成反映HTML/XML文件層次結構的DOM樹,通過自動或半自動的方式產生抽取規則。

以上的方法在技術方面都比較成熟,但均沒有考慮到時間因素。為此,筆者結合DOM的Web信息抽取加上時間因素,提出了一種基于TFW-DOM的Web信息抽取方法。該方法考到多次抽取的情況,通過對頁面DOM樹加權,利用公式計算每次的抽取時間,結合基于DOM的抽取方法完成每次的信息抽取。

1 基本定義

圖1 DOM樹

定義1(抽取項) 抽取項即用戶想在頁面中抽取的文本內容[2]。

定義2(抽取規則) 抽取規則是對抽取項在整個文檔中的定位,表現在DOM樹上就是由根節點到抽取項路過的節點序列所表示的路徑信息。假設DOM樹中的節點用element(i)(i=0,1,2,…)表示,抽取項的路徑信息就是一組element(i)(j)序列 (其中i≠j,i<j)。如圖 1所示,如果要定位Text:“My link”節點,它的路徑就應該是element(0)element(2)element(4)。

定義3(T加權) T加權是對DOM樹中每個元素添加時間屬性的過程,這2個屬性分別是最近一次(假設是第n次)抽取該節點信息的時間e-time和第n次抽取與第n-1次抽取的時間間隔et-interval。

定義4(F加權) F加權是對DOM樹中每個元素添加頻率的過程,表示調用信息抽取模塊用到該屬性的頻率。

圖2 TFW-DOM抽取流程

定義5(TFW-DOM) 經過了T、F加權后得到的DOM樹。TFW-DOM樹的每個元素至少有3個屬性:e-time、et-interval、frequcency。

2 TFW-DOM抽取算法

基于 TFW-DOM的 Web信息抽取方法(簡稱 TFW-DOM抽取)考慮的是多次抽取的情況,用戶無需手動抽取,系統通過抽取時間計算公式計算出每次的抽取時間,然后按照基于DOM的抽取方法進行抽取。該方法適用于多級管理層,每級管理層對數據的實時性要求不一,在時間上具有很大的靈活性。基于TFW-DOM的Web信息抽取方法的處理流程如圖2所示。

首先根據用戶的需求,獲得相關Web頁面URL,通過頁面清理把不規則的源代碼變為符合W3C標準的 HTML/XML文檔;對于規則庫中沒有現成規則的URL,進入DOM樹加權,然后在基于DOM的Web信息抽取方法[3]的基礎上,通過抽取時間計算得到抽取規則,將生成的抽取規則分別輸入規則庫和抽取的執行模塊,下次再遇到類似的抽取任務就可以直接從規則庫中調取抽取規則;根據抽取規則在執行模塊完成抽取后,結果進入數據處理部分,最后生成結構化數據。生成的數據結構可根據用戶的實際需要選擇,具有很大的靈活性。

1)頁面清理模塊 在頁面清理模塊中,利用Tidy庫提供的功能對Web頁面進行標準化處理,得到符合W3C的HTML/XML文檔,部分糾錯過濾代碼如下:

2)計算抽取時間算法 在這個模塊主要使用一個循環利用2個計算公式,完成抽取時間的計算,算法步驟如下:

其中,frequency是原頻率;frequency是新產生的頻率;time為系統當前時間。

3 試 驗

選取中國石油化工股份有限公司企業網站對其化工產品進行實驗,對于抽取方法主要從抽取速度、時間準確性、召回率和準確率4方面來檢驗,試驗數據比較結果如表1。

因為針對專門的領域,所以TFW-DOM抽取法有很好的準確率和召回率;同時試驗結果表明TFW-DOM抽取法對多次抽取的效率明顯高于文獻 [4]的方法;因為受抽取時間計算公式中各計算因子影響,在抽取時間準確率上不能達到100%,但基本能夠滿足用戶各管理級的時間要求。

表1 試驗比較結果

4 結 語

筆者提出的抽取方法在初次抽取后得到的抽取規則存入規則庫中,可重復使用,避免了抽取規則的重用,在整個抽取過程中不需要人工參與,在提高效率的同時也減輕了用戶的操作負擔。基于TFWDOM的Web信息抽取方法通過抽取規則文件得到抽取任務的相關信息和執行抽取的條件,因此,用戶只需改變輸入的頁面URL,完成初次抽取時的抽取規則文件生成,即可完成全新的抽取任務,并且最終得到的數據在數據結構上有相應的靈活性,這些使得基于TFW-DOM的Web信息抽取方法具備良好的可用性、易用性和通用性。

[1]色菲,王佳,潘超.基于XML描述的WEB信息抽取技術研究[J].計算機與信息技術,2007,34(2):403,380.

[2]陳曉鋒,張凌,董守斌.基XPath比較Web數據抽取方法[J].鄭州大學學報,2007,39(2):161-166.

[3]李效東,顧毓清.基于DOM的Web信息提取 [J].計算機學報,2002,25(5):526-533.

[4]于靜,李森.基于信息抽取的主動服務技術研究[J].計算機系統應用,2008,(1):54-56,60.

猜你喜歡
頁面定義規則
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
撐竿跳規則的制定
數獨的規則和演變
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規則對我國的啟示
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
山的定義
公務員文萃(2013年5期)2013-03-11 16:08:37
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: www.av男人.com| 亚洲人成亚洲精品| 麻豆国产在线不卡一区二区| 亚洲高清在线天堂精品| 亚洲性网站| 亚洲精品国产综合99久久夜夜嗨| 2021国产在线视频| 国产免费a级片| 色综合激情网| 人妻出轨无码中文一区二区| 欧美成人看片一区二区三区| 久久99蜜桃精品久久久久小说| 九九热在线视频| 国产精品第| 国产乱子精品一区二区在线观看| 国产18在线播放| 国产丝袜第一页| 久久久精品无码一区二区三区| 国产成人夜色91| 久青草网站| 亚洲第一黄片大全| www.亚洲国产| 2021国产精品自产拍在线| 乱人伦99久久| 91精品国产丝袜| 国产麻豆精品手机在线观看| 免费无码又爽又黄又刺激网站| 精品伊人久久久久7777人| 青青青视频91在线 | 中国国产A一级毛片| www.av男人.com| 亚洲精品在线观看91| 波多野结衣AV无码久久一区| 日本午夜精品一本在线观看| 天天色综网| 国产精品妖精视频| 国产xx在线观看| 国产全黄a一级毛片| 亚洲男人在线| 精品少妇人妻无码久久| 国产美女无遮挡免费视频网站 | 国产高清色视频免费看的网址| 欧美成人亚洲综合精品欧美激情| 国产日韩精品一区在线不卡| 国产一区二区福利| 国产极品美女在线| 国产成人精品在线1区| 国产成人精品一区二区免费看京| 欧美成人一区午夜福利在线| 91精品视频网站| 国产欧美日韩免费| 国产成人精品一区二区三在线观看| 久久精品人人做人人综合试看| 一级爱做片免费观看久久| 啊嗯不日本网站| 精品成人免费自拍视频| 亚洲精品在线影院| 免费在线看黄网址| 免费Aⅴ片在线观看蜜芽Tⅴ| 成年女人a毛片免费视频| 国产白丝av| a在线亚洲男人的天堂试看| 中文国产成人久久精品小说| 五月婷婷中文字幕| 一级毛片免费观看久| 看你懂的巨臀中文字幕一区二区 | 日韩欧美中文字幕在线精品| 免费一级毛片| 久久无码高潮喷水| 国产女同自拍视频| 久久免费观看视频| 伊人欧美在线| 玖玖精品在线| 8090午夜无码专区| 欧美黄网在线| 精品国产一区二区三区在线观看| 97成人在线视频| 青青国产成人免费精品视频| 亚洲永久免费网站| 欧美人与牲动交a欧美精品 | 一级毛片无毒不卡直接观看| 黄色网页在线播放|