999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新聞網頁關鍵信息的提取算法

2016-09-29 17:40:26向菁菁耿光剛李曉東
計算機應用 2016年8期

向菁菁 耿光剛 李曉東

摘要:針對網頁正文提取算法缺乏通用性,以及對新聞網頁的提取缺乏標題、時間、來源信息的問題,提出一種新聞關鍵信息的提取算法newsExtractor。該算法首先通過預處理將網頁轉換成行號和文本的集合,然后根據字數最長的一句話出現在新聞正文的概率極高的特點,從正文中間開始向兩端尋找正文的起點和終點提取新聞正文,根據最長公共子串算法提取標題,構造正則表達式并以行號輔助判斷提取時間,根據來源的格式特點并輔以行號提取來源;最后構造了數據集與國外開源軟件newsPaper進行提取準確率的對比實驗。實驗結果表明,newsExtractor在正文、標題、時間、來源的平均提取準確率上均優于newsPaper,具有通用性和魯棒性。

關鍵詞:網頁信息提取;新聞信息提取;網頁去噪

中圖分類號:TP391

文獻標志碼:A

0引言

信息抽取[1]的概念最早是由Jim Cowie和Yorick Wilks于1996年提出,他們稱信息抽取就是任何能夠選擇性地將顯式或隱式的文本進行組織和結合的方法,該概念的提出是為了解決互聯網中信息量大且過于繁雜、無法讓用戶快速獲取需要的信息的問題。在近20年的發展中,已有諸多學者針對不同的抽取需求提出了不同的信息抽取方法。在網頁信息提取方面,被提及最多的是網頁正文提取算法,但目前網頁正文提取算法尚存在缺點:首先,算法普遍存在缺乏通用性的問題;其次,在某些應用場合(如:新聞溯源)除正文之外還需要新聞的標題、時間和來源信息,但目前尚沒有能夠完全滿足需求的方法。因此,本文主要基于此展開研究。

1相關研究

針對不同的信息抽取需求,不同的學者提出的算法也不盡相同。

比如,識別網頁中的實體(如:人名、地名、事件名、時間等),文獻[2]提出了一種算法用于識別生物期刊摘要中的人體蛋白質名稱;根據抽取規則生成方式的不同,又可以分為自動生成[3-4]和半自動生成[5]兩類。

對于網頁正文的提取算法,國內外也已有許多方法,簡單歸類如下:

1)基于網頁標簽[6-8]。這類方法依賴HTML語言中的閉合標簽對(如:

)或起分割作用標簽(如:

、

)進行提取。但HTML語言本身對使用者來說不具有標準的格式,再加上層疊樣式表(Cascading Style Sheets, CSS)盛行之后,為了顯示的美觀而添加的各類元素使得頁面內容變得更為復雜,因此,該方法并不具備魯棒性。

2)基于模板[5,9-10]。這類方法通過給定的模板將需要的網頁信息輸出,優點在于準確率較其他方法高;缺點是如果為每個待提取的網頁都設計模板,計算和時間開銷大,缺乏通用性。

3)基于文檔對象模型(Document Object Model, DOM)樹結構[11-13]。HTML網頁可以解析成DOM樹的結構,然后根據DOM樹的結構特性提取正文。文獻[11]中就提出了一種方法:首先確定部分正文內容,然后依據路徑相似度尋找其他正文,最終合并為網頁正文。文獻[12]則在文獻[11]的基礎上進行了改進。

4)基于布局相似性[14-16]。網頁所屬網站的網頁具有布局相似的特點,在同一個網站多個網頁中頻繁出現的內容具有極大概率為噪聲。該方法不具備實時性,在對于某一網頁進行提取時,必須先獲取與其布局類似的其他網頁。

5)基于視覺熱區[17]。這種方法主要依據人們在瀏覽網頁時視覺頻繁停留的區域去判斷正文的位置進行提取。該方法的理論支撐不足,同時也缺乏大量的視覺數據支持

此外,還有學者使用了不同方法的結合[18]以及融合了機器學習的方法[19]。

綜上所述,以上提及的方法或過時(例如基于網頁標簽的方法中依賴

的方法,早期沒有CSS,主要使用

主站蜘蛛池模板: 国产毛片一区| 小13箩利洗澡无码视频免费网站| 成人久久精品一区二区三区 | 思思99思思久久最新精品| 亚洲中文字幕手机在线第一页| 57pao国产成视频免费播放| 怡春院欧美一区二区三区免费| 久久毛片网| 911亚洲精品| 亚洲日本中文字幕天堂网| 手机在线免费不卡一区二| 毛片网站观看| 青青久视频| 一本色道久久88| 伊人天堂网| 亚洲AV永久无码精品古装片| 夜夜爽免费视频| 精品福利网| 国产精品美女网站| 欧美在线导航| 无码专区在线观看| 亚洲AV无码久久精品色欲| 无码不卡的中文字幕视频| 欧美yw精品日本国产精品| 亚洲最新在线| 欧美亚洲欧美| 精品久久国产综合精麻豆| 欲色天天综合网| 国产亚洲一区二区三区在线| 亚洲欧美不卡中文字幕| 国产精品无码AV片在线观看播放| 欧美成人免费午夜全| 国内熟女少妇一线天| 亚洲一区二区约美女探花| 久久一日本道色综合久久| 手机在线免费不卡一区二| 久久无码av三级| 国产精品美女自慰喷水| 亚洲精品片911| 在线免费看黄的网站| 国产精品无码久久久久久| 五月综合色婷婷| 婷婷色中文| 午夜毛片免费看| 亚洲AV无码不卡无码| 午夜丁香婷婷| 人妻丰满熟妇AV无码区| 精品视频在线一区| 最新国产你懂的在线网址| 国产欧美精品一区二区| 欧美一区二区自偷自拍视频| 欧洲在线免费视频| 好吊色妇女免费视频免费| 毛片手机在线看| 国产高清无码麻豆精品| 国产一区二区人大臿蕉香蕉| A级毛片无码久久精品免费| 久久人与动人物A级毛片| 极品国产在线| 波多野结衣国产精品| 丁香婷婷久久| 国产精品女在线观看| 九九久久精品国产av片囯产区| 好紧太爽了视频免费无码| 色妞永久免费视频| 亚洲欧洲日韩综合色天使| 久视频免费精品6| 亚洲美女AV免费一区| 亚洲天堂在线免费| 亚洲最新地址| 色老二精品视频在线观看| 男女性午夜福利网站| 浮力影院国产第一页| 久久永久免费人妻精品| 亚洲国产天堂久久综合226114| 午夜精品影院| 久久动漫精品| 国产精品30p| 精品视频福利| 国产精品区视频中文字幕| 999福利激情视频| 国产另类视频|