999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本密度的網頁抽取研究

2021-11-18 14:58:46謝俊宇
科學與生活 2021年20期
關鍵詞:數據采集

謝俊宇

摘要:面對海量的信息庫,如何從網頁中將與網頁主題相關度較高的正文信息抽取出來是比較困難的。本文針對新聞網頁,提出基于文本密度的網頁抽取算法,這是一種快速、準確通用的網頁提取算法。通過與現有的一些算法對比,該算法可以較好的支持大數據量網頁正文提取操作。

關鍵詞:數據采集;網頁抽取;智能頁面解析

1 引言

隨著Web技術的發展,人類的日常生活方式已經發生了巨大的變化。這些變化使得許多傳統的紙質載體都被電子載體取而代之,許多信息都通過互聯網上的網頁來傳遞和展示。新聞網站是實時新聞發布的主要平臺,也是獲取實時新聞的關鍵平臺,要及時、全面地獲取新聞實時信息并作為后續研究的基礎信息,對新聞站點進行實時采集很有必要。因此,如何從大量的半結構化網頁信息中快速抽取用戶感興趣的內容是需要研究的重要課題。

2 國內外研究現狀

目前較為成熟的信息抽取方法為基于統計的方法。主要有統計文本密度、標簽密度和行塊分布等方法。Weninger等提出CETR算法,利用聚類方法并基于網頁源代碼的標簽比特征值來進行網頁信息抽取。Mehta 等在DOM樹的基礎上提出閾值和數據過濾器的概念,用于檢測和刪除網頁中不相關和冗余的數據,從而動態消除不同結構化網頁的噪聲內容,來提取網頁關鍵內容。吳共慶等根據DOM樹標簽路徑特征,提出將不同特征融合得到融合特征值的方法,然后在利用融合后的特征對新聞網頁進行內容抽取。

3 網頁抽取算法

本文通過對新聞網頁的正文頁進行分塊,提出基于標簽文本密度的網頁抽取算法??s小了抽取新聞標題、正文、發布時間的范圍,并結合符號密度,計算最終文本密度得分,提高了抽取正文的準確率。

在新聞網頁的正文頁面中:

1. 文本字數較多

2. <a>標簽文本字數較少

3. 標點符號(尤其是句號等)使用較多

4. 段落較多

正文標題通常會用<h*></h> (*:1-6) 標簽包含,而正文通常會使用<p></p>標簽包含。有可能在<p></p>標簽中還會包含<a>鏈接或者<span>標簽等,但是只需要找到包含正文內容的<p></p>,無論<p></p>標簽內會包含什么標簽,都可以視為新聞正文內容。例如以下是新聞正文頁html代碼示例:

<body>

<h1 class="post_title">習近平談為基層減負 </h1>

<div class="post_info">2021-02-03 08:18:37 來源:黨建網微平臺</div>

<div class="post_body">

<p>2020年歲末,一份名為《關于持續解決形式主義問題深化拓展基層減負工作情況的報告》……</p>

<p>要堅決整治形式主義、官僚主義,讓基層干部從繁文縟節、文山會海、迎來送往中解脫出來。</p>

<p>在疫情防控工作中,有些地方出現了形式主義、官僚主義現象……</p>

<p>要控制各級開展監督檢查、索要材料報表的總量和頻次,同類事項可以合并的要合并進行…… </p>

</div>

</body>

我們首先需要初始化html,將html文件解析為document對象,并且拆分取出每一個標簽。如圖所示:

接著獲取每個div盒子中的標簽文本統計信息,分別計算每個div中的標簽文本密度,再計算每個div中的標點符號密度,最終結合標簽文本密度和標點符號密度,使用不同底數的對數函數對數據進行壓縮,調整權重占比,計算每個div中的文本密度得分,文本密度得分最高的div盒子即為我們的正文內容。

4 驗證實驗

4.1 數據集的選取

為驗證算法性能,我們采集了來自不同大型新聞網站、時間跨度30天的9313篇新聞網頁作為算法的性能評測樣本數據集。實驗最后將新聞樣本的使用人工方法抽取的正文字符與算法自動抽取的結果作對比,以此來衡量算法的抽取準確率。

4.2 評測指標及實驗結果

本文對提取內容和標準內容進行對比,采用Precision、Recall、F1值這3個通用的評測指標來衡量通用網頁新聞標題自動抽取算法的性能。文本對比過程采用改進的LCS(Longest Common Sequence)算法,LCS算法是將兩個給定字符串分別刪去零個或者多個字符,但不改變剩余字符的順序后得到的長度最長的相同字符序列。

F1值是Precision和Recall調和平均數。它綜合了P和R的結果,當F1值較高時,則能說明算法性能較好。若實驗數據量越大,數據集分布越平衡,則評測指標的可信度也會越高。最后通過計算,可以得出自動抽取算法在整個樣本數據集上的平均準確率P、平均召回率R以及平均F1值分別為98.3、99.2和98.75。

實驗結果發現通過算法提取的網頁正文內容與人工提取的標準結果吻合度較高,所以該算法對于國內的新聞網站的智能提取還是較為不錯的。

參考文獻:

[1]?WENINGER T,HSU W H,HAN J. CETR:content extraction via tag ratios[C]// Proc of the 19th International Conference on World Wide Web. New York:ACM,2010:971-980.

[2]?MEHTA B,NARVEKAR M. DOM tree based approach for web content extraction[C]// 2015 International Conference on Communication,Information & Computing Technology. Mumbai:IEEE,2015:1-6.

[3]?吳共慶,胡駿,李莉,等. 基于標簽路徑特征融合的在線Web新聞內容抽取[J]. 軟件學報,2016,27 (3) :714-735.WU Gongqing,HU Jun,LI Li,et al. Online Web news extraction via tag path feature fusion[J]. Journal of Software,2016,27 (3) :714-735.

[4] 王永新,王秋芬,梁道雷.一種高效LCS算法[J].南陽理工學院學報,2013 (6) :67-70.

猜你喜歡
數據采集
Web網絡大數據分類系統的設計與改進
CAN總線通信技術在電梯監控系統中的應用
基于大型嵌入式系統的污水檢測系統設計
社會保障一卡通數據采集與整理技巧
基于AVR單片機的SPI接口設計與實現
CS5463在植栽用電子鎮流器老化監控系統中的應用
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
鐵路客流時空分布研究綜述
基于廣播模式的數據實時采集與處理系統
軟件工程(2016年8期)2016-10-25 15:54:18
通用Web表單數據采集系統的設計與實現
軟件工程(2016年8期)2016-10-25 15:52:53
主站蜘蛛池模板: 中文字幕天无码久久精品视频免费| 干中文字幕| 国产正在播放| 国产成人欧美| 天天综合网亚洲网站| 91麻豆国产视频| 又爽又大又黄a级毛片在线视频| 又黄又爽视频好爽视频| 国产视频入口| 朝桐光一区二区| 婷婷综合缴情亚洲五月伊| 亚洲日韩在线满18点击进入| 国产高潮流白浆视频| 亚洲一区二区日韩欧美gif| 欧美日韩国产综合视频在线观看| 国产第八页| 九九热精品在线视频| 久久99热这里只有精品免费看| 欧美日韩另类国产| 婷婷六月在线| 国产乱人伦偷精品视频AAA| 无码高潮喷水在线观看| 九九精品在线观看| 国产美女91呻吟求| 欧美h在线观看| 激情影院内射美女| 亚洲精品少妇熟女| 国产欧美又粗又猛又爽老| 日本免费一区视频| 亚洲资源站av无码网址| 99精品福利视频| 亚洲v日韩v欧美在线观看| 亚洲成综合人影院在院播放| 国产精品第| 亚洲欧美另类日本| 国产18页| 亚洲成人精品| 国产高清国内精品福利| 国产丰满大乳无码免费播放| 亚洲中文字幕手机在线第一页| 精品无码人妻一区二区| 国产99在线观看| 亚洲视频在线青青| 亚洲国产成人无码AV在线影院L| 国产精品手机视频一区二区| 国产色图在线观看| 91青青视频| 欧美亚洲日韩不卡在线在线观看| 国产成人综合久久精品尤物| 日本成人一区| 免费播放毛片| 99久久无色码中文字幕| 好紧太爽了视频免费无码| 精品91在线| 国产情精品嫩草影院88av| 天天摸夜夜操| 国产美女一级毛片| 亚洲黄色激情网站| 日本久久久久久免费网络| 香蕉伊思人视频| 99精品一区二区免费视频| 国产幂在线无码精品| 少妇人妻无码首页| 999国产精品永久免费视频精品久久 | 亚洲综合激情另类专区| 欧美黄色网站在线看| 伊人蕉久影院| 日韩欧美高清视频| 欧美成人午夜影院| 夜精品a一区二区三区| 亚洲热线99精品视频| 九色国产在线| 中文字幕有乳无码| 国产精品不卡片视频免费观看| 在线观看欧美精品二区| 久久综合婷婷| 精品国产成人国产在线| h视频在线播放| 久久精品一卡日本电影| 中文字幕在线视频免费| 色婷婷啪啪| 欧美亚洲另类在线观看|