999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹的自適應網頁正文抽取方法

2019-04-12 07:01:42呂容政劉嘉勇
現代計算機 2019年7期
關鍵詞:分類文本

呂容政,劉嘉勇

(1.四川大學電子信息學院,成都610065;2.四川大學網絡空間安全學院,成都610065)

0 引言

Web 頁面是目前人們獲取信息的主要方式之一,也是輿情監測、數據分析和處理的一個重要來源。常見的Web 網頁中除了主要的內容外,還包含大量與主題內容無關的噪聲信息,如廣告鏈接、推薦鏈接、導航信息等。因此,過濾網頁中的噪聲信息,抽取網頁的正文內容,具有重要的研究價值和應用前景。現有的常見Web 信息抽取技術有基于特定網站模板,基于視覺特征,基于DOM 結構和基于數理統計。目前基于DOM 樹結構和基于模板的抽取技術得到了廣泛的運用。

基于模板的Web 信息抽取技術是假設網頁使用相同或者相似的模板構建的,這類方法通過具有相同或者相似模板的網頁訓練生成一個通用的模板結構進行網頁的信息抽取。Bar-Yossef 等人[1]采用基于模板的方式進行正文抽取,但是這種方法難以應對網頁結構的更新和修改。Song 等人[2]將文本密度定義為標簽內所有文字與所有標簽數量之比,這種定義對于標簽量大的正文密度評估會有較大偏差,而且計算量較大。基于統計原理的技術在理論上易于實現,但其難點在于確定一個合理的閾值,因此對于內容豐富度網頁差異很大的網頁效果不理想[3]。李偉男等人[4]基于VIPS 算法,提出了改進的隱馬爾可夫模型,實現Web信息抽取。基于VIPS 算法的Web 信息抽取的優點是面對許多表現形式單一、代碼層次上區別很大的網頁時,有很好的抽取性能,但是這種方法需要對網頁進行渲染,相對于其他方法,需要占用更多的計算資源。

在實際應用中,基于密度及文本特征的新聞正文抽取算法往往適應性不高[5]。本文利用節點多個特征,提出一種基于決策樹的自適應網頁的正文抽取方法。本文以網頁中一個葉子結點為單位,分析計算特征向量,然后使用決策樹分類方法判斷節點是屬于正文還是噪聲。之后通過信噪比衡量正文信息和噪聲信息的相對比重,最終抽取出網頁的正文。相對基于文本塊密度和標簽路徑覆蓋率的網頁正文抽取[6],本文引入信噪比有效減少了由于分類錯誤而導致的誤差。另外,通過選取信噪比值最高的結點,可有效避免閾值需要人工確定的問題,實現網頁正文抽取算法的自適應。

1 特征向量提取

對于Web 上的網頁,依據其網頁類型可以將它們分為三類[7]:主題型網頁、Hub 型網頁和圖片型網頁。本文的研究對象是主題型網頁,即從主題型網頁中抽取網頁主題相關的正文信息。由于主題型網頁不僅承載有主體內容,有時還會添加一些導航、推薦或者廣告鏈接。本文將網頁正文定義為以網頁主體內容區域,網頁中其他除主體內容以外的部分定義為噪聲[8]。

考慮到HTML 文檔中

1.1 標簽語義

目前HTML 文檔結構都遵從于w3c 制定的規范,因此部分標簽可能一定的語義[10]。例如

互信息用于表示信息之間的關系,是兩個隨機變量統計相關性的測度,衡量的是某個特征向量和特征類別之間的統計相關性[11],因此本文采用互信息方法提取標簽語義維度的特征向量,計算公式如公式(1):

其中,MI 是標簽的互信息量,m 為標簽類別數,P(ci)表示類別ci 的概率,P(t,ci)表示包含特征t 且屬于類別ci的概率;P(t)表示特征t 的概率。

互信息量較高的向量通常在某個類別ci中出現的概率高,而在其他文本類別中出現概率低,也就可能被選作類別ci的特征。為了探明某個標簽的語義,本文通過對鳳凰網988 篇已知正文和噪聲的網頁樣本進行了統計,然后計算向量互信息,其中網頁樣本中正文標簽節點的數目為30304,噪聲樣本共含有331043 個節點,經過統計得出結論如表1。

表1 正文與噪聲樣本中標簽數量與互信息量

如表1,經過互信息計算,可以得出

1.2 標簽文本密度

在標簽文本密度向量上,胡俊等人[12]對于網頁的文本密度定義為長文本標簽比LTR,設T 是DOM 樹或其子樹,長文本標簽比LTR 為T 中非鏈接長文本節點的文本長度總和與T 中非鏈接標簽數量的比值。這種方法要提前設置長文本的閾值,對于不同的網頁文本的閾值不一樣,在這種情況下,以上定義方法不能很好地表征不同的網頁。通常情況下正文的文本密度比較集中,噪聲文本為分散文本,文本字符長度會比較小,因此本文將一個標簽內去除停用字符剩下的有效字符數定義為標簽所含的文本密度,計算如公式(2)。

其中Tn表示第n 個葉子結點的文本密度,ci表示一個有效字符,m 表示當前葉子結點以內的有效字符個數。

這種計算方法在網頁壓縮的情況下仍然能夠表征文本密度向量。根據w3c 規范,標簽節點上可以有指定的屬性,但屬性只是負責控制顯示樣式,因此與標簽內的文本沒有關系。這種文本密度的計算方法有效地防止了標簽上添加過多的屬性導致文本密度減小問題。

本文采用統計的方法得出文本標簽文本密度向量的概率密度分布。本文對988 篇有效網頁的DOM 文檔的正文與噪聲葉子節點密度進行了統計并得出相關直方圖與概率分布圖。正文節點文本密度概率分布圖如圖1,噪聲節點文本密度概率分布圖如圖2 所示。

圖1 正文樣本中節點文本密度概率分布圖

圖2 噪聲樣本中節點文本密度概率分布圖

從直方圖與概率分布圖中可以看出,正文部分的文本密度分布比較廣泛,因為一般正文部分以一個標簽包含一個自然段的內容。而噪聲區域的文本密度量大多都小于20,因為噪聲區域的大多是一些簡短的導航或者鏈接。

1.3 標簽兄弟節點相似度

在網頁當中,往往正文都是經過特定編輯器編輯產生,而編輯器大多采用某些固定的模板來排版。因此功能區域相同的區塊往往標簽都具有相似性。本文將擁有相同父節點的DOM 結點定義為兄弟節點,本文定義兄弟節點的相似度為兄弟節點之間標簽類別相同數量。

如圖3,圖中1、2 號標簽在同一父節點下有兩個相同的標簽,因此,兄弟節點相似度為2。同理4、5、6 號節點的兄弟節點相似度為3。而7、8 號標簽在同一個父節點下除了節點本身沒有其他與之相同的標簽,因此相似度為1。

圖3 標簽兄弟節點相似度示意圖

對于兄弟節點相似度,本文同樣采用統計的方法獲得兄弟節點相似度直方圖與概率分布圖。本文最終獲取到988 篇有效樣本。正文節點標簽相似性直方圖與概率分布圖如圖4,噪聲節點標簽相似度直方圖與概率分布圖如圖5。

圖4 正文樣本標簽兄弟節點相似度概率分布圖

圖5 噪聲樣本標簽兄弟節點相似度概率分布圖

從圖4 與圖5 可以得出,正文當中的標簽會出現兄弟節點相似度很大的節點,而噪聲當中很少出現類似的節點。這是因為正文當中有大量的語句,往往一條語句由同一種標簽包含,因此相似度高。而噪聲區域鏈接、推薦、廣告等內容相對分散,故節點相似度相對較低。

1.4 標簽外鏈

外鏈是互聯網的血液,是鏈接的一種;沒有鏈接的話,信息就是孤立的,結果就是我們什么都看不到。一個網站是很難做到面面俱到的,因此需要鏈接到別的網站,將其他網站所能補充的信息吸收過來。但是這對于網頁正文信息來說是屬于噪聲信息。通過遍歷DOM 樹節點信息獲取

2 正文抽取算法

在對一篇網頁訓練或者處理之前,首先需要進行預處理。考慮到

本文用以文本為主體內容的網頁進行分析,從“標簽語義”、“文本密度”、“兄弟節點相似度”以及“標簽外鏈”四個特征來分析網頁的正文內容與噪聲。將HT?ML 標簽葉子節點分為兩類,正文類與噪聲類,正文記為Y,噪聲記為N,記類別集合C,那么有C={Y,N}。一個HTML 標簽節點可以由以下特征來描述:

(1)標簽語義,如

(2)標簽文本密度,一般來說,文本量越大,越有可能是正文,標記為T。

(3)標簽相似兄弟節點相似性,標記為S。

(4)標簽的外鏈,一般來說正文部分是不包含外鏈接的,標記為L。

所以HTML 葉子節點的特征向量可以表示為:{M,T,S,L},根據決策樹分類算法,在構建決策樹時需要計算估計每個特征向量的信息增益[13],本文通過對988 篇來自鳳凰新聞網頁的有效樣本做統計,以每篇網頁的DOM 樹葉子結點作為一個樣本,根據統計結果得到網頁正文與噪聲在HTML 文檔中的分布特征。根據四個特征向量的特征計算每個特征向量的信息增益,建立決策樹模型,根據建立好的決策樹將DOM 樹葉子結點分類為正文與噪聲;然后根據分類結果計算每個DOM樹中非葉子節點的信噪比,選取信噪比最高的DOM 節點即為網頁正文區域。

2.1 DOM樹葉子節點分類

對于一個未知類別的節點,根據決策樹分類的方法,按如下步驟對一個節點進行分類:

(1)設node={M,T,S,L}分類的一個節點。

(2)當前對一個葉子節點進行分類,僅有兩種可能C={Y,N},其中Y 表示當前節點是正文,N 表示當前節點是噪聲。

(3)首先選定標簽語義特征向量M 來劃分所有的樣本,根據公式(3)計算標簽語義特征向量M 的信息熵,然后通過公式(3):

其中Gain 表示節點的復雜度,Gain 越高,說明復雜度越高。信息增益說白了就是分裂前的數據復雜度減去孩子節點的數據復雜度的和,信息增益越大,分裂后的復雜度減小得越多,分類的效果越明顯。節點復雜度可以由公式(4):

其中Pi表示類i 的數量占比。以二分類問題為例,如果兩類的數量相同,此時分類節點的純度最低,熵等于1;如果節點的數據屬于同一類時,此時節點的純度最高,熵等于0。同理對于其他三個特征向量,通過公式(3)和公式(4)得出信息增益。

(4)由四個特征向量的信息增益構建出二叉樹,最終得到分類結果。

2.2 自適應正文提取

經過上一階段的分類,將一片HTML 文檔中每一個DOM 樹葉子節點分為了正文或者噪聲兩類。在自適應正文提取階段,本文通過計算DOM 樹中每一個非葉子節點的信噪比,選取信噪比最高的DOM 節點即為正文區域。本文使用公式(5)定義一個DOM 樹非葉子節點的信噪比。

其中x 表示某一結點,mi表示x 的子節點,I(mi)表示一個正文子節點的信息量,n 表示當前結點的直接子結點數目。I(mi)的計算方式如公式(6)。

其中α表示正文兄弟節點相似度。ci表示正文結點內的一個有效字符。N(mi)表示一個噪聲子節點的噪聲量,DOM 樹葉子節點標簽所含的噪聲量計算方式如公式(7)。

其中β表示噪聲兄弟節點的相似度,li表示噪聲結點內的一個有效字符。為了防止父節點和子節點中所含信息與噪聲相等,信噪比相同,最終導致提取正文不夠精確,引入一個衰減系數λ(λ>1)。信噪比越高,表示節點信息所含有的信息量越大,信噪比越小,表示網頁當中的無用信息越多,或者是文章主體內容不明顯。考慮到標簽的信息含量不僅與所含文本相關,而且相同的標簽在同一功能區具有協同作用,因此本文α和β取值均為該結點兄弟節點相似度的值。

通過計算每個DOM 樹非葉子結點的信噪比,選取信噪比最大的節點就是網頁正文區域,相對于向菁菁等人[14]只針對單一的新聞網頁的正文抽取,本文通過信噪比得出網頁正文區域的這種方式無需根據網頁的類別調整閾值,因此具有對不同網頁的適應能力。

3 實驗結果與分析

3.1 葉子結點分類結果分析

本文通過Python 編寫數據采集程序從網易新聞、騰訊新聞、CCTV.com、人民網、新浪網和搜狐網六個網站采集樣本,并精確定位1000 個樣本的正文與噪聲,存儲在本地磁盤。在計算過程當中,忽略掉因為格式或者編碼等原因出錯的12 篇網頁,去除

表2 DOM 樹葉子結點分類結果混合矩陣

由表2 可知,通過決策樹分類算法所提取的四個特征向量對于噪聲節點的分類效果比較好,但是對于正文節點的分類效果相對較差,這是因為一些網頁中正文部分會夾雜一些文本長度短、外鏈接等元素,這些類型的節點更加符合噪聲的特征,因此被誤判。所以本文中節點分類僅僅是本文噪聲提取的其中一步,在計算非葉子結點信噪比時,正文中所混雜的少量噪聲和噪聲中被誤判為正文節點會被“平滑”。因此在本文的分類結果可以適用。

3.2 正文提取實驗及結果

正文抽取的評判標準為通過算法抽取正確性與實際精確定位的網頁正文相比較,相似度超過95%即判斷為抽取正確。本文使用向量空間模型[15],將兩篇待對比的文章使用詞頻向量表示,通過計算兩個向量之間的夾角判斷文本的相似度。本文使用開源DOM 樹解析庫XPath 結合正則表達式精確定位正文與噪聲,經過XPath 與正則表達式提取到的正文可以認為是標準正文。

正文提取的實驗數據和DOM 樹分類實驗的數據一樣,通過特征向量提取章節提取特征向量{M,T,S,L},然后計算出四個特征向量的信息熵,構建出決策樹分類模型,將樣本分為正文類與噪聲類;然后根據分類結果計算每一個DOM 樹非葉子節點的信噪比,根據信噪比的大小最終得到DOM 樹節點的正文區域。

本文選取陳西安[16]的智能Web 新聞文本采集方法研究和楊柳青等人[17]基于布局相似性的網頁正文內容提取研究作為對比實驗,以正文抽取的準確性作為評價指標。文獻[16]研究方法是一種基于文本標簽特征挖掘的網頁正文提取方法。文獻[17]楊柳青等基于布局相似性的網頁正文內容提取研究,該算法基于同一網站下的網頁具有在內容布局和樣式結構上非常相似的特點,本質上是一種基于模板的正文抽取算法。算法當中的相關參數根據訓練樣本調整為作者論文當中給出的最優參數。本文的網頁正文抽取算法并不需要其他額外的閾值設定。

實際測試樣本從網易新聞、騰訊新聞、CCTV.com、人民網、新浪網和搜狐網和六個新聞網站主頁上抓取以主題型的有效網頁,每個網站中的網頁來自五個不同的專題或頻道,總共1200 篇。分別用三種算法做正文提取,實際抽取結果正確率對比表如表3。

表3 正文抽取結果對比表

由表4 結果可以看到,相對于文獻[16]陳西安的網頁抽取算法,在新聞網頁的抽取準確性上相對較高,但是在某些類型網頁上抽取準確率相對更低,適本文算法對于不同的網站適應性更強,這是因為在他的網頁抽取算法當中,算法需要確定一個閾值,該閾值根據經驗選取,但是對于不同種類的網頁,最優閾值很可能發生變化,因此算法對不同類型網頁表現出不穩定。相對于文獻[17]楊柳青等的網頁正文的算法,因為基于布局相似性的原理,所以對于網頁布局變化小的站點比較適用,并且抽取速度較快,從表4 可以看到該方法在新聞類網站上的抽取效果顯著,對于搜狐網站的抽取正確性相對較低。由于網頁的輕微修改就可能對正文的抽取產生很大干擾,以至于不能正確抽取網頁正文,所以該方法對某些站點的正文提取正確率不高。本文以DOM 樹結點為單位,使用四個維度的特征向量提高對網頁內容的表征性,根據信噪比來自適應確定正確區域,抽取結果表明,本算法適應性好,性能穩定,相對于另外兩種正文抽取算法本算法的準確性更高和適應性更強。

4 結語

本文提出的基于決策樹的自適應網頁正文抽取算法能夠有效提取出HTML 網頁當中的正文部分。算法選取了四個相互獨立,同時又能較好地表征文本屬性的向量,利用決策樹分類算法將DOM 樹葉子節點做分類,然后借鑒通信工程領域的信噪比定義,有效地“平滑”了由分類錯誤帶來的誤差,最終實現了網頁正文抽取。本算法根據樣本訓練出的模型能夠很好地適應不同類型題材的未知樣本,模型訓練完成,對于不同類型的網頁不再需要額外調節參數,因此適應性比較強。在實際程序實現當中,由于需要遍歷DOM 樹的所有非葉子節點,并計算信噪比,對于DOM 結構復雜的網頁所需時間相對較長。是否必須對所有非葉子節點都遍歷并計算信噪比,日后將做進一步研究,以減小算法運行的時間代價。

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产高清无码麻豆精品| 国产精品欧美亚洲韩国日本不卡| 婷婷综合缴情亚洲五月伊| 首页亚洲国产丝袜长腿综合| 久久这里只精品国产99热8| 蜜桃视频一区二区三区| 欧美国产日韩在线| 欧洲亚洲一区| 小说区 亚洲 自拍 另类| 亚洲国产AV无码综合原创| 91国内在线观看| 91精品久久久无码中文字幕vr| 国产麻豆va精品视频| 91小视频在线观看| 人妻无码一区二区视频| 国内精品免费| 亚洲人成日本在线观看| 国产成人做受免费视频| 国产欧美日韩专区发布| 亚洲高清在线播放| 日韩第一页在线| 亚洲精品黄| 成人午夜亚洲影视在线观看| 亚洲中文字幕在线观看| 日韩欧美国产另类| 先锋资源久久| 激情無極限的亚洲一区免费| 色偷偷综合网| 91久久国产综合精品| 中文字幕首页系列人妻| 色噜噜综合网| 亚洲丝袜中文字幕| 国产成人久久综合一区| 精品一区二区三区水蜜桃| 欧美在线网| 欧美精品啪啪一区二区三区| 午夜不卡视频| 国产成人区在线观看视频| 国产精品偷伦视频免费观看国产| 国产精品hd在线播放| 视频一本大道香蕉久在线播放 | 国产精品久久久久鬼色| 亚洲精品另类| 理论片一区| 福利视频久久| 中文字幕va| 伊人天堂网| 91美女在线| 四虎精品黑人视频| 亚洲人成影院在线观看| 美女一区二区在线观看| 国产91精品最新在线播放| 亚洲国产系列| 国产欧美视频一区二区三区| 成人福利视频网| 亚洲国产精品一区二区第一页免| 国产一区二区影院| 亚洲无码精品在线播放| 亚洲第一成年人网站| 无码国产伊人| 91久久偷偷做嫩草影院免费看| 很黄的网站在线观看| 国产精品香蕉| 国产精品专区第1页| 日韩精品一区二区三区视频免费看| 美女被操91视频| 亚洲黄色激情网站| 色天堂无毒不卡| 19国产精品麻豆免费观看| 啦啦啦网站在线观看a毛片| 人妻精品久久无码区| 一级成人a做片免费| 99re在线观看视频| 欧美日韩一区二区三| 中国一级特黄视频| 毛片手机在线看| 久青草免费在线视频| 日本国产精品一区久久久| 成人看片欧美一区二区| 高清国产va日韩亚洲免费午夜电影| 久久伊人色| 毛片基地美国正在播放亚洲|