基于XPath的新聞信息抽取系統(tǒng)設(shè)計與實現(xiàn)

2015-04-29 00:39:04阮娟

智能計算機與應(yīng)用 2015年2期

阮娟

摘要：隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展，因特網(wǎng)成為目前新聞信息最豐富最主要的來源。本文在分析新聞網(wǎng)頁的基礎(chǔ)上，并分析了目前現(xiàn)有的信息抽取技術(shù)和XML技術(shù)，提出了一個基于XML技術(shù)的Web新聞抽取系統(tǒng)。本文主要是充分運用XML中的XPath技術(shù)在數(shù)據(jù)定位方面的優(yōu)勢，并提出一種基于DOM樹的XPath生成算法，使用XSLT語言用于描述抽取規(guī)則，并使用路徑表達(dá)式XPath定位待抽取的信息點。

關(guān)鍵詞：數(shù)1據(jù)挖掘；信息抽取；新聞抽取系統(tǒng)；XPath

中圖分類號：TP391.3 文獻(xiàn)標(biāo)識號：A 文章編號：2095-2163（2015-）02-

Design and Implementation of News and Information Extraction System based on XPath

RUAN Juan

（Taizhou Vocational & Technical College， Taizhou Zhejiang 318000， China）

Abstract： With the rapid development of Internet technology， the Internet is now the main source of the most abundant information. On the basis of the analysis of news Web pages， and analysis of the current existing information extraction technology and XML technology，the paper presents a Web news extraction system based on XML technology. This paper mainly uses the XPath XML technology in data location advantages， and puts forward a DOM tree based XPath generation algorithm， using XSLT language to describe the selection rules， and the path expression XPath to extract information point.

Keywords： Data Mining；Information Extraction；News and Information Extraction System； XPath

0 引言

隨著時代發(fā)展，高校信息化建設(shè)成為影響學(xué)校發(fā)展的重要因素。目前高校主要活動由黨委宣傳部集中報道并及時發(fā)布門戶網(wǎng)站，其他信息則由宣傳部下屬各二級單位信息員提供，或是宣傳部采集二級網(wǎng)站新聞來進(jìn)行獲取。但網(wǎng)站在為學(xué)校教職工提供大量豐富信息的同時，卻也為如何獲得更加高效實用信息帶來了巨大挑戰(zhàn)，具體來說主要包括兩個方面。一方面，隨著學(xué)校的發(fā)展，各系部處室工作內(nèi)容的增加，Web信息呈現(xiàn)爆炸式地增長，這就需要耗費信息采集員大量的時間、精力去搜集信息，但該種方式仍然還是會出現(xiàn)信息遺漏或新聞失去時效性等眾多問題。另一方面，雖然二級網(wǎng)站存在本站搜索引擎，但是并沒能給信息獲取帶來便捷。針對這一狀況，并且隨著對于信息獲取要求的提高，用戶已然趨向于更加精細(xì)、便捷的信息抽取方式。

1 目前國內(nèi)外信息抽取系統(tǒng)

Web信息抽取的主要信息源就是互聯(lián)網(wǎng)。互聯(lián)網(wǎng)的Web頁上散布著隱含在HTML頁面中的信息點，信息抽取的目的就是將用戶需要查詢和利用的信息從網(wǎng)頁上提取出來[1]，并轉(zhuǎn)換成具有清晰語義的結(jié)構(gòu)化文檔形式，再反饋給用戶。

從20世紀(jì)80年代開始，信息抽取技術(shù)即已成為IT行業(yè)的研究熱點之一。隨著互聯(lián)網(wǎng)的普及，Web信息抽取方面的研究逐漸興起，研究人員開發(fā)了多種算法和系統(tǒng)。目前在世界上最為著名的“Web挖掘”項目就是卡耐基？梅隆大學(xué)的“自動學(xué)習(xí)和發(fā)現(xiàn)中心”[2]。這個項目的主要實現(xiàn)目標(biāo)就是通過大型數(shù)據(jù)庫存儲自動從Web中提取的用戶所需信息。國內(nèi)一些單位對信息抽取方面也已開展了大量研究。例如中科院軟件所研究的“基于DOM的信息抽取”[3]，其抽取規(guī)則主要是通過歸納學(xué)習(xí)法半自動化算法生成。數(shù)據(jù)源包裝器中的類就是由抽取規(guī)則而產(chǎn)生及實現(xiàn)的。

2 基于XPath的信息抽取方法

2.1 抽取方法概述

抽取規(guī)則生成是信息抽取的核心任務(wù)，而抽取規(guī)則實際上就是定位用戶感興趣的信息數(shù)據(jù)。若要定位Web文檔中的數(shù)據(jù)，就必須從頭至尾遍歷網(wǎng)頁。但這一方式卻會嚴(yán)重影響信息抽取效率。在此，為了減小信息抽取的搜索空間，本文采用了Xpath的抽取方法。基于XPath規(guī)則的信息抽取過程則如圖1所示。

圖1 基于XPath的抽取方法

Fig.1 Extraction method based on XPath

基于XPath的抽取方法主要包括如下三步：

（1）首先需進(jìn)行數(shù)據(jù)清洗。系統(tǒng)可從互聯(lián)網(wǎng)下載用戶所需的Web文檔，將其轉(zhuǎn)化成規(guī)范的XML文檔。這一步驟的主要工作就是使用規(guī)范化的DOM樹表示清洗后的網(wǎng)頁；

（2）將用戶感興趣的數(shù)據(jù)項使用節(jié)點位置進(jìn)行標(biāo)識，并生成XPath表達(dá)式。在此步驟中XPath定位信息可由歸納學(xué)習(xí)各個樣本的頁面來挖掘和生成[4]。該方法獲取用戶感興趣的數(shù)據(jù)定位信息，同時使用XML文檔表示抽取規(guī)則；

（3）將歸納學(xué)習(xí)所得的規(guī)則生成抽取規(guī)則庫。用戶進(jìn)行實際信息抽取時，便能應(yīng)用該抽取規(guī)則。

綜上所述，可知其實現(xiàn)過程就是：從一個指定抽取或訓(xùn)練的Web頁面開始，清洗該頁面數(shù)據(jù)得到DOM樹結(jié)構(gòu)，然后就是生成抽取規(guī)則，即通過XPath定位抽取信息的路徑，這也是該技術(shù)過程的核心所在。最終的抽取結(jié)果信息點則可通過XPath執(zhí)行引擎而相應(yīng)獲得。

2.2 基于XPath的信息抽取模型整體框架

基于XPath信息抽取系統(tǒng)的整體框架如圖2所示。

圖2 信息抽取過程

Fig.2 Information extraction process

由圖2可知，給予信息抽取流程，整個系統(tǒng)可劃分為三大部分，具體描述如下：

（1）網(wǎng)頁解析

該模塊就是將HTML網(wǎng)頁轉(zhuǎn)換成規(guī)范的XHTML網(wǎng)頁，再解析XHTML網(wǎng)頁生成DOM樹。為了提高用戶使用頻度，目前瀏覽器均已具備較高的容錯能力，即能自動過濾甚至是忽略HTML文檔中的錯誤。但XPath對于HTML文檔的適用性卻又很高要求，因而將無法直接應(yīng)用于該類文檔，為此網(wǎng)頁解析的重要性則不言而喻。

（2）生成規(guī)則

這個模塊主要是通過人機交互，系統(tǒng)獲取用戶感興趣的信息點，并對信息點與抽取結(jié)果之間的映射關(guān)系進(jìn)行定義。在系統(tǒng)內(nèi)部完成的處理任務(wù)是，使用XPath表達(dá)式表示獲取的對應(yīng)信息點，并與抽取結(jié)果的字段相匹配，也就是完成規(guī)則定義的映射，其后即用XML格式文檔表示抽取規(guī)則，若規(guī)則發(fā)生錯誤則可進(jìn)行人工修改。

（3）規(guī)則執(zhí)行

在這一模塊中完成了信息抽取。首先，從規(guī)則庫中讀取已定義的抽取規(guī)則，然后抽取得到用戶所需的信息點，最后再將結(jié)果存入數(shù)據(jù)庫中。

2.3 抽取規(guī)則描述

抽取規(guī)則主要描述了語義模式和頁面中所對應(yīng)的信息塊間的映射關(guān)系。以XPath表示的抽取規(guī)則，其描述特征的主要依據(jù)分別來自于待抽取的HTML文檔中的結(jié)構(gòu)、位置、視覺和語義等內(nèi)容。

以臺職院新聞網(wǎng)頁中的其中一條XPath的路徑規(guī)則來看：“/html[1]/body[1]/table[4]/tr[2]/td[3]/div[1]”。

通過對路徑規(guī)則的特征分析，可以看出在抽取規(guī)則中結(jié)構(gòu)特征具有較強的覆蓋力，可作為生成抽取規(guī)則的主要依據(jù)。而位置、視覺、語義這些特征可用來輔助結(jié)構(gòu)特征提高抽取規(guī)則的約束與區(qū)分能力。因此為設(shè)立一個健壯的抽取規(guī)則，在注重增加DOM結(jié)構(gòu)性的同時，需盡量減少語義、視覺等特征對結(jié)構(gòu)的依賴性。

2.4 抽取規(guī)則優(yōu)化

2.4.1 基于JTree的DOM樹優(yōu)化

JTree是Java語言中的GUI組件之一。JTree表示節(jié)點及其之間關(guān)系的方式有些類似目錄樹。JTree樹直觀性很強，并可隨意折疊或伸展，因此就能清楚地顯示XML文檔的樹型結(jié)構(gòu)數(shù)據(jù)及數(shù)據(jù)間的層次關(guān)系，讓用戶能明確標(biāo)識出感興趣的信息點[5]。

JTree樹顯示XML DOM文檔樹結(jié)構(gòu)的基本方法是：首先解析XML文檔轉(zhuǎn)化成XML DOM樹；然后獲取該DOM樹的根節(jié)點root，作為JTree樹的根節(jié)點；接著通過使用深度優(yōu)先遍歷算法遍歷DOM樹，獲取XML文檔中所有準(zhǔn)確的子節(jié)點；最后再將這些節(jié)點加載到JTree樹的根節(jié)點中[5]，并將相對應(yīng)的節(jié)點添加到樹中。遍歷XML DOM樹后構(gòu)造JTree的算法流程圖如圖3所示。

圖3 JTree樹構(gòu)造過程

Fig.3 JTree construction proces

2.4.2 信息定位優(yōu)化

網(wǎng)頁內(nèi)容是不斷變化的，尤其是高校的二級網(wǎng)站，匯集了教學(xué)、科研、學(xué)生等各類信息，幾乎每天都在變化，在數(shù)月內(nèi)網(wǎng)頁模板至少也會變化一次。網(wǎng)頁一旦變化就會影響抽取規(guī)則的修改甚至需要重新定制。因此，抽取規(guī)則的健壯程度是目前最重要的工作。

本文的抽取模型采用了Anchor-Hop模式，同時盡量避免這種樹路徑的定位缺陷。這種模型的最大優(yōu)點是選擇網(wǎng)頁中一些較為固定的文本信息，并能根據(jù)網(wǎng)頁結(jié)合相對路徑和文本搜索進(jìn)行數(shù)據(jù)定位。Anchor-Hop定位模式如圖4所示。

圖4 Anchor-Hop的定位模式

Fig.4 The Anchor - Hop positioning model

下面則結(jié)合實際例子，解釋Anchor-Hop定位模式的定位方法及路徑表達(dá)方法。

通過圖5分析，標(biāo)簽

是主要的上級節(jié)點。而且

標(biāo)簽內(nèi)描述的內(nèi)容相對穩(wěn)定，主要圍繞的信息點是“Computers-Programming Java”，可以作為參考點Anchor，因此定位信息描述如下：

//table[start-with（normalize-space（.），Computer-Programming Java）]

其他標(biāo)簽信息作為Hop信息點，XPath表達(dá)式為：

千年一嘆：//table[start-with（normalize-space（.），Computer-Programming Java）]/tr[2]/td[2]/text（）

福爾摩斯探案全集：//table[start-with（normalize-space（.），Computer-Programming Java）] /tr[3]/td[2]/ text（）

由于XPath表達(dá)式是基于相對路徑的，因此網(wǎng)頁變化影響不會很大。

圖5 基于內(nèi)容的定位例子

Fig.5 Based on the content localization example

2.4.3 編寫XSL模板規(guī)則

本文信息使用XML作為描述語言，因此抽取規(guī)則的描述基于邏輯模型DOM樹，并通過XSLT來表示。由于XSL技術(shù)易于理解和修改[6]，在XML中又能訪問任意節(jié)點中的數(shù)據(jù)，并且大部分的開發(fā)工具均會支持這種技術(shù)，因此在本文使用XSLT描述抽取規(guī)則。

在信息抽取過程中，XSLT的作用是首先轉(zhuǎn)換XML文檔；其次通過路徑表達(dá)式XPath和抽取指令生成抽取規(guī)則，這種方式生成的規(guī)則易于修改和信息抽取；而后又使用XSLT與XPath結(jié)合生成xsl格式的規(guī)則文件[7]。XSLT的特點是實現(xiàn)XML文檔的格式轉(zhuǎn)換。

3 新聞抽取系統(tǒng)模型

根據(jù)本文提供的抽取規(guī)則，為了新聞抽取系統(tǒng)能便于用戶的快速使用及日后維護(hù)，組成系統(tǒng)的模塊力求簡潔明了。臺職院新聞抽取系統(tǒng)主要由四大模塊組成：用戶交互接口、抽取規(guī)則定制、新聞抽取、新聞信息編輯。除此之外，指定網(wǎng)站的抽取規(guī)則、抽取結(jié)果及用戶信息等數(shù)據(jù)存入關(guān)系型數(shù)據(jù)庫中，模型圖如圖6所示。

圖6 系統(tǒng)組成模型圖

Fig.6 System composition model diagram

4 結(jié)束語

為提高信息抽取的準(zhǔn)確率，本系統(tǒng)定制抽取規(guī)則采用了人機交互的方式，這種方式的最大優(yōu)點是系統(tǒng)可以定時批量抽取信息。但是這種方式?jīng)]有實現(xiàn)完全自動化，需要人工監(jiān)控與干預(yù)，影響了系統(tǒng)的工作效率。隨著信息需求的不斷增長，信息抽取是目前信息技術(shù)處理中研究的熱點，因此也設(shè)計了大量技術(shù)、算法用于解決更多抽取問題，信息抽取的準(zhǔn)確率也將更加精確、高效。

參考文獻(xiàn)：

[1]李彬.Web使用挖掘技術(shù)的研究與實現(xiàn)[D].成都：電子科技大學(xué)，2007：9-11.

[2]張云鵬.基于Web的數(shù)據(jù)挖掘技術(shù)研究[D].北京：中國石油大學(xué)，2007：12-14.

[3]劉遷，焦慧，賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計算機應(yīng)用研究，2007（7）：18-21.

[4]陳小輝，文佳，鄧杰英.MySQL數(shù)據(jù)庫的權(quán)限及其安全缺陷[J].計算機安全，2008，（2）：17-19.

[5]劉釗夏，何明昕.利用JTidy和XML實現(xiàn)Web數(shù)據(jù)信息的批量提取[J].計算機工程與設(shè)計，2010（6）：32-33.

[6]曹風(fēng)華.XSLT在XML向HTML轉(zhuǎn)換中的作用[J].現(xiàn)代計算機（專業(yè)版），2010（3）：21-23.

[7]周登，戴玉剛.基于樹結(jié)構(gòu)的Web信息抽取[J].計算機技術(shù)與發(fā)展，2009，（9）：24-25.

1 作者簡介：阮娟（1982-），女，浙江臺州人，碩士，講師，主要研究方向：數(shù)據(jù)挖掘、信息抽取。

智能計算機與應(yīng)用2015年2期

智能計算機與應(yīng)用的其它文章: 水族箱智能控制系統(tǒng)的設(shè)計與實現(xiàn); 學(xué)生成長管理系統(tǒng)的設(shè)計及相關(guān)技術(shù)的研究; 二維碼電子憑證在移動商務(wù)中的應(yīng)用研究; 基于Android移動學(xué)習(xí)平臺研究; 基于虛擬現(xiàn)實技術(shù)的3D智慧校園設(shè)計與實現(xiàn); 通信網(wǎng)管系統(tǒng)自動集成網(wǎng)元的研究與實現(xiàn)