◆李寶密
(山西省朔州市朔州師范高等專科學校 山西 036000)
基于自動生成模板的Web信息抽取技術
◆李寶密
(山西省朔州市朔州師范高等專科學校 山西 036000)
大數據時代來臨,網絡的數據與信息爆炸式發展,且這些信息逐漸成為的人們生活中不可缺少的重要組成部分。為了保障用戶能夠在海量的數據信息中攫取所需的數據信息,本文提出基于自動生產模板的Web信息抽取技術,可以有效地對Web中用戶有興趣的信息進行抽取,并將其轉化為的更加結構化、語義清晰的格式,呈現在用戶面前。本文對其具體的設計進行闡述和分析,旨在為相關技術人員提供參考,促使自動生成模板的Web信息抽取技術可以得到有效的應用,保障用戶的良好網絡體驗,提高網絡的服務功能和服務水平。
自動生成模板;Web信息;抽取技術;用戶
Web信息抽取技術能夠根據用戶的需求情況將web中富含用戶感興趣的信息進行抽取,并對其進行結構化的處理和整合,并集中展示在用戶的面前,能進一步提高用戶的網絡體驗水平。基于自動生成模板的Web的信息抽取技術,在快速有效地抽取數據信息的同時,可以完成對網頁噪聲的規避,并將Web的文件進行解析,使之成為對用戶有用的信息。其具體的抽取方式,是按照模板的規則,進一步提高信息的準確性和可靠性,提升網絡服務的效率和質量,提高用戶的滿意度[2]。
隨著信息技術的不斷進步與完善,信息服務水平不斷提升,有效地在海量的數據信息中攫取目標信息有助于提高網絡服務水平和服務質量。國內對自動生成模板的Web信息抽取技術的研究不斷深入和成熟,可以有效地應用到網站中的信息抽取。目前,在實際的網站建設中,會應用結合了HTML和腳本語言特征的模板技術,使網站能夠按照用戶所希望的格式顯示數據信息,進一步滿足用戶的需求情況。模板技術在網站建設中具有廣闊的應用價值和開發潛力,不但能夠減少服務器壓力,還可以結合搜索引擎,提高信息的可搜索率。
通過對基于自動生產模板的Web信息抽取技術的應用,可以有效地提高網站的服務水平和服務質量,并滿足網站中不同內容欄目的建設,在為客戶提供優質網絡服務的同時,還可以進一步降低網站的維護成本和設計成本,便于管理和更新,實現個性化服務。該技術的應用,可以在很短時間內完成對網站的頁面靜態化,減少服務器壓力,并推動網站的競爭力,提高服務質量[3]。
為了實現自動化生成模板的Web信息抽取技術的有效應用,需要選擇適宜的算法,進一步提高網站的服務水平和服務質量。
2.1 URL模板匹配
URL模板匹配是促使自動生成模板的Web信息抽取技術的順利應用和實施的重要部分,其功能主要是根據Web中目標頁面的基本情況,并對其中的URL與URL模板庫展開模板匹配,對頁面進行識別和篩選,判斷是否存在適用于本頁面的解析模板,進而自動生成模板。通過URL模板匹配,可以完成對Web頁面的識別和過濾,進而對Web中主要數據信息進行識別,進而滿足用戶對數據信息的需求。
2.2 抽取規則
抽取規則是實現信息抽取的關鍵部分,按照抽取的規則可以對目標信息進行抽取,保障信息的質量。抽取規則是建立在DOM和Xpath的節點定位基礎上。HTML經過轉化處理可以轉變為DOM,通過對DOM樹種(如圖1所示)的節點進行抽取,對XpathAPI進行應用,進而完成對Web信息的抽取。

圖1 DOM樹
(1)轉化為DOM樹后,可以有效地對Web中的XML文檔進行展示,借由的DOM樹對原始信息進行分析和解讀,從而完成對網頁的解析,使之成為滿足用戶基本需求的網頁文檔。
(2)抽取規則定義。針對抽取規則需要在滿足網站基本功能的同時,還需要滿足用戶的基本需求情況。在實際的網站建設過程中,可以采用對節點名稱、屬性、屬性值和相對路徑這幾個基本內容,采用Node、Attribu-tion、Attribution-value、Path 這幾個變量進行表示,并按照以下流程:創建Xpath的基本對象,表達式確定→計算表達式→強制轉化計算結果為DOM Node List→得到抽取信息。將這個流程作為主要的抽取算法,可進一步保障信息抽取的質量[4]。
2.3 解析頁面模板的生成機制

圖2 基于自動生成模板的Web信息抽取技術的模板自動生成過程
(1)為了完成頁面模板的自動生成,需要重視的解析頁面模板的定義的分析,進一步推動信息抽取的質量和效率。其中可以設定解析頁面的抽取規則,詳細制定模板的名稱,并根據目標頁面的基本內容,完成定義。定義可以展示目標信息的路徑表達方式,根據這個定義,可以有效地實現解析頁面模板的生成。
(2)模板生成,基于自動模板生成的Web信息抽取技術,的具體模板生成過程如圖2所示。
2.4 信息抽取的過程
信息的抽取過程是建立在的URL模板匹配基礎上的,包括規則制定、模板生成及其目標文件的攫取。目前,URL模板庫的豐富度和全面程度不斷提高,應當進一步提高自動生成模板的Web信息抽取效率,進而有效地完成對網頁信息的快速攫取。
基于自動生成模板的Web信息抽取技術,需要在符合功能性的基礎上,合理地應用自動生成模板。為此,需要科學地進行系統模板、系統表結構總體設計、數據庫設計以及模板引擎的設計等,全面推進自動生成模板Web信息抽取技術的有效應用。
3.1 模板系統的總體設計
根據網站的基本需求,在考慮多頁面中各功能模板的基本情況,應使每個模塊具備自主開發的和標記語言,采用HTML對其進行設置,并設計合理的模塊層次圖。如下圖3為某高校的網站建設中的模板層次圖。