web信息提取技術與應用的研究

2017-12-07 08:00:35陳俊潔

數字技術與應用 2017年9期

陳俊潔

摘要：隨著社會經濟的快速發展，計算機網絡技術已經得到了廣泛的應用，利用web來對信息進行提取已經成為人們工作中最常使用的辦法，目前有很多信息都是通過web來進行提供的，但是越來越多web信息的出現讓提取更困難，針對這種情況應該選擇更加精確的檢索技術，本文就對web信息提取技術與應用問題進行分析。

關鍵詞：web；信息提取技術；應用意義；分析

中圖分類號：TP391.1 文獻標識碼：A 文章編號：1007-9416（2017）09-0114-01

1 web信息提取技術研究的意義

傳統的信息提取技術是起源于80年代的，在90年代消息理解會議召開了，同時web項目也成立起來并得到了一定的發展，從目前來看，web信息提取技術中還是存在很多的不足之處，例如檢索方法不夠合理，結果顯示比較單一等等，由于出現的多種問題，會對整個的系統造成損害，因此就需要相關人員進行更加深入的研究，web信息提取技術有著一定的實用性，它也是所有系統構建的基礎部分，要想找到這些web數據就要將信息集成的問題解決了，還可以增加一些實際方面的應用，例如網上的購物系統、企業情報系統、網站的建立等等，這些都需要來自web信息提取技術的支持，相關部門要加大web信息提取技術的使用力度，這樣才是最合乎發展的。

2 web信息提取分類以及技術分析

2.1 基于正則表達式的信息提取

正則表達式是通過一些字符串來體現的公式，這也應用了web信息提取技術，首先應該將web文檔作為文件來進行處理，這種文件一般是字符流文件，然后制作出正則表達式對信息進行相應的提取，最后才能得到想要的信息，利用正則表達式的方式獲取信息更加方便，能夠根據新聞的特征來獲取信息，這些信息包括新聞的標題、內容等方面，從而在得到了文本文件之后，就能夠采用分類聚類的算法，讓傳統技術得到更大范圍的使用，也能實現對網頁進行分類聚類。

2.2 自然語言處理的信息提取

對于自然語言的信息提取，要充分符合源文檔中的文本情況，這也在一定程度上借鑒了自然語言的處理方式，將子句結構以及子句的關系進行分析，按照語法語義的原則進行信息提取，利用這種原理的系統包括有SRV、WNISK等，當然利用這種方式也存在一定的缺點，例如web網頁中會出現很多的鏈接，而且還都是被HTML所修飾的，因此這都不是最完整的句子，在技術的應用方面也會受到局限，同時在實現的時候如果沒有將web文檔作為普通文本來進行處理的話，那么就缺乏一定的實用性。

2.3 基于HTML結構的信息提取

對基于HTML結構的信息進行提取，是web信息提取技術與應用中十分重要的部分，對信息進行提取時，應該具備的特點是要根據web頁面的結構進行定位，然后可以通過解析器的方式實現更多的操作，對結構模式進行信息提取的時候也應該采用全自動的形式，這種方式雖然優勢很多，但這也存在很多的問題，一方面是確定的數據中存在很多客戶不用的信息。另一方面是可以通過提取的方式進行樣本訓練，在樣本選擇的角度分析也可以對結構模式產生一定的影響。如果將web查詢看作是巨大的數據庫，那么就可以利用web的查詢語言對文檔進行查詢，可以利用的系統包括web-sql等，目前這些技術都還需要進一步的理論探討。

3 web信息提取系統的構建及性能評價

web信息提取系統的體系結構通常會采用通用體系結構，也能夠將該系統稱為級聯的轉換器或者模塊集合，對于一些難以過濾掉的信息，就可以增加上新的結構信息。一般的信息提取系統是由以下幾個模塊組成的，（1）文本分塊，這是說將輸入的文本分割成不同的部分來進行分析。（2）預處理，預處理就是將文本塊轉為句子的序列，這些句子都是由詞匯以及類組成的。（3）分析，分析中包括預分析以及分析兩個部分，預分析是對詞匯中小型的結構，例如名詞、動詞等進行識別，而分析是對結構以及詞匯項進行描述，從而得到相應的集合。

要實現web信息提取系統可以采用兩種方法，一是利用知識工程的方法，利用該方法需要了解一定的知識領域，但是這對于人才來說是非常缺乏的，第二種是自動訓練的方式，這種情況不用使用專業的知識工程師，只需要利用語料庫來獲取就好了，任何領域的人都可以根據事先的規定，來確定足夠數量的數據，這樣才能保證處理的質量。通過一定的分析，也能夠發現web信息提取技術中存在的不足，在以后的發展中應該擴大web信息提取技術的范圍，還要逐步簡化學習的過程，讓系統對網頁的適應性更強，這樣才能提高系統的準確性，充分利用一些技術來構建web信息提取系統，這都是以后web信息提取技術發展中需要注意的問題。

4 結語

綜上所述，主要對web信息提取技術與應用進行分析，在web中進行信息提取是十分重要的步驟，在實際的工程項目中也有著明確的需求，但是由于web頁面有著一定的復雜性，因此需要更加嚴密的計劃才能實現技術方面的應用，這對于研究人員來說是一種考驗，作為研究人員需要不斷的豐富自身的經驗，加大學習與研究的力度，才能提高web信息提取的自動化程度，對我國以后方面的發展有更大的幫助。

參考文獻

[1]姜欣，楊國軍.基于XML半結構化的Web網頁信息提取研究[J].網絡安全技術與應用，2015，（10）：59-60.

[2]劉澤偉.面向煤礦安全事件的Web信息抽取技術研究與應用[D].北京工業大學，2015.

[3]陳志宇.基于優化NFA正則匹配的Web信息抽取技術及應用研究[D].杭州電子科技大學，2015.

[4]羅糧，朱儒明.基于正則表達式的Web頁面信息抽取技術研究[J].現代計算機，2017，（15）：17-19.

[5]宋碩.基于Web信息抽取技術的企業情報分析系統的研究[J].數字技術與應用，2016，（2）：91-92.

[6]李寶密.基于自動生成模板的Web信息抽取技術[J].網絡安全技術與應用，2016，（9）：56.endprint