陳俊潔
摘要:隨著社會經濟的快速發展,計算機網絡技術已經得到了廣泛的應用,利用web來對信息進行提取已經成為人們工作中最常使用的辦法,目前有很多信息都是通過web來進行提供的,但是越來越多web信息的出現讓提取更困難,針對這種情況應該選擇更加精確的檢索技術,本文就對web信息提取技術與應用問題進行分析。
關鍵詞:web;信息提取技術;應用意義;分析
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2017)09-0114-01
1 web信息提取技術研究的意義
傳統的信息提取技術是起源于80年代的,在90年代消息理解會議召開了,同時web項目也成立起來并得到了一定的發展,從目前來看,web信息提取技術中還是存在很多的不足之處,例如檢索方法不夠合理,結果顯示比較單一等等,由于出現的多種問題,會對整個的系統造成損害,因此就需要相關人員進行更加深入的研究,web信息提取技術有著一定的實用性,它也是所有系統構建的基礎部分,要想找到這些web數據就要將信息集成的問題解決了,還可以增加一些實際方面的應用,例如網上的購物系統、企業情報系統、網站的建立等等,這些都需要來自web信息提取技術的支持,相關部門要加大web信息提取技術的使用力度,這樣才是最合乎發展的。
2 web信息提取分類以及技術分析
2.1 基于正則表達式的信息提取
正則表達式是通過一些字符串來體現的公式,這也應用了web信息提取技術,首先應該將web文檔作為文件來進行處理,這種文件一般是字符流文件,然后制作出正則表達式對信息進行相應的提取,最后才能得到想要的信息,利用正則表達式的方式獲取信息更加方便,能夠根據新聞的特征來獲取信息,這些信息包括新聞的標題、內容等方面,從而在得到了文本文件之后,就能夠采用分類聚類的算法,讓傳統技術得到更大范圍的使用,也能實現對網頁進行分類聚類。
2.2 自然語言處理的信息提取
對于自然語言的信息提取,要充分符合源文檔中的文本情況,這也在一定程度上借鑒了自然語言的處理方式,將子句結構以及子句的關系進行分析,按照語法語義的原則進行信息提取,利用這種原理的系統包括有SRV、WNISK等,當然利用這種方式也存在一定的缺點,例如web網頁中會出現很多的鏈接,而且還都是被HTML所修飾的,因此這都不是最完整的句子,在技術的應用方面也會受到局限,同時在實現的時候如果沒有將web文檔作為普通文本來進行處理的話,那么就缺乏一定的實用性。
2.3 基于HTML結構的信息提取
對基于HTML結構的信息進行提取,是web信息提取技術與應用中十分重要的部分,對信息進行提取時,應該具備的特點是要根據web頁面的結構進行定位,然后可以通過解析器的方式實現更多的操作,對結構模式進行信息提取的時候也應該采用全自動的形式,這種方式雖然優勢很多,但這也存在很多的問題,一方面是確定的數據中存在很多客戶不用的信息。另一方面是可以通過提取的方式進行樣本訓練,在樣本選擇的角度分析也可以對結構模式產生一定的影響。如果將web查詢看作是巨大的數據庫,那么就可以利用web的查詢語言對文檔進行查詢,可以利用的系統包括web-sql等,目前這些技術都還需要進一步的理論探討。
3 web信息提取系統的構建及性能評價
web信息提取系統的體系結構通常會采用通用體系結構,也能夠將該系統稱為級聯的轉換器或者模塊集合,對于一些難以過濾掉的信息,就可以增加上新的結構信息。一般的信息提取系統是由以下幾個模塊組成的,(1)文本分塊,這是說將輸入的文本分割成不同的部分來進行分析。(2)預處理,預處理就是將文本塊轉為句子的序列,這些句子都是由詞匯以及類組成的。(3)分析,分析中包括預分析以及分析兩個部分,預分析是對詞匯中小型的結構,例如名詞、動詞等進行識別,而分析是對結構以及詞匯項進行描述,從而得到相應的集合。
要實現web信息提取系統可以采用兩種方法,一是利用知識工程的方法,利用該方法需要了解一定的知識領域,但是這對于人才來說是非常缺乏的,第二種是自動訓練的方式,這種情況不用使用專業的知識工程師,只需要利用語料庫來獲取就好了,任何領域的人都可以根據事先的規定,來確定足夠數量的數據,這樣才能保證處理的質量。通過一定的分析,也能夠發現web信息提取技術中存在的不足,在以后的發展中應該擴大web信息提取技術的范圍,還要逐步簡化學習的過程,讓系統對網頁的適應性更強,這樣才能提高系統的準確性,充分利用一些技術來構建web信息提取系統,這都是以后web信息提取技術發展中需要注意的問題。
4 結語
綜上所述,主要對web信息提取技術與應用進行分析,在web中進行信息提取是十分重要的步驟,在實際的工程項目中也有著明確的需求,但是由于web頁面有著一定的復雜性,因此需要更加嚴密的計劃才能實現技術方面的應用,這對于研究人員來說是一種考驗,作為研究人員需要不斷的豐富自身的經驗,加大學習與研究的力度,才能提高web信息提取的自動化程度,對我國以后方面的發展有更大的幫助。
參考文獻
[1]姜欣,楊國軍.基于XML半結構化的Web網頁信息提取研究[J].網絡安全技術與應用,2015,(10):59-60.
[2]劉澤偉.面向煤礦安全事件的Web信息抽取技術研究與應用[D].北京工業大學,2015.
[3]陳志宇.基于優化NFA正則匹配的Web信息抽取技術及應用研究[D].杭州電子科技大學,2015.
[4]羅糧,朱儒明.基于正則表達式的Web頁面信息抽取技術研究[J].現代計算機,2017,(15):17-19.
[5]宋碩.基于Web信息抽取技術的企業情報分析系統的研究[J].數字技術與應用,2016,(2):91-92.
[6]李寶密.基于自動生成模板的Web信息抽取技術[J].網絡安全技術與應用,2016,(9):56.endprint