文本信息抽取算法研究

2017-06-03 20:28:20李春輝

科學與財富 2017年15期

（黑龍江工商學院黑龍江哈爾濱 150025）

隨著商品在線評論數量的驟然增加，消費者要想找出商品評論中的有用信息需要消耗大量精力.因此對這些散落在Html網頁中無結構的信息進行提取、分析，不僅能夠幫助消費者從海量的文本中快速獲得有效的信息，節省人力成本，也可以幫助企業改進產品、提高質量，從而為電子商務產品推薦提供一種新的營銷模式.為有效的抽取互聯網上的信息，網絡文本信息非結構化數據抽取技術、網絡文本信息采集技術和細粒度數據挖掘技術應用而生.信息抽取技術是通過對網頁進行處理，從半結構化或者非結構化的Web頁面中抽取出用戶感興趣的信息和內容，并將其轉化成清晰的結構形式.

信息采集技術是指通過分析網頁Html代碼，獲取網頁內的超鏈接信息，并使用廣度優先遍歷算法、深度優先遍歷算法、增量存儲算法等實現自動連續的分析鏈接、抓取文件、處理和保存數據的過程.細粒度挖掘技術深入到產品特征層面，能夠提取到評價信息中涉及的評價對象、評價詞以及對應的評價傾向等意見要素，從而為一些實際應用提供必要的細節信息.而目前根據抽取技術和依據理論的不同，主要有RAPIERE 、WHISKt 和SRV基于自然語言的信息抽取，STAI KER，SOFTMEAI Y和WINE基于包裝歸納的信息抽取，WebQLE基于Web查詢的信息抽取，基于文檔結構模型和網頁模板的DOM 信息抽取。

面對海量數據，抽取技術的性能是一個十分重要的評價指標，而通過網頁結構分析并使用語言和格式規則進行標簽篩選的技術卻很少.HtmlParser是不依賴于庫文件的輕量級解析器，通過語言與格式規則進行標簽篩選，過濾目標數據，在保持系統抽取效率的基礎上保證抽取算法的準確性.本文首先介紹了URI 采集以及文本抽取的過程，其次給出了URL采集和文本抽取算法的關鍵步驟，再次通過舉例實現了URL采集和文本抽取算法，表明了基于語言和格式規則的HtmlParser標簽解析技術的性能和優勢.采用HtmlParser解析網頁，得到URL采集庫，對庫中URL所指向的頁面進行標簽解析從而實現文本提取的關鍵部分.

1 URL信息采集算法

信息采集過程的算法設計思想是：首先由一個初始URL對隊列進行初始化，然后從隊列中取出一個元素，獲取此元素所指向的Web頁面，對頁面進行網頁源代碼解析，得到目標標簽中的URL，將其入隊，然后重復上面的過程，不斷執行入隊一出隊一解析一獲得URL的循環操作，直到根據采集策略停止算法，具體過程

算法1：URL采集算法

輸入：初始URL

輸出：URL采集庫

1）首先判斷參數URL是否為Null；

2）如果為Null，程序退出；否則，根據URL得

到Html頁面；

3）利用頁面解析器HtmlParser解析網頁；

4）分析Html源代碼中具體URL信息所在節

點< a> 標簽；

5）利用標簽的href屬性，過濾得到下一