999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

web信息提取技術與應用的研究

2017-12-07 08:00:35陳俊潔
數字技術與應用 2017年9期
關鍵詞:應用意義分析

陳俊潔

摘要:隨著社會經濟的快速發展,計算機網絡技術已經得到了廣泛的應用,利用web來對信息進行提取已經成為人們工作中最常使用的辦法,目前有很多信息都是通過web來進行提供的,但是越來越多web信息的出現讓提取更困難,針對這種情況應該選擇更加精確的檢索技術,本文就對web信息提取技術與應用問題進行分析。

關鍵詞:web;信息提取技術;應用意義;分析

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2017)09-0114-01

1 web信息提取技術研究的意義

傳統的信息提取技術是起源于80年代的,在90年代消息理解會議召開了,同時web項目也成立起來并得到了一定的發展,從目前來看,web信息提取技術中還是存在很多的不足之處,例如檢索方法不夠合理,結果顯示比較單一等等,由于出現的多種問題,會對整個的系統造成損害,因此就需要相關人員進行更加深入的研究,web信息提取技術有著一定的實用性,它也是所有系統構建的基礎部分,要想找到這些web數據就要將信息集成的問題解決了,還可以增加一些實際方面的應用,例如網上的購物系統、企業情報系統、網站的建立等等,這些都需要來自web信息提取技術的支持,相關部門要加大web信息提取技術的使用力度,這樣才是最合乎發展的。

2 web信息提取分類以及技術分析

2.1 基于正則表達式的信息提取

正則表達式是通過一些字符串來體現的公式,這也應用了web信息提取技術,首先應該將web文檔作為文件來進行處理,這種文件一般是字符流文件,然后制作出正則表達式對信息進行相應的提取,最后才能得到想要的信息,利用正則表達式的方式獲取信息更加方便,能夠根據新聞的特征來獲取信息,這些信息包括新聞的標題、內容等方面,從而在得到了文本文件之后,就能夠采用分類聚類的算法,讓傳統技術得到更大范圍的使用,也能實現對網頁進行分類聚類。

2.2 自然語言處理的信息提取

對于自然語言的信息提取,要充分符合源文檔中的文本情況,這也在一定程度上借鑒了自然語言的處理方式,將子句結構以及子句的關系進行分析,按照語法語義的原則進行信息提取,利用這種原理的系統包括有SRV、WNISK等,當然利用這種方式也存在一定的缺點,例如web網頁中會出現很多的鏈接,而且還都是被HTML所修飾的,因此這都不是最完整的句子,在技術的應用方面也會受到局限,同時在實現的時候如果沒有將web文檔作為普通文本來進行處理的話,那么就缺乏一定的實用性。

2.3 基于HTML結構的信息提取

對基于HTML結構的信息進行提取,是web信息提取技術與應用中十分重要的部分,對信息進行提取時,應該具備的特點是要根據web頁面的結構進行定位,然后可以通過解析器的方式實現更多的操作,對結構模式進行信息提取的時候也應該采用全自動的形式,這種方式雖然優勢很多,但這也存在很多的問題,一方面是確定的數據中存在很多客戶不用的信息。另一方面是可以通過提取的方式進行樣本訓練,在樣本選擇的角度分析也可以對結構模式產生一定的影響。如果將web查詢看作是巨大的數據庫,那么就可以利用web的查詢語言對文檔進行查詢,可以利用的系統包括web-sql等,目前這些技術都還需要進一步的理論探討。

3 web信息提取系統的構建及性能評價

web信息提取系統的體系結構通常會采用通用體系結構,也能夠將該系統稱為級聯的轉換器或者模塊集合,對于一些難以過濾掉的信息,就可以增加上新的結構信息。一般的信息提取系統是由以下幾個模塊組成的,(1)文本分塊,這是說將輸入的文本分割成不同的部分來進行分析。(2)預處理,預處理就是將文本塊轉為句子的序列,這些句子都是由詞匯以及類組成的。(3)分析,分析中包括預分析以及分析兩個部分,預分析是對詞匯中小型的結構,例如名詞、動詞等進行識別,而分析是對結構以及詞匯項進行描述,從而得到相應的集合。

要實現web信息提取系統可以采用兩種方法,一是利用知識工程的方法,利用該方法需要了解一定的知識領域,但是這對于人才來說是非常缺乏的,第二種是自動訓練的方式,這種情況不用使用專業的知識工程師,只需要利用語料庫來獲取就好了,任何領域的人都可以根據事先的規定,來確定足夠數量的數據,這樣才能保證處理的質量。通過一定的分析,也能夠發現web信息提取技術中存在的不足,在以后的發展中應該擴大web信息提取技術的范圍,還要逐步簡化學習的過程,讓系統對網頁的適應性更強,這樣才能提高系統的準確性,充分利用一些技術來構建web信息提取系統,這都是以后web信息提取技術發展中需要注意的問題。

4 結語

綜上所述,主要對web信息提取技術與應用進行分析,在web中進行信息提取是十分重要的步驟,在實際的工程項目中也有著明確的需求,但是由于web頁面有著一定的復雜性,因此需要更加嚴密的計劃才能實現技術方面的應用,這對于研究人員來說是一種考驗,作為研究人員需要不斷的豐富自身的經驗,加大學習與研究的力度,才能提高web信息提取的自動化程度,對我國以后方面的發展有更大的幫助。

參考文獻

[1]姜欣,楊國軍.基于XML半結構化的Web網頁信息提取研究[J].網絡安全技術與應用,2015,(10):59-60.

[2]劉澤偉.面向煤礦安全事件的Web信息抽取技術研究與應用[D].北京工業大學,2015.

[3]陳志宇.基于優化NFA正則匹配的Web信息抽取技術及應用研究[D].杭州電子科技大學,2015.

[4]羅糧,朱儒明.基于正則表達式的Web頁面信息抽取技術研究[J].現代計算機,2017,(15):17-19.

[5]宋碩.基于Web信息抽取技術的企業情報分析系統的研究[J].數字技術與應用,2016,(2):91-92.

[6]李寶密.基于自動生成模板的Web信息抽取技術[J].網絡安全技術與應用,2016,(9):56.endprint

猜你喜歡
應用意義分析
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
乙肝患者護理中人性化護理服務的應用意義探究
急性冠脈綜合征患者介入治療中替羅非班的應用及意義探究
血清免疫球蛋白檢驗在肝衰竭患者中的應用意義探究
特種印刷在平面設計中應用的意義探討
試論課堂提問藝術在英語教學中的應用
成才之路(2016年3期)2016-01-29 10:51:28
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 国产成在线观看免费视频 | 四虎成人精品| 在线观看国产精美视频| 国产成人精品男人的天堂下载| 日韩一区二区三免费高清| 伊人大杳蕉中文无码| 国产精品爽爽va在线无码观看 | 超薄丝袜足j国产在线视频| 奇米精品一区二区三区在线观看| 亚洲欧美在线精品一区二区| 成人免费网站久久久| 女同久久精品国产99国| 欧美精品亚洲精品日韩专| 国产夜色视频| 亚洲第一黄片大全| 影音先锋亚洲无码| 婷婷丁香在线观看| 国产激情无码一区二区APP| 热久久综合这里只有精品电影| 91成人在线观看视频| 波多野结衣久久精品| 亚洲欧洲一区二区三区| 国产91丝袜在线播放动漫| 亚洲国产精品VA在线看黑人| 国产免费久久精品99re不卡 | 亚洲国内精品自在自线官| 国产成人三级在线观看视频| 丝袜美女被出水视频一区| 国产又爽又黄无遮挡免费观看| 日韩无码黄色| 亚洲Av综合日韩精品久久久| 综合色婷婷| 9啪在线视频| 色爽网免费视频| 欧美 国产 人人视频| 国产91丝袜在线播放动漫 | 蜜臀AV在线播放| 国产菊爆视频在线观看| 亚洲二区视频| 国产另类视频| 亚洲欧美另类专区| AV老司机AV天堂| 最新国产在线| 福利小视频在线播放| 国产欧美日韩资源在线观看| 欧美日韩第三页| 亚洲日韩在线满18点击进入| 深爱婷婷激情网| 视频一区视频二区日韩专区| 国产xx在线观看| 91丝袜乱伦| 67194在线午夜亚洲 | 国产情侣一区二区三区| 少妇人妻无码首页| 国产精品lululu在线观看| 免费毛片在线| 高h视频在线| 一级毛片基地| 欧美日本中文| 国产爽爽视频| 中文成人在线视频| 亚洲一区二区无码视频| 欧美v在线| 国产一级毛片yw| 亚洲国产欧美中日韩成人综合视频| 亚洲欧美成人在线视频| 99热国产在线精品99| 538国产在线| 中文字幕伦视频| 中文字幕人妻av一区二区| 无码国内精品人妻少妇蜜桃视频 | 国产精品林美惠子在线观看| 亚洲精品不卡午夜精品| 一级毛片免费播放视频| 精品91在线| 中文字幕啪啪| 日韩欧美中文亚洲高清在线| 亚洲日本在线免费观看| 欧美国产视频| 亚洲国产中文在线二区三区免| 国产十八禁在线观看免费| 九九精品在线观看|