999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

垂直搜索引擎的研究現狀綜述

2017-03-10 23:17:28宋金平馬曉娟
環球市場 2017年27期
關鍵詞:搜索引擎內容用戶

宋金平 馬曉娟

集寧師范學院計算機系

垂直搜索引擎的研究現狀綜述

宋金平 馬曉娟

集寧師范學院計算機系

垂直搜索是針對某些特定應用、特定任務或者特定領域的結構化內容的搜索技術,是對Web信息中的某類專門的信息進行整合,定向分字段抽取出需要的數據進行處理后再以某種形式返回給用戶的搜索方式。垂直搜索引擎是相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,針對某一特定領域、某一特定人群或某一特定需求,提供有一定價值的信息和相關服務。相比較通用搜索引擎的海量信息無序化,垂直搜索引擎更加專注、具體和深入。本文主要探討垂直搜索引擎的研究現狀。

垂直搜索;定向搜索;數據集成

1.1 基于主題的定向搜索

基于主題的定向搜索又叫主題信息采集,并不是一個新的研究課題,它針對的是某一具體的主題信息,主題信息采集試圖去辨別與主題最相關的信息而舍棄那些不相關的信息,從而達到縮小信息采集范圍、降低信息容量、減少系統開銷和提高數據更新率的目的。同時,由于主題信息采集著重考慮被采集信息的主題,具有針對性強、專業性強的特點,從而能更好地滿足建設特色信息資源,專業性較強的信息資源的需要。

1.2 深度Web的領域數據集成

互聯網上的Web數據近年來呈爆炸式發展,就Web數據蘊含信息的“深度”來說,一般將其分為Surface Web和Deep Web兩大部分,Surface Web通常是指通過Web上的HTTP超鏈接能夠直接訪問到的靜態頁面的集合,目前搜索引擎的工作基本集中在淺層Web上。而Deep Web指的是可以通過Web在線訪問數據庫的集合。Deep Web不僅規模巨大,覆蓋了現實世界的所有主題,而且對Deep Web的訪問量要高于Surface Web一半以上。對于Deep Web,即使是Google這樣的搜索引擎,也僅僅只爬取了約5%的最新內容。對于Deep Web的研究主要是要解決如下的問題:

(1)發現并抽取:針對Deep Web數據的抽取方法一般而言有四類方法,第一種是基于字符串的方法,把整個網頁文本看成線性的字符串,然后通過相應的方法歸納出對字符串中目標數據的抽取規則;第二種是基于DOM Tree的工具,將網頁轉換成DOM樹,然后抽取出DOM樹中相應數據;第三種是利用類似視覺信息或者Web頁面腳本信息來進行頁面信息抽取的方法;第四種是利用語義標注或者本體Ontology的方法。

(2)結構化集成:Deep Web同時被稱為Web Database,大部分Deep Web的動態內容是由結構化的數據庫底層提供的。由于Deep Web的數據規模過于龐雜,內涵的數據模式(schema)也是多種多樣,對于Web底層數據的集成,是否結構和模式越多,數據所表現的特征就越“無結構化”。垂直搜索引擎面向的正是單個領域內的Deep Web數據,結構化處理相對簡單。

(3)去除噪音和重復數據:在Crawler抓取網頁,從中獲取所需信息的同時,還會常常獲取大量和本文所關心內容無關的“噪音”內容,有效的去除和網頁主題內容無關的噪音內容,提取網頁的元數據信息,如關鍵詞、摘要、網頁內容類別等,是Web信息處理的一項重要內容。在網頁搜集的過程中,通過URL的MD5摘要計算,我們可以完全避免對相同的URL執行多次網頁抓取過程。但這并不保證抓到系統中來的網頁都是不同的。Web上大量的網頁鏡像和轉載現象使得內容真正“獨立的”網頁要比實際搜集到的網頁數量少很多。將相似的網頁識別出來,當查詢發生時只返回一個代表,這同樣是整合Web數據時的重要工作。

1.3 垂直搜索系統的性能指標

數據采集和用戶查詢的效率是垂直搜索引擎系統至關重要的性能指標。垂直搜索引擎系統和傳統的通用搜索引擎系統相似。這里有三個需要重視的要點:

(1)可以接受的時間

一般指垂直搜索引擎的響應時間,有研究指出,作為Web公共服務,大型搜索引擎的響應時間不應超過3秒,垂直搜索引擎由于返回的網頁信息、列表與用戶感興趣的領域知識相關度較高,用戶可以接受的系統響應時間也相對較長,但是響應時間也應保持在“秒”的量級,本文認為,一個高效的垂直搜索引擎系統響應時間不應超過5秒。

(2)最新領域內網頁信息

垂直搜索引擎的信息和數據都是從互聯網上采集并集成的,如何盡量保證這些信息數據是最新的,就要求垂直搜索引擎的信息采集系統數據采集是高效、增量式的。對于垂直搜索引擎來說,信息采集的效率非常重要,而采用怎樣頻度的“重新抓取”要取決于垂直搜索引擎所專注的領域。除新聞網站外,許多網頁的內容變化并不是很經常的,這樣做每次搜集的網頁量不會很大。因此,與新聞相關的垂直搜索引擎可以提高“重新抓取”的頻率,而與學術文章類相關的垂直搜索引擎可以相應降低“重新抓取”的頻率。

(3)與用戶查詢匹配的有序列表

在傳統的搜索引擎中,“與用戶查詢匹配”一般就是指網頁包含用戶查詢的關鍵詞。然而垂直搜索引擎由于數據源較為單一,數據與領域信息高度相關且高度集成,可以適當調整“與用戶查詢匹配”的定義,在一定的語義范圍內,不包含用戶查詢關鍵詞的網頁或是數據條目也可以返回給用戶,以自動擴展用戶查詢的語義。此時,我們需要一個完全不同的“用戶查詢匹配度”的排序方法,而且這個排序方法必須同時是高效的。

垂直搜索引擎面向的是海量的領域Web網頁數據,與現代大規模、高性能的搜索引擎相同,采取三段式的工作流程,即網頁數據采集、預處理和查詢服務。

因此,高效的垂直搜索引擎必須具備以下的三個特征:

(1)具備高穩定性和高效率的數據采集模塊。

(2)高效的解析和存儲網頁數據。

(3)高性能的用戶查詢模塊提供快速的系統響應。

對于高性能的垂直搜索引擎來說,以上三個階段的工作都應當是并行、分布式完成的,典型的樞架結構。

某個行業領域的歷史發展、最新動向、趨勢都是行業從業人員非常關注的話題。垂直搜索引擎集中了行業領域內海量的信息和數據,基于這些信息和數據的數據挖掘、智能分析以及可視化展示,將為行業創造非常有價值的信息增值服務。

[1]王文鈞等,垂直搜索引擎的現狀與發展研究[J].情報科學,2010(28):477-480

[2]楊皖蘇等,垂直搜索引擎發展策略探討[J].商業時代,2009(23):94-95

項目名稱:基于云計算的教學資源垂直搜索研究,項目編號:NJZC14291,批準單位:內蒙古教育廳,姓名:宋金平,單位:集寧師范學院

項目名稱:基于TCPN的SIP協議形式化驗證與分析,項目編號:NJZY283,批準單位:內蒙古教育廳,姓名:馬曉娟,單位:集寧師范學院

猜你喜歡
搜索引擎內容用戶
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 国产在线精品网址你懂的| 欧美在线网| 色久综合在线| 人人91人人澡人人妻人人爽| 69免费在线视频| 亚洲国产精品VA在线看黑人| 91系列在线观看| 中文字幕波多野不卡一区| 在线看片中文字幕| 一级在线毛片| 真人免费一级毛片一区二区| www成人国产在线观看网站| 国产精品福利导航| 亚洲人视频在线观看| 97视频免费在线观看| 亚洲日本韩在线观看| 热99re99首页精品亚洲五月天| 成人一级黄色毛片| 亚洲中文字幕日产无码2021| 欧美中日韩在线| 好紧好深好大乳无码中文字幕| 久久无码av一区二区三区| 欧美国产日韩在线观看| 22sihu国产精品视频影视资讯| 亚洲精品成人片在线播放| 婷婷综合亚洲| AV无码无在线观看免费| 91精品伊人久久大香线蕉| 免费看的一级毛片| 欧美在线观看不卡| 国产美女91呻吟求| 亚洲男人的天堂网| 亚洲精品黄| 国产精品熟女亚洲AV麻豆| 亚洲永久色| 婷婷六月综合网| 久久久久人妻一区精品| 成人年鲁鲁在线观看视频| 精品欧美一区二区三区久久久| 欧美视频二区| 中文字幕乱码中文乱码51精品| 欧美国产在线看| 香蕉视频国产精品人| 久久香蕉国产线看观| 一本视频精品中文字幕| 毛片在线播放网址| 日本久久网站| 在线观看精品国产入口| 国产一区二区三区在线观看免费| 午夜限制老子影院888| 国产幂在线无码精品| 国产无遮挡猛进猛出免费软件| 欧美日韩国产在线人| 欧美色图久久| 欧美精品伊人久久| 91精品小视频| 日韩毛片基地| 精品国产www| 亚洲男人天堂2020| 亚洲色婷婷一区二区| 国产成人亚洲无码淙合青草| 在线观看网站国产| 日本午夜视频在线观看| 精品欧美一区二区三区在线| 日本高清免费不卡视频| 精品人妻系列无码专区久久| 国产精品久久久久久久伊一| 天天综合网色中文字幕| 一级黄色网站在线免费看| 欧美69视频在线| 91在线播放免费不卡无毒| 国产乱人伦偷精品视频AAA| 国产精品观看视频免费完整版| 精品福利网| 波多野结衣亚洲一区| 欧美成人日韩| 亚洲无码高清一区二区| 久久毛片免费基地| 欧美一级99在线观看国产| 久青草国产高清在线视频| 91一级片| 中文国产成人久久精品小说|