999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于教育信息資源的智能搜索引擎設(shè)計(jì)與實(shí)現(xiàn)

2007-07-05 01:40:06傅素英
關(guān)鍵詞:搜索引擎頁面排序

宇 盟 傅素英

摘要:首先對智能搜索引擎做了簡要概述.接著提出了一種新的搜索引擎的設(shè)計(jì)思路.并針對獨(dú)立搜索引擎的不足。獨(dú)立搜索引擎與元搜索引擎結(jié)合起來。提高了搜索引擎的精度和效率。

關(guān)鍵詞:智能搜索引擎元搜索引擎

中圖分類號TP311.11文獻(xiàn)標(biāo)識碼B文章編號:1002-2422(2007)03-0037-03

1教育搜索引擎組成與原理

本搜索引擎將傳統(tǒng)專業(yè)搜索引擎和元搜索引擎結(jié)合起來,不僅提高了搜索引擎的覆蓋率,而且采用一種綜合評價(jià)算法,優(yōu)化了搜索結(jié)果的排列次序,同時(shí)根據(jù)各返回頁面的主題內(nèi)容進(jìn)行聚類顯示,方便用戶檢索。該搜索引擎主要包括4個模塊:信息采集模塊、信息挖掘模塊、元搜索引擎模塊和結(jié)果排序、聚類模塊。

1.1信息挖掘模塊

該模塊對搜索器所采集的信息進(jìn)行單漢字標(biāo)引(即全文索引),主題概念標(biāo)引,摘要自動生成及對網(wǎng)頁重要程度進(jìn)行評價(jià)。單漢字標(biāo)引法將概念詞拆成單漢字,以單漢字為處理單位,利用漢字索引文件實(shí)現(xiàn)自動標(biāo)引和邏輯檢索。由于這種方法把對“詞”的處理改為對“字”的處理,因此就繞過了漢語分詞的難題。主題概念標(biāo)引模塊對采集來的信息進(jìn)行內(nèi)容特征分析,并抽取出能表達(dá)該信息主題的關(guān)鍵詞、關(guān)鍵句,為用戶提供主題概念檢索入口。

1.2元搜索引擎模塊

該模塊將用戶提交的檢索請求到多個獨(dú)立的搜索引擎上去搜索,并將各個檢索結(jié)果與本地檢索相互印證,互相比較,可以進(jìn)一步提高查全率和查準(zhǔn)率。

1.3結(jié)果合并、排序、聚類顯示模塊

搜索引擎對檢索結(jié)果的組織性是提高系統(tǒng)運(yùn)行和性能評價(jià)的關(guān)鍵技術(shù)。近年來一直是國際上搜索引擎界的研究熱點(diǎn)。該模塊完成獨(dú)立搜索引擎與元搜索引擎返回結(jié)果的合并、排序。并對信息進(jìn)行主題概念聚類。搜索結(jié)果以聚類樹和權(quán)重順序兩種形式顯示。

2智能搜索引擎系統(tǒng)中關(guān)鍵技術(shù)的實(shí)現(xiàn)

系統(tǒng)的關(guān)鍵技術(shù)包括資源采集控制、其他獨(dú)立搜索引擎的調(diào)用接口及返回結(jié)果的排序算法。

2.1信息采集控制

信息采集是從一個初始URL集合開始,順著這些URL中的超鏈接,循環(huán)往復(fù)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。我們這個系統(tǒng)是針對教育資源領(lǐng)域的一個專業(yè)搜索引擎,如果任意選擇初始URL集合,則很可能使Robot(采集程序)偏離教育資源這一領(lǐng)域。我們發(fā)現(xiàn),Google、百度等大型綜合搜索引擎可以為我們指引初始方向:以“教育資源”、“教學(xué)資源”,“教學(xué)課件”等關(guān)鍵詞組進(jìn)行搜索,就可以得到大量超鏈接。這些超鏈接組織成一個質(zhì)量較高的初始URL集合。

網(wǎng)站中不是所有的URL鏈接都是與教育、教學(xué)相關(guān)。如果Robot沿著這些無用鏈接去采集信息,不僅降低了采集效率,而且會收集到大量垃圾信息,如廣告超鏈接。因此,對信息采集進(jìn)行控制。

信息挖掘模塊首先對采集到頁面進(jìn)行主題分析,如果頁面主題與教育相關(guān),則通過反饋,允許Robot沿著該頁面的URL繼續(xù)采集信息:否則終止在該頁面的采集活動。

2.2其他獨(dú)立搜索引擎的調(diào)用

元搜索引擎要通過程序接口調(diào)用其他多個獨(dú)立搜索引擎,就必須要獲取到這些獨(dú)立搜索引擎的程序接口。要獲得這些程序接口很容易,觀察每個獨(dú)立搜索引擎的地址欄的變化就可以總結(jié)出它們的接口。如用http://www.baidu.com/s?lm=0&si=&m=10&ie=gb2312&ct=0&wd=電子商務(wù)%Fl&pn=l&cl=3,就可以得到百度有關(guān)“電子商務(wù)”的搜索結(jié)果,其中“pn=l”表示從第一條返回結(jié)果開始顯示。

2.3搜索結(jié)果的排序算法

最終的搜索結(jié)果包括兩部分:本地?cái)?shù)據(jù)的檢索結(jié)果和元搜索引擎模塊獲得的搜索結(jié)果。結(jié)果排序模塊將這兩部分搜索結(jié)果合并到一起,并按每個搜索結(jié)果與用戶提問表達(dá)式的符合程度進(jìn)行排序,最后顯示給用戶。搜索結(jié)果與用戶提問表達(dá)式的復(fù)合程度可以通過計(jì)算它們之間的相似度來衡量。

首先,提取提問表達(dá)式中的主題概念,把抽取出的主題概念表示成向量形式,代表提問式,如,q=(q1,w1;q2,w2;…qi;…,qn,wn),qi表示從提問式抽出的主題概念,wi表示qi的權(quán)值,這里默認(rèn)為1;然后,抽取每一個搜索結(jié)果的主題概念,并用這些主題概念形成的向量代表搜索結(jié)果,如di=(c1,w1;c2,w2;…ci,wi:…cn,wn):ci表示從搜索結(jié)果中抽出的主題概念,wi表示ci的權(quán)值,可以用TF-IDF計(jì)算得到;最后,用公式1計(jì)算搜索結(jié)果向量與提問式向量之間的相似度,輸出模塊最終以相似度的大小排序輸出公式如下:

猜你喜歡
搜索引擎頁面排序
大狗熊在睡覺
刷新生活的頁面
排序不等式
恐怖排序
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 久996视频精品免费观看| 国产第一页免费浮力影院| 亚洲免费黄色网| 少妇精品在线| 欧美午夜理伦三级在线观看| 国产精品美女自慰喷水| 亚洲欧美日韩另类在线一| 丰满人妻被猛烈进入无码| 亚洲无限乱码| 免费观看无遮挡www的小视频| 亚洲视频免费播放| 日韩小视频在线播放| 中文字幕免费视频| 婷婷综合在线观看丁香| 自拍偷拍欧美日韩| 成色7777精品在线| 熟妇无码人妻| 国产黄色免费看| 97在线免费| 国产白丝av| 91麻豆国产视频| 久久久久久久久亚洲精品| 亚洲熟妇AV日韩熟妇在线| 亚洲精品777| 青青热久麻豆精品视频在线观看| 伊人成人在线| 天天摸夜夜操| 91丝袜在线观看| 日韩无码精品人妻| 国产97公开成人免费视频| AV无码无在线观看免费| 婷婷六月在线| 亚洲欧美一区二区三区图片| 免费看的一级毛片| 都市激情亚洲综合久久| 日韩国产高清无码| 青青草国产免费国产| 亚洲精品无码抽插日韩| 91麻豆精品国产高清在线| 制服无码网站| 精品视频福利| 国产日本欧美在线观看| 国产精品自在线天天看片| 伊人91在线| 国产正在播放| 无码'专区第一页| 亚洲第一精品福利| 伊人福利视频| 免费一极毛片| 国产精品入口麻豆| 日韩黄色在线| 色亚洲成人| 亚洲无码视频喷水| 成人午夜免费观看| 精品无码一区二区在线观看| 亚洲精品亚洲人成在线| 亚洲欧洲日韩综合色天使| 色婷婷国产精品视频| 天天躁夜夜躁狠狠躁图片| 亚洲精品天堂自在久久77| 国产香蕉一区二区在线网站| 在线观看无码av免费不卡网站| 97国产在线视频| 亚洲av无码牛牛影视在线二区| yy6080理论大片一级久久| 中文字幕资源站| 国产特级毛片| 久久成人18免费| 国产乱论视频| 亚洲无码日韩一区| 国产精品9| 亚洲不卡影院| 亚洲性日韩精品一区二区| AⅤ色综合久久天堂AV色综合| 亚洲毛片一级带毛片基地| 欧美另类视频一区二区三区| 最新日韩AV网址在线观看| 午夜电影在线观看国产1区| 中文字幕精品一区二区三区视频| 国产一级裸网站| 狠狠综合久久| 亚洲性影院|