999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向教育主題的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)

2013-08-08 09:52:48王樹文1鄭闊實(shí)2陳竟博3
關(guān)鍵詞:搜索引擎頁面數(shù)據(jù)庫

王樹文1,鄭闊實(shí)2,陳竟博3

(1.吉林省計(jì)算中心,吉林長春 130012;2.中共吉林省委黨校(吉林省行政學(xué)院),吉林長春 130012;3.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林長春 130012)

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和網(wǎng)絡(luò)信息量的爆炸式增長,如何快速、有效、準(zhǔn)確地從海量信息中獲取所需的有價(jià)值的信息,越來越受到人們的關(guān)注。通用搜索引擎在信息采集、存儲(chǔ)等方面都面臨著很大的挑戰(zhàn)。通用搜索引擎試圖返回面向所有用戶的查詢結(jié)果,使得其搜索到的信息量過大、查準(zhǔn)率低、深度不夠,不能滿足針對某一特定領(lǐng)域精確搜索的要求。在這樣的背景下,垂直搜索引擎應(yīng)運(yùn)而生。它是一種與通用搜索引擎截然不同的搜索模式,是專門針對某一領(lǐng)域的專業(yè)搜索引擎。其特點(diǎn)就是專、精、深,具有行業(yè)色彩,是通用搜索引擎的細(xì)分和延伸[1]。

在教育資源數(shù)字化、網(wǎng)絡(luò)化的趨勢下,互聯(lián)網(wǎng)上產(chǎn)生了大量分布廣泛、不同格式的教育資源,專門針對教育領(lǐng)域的數(shù)字化教育資源搜索成為垂直搜索引擎的重要應(yīng)用之一,其可以為人們提供大量有價(jià)值的綠色教育信息,比如數(shù)字圖書搜索、教育視頻搜索、考試信息搜索、名師介紹搜索等。本文設(shè)計(jì)的面向教育領(lǐng)域的垂直搜索引擎系統(tǒng)在通用搜索引擎的技術(shù)基礎(chǔ)上,采用了面向教育主題網(wǎng)絡(luò)蜘蛛選擇性的收集僅包含教育主題相關(guān)信息的網(wǎng)頁,建立面向教育主題的網(wǎng)頁數(shù)據(jù)庫,并把網(wǎng)頁中非結(jié)構(gòu)化信息提取、轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),建立索引數(shù)據(jù)庫。最后以檢索的方式同用戶進(jìn)行信息交互,為用戶提供面向教育主題的垂直搜索服務(wù)。

通用搜索引擎系統(tǒng)主要由采集器、索引器、檢索器、相關(guān)數(shù)據(jù)庫及用戶接口等部分組成[2],而本文設(shè)計(jì)的面向教育主題的垂直搜索引擎為了實(shí)現(xiàn)查詢結(jié)果與教育主題相關(guān),還需要增加面向主題的特征詞數(shù)據(jù)庫及主題相關(guān)性計(jì)算器,用于判斷爬取的網(wǎng)頁信息是否與主題相關(guān)。

1 垂直搜索引擎的體系結(jié)構(gòu)設(shè)計(jì)

面向教育主題的垂直搜索引擎系統(tǒng)主要包含信息采集模塊與主題識(shí)別模塊、信息抽取與索引模塊、用戶接口與信息檢索模塊三部分,總體結(jié)構(gòu)設(shè)計(jì)如圖1所示。

圖1 面向教育主題垂直搜索引擎總體結(jié)構(gòu)設(shè)計(jì)圖

1.1 教育主題信息采集與主題識(shí)別模塊

在信息采集模塊中,運(yùn)用面向教育主題的網(wǎng)絡(luò)蜘蛛對教育主題相關(guān)信息進(jìn)行抓取,這是搜索引擎的第一個(gè)步驟。從某一個(gè)具有主題意義的種子URL開始,按照深度優(yōu)先算法,采用多線程并行抓取方式自動(dòng)在互聯(lián)網(wǎng)上搜索爬行。遍歷教育領(lǐng)域的門戶網(wǎng)站,抓取與教育主題相關(guān)的網(wǎng)頁,采集網(wǎng)頁信息,抽取并壓縮網(wǎng)頁內(nèi)容存入原始數(shù)據(jù)庫中,然后跳轉(zhuǎn)到網(wǎng)頁中鏈接指向的其他網(wǎng)頁,直至遍歷整個(gè)網(wǎng)絡(luò)。

在此過程中,運(yùn)用主題識(shí)別算法對網(wǎng)絡(luò)蜘蛛所采集的頁面進(jìn)行主題相關(guān)性判斷,根據(jù)計(jì)算得到的相關(guān)度結(jié)果,對采集到的網(wǎng)頁進(jìn)行取舍,將相關(guān)度大于預(yù)先設(shè)定的閾值的網(wǎng)頁保存到面向主題網(wǎng)頁數(shù)據(jù)庫中,舍棄與主題不相關(guān)的網(wǎng)頁。這垂直搜索引擎的核心部分,可以控制信息采集的規(guī)模,保證采集到的信息的專業(yè)性,提高搜索的準(zhǔn)確性。

1.2 信息抽取與索引模塊

信息抽取與索引模塊對存儲(chǔ)于面向主題數(shù)據(jù)庫中的大量結(jié)構(gòu)和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行抽取,將網(wǎng)頁主題塊中特定的結(jié)構(gòu)化信息抽取出來。并進(jìn)行過濾、分詞等預(yù)處理操作,構(gòu)造索引,計(jì)算詞的權(quán)值按檢索結(jié)果合理排序,并存入索引數(shù)據(jù)庫中。

1.3 用戶接口與信息檢索模塊

用戶接口與信息檢索模塊是接受用戶輸入查詢請求并將查詢結(jié)果反饋給用戶的接口界面。模塊首先對用戶輸入的搜索關(guān)鍵字、排序方式進(jìn)行分詞等信息分析處理,然后在索引數(shù)據(jù)庫中查找到包含搜索關(guān)鍵詞的文本記錄,并根據(jù)相關(guān)度評價(jià)和用戶需要將記錄排序,最后以超級鏈接的形式將提取網(wǎng)頁的摘要信息反饋給用戶。

2 面向主題的垂直搜索引擎關(guān)鍵技術(shù)

2.1 面向教育主題的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)

為了盡可能多地實(shí)現(xiàn)對教育主題相關(guān)網(wǎng)頁信息的自動(dòng)獲取,本文在通用搜索引擎的基礎(chǔ)上設(shè)計(jì)了一個(gè)面向教育主題的網(wǎng)絡(luò)蜘蛛系統(tǒng)模型,它是面向教育主題垂直搜索引擎系統(tǒng)的核心部分[3]。面向教育主題網(wǎng)絡(luò)蜘蛛系統(tǒng)模型主要由信息采集模塊、頁面解析與過濾模塊、主題相關(guān)性計(jì)算器、鏈接剪枝控制器4部分構(gòu)成。頁面采集模塊主要負(fù)責(zé)從初始URL隊(duì)列出發(fā),通過HTTP協(xié)議請求并下載web頁面,采集URL指向的頁面信息,送入頁面解析與過濾模塊中。本文采用了多線程并發(fā)技術(shù),大大提高了頁面采集效率[4]。頁面解析與過濾對下載到原始數(shù)據(jù)庫中的頁面信息進(jìn)行消重處理,解析web頁面,提取例如鏈接文本、結(jié)構(gòu)信息、鏈接URL地址等數(shù)據(jù)。主題相關(guān)性計(jì)算器主要是對網(wǎng)址解析與過濾模塊中提取的網(wǎng)頁內(nèi)容文本進(jìn)行主題相關(guān)性判定,將主題相關(guān)度大于預(yù)先設(shè)定閾值的網(wǎng)頁保存在面向主題數(shù)據(jù)庫中,過濾掉與主題相關(guān)度較低或不相關(guān)的頁面,從而保證網(wǎng)絡(luò)所采集頁面的主題的相關(guān)性與專業(yè)性。鏈接剪枝控制器的任務(wù)是從與經(jīng)過過濾后得到的主題相關(guān)的頁面中抽取出鏈接URL,并采用主題相關(guān)計(jì)算方法對URL進(jìn)行篩選,將有價(jià)值的URL暫存在待搜索URL隊(duì)列中,按照主題相關(guān)度大小進(jìn)行排序,相關(guān)度越高的越先被訪問。

面向教育主題的網(wǎng)絡(luò)蜘蛛工作流程如圖2所示。面向教育主題的網(wǎng)絡(luò)蜘蛛首先依次從人工預(yù)設(shè)的種子URL隊(duì)列中取出以獲取URL,訪問該URL指向的網(wǎng)頁并解析其內(nèi)容,使用主題相關(guān)性計(jì)算方法計(jì)算頁面及頁面內(nèi)URL鏈接的主題相關(guān)度,將與主題相關(guān)的網(wǎng)頁信息存入面向主題網(wǎng)頁數(shù)據(jù)庫中,將頁面中與主題相關(guān)的URL加入待搜索URL隊(duì)列中。不斷從待搜索URL隊(duì)列中取出URL進(jìn)行訪問,這樣迭代訪問web,直到遍歷整個(gè)web或滿足某一條件為止。

圖2 面向教育主題的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)模型圖

2.2 向量空間模型

本文采用了計(jì)算頁面主題相關(guān)度時(shí)使用較多、效果較好的數(shù)學(xué)模型VSM(veclor space modle)[5],對網(wǎng)頁內(nèi)容與主題的相關(guān)程度進(jìn)行評價(jià),保留與主題相關(guān)度大于設(shè)定閾值的頁面,過濾掉與主題相關(guān)度較低或不相關(guān)的頁面,以提高采集頁面的準(zhǔn)確性。

在VSM中,將網(wǎng)頁看成由相互獨(dú)立的詞條組成,將教育領(lǐng)域主題詞庫看作一個(gè)n維向量(c1,c2,…,cn),n為教育領(lǐng)域主題詞庫中關(guān)鍵詞的個(gè)數(shù),頁面Pi可以表示成一個(gè)一維向量P=(w1c1,w2c2,…,wncn)。其中,wi為評價(jià)教育領(lǐng)域主題詞庫中關(guān)鍵詞ci在頁面P中重要程度的權(quán)值。若關(guān)鍵詞ci未在頁面P中出現(xiàn),則權(quán)值wi值為0。本文中權(quán)值wi采用傳統(tǒng)的TF-IDF算法計(jì)算,其計(jì)算公式為:

其中,cFi為關(guān)鍵詞cj在頁面Pi中出現(xiàn)的頻率,由于關(guān)鍵詞在頁面中出現(xiàn)的位置不同,重要程度也不同,所以cj在頁面Pi中出現(xiàn)的頻率cFi應(yīng)該由在標(biāo)題和正文出現(xiàn)次數(shù)加權(quán)求和來計(jì)算。

這樣,頁面與主題相關(guān)度問題就轉(zhuǎn)化為向量空間的矢量匹配問題,可利用向量空間中向量間夾角的余弦值來度量目標(biāo)網(wǎng)頁與主題的相關(guān)度,向量間夾角的余弦值越小則兩者相似度越高,算法流程如下。

(i)在初始種子集合的URL指向頁面中提取關(guān)鍵詞并加權(quán),得到關(guān)于教育主題的特征向量及向量權(quán)值。

(ii)分別對目標(biāo)網(wǎng)頁的標(biāo)題和正文內(nèi)容進(jìn)行分詞、篩選并合并關(guān)鍵詞,得到目標(biāo)網(wǎng)頁關(guān)于教育主題的特征向量,根據(jù)關(guān)鍵詞在文章中出現(xiàn)的位置和頻率計(jì)算其權(quán)重。(iii)根據(jù)公式(3)計(jì)算目標(biāo)網(wǎng)頁與主題的相關(guān)度值。

其中wic為關(guān)鍵詞ci在主題詞向量中C的權(quán)重。

(iv)將計(jì)算得到的目標(biāo)網(wǎng)頁的相關(guān)度與閾值s進(jìn)行比較,若相關(guān)度大于閾值,則將目標(biāo)網(wǎng)頁存于面向主題網(wǎng)頁數(shù)據(jù)庫中,否則,忽略此頁面。

2.3 基于Lucene索引的創(chuàng)建

垂直搜索引擎在同一時(shí)間會(huì)接受大量的用戶的查詢請求,這就要求索引模塊完成大量的運(yùn)算操作,以提高檢索模塊的工作效率。Lucene是用JAVA實(shí)現(xiàn)的開放源代碼的全文檢索引擎工具包,是一個(gè)高性能、可伸縮的信息搜索庫[7],本文正是基于Lucene技術(shù)建立索引,其工作方式如圖3所示。

圖3 索引建立流程圖

索引網(wǎng)頁庫存儲(chǔ)鏈接與其指向網(wǎng)頁的映射。文本解析器用來分析和處理不同格式的文檔,提取正文信息、過濾垃圾信息、中文分詞切分索引項(xiàng)等操作,形成統(tǒng)一格式的文檔,存儲(chǔ)于文本中間格式數(shù)據(jù)庫中。由于中文構(gòu)詞方式的差異,需要對中文網(wǎng)頁進(jìn)行分詞,以便建立索引文件。本文采用雙向哈希索引詞典,對數(shù)據(jù)庫中中文網(wǎng)頁進(jìn)行分詞處理。文本中間格式數(shù)據(jù)庫存儲(chǔ)經(jīng)文本解析器提取、過濾、分詞等操作的數(shù)據(jù),數(shù)據(jù)格式為純文本格式,為索引器提供可分析數(shù)據(jù)。索引器是垂直搜索引擎中用來分析處理文本中間格式數(shù)據(jù)庫中的非結(jié)構(gòu)化文檔信息、建立索引的程序,主要任務(wù)是按照預(yù)設(shè)的索引項(xiàng)建立索引列表、更改索引字典。文本索引庫中存儲(chǔ)以索引形式組織存放的文檔信息數(shù)據(jù)文件,一般的數(shù)據(jù)庫系統(tǒng)不能同時(shí)滿足大量用戶的查詢請求,所以在本系統(tǒng)中采用了倒排索引技術(shù)。創(chuàng)建倒排索引包括建立正向索引、創(chuàng)建反向索引、歸并索引等操作。將存放詞和編碼意義映射關(guān)系存儲(chǔ)于索引字典中。

2.4 檢索與用戶接口模塊

面向教育主題的垂直搜索引擎通過檢索模塊實(shí)現(xiàn)與用戶的交互,系統(tǒng)對通過接口輸入的查詢短語進(jìn)行分詞等操作,將它傳送至檢索器,檢索器根據(jù)查詢項(xiàng)在索引文件上查找,按照與查詢項(xiàng)相關(guān)程度排序,并將結(jié)果通過用戶接口呈獻(xiàn)給用戶。其主要流程如下:

(1)通過用戶接口接受用戶的查詢項(xiàng),并對其進(jìn)行分析、分詞等處理。

(2)搜素包含關(guān)鍵詞的網(wǎng)頁,過濾掉與查詢項(xiàng)不相關(guān)的網(wǎng)頁。

(3)按照與查詢項(xiàng)相關(guān)度大小對匹配的網(wǎng)頁排序,以鏈接形式呈現(xiàn)給用戶。

3 系統(tǒng)實(shí)現(xiàn)

本文采用Java開發(fā)的開源的主題網(wǎng)絡(luò)蜘蛛從吉林省內(nèi)各中小學(xué)校、培訓(xùn)機(jī)構(gòu)網(wǎng)站上爬取與教育主題相關(guān)的信息資源,利用主題相關(guān)度算法判斷爬取到的信息的主題相關(guān)性,后對信息進(jìn)行分析和提取、運(yùn)用、擴(kuò)展,并成功應(yīng)用luene極其相關(guān)技術(shù),構(gòu)建了檢索結(jié)果比較精準(zhǔn)的面向教育主題的垂直搜索引擎系統(tǒng),為人們提供了大量的綠色教育資源,極大地方便了人們的日常生活。

4 結(jié)論

本文詳細(xì)描述了面向教育主題的垂直搜索引擎系統(tǒng)的總體設(shè)計(jì),從教育領(lǐng)域信息搜索的實(shí)際出發(fā),著重研究了主題網(wǎng)絡(luò)蜘蛛、向量空間模型、倒排索引建立等關(guān)鍵技術(shù),并給出了具體的實(shí)現(xiàn)細(xì)節(jié)。在此基礎(chǔ)上,開發(fā)了一個(gè)面向教育主題的垂直搜索引擎,該系統(tǒng)能夠有效地采集分散的教育主題相關(guān)網(wǎng)頁,形成面向教育主題網(wǎng)頁數(shù)據(jù)庫,快速地響應(yīng)用戶的查詢請求,準(zhǔn)確地返回相關(guān)度較高的網(wǎng)頁,實(shí)現(xiàn)了教育資源的共享,具有較高的社會(huì)價(jià)值。

[1]劉暢.綜合搜索引擎與垂直搜索引擎的比較[J].情報(bào)科學(xué),2007,25(1):97-102.

[2]閆俊英.垂直搜索引擎的研究與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2004.

[3]張博,蔡皖東.面向主題的網(wǎng)絡(luò)蜘蛛技術(shù)研究與系統(tǒng)實(shí)現(xiàn)[J].微電子學(xué)與計(jì)算機(jī),2009,26(5):52-55.

[4]彭濤.面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D].長春:吉林大學(xué),2007.

[5]張昌年.一種基于VSM的檢測相似重復(fù)記錄的方法[J].微電子學(xué)與計(jì)算機(jī),2008(8):184-187.

[6]朱學(xué)昊,王儒敬,余鋒林,等.基于Lucene的站內(nèi)搜索設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2008,25(10):6-8.

猜你喜歡
搜索引擎頁面數(shù)據(jù)庫
大狗熊在睡覺
刷新生活的頁面
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
同一Word文檔 縱橫頁面并存
主站蜘蛛池模板: 国产日韩欧美中文| 噜噜噜久久| 波多野结衣无码AV在线| 亚洲AV成人一区二区三区AV| 亚洲色图另类| 国产一级二级在线观看| 4虎影视国产在线观看精品| 强乱中文字幕在线播放不卡| 欧美亚洲国产精品第一页| 日本亚洲国产一区二区三区| 婷婷五月在线| 国产毛片网站| 亚洲国产91人成在线| 成色7777精品在线| 中文字幕第1页在线播| 91啦中文字幕| 午夜成人在线视频| 久久国产精品77777| 黄色污网站在线观看| 日本在线国产| 无遮挡一级毛片呦女视频| 亚洲美女一区二区三区| 91久久国产综合精品女同我| 国产xx在线观看| 草草线在成年免费视频2| 亚洲日本www| AV无码无在线观看免费| 国产精品播放| 中文字幕永久在线看| 欧美日韩另类国产| 国产SUV精品一区二区6| 草草影院国产第一页| 色综合成人| 国产一级一级毛片永久| 91美女视频在线观看| 欧美中文字幕无线码视频| 国产精品综合久久久| 国产成人精品视频一区视频二区| 色婷婷电影网| 在线另类稀缺国产呦| 无码专区在线观看| 久久精品人人做人人综合试看| 欧美精品在线观看视频| 亚洲视频色图| 亚洲国产中文精品va在线播放| 亚洲啪啪网| 亚洲国产中文精品va在线播放| 国产高潮视频在线观看| 中文成人无码国产亚洲| 欧美午夜网| 欧类av怡春院| 国产精品亚洲а∨天堂免下载| 国产一级无码不卡视频| 91香蕉视频下载网站| 亚洲欧洲一区二区三区| 尤物在线观看乱码| 久久久黄色片| 国产香蕉国产精品偷在线观看| 中文无码日韩精品| 精品人妻无码中字系列| 天天躁夜夜躁狠狠躁图片| 99视频在线免费观看| 蜜臀av性久久久久蜜臀aⅴ麻豆| 美女内射视频WWW网站午夜| 国产精品爽爽va在线无码观看| 久久人搡人人玩人妻精品一| 国产农村精品一级毛片视频| 亚洲精品无码人妻无码| 免费毛片全部不收费的| 国产免费一级精品视频| 亚洲美女视频一区| 美女一区二区在线观看| 久久公开视频| 一本大道香蕉久中文在线播放 | 国产精鲁鲁网在线视频| 国产办公室秘书无码精品| 午夜a级毛片| 国产精品私拍在线爆乳| 亚洲床戏一区| 免费Aⅴ片在线观看蜜芽Tⅴ| 狠狠色婷婷丁香综合久久韩国| 波多野结衣中文字幕一区|