999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向主題的搜索引擎的設計

2009-07-01 02:42:24
新媒體研究 2009年23期
關鍵詞:搜索引擎分類數據庫

程 躍

[摘要]總結現有面向主題的搜索引擎的技術特點,實現一個能滿足基本需求的主題搜索引擎;在該課題中敘述了面向主題搜索引擎的重要性、實現方法、實現過程;主要是web文檔抓取、特征提取、web文檔分類技術;特征值應具有明顯的特征,以此提高搜索引擎質量;在實現自動web文檔分類時采用向量空間模型計算web文檔間的相似度。

[關鍵詞]主題搜索引擎自動分類特征值向量空間模型

中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)1210072-01

一、搜索引擎歷史背景

任何搜索引擎的祖先,是1990年由Montreal的McGill University學生Alan Emtage、Peter Deutsch、Bill Wheelan發明的Archie(Archie FAQ)。雖然當時World Wide Web還未出現,但網絡中文檔傳輸還是相當頻繁的,由于大量的文檔散布在各個分散的FTP主機中,查詢起來很不便,因此Alan Emtage等想到了研發一個能夠用文檔名查找文檔的系統,于是便有了Archie。Archie是第一個自動索引互聯網上匿名FTP網站文檔的程式。

根據搜索引擎所用的技術原理,主要可以分為以下三類:

1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。

2.基于Robot搜索引擎:基于Robot的搜索引擎多提供對全文的檢索,有時也叫做全文搜索引擎(Full Text)。通過Robot程序從互聯網上搜集信息而建立索引數據庫,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶。

3.元搜索引擎:這類搜索引擎沒有自己的數據庫,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行去重、排序等處理后,作為自己的結果返回給用戶。服務方式為面向web文檔的全文檢索。

二、主題搜索引擎

隨著信息多元化的增長,千篇一律的給所有用戶同一個入口顯然已經不能滿足特定用戶更深入的查詢需求。同時,這樣的通用搜索引擎在目前的硬件條件下,要及時更新以得到互聯網上較全面的信息是不太可能的。這就需要一個分類細致精確、數據全面深入、更新及時的面向主題的搜索引擎。由于主題搜索運用了人工分類以及特征提取等智能化策略,因此它比以前普通的搜索引擎更具有特性,能被多數人接受。起主要特點有:

1.搜索最專業:主題搜索引擎排除了其他雜亂信息的干擾,結果純正、專業,是各行業推廣的最佳選擇,也是消費者品牌消費的最佳參謀和顧問。

2.結果最精準:采用人工分類以及特征值提取等策略,提高搜索引擎的時效性及準確性,搜索結果精、準,不會出現垃圾信息,凸現了主題搜索引擎的獨特優勢。

3.結果最有價值:品搜呈現給消費者的是最新、最旺的搜索結果,是消費者最希望看到的結果,也是消費者最喜歡的結果。

三、面向主題的搜索引擎的設計

(一)數據庫設計。本課題中采用MYSQL數據庫存儲相關數據,MYSQL數據庫適用于中小型企業,它是一種免費的開源的數據庫,用戶可以根據自己的需要對它進行完善,它也具有較強的穩定性,也能支持很多種語言,能滿足本課題的需要;在實現該系統的過程需要創建七個表用于數據存儲;sites表用于存放web文檔;links表用于存放web文檔中的鏈接,stop_keywords用于存放停止詞,停止詞是指那些在文檔中經常出現但又沒有任何實際意義的詞;keywords表用于存放關鍵詞;categories表用于存放web文檔類別;site_category表用于存放web文檔類別與web文檔間的對應關系;temp表用于存放待抓取的URL,另外還有未列出的三個字典表,dictionary表用于存放主詞典,syn_dictionary表用于存放同義詞典,con_dictionary表用于蘊含詞典。

(二)選取指定的web文檔。首先需要建立類別,然后為每個類別選擇具有特定性的URL,把它作為種子URL,搜索URL對應的web文檔,通過它鏈接的第二層web文檔也作為該類的相關web文檔,各分類之間所指定的URL應具有明顯的區別,如圖1所示。

(三)為類別添加URL。這些URL對應的web文檔信息將會被放在它所屬的那個分類里。本課題中采用人工分類,所以對種子URL的選取和添加都是通過人工來完成;對URL選取要有強烈的針對性,以凸顯各分類的特性。

(四)單獨抓取一個URL。需要對單個web文檔進行抓取,利用該模塊就可以避免在站點列表中編輯URL的抓取屬性。

(五)網絡蜘蛛設置。顧名思義,網絡蜘蛛就是在網絡上爬行的程序,用他來抓取WEB服務器上的web文檔,它可以在掃描WEB頁面的同時檢索其內的超鏈接并加入掃描隊列等待以后掃描。因為WEB中廣泛使用超鏈接,所以一個Spider程序理論上可以訪問整個WEB頁面,也很有可能在這些連接過程形成了一個環,所以限制網絡蜘蛛的爬行能防止很多問題,包括同一個web文檔被爬取多次、也避免了浪費時間,其設置如下圖2所示,在“深度”項填入網絡蜘蛛的爬取深度。網絡蜘蛛在爬取過程中,采用廣度優先的爬行策略。

(六)抓取web文檔。抓取web文檔屬于管理模塊,管理控制抓取過程,是索引模塊部分,可以根據需要對選定發URL分類,并對其抓取進行設置。

(七)web文檔自動分類。把上述(二)內得到是web文檔處理后作為訓練集,對訓練集的處理包括訓練集的分詞,其方法采用的是逆向最大匹配法,并計算出各個分詞的向量特征,把每個Web文檔用特征值表示出來,然后用訓練集作為新獲取web文檔分類的標準;對獲取的Web文檔處理后,就可以作為分類新web文檔的依據。

(八)用戶接口。用戶輸入搜索條件,需要對搜索的條件進行分詞等處理,然后搜索程序將通過索引數據庫進行檢索,然后把符合查詢要求的數據按照一定的策略進行分級排列,并且分頁顯示給用戶;一個友好的界面決定著人們對它的接受程度。對用戶的請求進行處理過程中,在分詞和分頁顯示時是關鍵,分詞是采用逆向最大匹配法,并使用了詞典作為分詞的依據,這樣雖然有很大局限性,但是分出來的詞更具有實際意義。

猜你喜歡
搜索引擎分類數據庫
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
基于Nutch的醫療搜索引擎的研究與開發
主站蜘蛛池模板: 国产综合在线观看视频| 久久香蕉国产线看观看精品蕉| 国产精品久久久久久影院| 精品第一国产综合精品Aⅴ| 日韩视频免费| 亚洲色图欧美视频| 久久www视频| 日韩黄色大片免费看| 色AV色 综合网站| 亚洲AV无码乱码在线观看裸奔| 成人91在线| 国产不卡在线看| 国产精品3p视频| 精品久久人人爽人人玩人人妻| 日韩欧美国产区| 欧洲在线免费视频| 好吊色妇女免费视频免费| 日韩黄色精品| 欧美成a人片在线观看| 国产欧美视频在线| 亚洲av片在线免费观看| 国产成人免费观看在线视频| 国产成人麻豆精品| 一本色道久久88综合日韩精品| 97se亚洲综合不卡| 国产成人高清精品免费5388| 中文字幕永久在线观看| A级毛片高清免费视频就| 欧美国产日韩在线| 久久久久久午夜精品| 91精品久久久久久无码人妻| 99精品免费在线| 国产在线自在拍91精品黑人| 五月天婷婷网亚洲综合在线| 欧美激情视频一区| 黄色网页在线播放| 亚洲国产天堂久久综合| 亚洲黄网在线| 六月婷婷激情综合| 成人精品午夜福利在线播放| 久久亚洲国产最新网站| yjizz国产在线视频网| 精品三级网站| 天堂在线www网亚洲| AⅤ色综合久久天堂AV色综合 | 黄色在线网| 五月婷婷中文字幕| 国内熟女少妇一线天| 欧美a网站| 欧美性久久久久| 精品午夜国产福利观看| 国产91视频免费| 香蕉伊思人视频| 99久久人妻精品免费二区| 热久久国产| 日韩精品亚洲精品第一页| 欧美一区国产| 老司国产精品视频| 国产高清毛片| 狠狠v日韩v欧美v| 国产高清色视频免费看的网址| 一级毛片无毒不卡直接观看| 91精品免费高清在线| 19国产精品麻豆免费观看| 久久96热在精品国产高清| 日本爱爱精品一区二区| 九色免费视频| 综合网天天| 国产正在播放| 国产69囗曝护士吞精在线视频| 这里只有精品在线播放| 亚洲午夜福利在线| 亚洲国产一区在线观看| 成人亚洲视频| 国产日本视频91| 亚洲精品综合一二三区在线| 欧美特黄一级大黄录像| 色综合久久88色综合天天提莫| 9丨情侣偷在线精品国产| 中文字幕1区2区| 国产高颜值露脸在线观看| 成年人视频一区二区|