999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類技術在搜索引擎中的應用

2010-07-27 06:40:18劉苗苗張永生
中國新技術新產品 2010年4期
關鍵詞:信息檢索搜索引擎分類

劉苗苗 張永生

(大慶石油學院,河北 秦皇島 066004)

1 引言

面對萬維網上海量的信息資源,人們迫切需要從中快速準確地找到有用的信息,搜索引擎技術的誕生為信息檢索提供了方便,它以一定的策略在互聯網中搜集、發現信息,對其進行提取和處理,從而為用戶提供檢索服務[1]。但由于其查準率或查全率不高,其檢索結果遠不能令人滿意,因此本文以現有搜索引擎工作機制為基礎,提出將文本分類[2]和特征抽取[3]技術應用到搜索引擎上,通過文本分類器將檢索結果進行快速自動分類,以分類目錄樹的方式來顯示檢索結果。該方法有效地改善了檢索結果的組織,大大降低了用戶所需瀏覽的檢索結果數量,方便用戶快速找到跟查詢請求相關的有用信息。

2 搜索引擎概述

2.1 搜索引擎概念

廣義的搜索引擎指一切提供信息檢索服務的工具或系統。狹義的搜索引擎指利用網絡自動搜索技術軟件對web資源進行搜集、整理并提供檢索服務的一類信息服務系統[4]。它一般包括信息搜集、信息整理和用戶查詢三部分。

2.2 搜索引擎工作原理及性能指標

搜索引擎至少有三個因素值得重視:數據庫、用戶搜索、搜索結果排序。其工作原理是:首先利用高性能的Spider程序在互聯網中發現并搜集有用的網頁信息,然后利用分析索引系統將收集到的信息進行分類整理,建立索引數據庫,最后當用戶輸入關鍵詞搜索時,搜索系統從索引數據庫中找到符合該關鍵詞的所有相關網頁,并將其鏈接地址和頁面內容摘要等內容組織起來返回給用戶,而與用戶的搜索條件最相關的結果因其相關度高而出現在檢索結果最前面的位置。

影響一個搜索引擎系統性能的因素有很多[5],最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法等。評價一個搜索引擎系統好與壞的指標有查全率、查準率及響應速度和時間等。

3 基于文本分類和特征抽取的搜索引擎系統

3.1 系統模型設計

圖1 基于文本分類的搜索引擎模型

圖2 文本自動分類的過程

搜索引擎位于信息檢索系統的底層,它以Web上的信息為處理對象,用戶可以通過可視化接口跟檢索器相連。由于現有的搜索引擎技術在查全率或查準率方面不能令人滿意,因此本文提出了基于文本自動分類的搜索引擎系統。該系統分為以下6個基本部分:Robot、查詢分析器、索引器、檢索器、文本分類器和用戶接口,其模型如圖1所示。

Robot:可稱為“自動跟蹤索引軟件”,它在網絡上檢索文件且自動跟蹤該文件的超文本結構并循環檢索被參照的所有文件,隨時將新信息添加到搜索引擎中供查詢;查詢分析器:主要是對本地文檔集合的文檔進行分析以用于索引;索引器:它將文檔表示為一種便于檢索的方式并存儲在索引數據庫中;檢索器:從索引數據庫中找出與用戶的查詢請求相關的文檔,提交給文本分類器;文本分類器:將檢索器提交過來的文檔進行自動分類,其關鍵技術主要有文本的表示[6]、特征項的抽取、分類算法的選擇等等;用戶接口:為用戶提供可視化的查詢輸入和結果輸出界面。

上面所述的基于文本自動分類的搜索引擎的設計中,Robot軟件程序編制、分析器、索引器、檢索器的功能與設計均是建立在當前搜索引擎工作機制的基礎之上。目前文本的平面分類技術已經發展的比較成熟,分類的正確率達到90%以上,分類器對于文本層次分類和并行處理方面的研究有待加強,這是制約其應用到搜索引擎上的瓶頸。

3.2 系統設計思想及關鍵技術

文本分類是信息檢索的關鍵。目前目錄式搜索引擎的分類是由人工完成的,因此實時性差,更新速度慢,查全率低,成本也較高,且檢索的最終結果是網址,不便于瀏覽。而全文檢索式搜索引擎的檢索結果是一個線性文檔的列表,雖然經過了相關度排序,但用戶仍需要逐個瀏覽才能找出所需信息。基于以上兩種搜索引擎的缺點本文提出將粗糙集的文本自動分類技術應用到搜索引擎上。在該系統中文本分類器的設計是其中的難點,將其應用到搜索引擎上需要解決兩個主要問題:其一文本分類器對檢索出來的文本的分類速度應該足夠快,否則用戶會感到沒有耐心等待檢索結果的顯示,即要提高搜索引擎的響應速度;其二是分類的準確率要高,方便用戶在確定的目錄下準確查找到所需要的文本,即要提高查準率。

系統中用到的關鍵技術主要是文本自動分類和特征抽取。

文本自動分類一般分為訓練和分類兩個階段,其系統流程如圖2所示。研究文本自動分類的關鍵問題是如何構造分類函數。

文本的特征抽取也是設計中的一個重點。在分類階段,經過預處理后,文本的特征向量維數仍然很高,因此在分類前需要進行特征子集的選取。一般情況下對于正文中特征項的抽取[4]是構造一個評估函數,對特征集中的每個特征進行獨立的評估,然后對所有的特征按照其評估分的大小排序,選取預定數目的最佳特征作為文本的特征集。

總之,文本自動分類以及特征抽取技術在搜索引擎上的應用,將給信息檢索技術的研究帶來一定的啟發與幫助。

4 總結與展望

在對現有搜索引擎技術及其工作原理進行總結的基礎上,本文提出了基于文本分類和特征抽取的搜索引擎系統的設計,對其系統設計、工作原理及可行性進行了一定的探討。該系統能對搜索結果進行快速自動分類,在一定程度上改善了信息檢索的效率及質量,方便了用戶的信息查詢。如果能夠實現檢索結果的快速聯機分類,將會給目前的信息檢索技術帶來新的突破,便于用戶快速檢索到需要的結果,這是本文下一步的研究目標。

[1]搜索引擎簡介及研究專欄-搜索引擎發展歷史.http://www.china-seo.org/se-jj/history.htm

[2]王漢萍,張繼軍等.基于粗糙集的文本自動分類方法的研究[J],信息技術,2003年第8期

[3]魏天濱.基于粗糙集理論的文本分類規則抽取[J],中國海洋大學學報自然科學版,2003,33(6):943~949

[4]搜索引擎直通車-搜索引擎發展史[EB/OL].http://www.se-express.com/about/about.htm

[5]馬彪,李恒.搜索引擎的性能評價[EB/OL].新世紀圖書館 2003年第6期

[6]方蘭、王明文 文本自動分類技術及其應用[J],計算機與現代化 2004.7第107期,25~29

猜你喜歡
信息檢索搜索引擎分類
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經網絡的個性化信息檢索模型研究
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 国产黑丝视频在线观看| 久久综合五月婷婷| 亚洲AV电影不卡在线观看| 无遮挡一级毛片呦女视频| 无码aaa视频| 国产麻豆91网在线看| 日本午夜精品一本在线观看| 黄色一级视频欧美| 大乳丰满人妻中文字幕日本| 天天激情综合| 无码精品福利一区二区三区| 亚洲日韩第九十九页| 免费在线a视频| 无码有码中文字幕| 欧美日韩北条麻妃一区二区| 精品福利网| 欧美伦理一区| 日本在线视频免费| 91在线精品麻豆欧美在线| 日韩av电影一区二区三区四区| 超碰aⅴ人人做人人爽欧美| 亚洲综合18p| 天天综合网在线| 中文字幕在线观| 青青青草国产| 欧美成人第一页| 亚洲av无码久久无遮挡| 国产成人精品一区二区不卡 | 久久夜色精品| 中文字幕乱码中文乱码51精品| 538精品在线观看| 国产嫖妓91东北老熟女久久一| 国产麻豆福利av在线播放 | 老司机aⅴ在线精品导航| 69精品在线观看| 日韩a级毛片| 国产精品成人免费综合| a毛片免费观看| 国产网站免费看| 国产农村1级毛片| 无码专区在线观看| 欧美高清三区| 国产人免费人成免费视频| 国产精品爆乳99久久| 国产sm重味一区二区三区| 天堂网国产| 国产精品视频999| 97国产精品视频人人做人人爱| 国产主播在线一区| 免费不卡在线观看av| 青青草原偷拍视频| 日本www在线视频| 97精品久久久大香线焦| 好紧太爽了视频免费无码| 日韩欧美一区在线观看| 国产制服丝袜无码视频| 亚洲中文无码h在线观看| 美女高潮全身流白浆福利区| 中文字幕日韩视频欧美一区| 国产成人精品亚洲日本对白优播| 中文无码精品A∨在线观看不卡 | 99资源在线| 欧美、日韩、国产综合一区| 亚洲天堂日韩av电影| 中文字幕天无码久久精品视频免费| yjizz国产在线视频网| 国产精品无码作爱| 四虎精品国产AV二区| 青草视频免费在线观看| 亚洲综合欧美在线一区在线播放| 日韩精品毛片人妻AV不卡| 精品视频一区二区观看| 国产爽妇精品| 天天综合网亚洲网站| www.youjizz.com久久| 久久久久久久久18禁秘| 日韩亚洲高清一区二区| 无码aaa视频| 国产白浆在线| 中文字幕日韩久久综合影院| 免费a在线观看播放| 91精品综合|