999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

計算機檢索技術的研究與分析

2018-07-23 08:09:32河北農業大學信息學院趙曉卓
電子世界 2018年13期
關鍵詞:搜索引擎信息模型

河北農業大學信息學院 徐 琳 尹 悅 趙曉卓

1.文獻檢索原理及技術

1.1 概述

隨著當今社會的發展,被計算機存儲設備攜帶的電子類的信息越來越多。專利文獻特征:1.明顯的知識產權特性2.實用性非常強3.著錄格式規范4.將科技與法律融為一體。5.有很多重復信息,而且數量巨大。

從狹義上理解信息檢索,就是說從信息集合中尋找所需信息的過程,即我們經常說的信息搜索。

檢索大致過程如下圖所示:

用戶任務——信息需求——問題——問題提煉——搜索引擎——結果——數據庫

1.2 原理

1.2.1 原理示意圖

為了滿足檢索的需要,需要收集大量的數據并對其進行處理,以滿足檢索者快速準確檢索的需要。下面是信息檢索原理的示意圖:

1.2.2 檢索模型

(1)檢索模型引出:

所有索引基本上分為三個部分:文檔表示部分、查詢表示部分和匹配功能部分。文獻表示部分體現的是文獻的存儲形式,文獻表示部分可以是一些關鍵詞或者標引詞,它也可以是一些數據;查詢表示部分是指用戶表達信息的愿望。匹配功能部分用于將處理后的文檔表示部分和查詢表示部分放入系統中進行匹配,并通過使用不同的匹配函數獲得不同的輸出結果。

(2)標引詞權重

標引詞的權重,用于描述標引詞和文獻內容相關程度。

(3)三種模型及其簡單函數

A.布爾模型

檢索X由邏輯運算符和/或非邏輯運算組成。檢索系統的索引系統中的每個索引在文檔中只有兩種狀態:出現和不出現。索引字的權重是q_ij屬于{0,1}。

B.向量空間模型

對于向量空間模型,二元組(Di,Kj)的權值是正非二值數。文件Kj的向量可以表示為。其中,表示第i標引詞Di在文檔Kj中權重。的取值范圍是[0,1],這樣某文檔就可轉為高維空間中一點。

標引詞權值主要由于標引詞的頻率統計,即:局部權值和全局權值。

全局權值(IDFi):是指第i個標引詞在整個系統中文檔集的權值,IDFi=log(N / ni)。

N——系統中文檔總數;ni——系統含標引詞Ki的文檔數;FREqij為標引詞Ki在文檔Dj中的出現的次數; MAXTfj表示文檔Dj中所用標引詞出現次數最大的值。

C模糊模型

用模糊數學語言描述標引詞的權重和其他關系而建立的模型。

1.3 技術中文分詞技術

1.3.1 分詞意義

無論是文檔還是查詢,都要變成標引項的某種形式,文檔可以用多個標引項的集合來表示,一般用詞來表示,還可以用其他形式的語言單位表示,還有一種特殊的標引詞就是關鍵詞。這就需要我們將文檔進行分詞來找到標引詞及其數目來作為每篇文章的特性。

1.3.2 中文詞法分析

1.3.3 停用詞消除

1.3.4 中文重疊詞還原

1.4 使用方法

檢索的使用方法分成單項檢索和組合檢索兩種

1.4.1 單項檢索

單項檢索將需要檢索的檢索詞輸入即可

如:想了解金銀花,檢索“金銀花”

1.4.2 多項檢索技術

多個檢索技術有兩種方式,第一種是單個檢索中的一些單詞或單詞的組合,第二種是一些檢索點的組合檢索,也就是說在同一搜索點中設置多個檢索詞,或者同時設置多個不同的檢索點再加以不同的條件,在這之后再執行檢索。

如:關鍵詞=(磁流體and(密閉or泄露))not(華東理工大學or華東化工學院)

2.搜索引擎技術

搜索引擎。說起搜索引擎,都清楚它需要具備內容全面、查詢內容準確、查找速度快等作用。此外,搜索引擎需要對各種文本進行分類。

2.1 內容全面信息采集概述

信息采集。

下載從因特網收集的信息通常被稱為機器人、蜘蛛和爬蟲,它們被下載、預先組織和在線。

投入大規模硬件進行采集和存儲

2.2 保證準確性的技術

2.2.1 相似度計算

將查詢轉換為向量,將文檔轉換為向量,將其更改為向量,然后求向量的相似性。相似性的計算被認為是三個因素:文檔中出現的單詞的數量,出現在單詞中的文檔的數量,以及接近度的比較。

2.2.2 鏈接分析

被越多網頁指向,而且被越重要的網頁指向,它就越重要。PageRank較大的網頁才會被檢索,保證了結果。

2.3 保證速度快的技術

2.3.1 倒排索引

建立倒排文件、使用倒排表搜索,使檢索速度更快。

2.3.2 計算剪枝技術

由于很多用戶只會看前兩頁,所以并不是所有網頁都會參與運算,因此,根據某種規則預先刷掉很多網頁或者分級。通過減少數量來加快速度。

2.3.3 緩存技術

將常用的放在內存,如檢索結果、索引等,加快檢索速度。

3.文本分類技術

3.1 統計學習法的流程

大量的按人力分類的文件作為學習資料(稱為訓練集),由人力分類的一批文件的成本遠遠低于從這些文件中總結準確規則的成本。

計算機主動從原來給出的大量人力分類資料中(即訓練集),提取有效的分類規則。這個過程稱為訓練,而這個總結出來的規則集就叫做分類器。

訓練完成之后,用分類器對未知文檔進行分類。

3.2 統計學習法流程圖

猜你喜歡
搜索引擎信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 久久久精品国产SM调教网站| 日韩欧美网址| 制服丝袜一区二区三区在线| 久久亚洲天堂| 亚洲国产日韩视频观看| 国产精品视频导航| 婷婷色中文网| 久久精品女人天堂aaa| 波多野结衣无码中文字幕在线观看一区二区 | 国禁国产you女视频网站| 一级片免费网站| 亚洲一区波多野结衣二区三区| 伊人成人在线视频| 日本少妇又色又爽又高潮| 一级毛片在线免费看| 国产网站黄| 成人免费黄色小视频| 免费人成黄页在线观看国产| 玖玖精品在线| 国产精品色婷婷在线观看| 免费一级无码在线网站| 97青草最新免费精品视频| 狠狠亚洲婷婷综合色香| 亚洲愉拍一区二区精品| 中文天堂在线视频| 精品91在线| 99热亚洲精品6码| 91免费国产在线观看尤物| 中文字幕资源站| 国产精品人莉莉成在线播放| 在线免费观看AV| 热热久久狠狠偷偷色男同| 亚洲成A人V欧美综合天堂| 天堂va亚洲va欧美va国产| 国产激情无码一区二区免费| 国产激情影院| 亚洲精品自产拍在线观看APP| AⅤ色综合久久天堂AV色综合| 亚洲第一在线播放| 中文字幕免费播放| 天天做天天爱夜夜爽毛片毛片| 新SSS无码手机在线观看| 五月激情综合网| 精品无码专区亚洲| 四虎永久在线精品影院| 欧美三级自拍| 久久精品国产精品国产一区| jizz在线免费播放| 国产亚洲欧美在线专区| 久久中文字幕2021精品| 视频一本大道香蕉久在线播放| 思思热在线视频精品| 欧美国产精品不卡在线观看| 亚洲色图在线观看| 首页亚洲国产丝袜长腿综合| 国产素人在线| 欧洲亚洲一区| 日本黄色不卡视频| 国产亚洲视频中文字幕视频| 午夜小视频在线| 亚洲av无码专区久久蜜芽| 99热这里只有精品5| 国产96在线 | 国产精品国产三级国产专业不| 久热re国产手机在线观看| 2022精品国偷自产免费观看| 婷婷色一二三区波多野衣| 欧美精品成人| 亚洲资源站av无码网址| 国产乱子伦精品视频| 久久久波多野结衣av一区二区| 一级成人a做片免费| 亚洲乱码精品久久久久..| 四虎综合网| 亚洲欧美在线精品一区二区| 无码福利视频| 亚洲最大福利视频网| 国产欧美日韩免费| 精品人妻AV区| 亚洲无卡视频| 欧美成人看片一区二区三区 | 思思99热精品在线|