999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于相關性分析的搜索引擎設計

2018-09-17 05:36:16趙冰漫
科教導刊·電子版 2018年21期
關鍵詞:搜索引擎相關性

趙冰漫

摘 要 隨著計算機系統(tǒng)性能的提高和網(wǎng)絡技術的不斷進步,如何在互聯(lián)網(wǎng)這個龐大的信息資源中提供高效的搜索服務,幫助用戶在海量的數(shù)據(jù)中快速找到需要的信息是搜索引擎亟待解決的問題。通常用戶只關心返回的排在前面的結果,然而當前搜索引擎返回的查詢結果與用戶需求的相關性并不高。于是搜索引擎的相關性設計--按照與用戶查詢的相關程度對搜索引擎的索引文檔進行排序,成為當前研究的重點。

關鍵詞 搜索引擎 相關性 用戶查詢 索引

中圖分類號:TP391 文獻標識碼:A

0引言

本文對搜索引擎的相關性進行了深入的研究,主要工作歸納為以下幾點:

(1)文本搜索引擎的相關性排序模型,采用向量空間模型。

(2)文本搜索引擎數(shù)據(jù)源采用網(wǎng)絡爬蟲實現(xiàn)。

(3)文本搜索引擎數(shù)據(jù)分類采用樸素貝葉斯算法。

1相關性分析與實現(xiàn)

TF-IDF:是一種常用的檢索系統(tǒng)的加權技術。

基本思想:是每個字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比,與在其他文件中出現(xiàn)的次數(shù)成反比。

TF:Term Frequency:關鍵詞詞頻,是指一篇文章中關鍵詞出現(xiàn)的頻率,比如在一篇M個詞的文章中有N個該關鍵詞,則: TF=為該關鍵詞在這篇文章中的詞頻。

IDF:Inverse Document Frequency :逆向文本頻率,是用于衡量關鍵詞權重的指數(shù),由:IDF=log()計算而得。

D:表示文章總數(shù),DW:表示關鍵詞出現(xiàn)過的文章數(shù)。

2基于向量空間的余弦算法

算法步驟:預處理→文本特征項選擇→加權→生成向量空間模型后計算余弦。

(1)預處理。預處理主要是進行中文分詞和去停用詞。然后按照停用詞表中的詞語將語料中對文本內(nèi)容識別意義不大但出現(xiàn)頻率很高的詞、符號、標點、及亂碼去掉。例如:“這,的,和,會,為”等詞出現(xiàn)在任何一篇中文文本中,但是他們對這個文本所表達的意思幾乎沒有任何貢獻。使用停用詞表來剔除停用詞的過程,就是一個查詢過程,對每一個詞條,看其是否位于停用詞表中,如果是則將其從詞條串中刪除。

(2)文本特征性選擇與加權。過濾掉常用副詞、助詞等頻率高的詞之后,根據(jù)剩下詞的頻度確定若干關鍵詞。頻度計算參照TF公式。

(3)加權是針對每個關鍵詞對文本特征的體現(xiàn)效果小大不同而設置的機制,權值計算參照IDF公式。

(4)向量空間模型VSM及余弦計算。向量空間模型的基本思想是把文檔簡化為以特征項(關鍵詞)的權重為分量的N維向量表示。

假設一篇文檔中有a、b、c、d四個特征項,那么這篇文檔就可以表示為D(a,b,c,d),對于其他要與之比較的文本,也將遵從這個特征項順序。對含有n個特征項的文本而言,通常會給每個特征項賦予一定的權重表示其重要程度,即D=D(T1,W1;T2,W2;…;Tn,Wn)簡記為D=D(W1,W2,…,Wn)把他叫做文本D的權值向量表示,其中Wk是Tk的權重,1≤k≤N。

兩個文本D1和D2之間的內(nèi)容相關度SIM(D1,D2)常用向量之間夾角的余弦值表示,即

式中W1k、W2k表示文本D1和D2第k個特征項的權值,1≤k≤N。

3樸素貝葉斯算法設計與實現(xiàn)

樸素貝葉斯的思想基礎是:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪個最大,就認為此待分類項屬于哪個類別。

文本分類在搜索引擎中屬于必備語言處理模塊,每篇文章都由成百上千個詞語組成,可以當做個向量集W=(w1,w2,w3,…,wn),其中wi即表示其中第i個詞語。文章的分類也可以視為一個分類標記集合C=(c1,c2,c3,…,cm)。在wi出現(xiàn)的情況下,文本是文本分類C的概率,可根據(jù)貝葉斯計算,公式為:

在文本分類的角度理解貝葉斯公式為:在wi詞出現(xiàn)的情況下是否是文本類別取決于在文本分類cj情況下wi出現(xiàn)的概率,以及wi在所有詞中出現(xiàn)的概率。p(w)的意義在于如果這個詞在所有文檔中出現(xiàn),那么用wi去判定是否是cj的概率越低,越不具備代表性。

樸素貝葉斯是一種有監(jiān)督的學習方式,可以利用伯努利模型以文件為粒度進行文本分類。可以歸納樸素貝葉斯大致分為數(shù)據(jù)準備、分類器訓練及分類識別三個階段。

(1)數(shù)據(jù)準備。語料庫的準備工作階段,這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據(jù)具體情況確定屬性特征,并對每個屬性特征進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質量對整個過程將有重要影響,分類器的質量很大程度上是由特征屬性、特征屬性劃分及訓練樣本質量決定的。

(2)分類器訓練。這個階段的任務是生成分類器,主要工作是計算每個類別在訓練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。這一階段是機械階段,根據(jù)前面討論的公式可以由程序自動計算完成。

(3)分類識別。這個階段的任務是使用分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。這一階段也是機械性階段,由程序完成。

4結語

搜索引擎相關性的研究在未來還將是研究熱點,學者將會從更加全面的角度剖析相關性的影響因素,增加用戶習慣、需求等因素;檢索功能也將不斷得到補充,多媒體檢索、移動檢索等檢索技術將成為未來各個搜索引擎企業(yè)重點研究的檢索功能;同時,除了檢索效率、網(wǎng)頁相關性的評價研究外,檢索結果排序、檢索信息重復率、網(wǎng)頁死鏈或響應時間等問題也將成為下一階段亟待研究解決的重要問題。

參考文獻

[1] 王黎.搜索引擎的相關性排序算法研究[D].合肥:中國科學技術大學,2010.

[2] 王亮.搜索引擎及其相關性排序研究[D].武漢:武漢大學,2004.

[3] 孫靖.基于云平臺的數(shù)據(jù)庫搜索引擎實現(xiàn)方法的研究[D].南京:南京郵電大學,2014.

猜你喜歡
搜索引擎相關性
基于Kronecker信道的MIMO系統(tǒng)通信性能分析
科技視界(2016年21期)2016-10-17 17:37:34
小兒支氣管哮喘與小兒肺炎支原體感染相關性分析
腦梗死與高同型半胱氨酸的相關性研究(2)
腦梗死與高同型半胱氨酸的相關性研究
會計信息質量可靠性與相關性的矛盾與協(xié)調
網(wǎng)絡搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
主站蜘蛛池模板: 国产亚洲欧美日韩在线一区二区三区| 88av在线播放| 精品91在线| 成人综合在线观看| 国产精品极品美女自在线网站| 二级特黄绝大片免费视频大片| 中文字幕中文字字幕码一二区| 国产精品美女在线| 国产欧美日韩在线在线不卡视频| 精品成人一区二区三区电影| 亚洲欧美在线综合一区二区三区| 国产小视频在线高清播放| 国产日韩丝袜一二三区| 新SSS无码手机在线观看| 蜜臀AVWWW国产天堂| 日本AⅤ精品一区二区三区日| 欧美天堂在线| 国产午夜无码片在线观看网站| 成人精品视频一区二区在线| 91麻豆久久久| 狂欢视频在线观看不卡| 国产成人午夜福利免费无码r| 久久大香香蕉国产免费网站 | 特级毛片8级毛片免费观看| 久热中文字幕在线观看| 永久在线播放| 在线欧美日韩| 人与鲁专区| 91外围女在线观看| 网友自拍视频精品区| 亚洲动漫h| 国产区福利小视频在线观看尤物| 国产午夜不卡| 国产精品亚洲αv天堂无码| 99ri精品视频在线观看播放 | 久久国产黑丝袜视频| 国产微拍一区二区三区四区| 亚洲另类色| 亚洲人视频在线观看| 亚洲最大福利网站| 91午夜福利在线观看| 国内精品九九久久久精品 | 欧美亚洲欧美| 好吊色妇女免费视频免费| 99久久精彩视频| av手机版在线播放| 亚洲综合色区在线播放2019| 欧美黑人欧美精品刺激| 美女无遮挡免费视频网站| 国产精品三区四区| 被公侵犯人妻少妇一区二区三区| 情侣午夜国产在线一区无码| 国产91特黄特色A级毛片| 四虎成人在线视频| 亚洲乱伦视频| 国产亚洲精品91| 亚洲欧洲国产成人综合不卡| 国产在线麻豆波多野结衣| 99久久精品视香蕉蕉| 国产精品乱偷免费视频| 999国内精品视频免费| 日韩精品无码不卡无码| h视频在线观看网站| 久久精品人妻中文系列| 久久久久国产一区二区| 色综合日本| 国产另类视频| 国产尤物视频网址导航| 91香蕉视频下载网站| 国产精品视频白浆免费视频| 日韩在线永久免费播放| 啪啪永久免费av| 亚洲天堂精品在线| 国产麻豆福利av在线播放| 日韩一二三区视频精品| 色视频国产| 国内精品91| 日韩色图区| 国产91蝌蚪窝| 精品视频91| 欧美视频在线播放观看免费福利资源 | 久久国产乱子伦视频无卡顿|