999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合相關因素和時間因素的信息檢索算法研究

2018-01-30 07:15:22作者余泓賢湖南長沙市第一中學
電子制作 2017年16期
關鍵詞:信息檢索排序用戶

作者/余泓賢,湖南長沙市第一中學

引言

隨著信息技術的發展以及互聯網的普及,大量的信息充斥在互聯網上,“信息過載”現象越來越嚴重。如何快速找到用戶需要的信息,如何充分有效利用互聯網上的信息成為目前亟待解決的問題。為此,如百度、Google等信息檢索工具以其科學性和實用性受到了人們的高度重視[1–3]。

信息檢索的提出在一定程度上緩解了“信息過載”帶來的挑戰,被認為是克服此問題的重要技術。先前對信息檢索的研究主要分為兩類,一類是對結構化信息的檢索,即針對于存儲在例如Oracle、SQL Server和My SQL等關系型數據庫中,并按一定組織結構存儲的數據進行檢索,此類研究已經較為成熟,主要是利用結構化查詢語言SQL(Structured Query Language)來對數據庫中存儲的數據進行檢索。另一種是針對于非結構化信息數據的獲取,即為某信息需求檢索出最為匹配的信息條目,即有一個文檔集合D,對于由關鍵詞w[1]、w[2]….w[K]組成的字符串q,返回多個與查詢q相匹配的文檔。

傳統關于信息檢索的研究主要集中在計算信息需求與檢索條目的相關性上,而忽略了時間對于檢索效果的影響。因此,本研究認為人們在信息檢索的過程中,更傾向于獲取時間較新的文檔數據。本研究中,首先計算信息需求與數據條目的相關性,并以此為依據對數據條目進行排序,然后,用數據條目的發布時間去影響基于相關性的排序結果,最后,獲取排序位置在前信息作為檢索結果。

1.相關研究

目前廣泛應用于信息檢索的技術有:結構化查詢語言SQL、IF–IDF算法、布爾檢索模型、向量空間模型和主題模型。

1.1 結構化查詢語言SQL

SQL[4]語言是目前廣泛應用的,針對于關系型數據庫的檢索語言,主要有查詢、操縱和控制。數據查詢語言指對關系型數據庫中的數據進行檢索以及信息的讀取;數據操縱語言主要是對數據庫中的數據進行增加、刪除和更新;數據控制語言主要是指對訪問數據對象的用戶權限進行控制。

1.2 IF-IDF算法

TF–IDF[5,6](Term Frequency–Inverse Document Frequency)算法是信息檢索中常用詞匯加權技術。其主要思想是:如果某個詞或者短語在一個文檔中頻繁出現,而在其它文檔中很少出現,那么可以認為這個詞在該文檔中的權重很高,這個詞很具有區分能力,適合用來做為檢索的關鍵詞。TF–IDF實際為 TF*IDF,TF(Term Frequency)為詞頻,指一個詞在目標文檔中出現的頻率;IDF(Inverse Document Frequency)表示逆向文件頻率,由語料庫總數除以包含該詞語的文件數目,再取對數得到該數值。

1.3 布爾檢索模型

布爾檢索模型[7]是借助于例如與、或和非等運算符找出相關信息條目的一種方法。假設有一文檔,標記為 Di(w1,w2,w3,w4,….wm), 其 中 w1,w2,w3,w4,….wm為能夠反映文檔Di的關鍵詞。設一用戶的檢索表達式為Q=(w1∧w2)∨( w1∧w2),那么檢索出來的文檔應該同時含有關鍵詞w1與關鍵詞w2,或者同時含有關鍵詞w3與關鍵詞w4。

1.4 向量空間模型

向量空間模型[8]把文本內容映射到向量空間中,并且利用向量之間的余弦夾角來推斷文本之間的相似度,實現信息檢索。在向量空間模型中,我們首先依據布爾模型將查詢條件Q與檢索文檔集合D中的每一個文檔進行向量化,然后,計算兩者的余弦夾角,得分最高的為與查詢條件最相關的文檔。

1.5 主題模型

主題模型[9](Topic Model)是從一語料庫中挖掘出隱含的T主題,即一篇文章中所表達的中心意思。該模型認為一篇文檔的生成規則首先是從多個主題中抽取一個主題,然后從選中主題中抽取主題下面的一個詞,然后重復此過程,得到整個文檔集合。

2.研究方法

2.1 研究思路

本研究主要包括三個步驟:數據預處理、計算用戶信息需求與檢索項目的匹配度、按時間進行排序、獲取檢索結果。

(1)數據預處理:本研究首先利用IK Analyzer對用戶的信息需求和候選檢索條目進行分詞,然后利用停用詞表去掉常用詞和沒有實際指代意義的詞,最后利用TF-IDF計算每一個詞在特定文檔中的代表性。

(2)獲取被檢文檔的特征:本研究首先利用向量空間模型計算信息需求和候選檢索條目的相關性;然后,獲取被檢索文檔的發文時間。

(3)獲取檢索結果:本研究線性組合信息需求和被檢索文檔的相關性和時間來計算用戶信息需求與被檢索文檔的匹配度,并以此為依據獲取排序位置在前的信息作為檢索結果。

2.2 數據預處理

本研究首先利用IK Analyzer對用戶輸入的檢索需要和候檢文檔進行分詞,然后利用停用詞表去掉常用詞和沒有實際指代意義的詞,最后利用TF-IDF計算每一個詞在特定文檔中的代表性。其中,用戶輸入的信息需求表示為:Q=(q1,q2,q3….qn)其中,qn表示第n個字符的TF–IDF,同理,第i個侯檢文檔表示為Di(w1,w2,w3….wn),其中,wi表示第i個單詞的TF–IDF值。

2.3 特征整合與檢索

本研究以用戶輸入的信息需求和被檢索文檔的相關性和時間因素來計算用戶信息需求與被檢索文檔的匹配度,并以此為依據獲取排序位置在前的信息作為檢索結果。因此,本研究首先引入向量空間模型來計算兩者信息需求Q與第i個被檢文檔的相關性,可標記為:

通常,檢索出來的文檔應與信息需求相關性盡可能的高,并且檢索出來的文檔應盡可能的新。因此,本研究提出RTUFIR(Relevance and Time Uniベcation Framework for Information Retrieve) 以融合信息需求和被檢文檔的相關性和時間兩個因素:

其中,λ控制最終遴選結果的偏向。TDi表示文檔Di的產生的時間,表示信息需求Q與被檢文檔D的主題相關性;當λ=1時,該檢索系統僅考慮時間因素;而當λ=0時,該檢索系統僅考慮兩者的相關性。

2.4 主要代碼

informationRe = readData(ベlePath);//獲取用戶輸入的信息

3.實驗結果分析

本研究從各大新聞網站上搜索到近五年的新聞條目作為候選檢索信息集合。同時,請四組被試分別對本研究提出的信息檢索算法與傳統基于VSM的檢索算法進行比較。其中,每組被試為10人,選擇前10條信息作為最終檢索結果。信息條目的評價分為三個等級,分別為滿意,基本滿意,不滿意,對應的分值為5,2,1。用戶對算法的滿意程度如圖1所示,橫坐標表示四組被試,縱左邊表示檢索結果的平均滿意度。從圖1中可以看出,除第三組之外,其余各組的檢索滿意度均高于傳統模型。因此,可以看出,融入時間因素后,用戶的滿意程度有一定的提高。

圖1 準確率對比圖

4.總結與展望

隨著信息技術的發展以及互聯網的普及,大量的信息充斥在互聯網上,“信息過載”現象越來越嚴重。信息檢索的提出在一定程度上緩解了“信息過載”帶來的挑戰,被認為是克服此問題的重要技術。本研究認為人們在信息檢索的過程中,更傾向于獲取時間較新的文檔數據。本研究中,首先計算信息需求與數據條目的相關性,并以此為依據對數據條目進行排序,然后,用數據條目的發布時間去影響基于相關性的排序結果,最后,獲取排序位置在前信息作為檢索結果。

但是,仍有一些問題需要進一步探討。例如,如何使檢索結果的重復率達到最低,如何保證檢索結果是正確的、質量高的文檔。因此,在后續的研究中,筆者將更關注檢索結果的質量和滿足用戶需要的程度。

* [1]顧犇. 信息過載問題及其研究[J]. 中國圖書館學報 ,2000,(05)∶40—43+74.

* [2]邱均平,樓雯. 基于共現分析的語義信息檢索研究[J]. 中國圖書館學報 ,2012,(06)∶89—99.

* [3]王燦輝,張敏,馬少平. 自然語言處理在信息檢索中的應用綜述 [J]. 中文信息學報 ,2007,(02)∶35—45.

* [4] Date C J, Darwen H. A Guide to the SQL Standard[M]. New York∶ Addison—Wesley, 1987.

* [5]Ramos J. Using tf—idf to determine word relevance in docu ment queries[C]//Proceedings of the first instructional confere nce on machine learning. 2003.

* [6]Aizawa A. An information—theoretic perspective of tf—idf measures[J]. Information Processing & Management, 2003,39(1)∶ 45—65.

* [7]Salton G, Fox E A, Wu H. Extended Boolean information retri eval[J]. Communications of the ACM, 1983, 26(11)∶ 1022—1036.

* [8]Salton G, Wong A, Yang C S. A vector space model for auto matic indexing[J]. Communications of the ACM, 1975, 18(11)∶613—620.

* [9]Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J].Journal of machine Learning research, 2003, 3(Jan)∶ 993—1022.

猜你喜歡
信息檢索排序用戶
排序不等式
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于神經網絡的個性化信息檢索模型研究
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 狠狠干欧美| 99免费视频观看| 国产无吗一区二区三区在线欢| 国产亚洲成AⅤ人片在线观看| AV无码国产在线看岛国岛| 蜜桃视频一区| 一本久道久综合久久鬼色| 园内精品自拍视频在线播放| 黄色成年视频| 亚洲一区二区视频在线观看| 天堂成人在线视频| 欧美黑人欧美精品刺激| 国产呦视频免费视频在线观看| 亚洲一级色| 国产噜噜在线视频观看| 国产亚洲欧美日韩在线一区二区三区| 久久天天躁狠狠躁夜夜躁| 97青草最新免费精品视频| 99热这里只有免费国产精品| 国产美女精品在线| 精品少妇人妻av无码久久| 国产香蕉在线视频| 巨熟乳波霸若妻中文观看免费| 国产乱肥老妇精品视频| 91在线视频福利| 国产女人在线视频| 日韩国产 在线| 国产免费a级片| 成人午夜视频在线| 在线亚洲精品自拍| 国产成人夜色91| 日韩av电影一区二区三区四区 | 91成人试看福利体验区| 久久精品这里只有国产中文精品| 爆操波多野结衣| 亚洲二区视频| 国产大全韩国亚洲一区二区三区| 国产精品亚洲日韩AⅤ在线观看| 亚洲第一视频免费在线| 中文字幕不卡免费高清视频| 午夜激情福利视频| 欧美综合成人| 无码电影在线观看| 一级毛片免费播放视频| 91精品人妻一区二区| 在线日韩日本国产亚洲| 亚洲成肉网| 精品一区二区久久久久网站| 自偷自拍三级全三级视频| 国产精品流白浆在线观看| 欧美成人午夜视频免看| 黄色网站不卡无码| 久久人妻系列无码一区| 国产在线精品美女观看| 亚洲中文字幕av无码区| 国产黑丝一区| 色综合激情网| 欧美精品高清| 亚洲欧洲天堂色AV| 手机精品福利在线观看| 国产综合网站| 欧美成人看片一区二区三区| 99ri国产在线| 免费观看亚洲人成网站| 不卡无码h在线观看| 天天综合网在线| 国产精品女人呻吟在线观看| 成人久久精品一区二区三区| 丰满的熟女一区二区三区l| 色综合a怡红院怡红院首页| 欧美精品综合视频一区二区| 呦系列视频一区二区三区| 欧美在线网| 九九热这里只有国产精品| 国内精品一区二区在线观看 | 国产亚洲欧美日韩在线一区二区三区 | 欧美一道本| 欧美另类一区| 免费啪啪网址| 亚洲午夜综合网| 国产波多野结衣中文在线播放| www.精品国产|