999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息計量學理論發展在信息檢索領域的應用綜述

2019-02-21 14:42:34
深圳職業技術學院學報 2019年3期
關鍵詞:信息檢索用戶信息

施 蓓

(深圳職業技術學院 圖書館,廣東 深圳518055)

信息檢索與信息計量是情報學(Information Science,信息科學)下屬的2 個獨立子學科,有著各自的學科范疇.信息檢索致力于各種載體信息的收集、描述、存儲、索引、檢索和呈現;信息計量包括其同盟的幾種計量學(文獻計量學、科學計量學、網絡計量學、替代計量學)則致力于對記錄信息的產品及其應用進行定量檢測分析和評價[1].信息檢索服務提供的是查詢獲取信息的工具和途徑;信息計量服務提供的是評估科研業績、分析發展趨勢、的方法和手段.信息檢索的研究目標是盡可能精確地匹配用戶的信息需求和信息源中的信息內容;信息計量的研究目標則是盡可能精確地描述、揭示和評估某個知識單元或知識領域的狀態[2].

在情報學的發展過程中,信息檢索和信息計量2 個子學科之間各自獨立,同時又存在著密切的聯系,兩者的研究對象都是文獻信息,兩者的研究人員也存在交叉現象.在大數據環境下,信息檢索與信息計量之間呈現出內容并行、工具整合、實踐融合的共生發展趨勢[3].一方面,信息檢索所依托的系統平臺擁有大規模的數據,這些數據里包含了大量信息計量研究所需的數據源,檢索系統平臺及其檢索技術的發展使得信息計量研究能夠獲取更深層次、更全面、更詳盡的數據.另一方面,信息計量學定律和理論在一定程度上為信息檢索系統發展新的服務模式及提高檢索效率提供了理論支持.

在隨著互聯網+、大數據、人工智能等技術發展和應用而來的新時代,人們獲取信息、選擇信息、交流信息的思維方式和行為模式也發生著巨大的變化.用戶行為及需求的變化倒逼著信息檢索系統在實現基于社交網絡的信息過濾機制、基于數據驅動的個性化信息服務、基于語義挖掘的語義搜索、基于全數據管理的數據檢索、基于人工智能深度學習的預測檢索和多媒體檢索等功能的過程中,與信息計量理論協同發展,呈現社會化、數據化、智能化的發展趨勢.

1 傳統信息計量學理論在信息檢索系統中的應用

1.1 信息計量學統計定律在信息檢索系統中的應用

1.1.1 文獻索引款目頻率的冪律分布

信息計量學的經典統計定律中有兩類重要的冪律分布.一是齊普夫(Zipfian)詞頻分布定律:在文獻或信息檢索系統中,詞的出現頻率與詞的數量呈冪律分布.二是洛特卡(Lotkaian)關于科學生產率的頻率分布,即作者-發文量分布呈冪律分布.在洛特卡定律的基礎上,有學者通過對文獻引文數據研究,得出作者-被引次數、作者-被引篇數、論文-被引次數均呈現冪律分布[4].這些索引款目頻率的冪律分布規律為信息檢索系統中檢索款目的權重賦值提供了依據,在檢索系統中索引款目的權重常與款目頻率的統計特征掛鉤.例如tf-idf 就是一種信息檢索系統中較普遍使用的權重方案,它綜合詞頻和逆文檔頻率給每條索引分配權重,并據此對檢索結果進行排序.

1.1.2 用戶需求和用戶行為中的冪律分布

除了檢索系統的內容數據存在冪律分布現象外,檢索系統的使用數據也存在冪律分布現象.有學者研究得出:①信息資源網站的訪問頻率、用戶對不同資源的需求數量均呈冪律分布[5].②檢索系統用戶的查詢款目頻率、用戶瀏覽查詢結果的頁面數、用戶在與系統的一次交互過程中查詢及修正查詢的次數也呈冪律分布[6].

用戶需求和用戶行為數據中的這些冪律分布規律可以幫助檢索系統用戶界面的設計者抓住那些應重點開發設計的方面,如:優先把訪問頻率高、需求數量大的資源放在界面的顯著位置;注重推薦高頻率的查詢款目、注重推薦不同的檢索結果排序方式、注重設計一些能幫助用戶提高交互過程效率的功能等.

1.1.3 文獻信息增長和老化的統計模型

文獻信息的增長規律和老化規律是信息計量學研究的兩項重要內容,包括:關于文獻信息累積量快速增長的普賴斯指數模型;初始階段快速增長,然后增速逐漸變緩的邏輯模型;關于文獻信息老化的布魯克斯引文頻率負指數模型等[7].這些模型在檢索系統的規劃和設計過程中,為設計者提供了參考依據,如:依據增長模型估算數據庫和索引的增長速度;依據老化模型判斷文獻信息的時效,從而提高有效文獻信息的檢出率等.

1.2 基于文獻特征的關聯分析理論在信息檢索系統中的應用

基于文獻引用關系的引文分析、基于關鍵詞共現的聚類分析、基于合著者的社會網絡分析等是傳統信息計量學中常用的計量分析范式,其理論基礎是利用學術文獻之間在某些特征上所反映出來的關聯關系,分析學術領域的發展狀況和趨勢.文獻特征上的關聯,既映射出學術領域中研究者、研究主題之間的關系,也反映了文獻信息體系本身的某些結構特點,因而在信息檢索過程中能起到有效的導引作用.

1.2.1 檢索結果排序算法

谷歌首創的PageRank 算法是文獻計量學引文理論對檢索系統設計產生影響的一個經典案例.谷歌創始人Larry Page 曾提到谷歌網頁排序的算法思想來源于引文分析理念[8].基于PageRank 算法的各種計量模型又被進一步應用于各類信息檢索系統中的文獻特征因子計算、文獻影響力評價和檢索結果排序[9].

信息計量學形成了一系列計量概念用于描述學術信息交流的結構,如期刊的核心度、作者的中心度、關鍵詞的頻率特征tf-idf 等.Philipp Mayr等人提出將這些計量概念的算法嵌入學術信息檢索系統,以檢索附加項的方式對檢索結果進行排序.他們設計了兩種新的檢索結果排序方式:①應用布拉德福定律,在查詢命中的結果集上,依據命中的論文數量劃分出核心出版物區域,并計算各出版物的核心度,核心度高的出版物中的命中結果排在前面.②應用合著者社會網絡模型,在查詢命中的結果集上,計算合著網絡中作者節點的中介中心度,中心度高的作者的論文排在前面.他們通過測試得出:利用這兩種計量模型導向的查詢結果排序方式,篩選出的結果具有更高的查全率和查準率[10].

1.2.2 “信息計量輔助檢索”策略

信息計量輔助檢索是指:在傳統文本檢索的基礎上,將協同引證、文獻耦合、關鍵詞共現、學術網絡等信息計量模型整合到信息檢索策略中,幫助用戶在檢索過程中更好地把握對專業信息空間范圍和結構的限定,從而在保證查準率的前提下提高查全率.

文獻計量學者Wolfang Gl?nzel 等人在其“領域研究”的過程中,為了獲得準確而全面的數據樣本,將檢索策略分為兩個部分.第一部分基于期刊瀏覽、檢索詞查詢等傳統檢索方法,獲得“種子”文獻;第二部分加入文獻計量組件對擴展的檢索式進行條件判定,獲得各種文獻計量語境下與種子文獻有相近關系的文獻,并通過閾值設定關系的強度.他們認為在跨學科領域的復雜檢索中,通過對檢索策略中的文獻計量組件及其閾值進行精細調整,可將檢索結果的誤檢率控制在可接受的范圍內[11].

2 發展中的信息計量學在信息檢索系統中的應用

2.1 替代計量學在信息檢索系統中的應用

在線科研和科學交流網絡化發展趨勢催生了替代計量學.替代計量學針對在線科研模式,開發線上計量工具和平臺,利用各種社會媒體上即時產生的公共數據,采用點擊、下載、傳遞、瀏覽、收藏、引用、提及、標簽、評級、評論、點贊、分享等計量指標,多方位地對處于交流過程中的學術成果的影響力進行計量分析和評價,在新的科研生態體系中構建學術影響力評價體系[12][13].

替代計量學的研究進展不僅構建了新的學術影響力評價框架,同時它也信息檢索系統中得到深入應用:①將替代計量學指標納入信息檢索系統,檢索用戶可對傳播量、同行推薦數、閱讀量、用戶評級、評分等指標設置限定值,作為檢索結果的篩選條件.這種信息篩選模式形成了基于群體智慧的軟同行評議過濾機制,實現了純粹文獻關系之外,結合社交網絡關系的個性化信息推薦和信息過濾,為檢索系統提供了更多可供選擇的檢索限制條件,豐富了檢索系統的結構和層次.②由于替代計量的指標數據能快速地積累,達到可測量的規模,因而它們相比傳統的引文指標能更快地投入使用,提高了檢索系統的效率.③信息檢索系統與替代計量工具平臺相結合,既整合了多種媒介類型和文件格式混合的資源集合,又實現了基于學術群體智慧的信息推薦和過濾,還能夠提供豐富的學術網絡關系數據,因而能較好地滿足在線科研用戶對信息檢索系統的新要求[14][15].

目前,替代計量學工具和平臺已開始被各數據商采用,與數據商的檢索平臺結合,為用戶提供信息服務,如:EBSCO 兼并了Plum Analytics,Elsevier兼并了Mendeley,Nature 和Springer 等數據庫也開始采用替代計量數據等,這表明替代計量學在信息檢索系統的應用已逐步走向成熟[15].

2.2 用戶行為數據的計量分析在信息檢索系統中的應用

Web2.0 以來,人機交互的信息檢索系統越來越重視用戶與系統間的交互會話過程,通過用戶界面,用戶可在反復迭代的檢索過程中調整和修正檢索策略,形成了以用戶為中心的交互檢索模式.用戶日志中用戶與系統交互會話的數據,成為信息計量分析研究的重要數據類型.信息計量研究者和信息檢索系統設計者們通過對這類數據采用聚類分析、網絡分析等計量算法,識別用戶的種類,得出用戶的行為特征,從而在用戶的信息檢索過程中依據其種類或行為特征,推送個性化服務.例如:Wolfram等人利用檢索系統的用戶日志數據對檢索者進行聚類分析,識別出三種常規的交互類型,其中有一類是針對某個主題不斷調整查詢策略,反復交互的檢索者.他們認為檢索系統應篩選出這類糾結的檢索者,為其提供精準的介入服務,幫助其獲得滿意的檢索結果[16].

研究者和設計者們更深入地將基于用戶行為數據的用戶畫像和用戶行為本體建模等新型的信息計量技術應用于信息檢索服務平臺,有效提高了信息推送服務的精準性.例如:王洋等人設計的用戶畫像系統利用用戶日志中的瀏覽行為數據及爬取的相關數據,在分布式集群大數據平臺上進行聚類分析,得出用戶興趣偏好,并為用戶標記不同權重的標簽[17].用戶畫像方式既挖掘出了用戶的隱性需求,又為系統平臺的信息推送服務提供了更精準的依據.沈軍彩設計的用戶行為本體建模方式利用用戶的信息查詢行為數據,通過數學建模分析,生成“行為-主題分布”和“主題-詞匯分布”模型,提取出用戶的信息查詢行為本體.進行信息推送時,則計算信息資源集合中各文檔的關鍵詞向量與用戶行為本體匹配的程度,作為信息推送的權重值,實驗證明了此方式能夠有效提高信息推送的準確性[18].

2.3 語言模型計量分析在信息檢索系統中的應用

目前的語言模型主要是根據文本中各詞項概率分布進行數學建模,如:統計語言模型、主題模型等.隨著語言模型在自然語言處理領域的深入應用和發展,信息計量研究領域也開始將其作為研究和應用的一個重要方向,如:應用主題模型識別作者、機構間潛在的學術關聯性;研究學術群體、學術社區的主題分布及其發展動態等.信息計量基于語言模型的研究成果在信息檢索領域的應用,實現了從語義層面對文獻內容、檢索策略,甚至檢索者興趣的關聯性挖掘,進而實現更準確的檢索匹配和更有效的檢索結果聚類等.

語言模型用生成概率評估一篇文檔和一個查詢之間的關聯程度.例如:李進華等人論述了利用統計語言模型實現的相關性概率檢索模式.該模式首先統計詞表中各詞出現在某篇文獻中概率,建立起各篇文獻的語言模型;在每次檢索時,計算查詢詞序列生成各篇文獻語言模型的概率,依據查詢生成概率,按查詢似然評分法給出檢索結果[19],實現了一定程度的語義檢索.

LDA 是一種典型的文檔主題生成模型,它包含“文檔—主題—詞”三層結構,通過對文檔的詞頻向量進行數學建模分析,得出該文檔潛在的主題分布.阮光冊等人將LDA 主題模型與K-means 聚類算法結合,對檢索結果進行聚類.首先在檢索結果中,基于LDA 主題模型得出各篇文檔的潛在主題的概率分布信息;然后基于該分布信息對檢索結果進行聚類分析,并提取聚類標簽對類簇進行標識[20].沈軍彩設計的用戶行為本體模型也是運用LDA 主題模型的方法,對用戶查詢行為數據進行的建模,得出用戶查詢行為的主題分布[18].

針對學術網絡的主題建模,Jie Tang 等人提出超越單獨為某一類節點建立LDA 模型的分離建模方式,在論文集上依據“作者—主題”的關聯概率、“主題—詞”的生成概率和“主題—出版物”的生成概率,建立論文的異構主題模型,并將其應用于學術信息搜索系統的隨機游走框架.在游走排名分值上迭加由該模型計算出的主題相關性分值;或在游走路徑上嵌入主題路徑,并按該模型計算游走主題路徑的概率[21].

3 信息計量學在信息檢索中的應用研究發展趨勢

3.1 信息計量研究進展為信息檢索系統的發展提供理論支持

在信息技術網絡化、智能化的發展趨勢下,信息計量的空間和語境不斷擴展,發展出新的計量指標和模型.新的計量指標和模型在信息檢索系統的應用順應了新時代用戶的新要求,推動了信息檢索系統的發展.例如:①協同過濾:信息計量的對象已由單一的文獻體系和封閉的資源平臺,擴展到多元化的、開放的在線平臺和社交網絡,催生了替代計量學語境.信息檢索系統借助替代計量學指標和平臺,形成了基于社交網絡數據的信息過濾機制,利用群體智慧篩選信息,提高信息檢索效率.②數據驅動:信息計量的數據范圍由單一平臺的內容數據,擴展到分布式集群平臺的內容數據和用戶行為數據,形成了數據挖掘、用戶畫像、數據可視化等大數據分析語境.數據挖掘和可視化技術的應用,促成了檢索系統對內容數據中隱含的關聯性挖掘和對復雜數據的呈現方式.用戶畫像等技術提高了信息檢索系統用戶交互過程的效率和信息推薦的精準性.③語義搜索:信息計量層次由信息的字符層面,深入到信息的語義層面,產生了語言模型、領域本體、知識圖譜等語義分析語境,這些理論和技術的應用幫助信息檢索系統實現了基于語義的智能檢索功能.

3.2 人工智能時代信息檢索領域的發展目標對信息計量研究提出新要求

隨著人工智能時代的到來,信息檢索系統向著智能化檢索的目標發展,現階段主要包括:①基于語言模型的語義檢索,②基于推理機制的預測性檢索,③多媒體信息檢索等.

預測性檢索是指信息檢索系統可以預測每個用戶查詢背后的意圖,并給出相關的檢索結果[22].用戶在為解決某些實際問題而進行信息檢索時,常常困于如何清晰地描述具體的信息需求.預測性檢索通過對用戶檢索行為數據的深度學習,運用神經網絡算法,推理用戶的意圖,為用戶篩選出符合其需求的信息資源[23].

多媒體信息檢索是指實現對自然語言、圖像、音視頻等非結構化數據的檢索,其關鍵是實現對非結構化數據的特征識別和數據處理.隨著人工智能領域機器學習技術的發展,利用AI 技術構建機器學習系統,可自動分析和匯總大量非結構化數據和自然語言文檔,并能精簡和加速對音頻、圖像和視頻等非結構化數據的密集而耗時的分析任務等[24].各種人工智能深度學習算法的應用為實現多媒體信息檢索鋪平了道路.機器學習或深度學習,追根究底都是以數據的研究為基礎的[25],多媒體信息檢索是在對大量密集的數據樣本進行深度學習的基礎上實現的.

語義檢索、預測檢索和多媒體信息檢索,都是基于對大量數據進行建模分析和計算而實現的,如何構建數模和選擇算法,需要跨學科研究解決,這也對信息計量學的研究和突破提出了新的要求.信息計量學是一個不斷發展的學科,它一直追隨著信息社會的發展變化而不斷拓展自身的研究空間和研究語境,在人工智能的新時代中它必將迎來新的發展,也將在信息檢索領域中產生新的應用成果.

猜你喜歡
信息檢索用戶信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于神經網絡的個性化信息檢索模型研究
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
主站蜘蛛池模板: 成人日韩视频| 国产人成乱码视频免费观看| 真人高潮娇喘嗯啊在线观看| 国模粉嫩小泬视频在线观看| 久久熟女AV| 欧美另类第一页| 欧美精品亚洲精品日韩专区va| 91小视频在线观看免费版高清| 国产激爽大片高清在线观看| 国产精品福利社| 激情综合五月网| 日韩二区三区无| 国产精品30p| 伊人蕉久影院| 亚洲精品视频在线观看视频| 精品福利一区二区免费视频| 亚洲无线国产观看| 91在线国内在线播放老师| 国产超薄肉色丝袜网站| 内射人妻无码色AV天堂| 国产爽妇精品| 国产精品七七在线播放| 国产成人综合日韩精品无码不卡| 综合色在线| 伊人久久综在合线亚洲2019| 国产精品hd在线播放| 国产成人久久777777| 在线中文字幕日韩| 日韩精品专区免费无码aⅴ| 精品久久久久无码| 成人一区在线| 久久综合丝袜长腿丝袜| 在线观看国产精美视频| 国产美女一级毛片| 97国产一区二区精品久久呦| 综合五月天网| 国产精品成人第一区| 97一区二区在线播放| 亚洲中文字幕无码mv| 999国内精品久久免费视频| JIZZ亚洲国产| 国产美女91呻吟求| 国产免费a级片| 成人另类稀缺在线观看| 三上悠亚一区二区| 精品少妇三级亚洲| 午夜三级在线| 国产人成在线观看| 欧美激情第一区| 麻豆精品国产自产在线| 国产在线91在线电影| 亚洲 欧美 偷自乱 图片| 精品伊人久久久香线蕉| 欧美a在线| 久996视频精品免费观看| 国产在线八区| 中文字幕不卡免费高清视频| 亚洲va视频| 亚洲高清日韩heyzo| 中文字幕在线视频免费| 久久综合激情网| 91久久国产综合精品女同我| 色屁屁一区二区三区视频国产| 日韩国产黄色网站| 欧美日本在线| 五月婷婷丁香综合| 亚洲成人福利网站| 亚洲人成色77777在线观看| 欧美黄网在线| 夜夜高潮夜夜爽国产伦精品| 久久精品66| 99精品免费在线| 国产欧美日韩18| 久久免费视频播放| 都市激情亚洲综合久久| 欧洲高清无码在线| 美女国产在线| 国产色婷婷| 伊人无码视屏| 久久99国产视频| 老熟妇喷水一区二区三区| 国产精品久久久精品三级|