999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博短文本檢索關鍵技術

2015-01-29 14:12:35吳曉陽
中國科技信息 2015年21期
關鍵詞:排序信息模型

吳曉陽

微博短文本檢索關鍵技術

吳曉陽

微博作為當前使用非常廣泛的社交軟件已然成為了人們獲取實時信息的重要途徑之一,然而微博短文的自身特點使得其檢索的難度相應增加,通過相應的模型建立才能更好的將當前所面臨的一系列檢索困難一一解決,最終幫助人們搜索到相應的內容,從而更好的獲取相關信息。

微博是一種通過關注機制分享簡短實時信息的廣播式的社交網絡平臺,用戶可以通過WEB、WAP等各種客戶端在微博網站建立個人社區,以不超過140個字符的短文本消息來進行實時信息的基本分享。近幾年使用手機、平板電腦等移動客戶端上網的用戶迅速增長,微博因其使用便捷、語言精煉并且信息量充足的特點而逐漸備受追捧,成為一種影響力巨大的新媒體形式,人們通過微博分享的信息作為當前一項非常重要的實時信息來源。但同樣由于微博的消息限定為140個字,屬于典型的短文本內容,具有數量龐大、書寫較隨意、主題相對雜亂并且實時性強等特點,使傳統信息檢索技術在面對海量微博的檢索任務中遇到許多難題,如何解決這些問題成為了當前微博短文檢索技術的關鍵所在。

實時性語言模型和融入時間信息的查詢建模

實時性語言模型

語言模型作為檢索的最基本模型框架是非常重要的技術點,而實時性語言模型的建立能有效的幫助更加全面搜索到相應的微博文本信息。因為時間是提高檢索質量的重要因素之一,有效的利用時間條件就能很好的提升檢索的準確性,而實時性語言模型就是利用了這樣的一個技術原理。

微博因為文本短小所以在一定程度上需要通過時間這樣一個元素進行區分,而在當前大部分的搜索引擎當中,一般都是基于網頁中的關鍵詞頻率、鏈接、用戶評價計算權重來對該網頁文本進行加權,使得不同的網頁在檢索結果中具有不同的先驗概率。這樣一來以微博文本的時間特性作為重要的查詢條件輸入到相應檢索公式中就能使得檢索出來的信息更具有準確性和針對性,從而也就更有可能滿足搜索人的相應需求。

融入時間信息的查詢建模

之前已經描述出了時間信息在微博文本檢索中的重要性,這也是基于微博這樣一種特殊的信息發布而形成的,所以良好的融入時間信息的查詢建模往往就能更為行之有效的達到相應的檢索需求。而最終搜索到的相應微博文本信息也就能縮小其廣度而增強其精度。

比方說通過利用微博文本的平均“年齡”來融入查詢檢索中,而文本年齡即與其提交的時間相關。將文本年齡作為計算因子加入到檢索排序公式之中,檢索后得到一個初始微博文本的列表,這樣就能更加精確的查詢出相應的微博文本而極大的減輕了短小隨意而且實時性強等條件的干擾。

基于參考文檔模型的微博文本檢索

參考文檔模型建立的作用

微博因為字數限定所以大都為短文本,而這類文檔的檢索進行時極易發生詞典問題,這就會直接導致搜索信息的不夠準確使得搜索的難度增大,搜索者即便通過關鍵詞進行查詢仍舊要花費一定的時間再從檢索內容中進行區分,最終才能找到自己所需要的相應微博內容。這就極大的提升了搜索功能的使用難度并且帶來較壞的體驗感。

反饋技術作為檢索體現的根本技術,基于早期仍存在著一定的問題,僅對查詢而不對文檔進行反饋使得檢索結果寬泛而更具模糊性。同時利用的反饋源如果僅局限在待檢索的文檔集合本身,則會造成反饋中能夠使用的信息資源有限,這都會極大程度的影響到檢索結果達不到預期要求。而在參考文檔模型框架下對查詢和文檔同時進行反饋建模,就能很好的解決相應技術問題。

參考文檔模型建立的技術關鍵

參考文檔建模的主要方法是利用參考文檔,對查詢和待檢索文檔集合同時進行反饋建模,所以在建模過程中,參考文檔本身具有非常重要的作用。在以前的一些檢索技術中一般會以檢索相同或者相近領域的文檔來作為最終的參考文檔,但是鑒于微博文本短小的特點,這樣傳統的檢索方式往往就會使得檢索信息結果難以達到預期效果。

同時,傳統技術的相應特點往往容易形成偽反饋從而降低檢索反饋的精度,良好的將參考文檔進行精確的選擇建立同時在偽反饋的基礎上優化相關性,這樣就能更好的通過實時反饋進行信息的檢索從而提升精確程度,最終讓檢索的內容更加具有針對性。

基于排序學習模型的微博文本檢索

在微博文本檢索中使用排序學習模型的重要性

傳統的檢索技術中,使用排序得到的結果往往比較簡單和粗糙,比如向量空間模型和語言模型等,但是基于文本的特性使得檢索仍舊能夠達到一定的精度,最終也不會產生太多檢索差異。但是對于微博文本的特點尤其是在近些年微博的使用越來越廣泛,形成的微博文檔的數量也變得越來越多,排序的簡單粗糙性就在一定程度上影響到了傳統檢索模型的搜索精度。

當人們逐漸意識到了排序模型的重要性,開始采用排序學習方法,一項基于機器學習的新的學習方法。使用機器學習技術同時讓有標注的數據自動學習一個排序模型,這樣就能讓檢索更加智能且具有時效性,最終幫助搜索結果更能符合檢索者的預期。

排序學習模型中特征抽取的相關問題

在建立排序學習模型的過程中,最關鍵的問題就是特征選擇,如何進行特征選擇往往直接決定了檢索結果。而相應的特征類別主要分為微博的相關性、微博用戶特征以及微博文本特征這三類,因此良好的將這三類特征嚴格區分并將相應的數據結合進入檢索公式當中就能有效的完善排序學習模型的建立,提升檢索的精準度。

所謂特征抽取一定不能僅僅關注三類特征中的一種,之前所提到了微博文本具有簡短而數量巨大的特征,所以只有良好的將三類特征進行嚴格的區分規劃,最終結合起來檢索,這樣才能保證提升微博檢索的有效率。使用單個特征雖然能在一定程度上減少資源的消耗但極有可能帶來的就是最終的檢索結果往往并不能盡如人意。

結束語

微博作為當前人們使用非常廣泛的社交軟件已經成為了解實時信息的重要來源之一。但是文本簡單、實時性強等特點反而增加了微博短文的檢索難度,通過相應的技術進行良好有效的解決才能將這些問題逐一解決并最終更加完善的將相應的微博信息搜索得出。通過增強和解決相應的技術問題才能從根本上解決微博文本檢索困難、信息不夠準確、達不到相應檢索者需求的一系列問題。

10.3969/j.issn.1001-8972.2015.21.025

猜你喜歡
排序信息模型
一半模型
排序不等式
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
恐怖排序
節日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 黄网站欧美内射| 亚洲色无码专线精品观看| 自偷自拍三级全三级视频| 日韩欧美国产精品| 亚洲国产成人在线| 日韩av在线直播| 国产精品免费电影| 狠狠色综合久久狠狠色综合| 九色91在线视频| 亚洲欧美一区二区三区图片| 99国产精品免费观看视频| 亚洲美女操| 亚洲精品第1页| 亚洲一区二区三区中文字幕5566| 99ri国产在线| 中文字幕日韩丝袜一区| 色偷偷av男人的天堂不卡| 9久久伊人精品综合| 99国产精品国产高清一区二区| 欧美v在线| 亚洲日韩AV无码一区二区三区人 | 久久特级毛片| 久热精品免费| 97色伦色在线综合视频| 狂欢视频在线观看不卡| 91免费观看视频| 天堂中文在线资源| 91精品福利自产拍在线观看| 四虎国产在线观看| 欧美亚洲激情| 亚洲精品第一页不卡| 亚洲成人www| 在线观看的黄网| 国产一区三区二区中文在线| 亚洲第一综合天堂另类专| 亚洲色图欧美| 婷婷久久综合九色综合88| 国产超碰一区二区三区| 人妖无码第一页| 日韩一区二区三免费高清| 特级毛片免费视频| 综合色天天| 五月天婷婷网亚洲综合在线| 久久国产精品嫖妓| 免费观看欧美性一级| 不卡视频国产| 婷婷午夜天| 美女无遮挡免费网站| 国产91高清视频| 手机成人午夜在线视频| 国产1区2区在线观看| 午夜不卡福利| 97国产在线观看| 久久99蜜桃精品久久久久小说| 超碰精品无码一区二区| 国产激情无码一区二区免费| 色爽网免费视频| www.精品视频| 国产精品亚欧美一区二区| 国产精品亚洲一区二区三区z| 久久久久免费精品国产| 亚洲国产中文精品va在线播放 | 亚洲天堂网站在线| 国产欧美视频在线| 精品国产自在现线看久久| 日韩一级毛一欧美一国产| 丁香五月激情图片| 色成人亚洲| 一级毛片免费观看久| 最新痴汉在线无码AV| 国产欧美日韩另类精彩视频| 日本一区高清| 久久无码av三级| 久久免费精品琪琪| 特级精品毛片免费观看| 亚洲国产中文欧美在线人成大黄瓜| 美女啪啪无遮挡| 亚洲精品人成网线在线 | 久久久久国产精品嫩草影院| 中文字幕中文字字幕码一二区| 欧美一区二区三区香蕉视| 四虎影视永久在线精品|