999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

潛在語義索引理論及其應用

2015-07-10 19:01:19劉健
卷宗 2015年1期
關鍵詞:語義詞匯文本

劉健

摘 要:潛在語義索引(LSI)是一種信息檢索代數模型,它使用統計計算的方法對大量的文本集進行分析,從而提取出詞與詞之間潛在的語義結構,并用這種潛在的語義結構來表示詞和文本,達到消除詞之間的相關性和簡化文本向量實現降維的目的。文章分析了潛在語義索引的理論基礎:向量空間模型和奇異值分解;闡述了潛在語義空間構成的具體步驟;并探討了潛在語義索引在文本檢索和圖像檢索等方面的應用。

關鍵字:潛在語義索引;VSM;SVD;信息檢索

1 引言

在現代信息檢索系統中,通過關鍵詞進行檢索是最為常見的做法。大量研究表明,基于關鍵詞的檢索系統存在所謂“同義詞”和“反義詞”的固有缺陷:前者是指表達同一概念的詞語可以有多個,因此,用戶查詢中所用的詞語很可能在相關文檔中不存在,從而造成檢出率下降;后者是指同一個詞語可以表達多個概念,造成檢出的文檔中雖然包含該詞語,但在上下文語境中的意思卻非用戶所期望,從而導致準確率下降。潛在語義索引方法正是為了解決上述問題而提出的。

2 潛在語義索引概述

潛在語義索引,也稱隱性語義索引或隱含語義索引,用于知識獲取和展示的計算理論和方法,它使用統計計算的方法對大量的文本集進行分析,從而提取出詞與詞之間潛在的語義結構,并用這種潛在的語義結構來表示詞和文本,達到消除詞之間的相關性和簡化文本向量實現降維的目的。

3 潛在語義索引的理論基礎

3.1 向量空間模型

向量空間模型的基本思想是以向量來表示文本,它的優點在于處理逆輯簡單、快捷,它將非結構化的文本表示為向量形式,使得各種數學處理成為可能。例如:2008年原媛等發表的《基于向量空間的信息檢索模型的改進》中,因詞語的同義和多義,不能滿足文檔向量相互獨立方面,提出潛在語義索引模型[1]。

3.2 矩陣分解方式

早先信息檢索利用正交分解方法,但這種方法已經被奇異值分解取代。

對詞匯一文本矩陣A的奇異值分解可以用以下公式表示:

(1)

其中U是t×t的正交矩陣,它的每一列是A的左奇異向量,V是d×d正交矩陣,它的每一列是A的右奇異向量, Σ是t×d對角矩陣,對角線元素是A的奇異值,按大小順序排列,即λ1≥λ2≥……≥λmin(t,d)。A的k秩近似Ak是讓A的除了前k個最大奇異值以外的奇異值都置為零。得到以下公式:

(2)

其中Uk是U的前k列形成的t×k矩陣,Vk是V的前k列形成的d×k矩陣,Σk是

A的k個雖大奇異值形成的k×k對角矩陣。

4 潛在語義空間構成的具體步驟

4.1 “詞匯-文檔”矩陣的形成

在潛在語義索引中,則需要首先構建一個詞匯-文檔矩陣X。由各索引詞在每篇文本中的出現頻率生成詞匯-文檔矩陣X,該矩陣中,第i行第j列的元素數值Xij表示第i個索引詞在第j篇文本中出現的頻率。

4.2 奇異值分解

對X進行奇異值分解后,得T、S、D三個矩陣,S為r階對角矩陣,對角線元素為奇異值,T為t×r陣,D為r×d陣。每一詞匯、每篇文本都能根據分解結果,在一個幾何空間內,找到其相應的固定點,然后,可以依據其相互間距離之遠近來判斷其相關程度之高低,詞匯的空間位置由t×r陣T而定,文本則由r×d陣D而定,該空間就被稱為r維潛在語義空間。

4.3 提問式的幾何表示

詞匯和文本在空間內定下坐標后,還必須為提問式找到其幾何表示方法使它能在同一個k維語義空間里表示,然后與空間里的文本進行比較。由于提問式和文本相似,通常也由多個詞匯構成,因此可以將它稱為“偽文本”,記作q。

將提問式看作為普通文本,效仿“詞匯-文檔”矩陣的建構方法,根據索引詞在提問式中出現的頻次,也能得到一列向量,記作Xq,用下式對q進行處理:

(3)

Dq即為提問式的向量表示,即得k維語義空間中提問式的坐標。

詞匯、文本、提問式三者的坐標向量,構成了我們所需的潛在語義空間。

5 潛在語義索引的應用

5.1 文本檢索

5.1.1 跨語言檢索

近幾年對于基于潛在語義索引的跨語言檢索有了快速發展,比如2010年寧健等發表的《基于改進潛在語義分析的跨語言檢索》采用基于奇異值矩陣分解的改進潛在語義分析的方法為生物醫學文獻雙語摘要進行建模 [2]。

5.1.2 信息過濾

信息過濾技術結合了現有的信息檢索方法,對解決網絡信息的個性化、動態化以及提高被查詢信息對用戶的可用度有很大作用。2008年張虹等發表的《基于隱式反饋的LSI個性化信息過濾方法的研究》提出利用隱式反饋技術來解決如何提供給不同用戶以不同信息結果這一問題[3]。

5.1.3 文本聚類

潛在語義索引可用于文本聚類中,提高文本聚類的準確率。比如2011年鐘將等發表的《基于成對約束的主動半監督文本聚類》提出一種基于成對約束的主動半監督文本聚類方法 [4]。

5.2 圖像檢索

直觀地看,圖像可以表示為像素矩陣,但是單個像素并不具備語義,所以必須尋找能反映圖像語義內容的矩陣。2009年龔主杰發表的《潛在語義索引在圖像檢索中的應用》中提出了將數學上的凸點從圖像中提取出來后,用局部特征描述符來描述它們并可以構建一個“可視詞匯—圖像矩陣” [5]。

5.3 認知科學

在認知心理學中,LSI是一種語言學習模型。LSI的學習同孩子的學習過程類似,這兩者的學習效率相差也不大。Landauer和Dumais教授等,通過文本理解、托福測驗、學校兒童對詞匯的學習等等方面,應用LSI與人類行為相對照,得出了LSI可以獲取、歸納和表述知識的結論。

5.4 潛在語義索引的其他應用

目前,除上述幾種常見的潛在語義索引應用之外,許多學者還提出了許多潛在語義索引的應用領域,拓展了潛在語義索引的應用范圍。比如2008年米曉芳等發表的《基于潛在語義差異的醫學網頁聚類》提出一種新的潛在語義差異模型,利用 FCM 算法進行聚類并計算類間包含度 [6]。

6 結束語

潛在語義索引通過奇異值分解,將文檔在高維向量空間模型中的表示,投影到低維的潛在語義空間中,有效地縮小了問題的規模。它生成的高維向量矩陣適于對象間的匹配比較;它不僅是知識表述的工具,而且也是機器學習的一種模型。隨著不斷擴充新的方法來完善LSI,以及進一步研究如何將LSI基本思想方法和圖像等具體處理技術相結合,使其在更為廣闊的領域中得到有效的利用。

參考文獻

[1]原媛,彭建華,張汝云.基于向量空間的信息檢索模型的改進[J].計算機工程與設計,2008,29(23):6012-6015.

[2]寧健,林鴻飛. 基于改進潛在語義分析的跨語言檢索[J]. 中文信息學報,2010,24(3):105-111.

[3]張虹,徐群益,蘇晨. 基于隱式反饋的 LSI個性化信息過濾方法的研究[J]. 電腦知識與技術,2008,(12):506-508.

[4]鐘將,劉龍海,梁傳偉. 基于成對約束的主動半監督文本聚類[J].計算機工程,2011,37(13):183-186.

[5]龔主杰. 潛在語義索引在圖像檢索中的應用[J]. 圖書館學刊,2009,(5):91-93.

[6]米曉芳,秦洋,王立宏,宋宜斌. 基于潛在語義差異的醫學網頁聚類[J]. 計算機工程,2008,34(19):64-66.

猜你喜歡
語義詞匯文本
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
在808DA上文本顯示的改善
本刊可直接用縮寫的常用詞匯
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: a级毛片免费看| av天堂最新版在线| 国产小视频在线高清播放| 亚洲综合日韩精品| 成人免费网站久久久| 国产女人水多毛片18| 国产九九精品视频| 国产69精品久久久久孕妇大杂乱 | 蝴蝶伊人久久中文娱乐网| 国产成人精品一区二区| 正在播放久久| 在线观看无码a∨| 精品一区二区三区水蜜桃| 99久视频| 亚洲无码视频喷水| 成人国产精品网站在线看| 91青青视频| 国产视频入口| 国产女人喷水视频| 特级精品毛片免费观看| 亚洲激情99| 国产乱人免费视频| 中文字幕亚洲电影| 欧美日韩资源| 亚洲男人在线| 无码有码中文字幕| 免费国产无遮挡又黄又爽| 台湾AV国片精品女同性| 欧美精品xx| 九九香蕉视频| 久久免费视频6| 激情视频综合网| 亚洲综合极品香蕉久久网| 乱人伦中文视频在线观看免费| 国产精品欧美在线观看| 国产激情无码一区二区免费| 国产十八禁在线观看免费| 久久久久中文字幕精品视频| 日韩精品一区二区三区swag| 国产精品3p视频| 欧美yw精品日本国产精品| 69视频国产| 久久综合亚洲鲁鲁九月天| 澳门av无码| 亚洲欧美日韩视频一区| 在线欧美一区| 欧美性色综合网| 91久久国产综合精品| 男人的天堂久久精品激情| 毛片国产精品完整版| 黄片在线永久| 中文字幕亚洲另类天堂| 狠狠色婷婷丁香综合久久韩国 | 色屁屁一区二区三区视频国产| 欧美成人午夜在线全部免费| 亚洲av无码人妻| 欧美国产日韩在线观看| 中文字幕亚洲综久久2021| 国产精品女主播| A级毛片高清免费视频就| 韩国福利一区| 欧美精品不卡| 亚洲第一成年网| 福利在线免费视频| 亚洲熟女中文字幕男人总站| 国产视频大全| 欧美a级在线| 国产精品福利社| 女人毛片a级大学毛片免费| 在线一级毛片| 欧美日韩一区二区在线免费观看| 亚洲91精品视频| 波多野结衣在线一区二区| 国产一级精品毛片基地| 国产精品va免费视频| 国产成人精品一区二区免费看京| 高清欧美性猛交XXXX黑人猛交 | 青青操视频免费观看| 亚洲精品va| 全免费a级毛片免费看不卡| 高清国产在线| 国产亚洲成AⅤ人片在线观看|