[摘 要] 針對(duì)現(xiàn)今通用搜索引擎存在信息量大、查詢不準(zhǔn)確、深度不夠的問題,提出概念分析的方法。它是用于研究信息檢索的一條重要思路,它所倡導(dǎo)的以疊置原理為核心的語義分析技術(shù),目標(biāo)是自動(dòng)地解析復(fù)合概念的語義,解決從簡(jiǎn)單的符號(hào)處理走向詞的意義處理。通過實(shí)現(xiàn)基于Web的屬性抽取,以支持基于概念的搜索模型。最終使用實(shí)驗(yàn)來分析驗(yàn)證算法,所獲得的查全率隨著迭代的遞增,不斷增加;相反,準(zhǔn)確率卻相應(yīng)下降,這個(gè)評(píng)測(cè)結(jié)果說明屬性抽取方法的可行性。
[關(guān)鍵詞] 屬性抽取;概念;過濾;查全率;準(zhǔn)確率
doi:10.3969/j.issn.1673-0194.2009.10.033
[中圖分類號(hào)]F270.7;TP391[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2009)10-0098-04
0引言
全球調(diào)查顯示,在互聯(lián)網(wǎng)上搜索引擎的使用率僅次于電子郵箱,搜索引擎服務(wù)能成為最受歡迎的服務(wù)是因?yàn)樗鉀Q了用戶在浩瀚的互聯(lián)網(wǎng)海量快速定位信息瓶頸的問題,在海量的網(wǎng)頁(yè)里找信息,按照傳統(tǒng)方式需要用戶一個(gè)網(wǎng)站一個(gè)網(wǎng)站、一級(jí)目錄一級(jí)目錄往下找,要耗費(fèi)大量的精力和時(shí)間,而且互聯(lián)網(wǎng)的信息量呈爆炸趨勢(shì)增長(zhǎng),幾年前全球式搜索引擎收錄的網(wǎng)頁(yè)量只有幾千萬頁(yè),而現(xiàn)在已經(jīng)達(dá)到幾十億頁(yè),數(shù)量增加帶來的是搜索服務(wù)的品質(zhì)下降,查詢的結(jié)果集是海量的,且結(jié)果里存在大量的重復(fù)信息和垃圾信息,用戶越來越難迅速地找到符合的信息。
本文所研究的屬性抽取基于概念分析方法,它所倡導(dǎo)的以疊置原理為核心的語義分析技術(shù),目標(biāo)是自動(dòng)地解析復(fù)合概念的語義。……