基于Ｗｅｂ的概念屬性抽取的研究

2009-04-29 00:00:00吳月萍陳玉泉

中國(guó)管理信息化 2009年10期

［摘要］針對(duì)現(xiàn)今通用搜索引擎存在信息量大、查詢不準(zhǔn)確、深度不夠的問題，提出概念分析的方法。它是用于研究信息檢索的一條重要思路，它所倡導(dǎo)的以疊置原理為核心的語義分析技術(shù)，目標(biāo)是自動(dòng)地解析復(fù)合概念的語義，解決從簡(jiǎn)單的符號(hào)處理走向詞的意義處理。通過實(shí)現(xiàn)基于Ｗeb的屬性抽取，以支持基于概念的搜索模型。最終使用實(shí)驗(yàn)來分析驗(yàn)證算法，所獲得的查全率隨著迭代的遞增，不斷增加；相反，準(zhǔn)確率卻相應(yīng)下降，這個(gè)評(píng)測(cè)結(jié)果說明屬性抽取方法的可行性。

［關(guān)鍵詞］屬性抽取；概念；過濾；查全率；準(zhǔn)確率

doi:10.3969/j.issn.1673-0194.2009.10.033

［中圖分類號(hào)］F270.7；TP391［文獻(xiàn)標(biāo)識(shí)碼］A［文章編號(hào)］1673-0194（2009）10-0098-04

0引言

全球調(diào)查顯示，在互聯(lián)網(wǎng)上搜索引擎的使用率僅次于電子郵箱，搜索引擎服務(wù)能成為最受歡迎的服務(wù)是因?yàn)樗鉀Q了用戶在浩瀚的互聯(lián)網(wǎng)海量快速定位信息瓶頸的問題，在海量的網(wǎng)頁(yè)里找信息，按照傳統(tǒng)方式需要用戶一個(gè)網(wǎng)站一個(gè)網(wǎng)站、一級(jí)目錄一級(jí)目錄往下找，要耗費(fèi)大量的精力和時(shí)間，而且互聯(lián)網(wǎng)的信息量呈爆炸趨勢(shì)增長(zhǎng)，幾年前全球式搜索引擎收錄的網(wǎng)頁(yè)量只有幾千萬頁(yè)，而現(xiàn)在已經(jīng)達(dá)到幾十億頁(yè)，數(shù)量增加帶來的是搜索服務(wù)的品質(zhì)下降，查詢的結(jié)果集是海量的，且結(jié)果里存在大量的重復(fù)信息和垃圾信息，用戶越來越難迅速地找到符合的信息。

本文所研究的屬性抽取基于概念分析方法，它所倡導(dǎo)的以疊置原理為核心的語義分析技術(shù)，目標(biāo)是自動(dòng)地解析復(fù)合概念的語義。……

登錄APP查看全文

中國(guó)管理信息化 2009年10期

中國(guó)管理信息化的其它文章: 企業(yè)人力資源管理中常見法律風(fēng)險(xiǎn)探析; 非貨幣性資產(chǎn)交換中交易類型確定問題探討; 信息化環(huán)境下的會(huì)計(jì)造假手段及其相關(guān)案例剖析; 現(xiàn)金股利與公司治理的契合; 我國(guó)企業(yè)發(fā)展移動(dòng)供應(yīng)鏈的ＳＷＯＴ分析; ＩＴ環(huán)境下財(cái)務(wù)會(huì)計(jì)信息披露