摘要:提出了一個同類主題的Deep web數(shù)據(jù)源選擇方法,該方法通過數(shù)據(jù)源差異性分析可有效判斷出新數(shù)據(jù)源的內(nèi)容與集成系統(tǒng)中已有內(nèi)容的重復(fù)度,進(jìn)而利用查準(zhǔn)率和查全率建立質(zhì)量估計(jì)模型評估各數(shù)據(jù)源的質(zhì)量,削弱了已有研究中因查準(zhǔn)率低對質(zhì)量評估產(chǎn)生的負(fù)面影響。在主流圖書類網(wǎng)站上的實(shí)驗(yàn)結(jié)果表明,該方法能減少系統(tǒng)的負(fù)擔(dān),同時獲取質(zhì)量較高的同類主題的數(shù)據(jù)源。
關(guān)鍵詞:差異性分析;Deep Web;數(shù)據(jù)源選擇;質(zhì)量評估模型
中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A 文章編號:1001—3695(2011)09—3364—04