何偉,常春
(1.中國科學技術信息研究所,北京 100038;2.懷化學院,懷化 418008)
一種基于最大匹配和向量空間模型的用戶檢索詞規范化方法*
何偉1,2,常春1
(1.中國科學技術信息研究所,北京 100038;2.懷化學院,懷化 418008)
由自由詞描述的用戶檢索詞,可能會導致返回過多或過少的檢索結果。有研究顯示使用敘詞表中的語詞作為檢索詞,可提高網絡檢索系統的查準率和查全率?;诖?,本文提出一種基于最大匹配和向量空間模型的用戶檢索詞規范化方法,從詞形和詞義上進行規范化處理。首先使用最大匹配方法從詞形上對用戶檢索詞進行規范化;然后對用戶檢索詞以及詞形規范化后的語詞構造詞匯向量,計算它們間的語義相似性,從詞義上實行規范化,獲得最終的規范化語詞。試驗結果表明:本文提出的方法取得較好的效果,用戶檢索詞返回的結果大部分都可通過規范化語詞檢索獲得,當檢索詞為單個詞語時,查準率超過90%。
最大匹配;向量空間模型;規范化;敘詞表
目前多數網絡信息檢索工具所采用的關鍵詞檢索,是一種不受控的自然語言檢索機制,廣泛存在“一義多詞”和“一詞多義”的現象,且用戶由于知識背景、檢索經驗的不同,可能會選擇不同的檢索詞進行檢索,導致匹配失敗而漏檢。一些學術搜索引擎,如萬方數據知識服務平臺、百度學術搜索、中國知網等,雖然在搜索實現過程中使用一些關鍵詞和受控詞匯的標引,但大部分的標引詞匯來源于用戶經常使用的檢索詞?!?br>