聶永丹,王 斌,張 巖
(東北石油大學 計算機與信息技術學院,黑龍江 大慶 163318)
隨著當前專業的學科劃分越來越細致,知識信息量爆發式增長導致了文獻激增,因此使科研工作者高效地檢索與專業研究領域相關的科研文獻非常必要。文獻檢索引擎是通過檢索關鍵詞查找相關文獻后,再依據相關度排序算法對檢索結果進行排序,將排序結果按相關度展示給科研工作者,輔助其快速找到與研究領域最相關的科研文獻。
在文獻檢索相關度排序算法中,PageRank[1]算法應用最為廣泛。PageRank最初被用于搜索引擎鏈接分析相關度排序算法在20世紀90年代提出,并應用于谷歌搜索引擎的網頁排序。PageRank算法的基本思想是在有向圖上定義一個隨機游走模型,形成一個一階馬爾可夫鏈,描述隨機游走者沿有向圖隨機訪問各個節點的行為。通過計算每個網頁所具有的PageRank值(PR值)決定其重要程度,PR值越高,表明網頁越重要,在搜索結果中該網頁的排序就越靠前。文獻的相似度排名與網頁具有一定的相似性,目前研究者大多借鑒傳統網頁相關度算法,對文獻內容與檢索詞進行相似度評估并依據相似程度對檢索結果進行相關度排名,進而提升文獻檢索效果。王丹[2]將Lucene排序機制[3]應用于PageRank算法中,但僅提高了文獻檢索速度,并未提高檢索文獻的相關匹配程度。張勇等[4]通過PageRank算法與TF-IDF(Term Frequency-Inverse Document Frequency)相結合,提高算法在文獻檢索上的效果。其缺點在于TF-IDF算法僅能提取出文獻中的主要特征詞,而對語義相同的詞語卻無法進行相關匹配檢索。……