
摘 要:通過語義相關度進行搜索引擎的設計是一種有效途徑,現(xiàn)通過分析搜索時獲得的頁面數(shù)和各頁面的關鍵詞密度,提出一種基于核函數(shù)的語義相關度算法。同時,在標準測試集上進行數(shù)據(jù)實驗,并與其它幾種已有方法對比,結果顯示該方法與專家打分值的Spearman相關系數(shù)最高,進一步表明了該算法的有效性,由于新算法中使用的關鍵詞沒有詞性、語法等限制,且算法簡便,所以有利于實際應用和推廣。
關鍵詞:搜索引擎;語義相關度;核函數(shù);關鍵詞密度
中圖分類號:TP391.41 文獻標識碼:A 文章編號:2096-4706(2018)09-0077-03
Abstract:It is an effective way to design search engine through semantic relevancy. By analyzing the number of pages obtained and the keyword density of each page,a semantic correlation algorithm based on kernel function is proposed. At the same time,the data experiment on the standard test set is carried out and compared with several other existing methods. The results show that the correlation coefficient of the method and the Spearman of the expert score is the highest,which further indicates the effectiveness of the algorithm. Because the key words used in the new algorithm are not restricted by parts of speech and grammar,and the algorithm is simple,it is conducive to practical application and promotion.
Keywords:search engine;semantic relatedness;kernel function;keywords density
0 引 言
隨著“互聯(lián)網(wǎng)+”時代的到來,信息資源數(shù)量激增,搜索引擎已成為獲取信息的重要工具之一,這也必然會引起人們對搜索引擎的重視與研究。目前,搜索引擎研究的兩個主要方面分別是搜索結果排序與評測,將語義相關度、相似度的工作融入到搜索引擎的工作中,會使其更精確、更智能[1]。
現(xiàn)有的語義相關度計算方法大致可分為傳統(tǒng)的和基于網(wǎng)絡百科全書的計算方法[2],如上下文向量方法[3],潛在語義分析(LSA)[4],顯示語義分析(ESA)[5]都可以用于計算,但其大多依賴Wordnet、Hownet等語義詞典或語料庫,使得算法本身就存在局限性,如受數(shù)據(jù)噪聲的影響較大[2]且不便于計算。基于搜索引擎算法的出現(xiàn)使得這部分問題得到有效緩解,李素建在QA系統(tǒng)中引入語義計算,通過詞與詞之間的相似度與相關度,算得語句間的相關度[6];陳海燕利用語義片段去除噪音,提出SRPMI算法[7];陳肖雨等提出基于Page Counts的相關度算法[1]?!?br>