馬偉彬
(國家知識產(chǎn)權局專利局專利審查協(xié)作廣東中心 廣東省廣州市 510700)
隨著計算機技術的不斷進步,自然語言處理技術得到快速發(fā)展。文本相似度計算是自然語言處理中的重要內(nèi)容[1]。在自然語言處理中,文本相似度計算用于度量不同文本之間所表達的語義的相似程度。基于文本相似度計算相關技術被應用到機器翻譯、信息檢索、文本分類、自動摘要、輿情分析、語義感情分析、對話系統(tǒng)、論文查重等領域[2]。
文本相似度計算在專利檢索實踐中也有廣泛應用。Patentics 進行語義檢索時通過對相關對比文件的相似度進行從高到低的排序[3]。incopat 進行語義檢索時會選擇優(yōu)先顯示相關度比較高的對比文件[4]。智能檢索系統(tǒng)中,語義檢索通過計算文獻之間的相似度,然后按相似度高低給出文本語義最接近的文獻。
詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)模型、潛在語義索引(Latent Semantic Indexing,LSI)模型是常見的文本相似度計算模型,常用于自動評分系統(tǒng)以及網(wǎng)頁搜索和 DNA 序列匹配中[5][6]。
和網(wǎng)頁、試卷、DNA 序列相比,專利文獻具有格式規(guī)范,篇幅較長,有效信息出現(xiàn)頻率較低的特點。專利文獻一般包括說明書、權利要求書、說明書附圖、摘要等部分[7]。其中說明書摘要是說明書記載內(nèi)容的概述。說明書摘要記載發(fā)明的名稱和所屬的技術領域,并清楚地反映所要解決的技術問題、解決該問題的技術方案的要點以及主要用途。說明書摘要通常附有插圖。專利文獻的篇幅較長,通常超過數(shù)千字符,增大了文本相似度計算的難度。……