文檔檢索中文本片段化機制的研究*

2020-04-15 09:45:18李宇，劉波

計算機與生活 2020年4期

李宇，劉波

暨南大學信息科學技術學院計算機系，廣州 510632

1 引言

信息檢索（information retrieval，IR）的直接目的是查找用戶所關注的信息。IR 既包括常見的搜索引擎、文章推薦等各種系統，也包括一些嵌入在應用里面的隱式查詢，如抖音、美團等通過用戶歷史數據來查找用戶的興趣點。IR 技術中使用的文本間相似度算法[1-3]在釋義識別、語言研究、文本分類等領域也有著廣泛的應用。本文研究的檢索對象是長文本，即由句子構成的段落或文章。長文本具有信息量豐富且冗長的特征，對于要查詢的信息，長文本匹配往往不是全部語句與查詢語句都相關，還可能出現某些高相似片段的強干擾。在最新的研究中，許多學者將文本特征表達與相似性匹配結合起來[4-5]，致力于在特定領域中探索不同文本表達式對應的相似度匹配方案，以提高檢索準確率。

目前，文本長度較長時可能帶來的負面影響：

（1）當文本較長時，一些體現查詢意圖的詞、短語分散在文檔中，整篇文檔直接比較會影響關聯匹配效果和整體檢索性能。

（2）一些文本相關性計算方法或相似度匹配算法往往會受到長度的影響[6-7]，檢索出來的有效文本的質量很不穩定。

Fig.1 Analysis of related medical reports圖1 關聯醫學報告的查詢分析

如圖1 中，與查詢詞hemophilia pseudotumor（血友病，腫瘤）關聯的醫學報告文檔中，全長277 單詞，9個長句，其中查詢有關的詞只出現6 次，但在5 個句子中有提及，頻度低但分散程度均勻，使得采用一般計算方法所得的相關性整體得分偏低。

近年來，一些工作[8-9]在論壇、產品評論、微博、電影評論等短文本相似度計算及匹配研究方面取得了很好的成果。Chen 等人[10]提出了內容感知的主題模型，將高度相關的片段應用到主題模型的構建中，提高了主題分類的效果。短文本匹配的優點在于：相似性匹配方法比較直接，受到比較文本之間的長度差異影響小，區分度很高。但其不足在于：數據量小，缺乏上下文信息，一出現相同詞眼便具有較高的相似度，又由于文本數據稀疏而難以對單詞權重進行準確評估。

為了能提高長文本有價值部分的利用率，本文提出文本片段化機制（text snippet mechanism，TSM），其通過提取重要的短文本句子片段來度量查詢與文檔之間的相關性，目的是利用關鍵有效的文本片段信息提升文檔整體相關性評分的參考價值，在一定程度上消除文檔長度對相似度匹配的影響。本文的主要研究內容如下：

（1）如何實現長文本進行切分、記錄、篩選、整合。

根據標點和一些特殊符號對文本進行切分，查詢語句和候選文檔看作是一個或幾個文本片段組成，通過查詢片段來檢索相近內容的文檔時，能關聯出多個相似片段的文檔。候選文檔中提取的片段與查詢片段之間的相似性越高，那么被提取的概率和設置的權重就越高。片段之間的比較可以很好地削弱噪聲數據的影響，因為在某些候選文檔中只匹配極少與查詢相似度極高的片段，但高度的局部相似性并不意味著這些候選文檔與查詢內容相關。

（2）如何在片段化機制中對查詢文本和候選文檔的片段進行整體相關性評分。

本文在文本片段之間的相關性評估上，以統計模型BM25[11]和語義模型WMD（word mover's distance）[12]為基礎，結合單詞權重的相似度匹配方案來檢索相關文檔。在整體相關性評分中，考慮了候選文檔篩選提取后的相關片段本身的相關性評分信息以及相關片段比率。

2 文本檢索相關技術

在文本檢索的研究中，主要涉及文本表達特征、相似度匹配、查詢拓展、碎片化方法等方面的研究，相關技術成果介紹如下。

2.1 文本表達及相似度匹配

2.1.1 TF-IDF 和BM25

TF-IDF（term frequency-inverse document frequency）是一種基于語料庫的統計方法，它通過詞的頻率和詞在文檔集中的分布密度來反映詞的重要性，然后將所有詞的權重映射到一個固定的向量空間中，可應用于文本表示。現在已經開發出許多改進的TFIDF 形式的變體[13]，研究人員利用這些變體計算向量空間之間的余弦，完成分類或相關匹配任務。然而，這種向量空間的表示是稀疏的，忽略了詞頻的增長限制和詞匯間的相關信息。

Robertson 等人[11]提出了一個相似度評分標準BM25，專門用于查詢語句和候選文檔之間的相關性匹配。為了估計查詢語句Q和候選文檔D的相關性，BM25 公式定義為如下:

其中，q表示查詢語句Q的查詢項（單詞），|DSet|表示文本集中的文檔總數，len(D)表示當前文檔單詞總數，nq表示在語料庫中有多少文本出現查詢項q，qf表示查詢項q在查詢文本Q中的詞頻，f表示查詢項q在候選文檔D中的詞頻，b、k1、k2是需設置的超參數，avgl是文本語料庫中文檔的平均長度。式（2）用于計算逆向文檔頻率（inverse document frequency，IDF）。

BM25 分解查詢中的每個單詞項q，計算q與候選文檔D之間的相關得分，并對所有相關得分進行加權求和。BM25 考慮了詞頻上限和文檔平均長度對文本相關性得分的影響。但文獻[14]發現，由于文章長度平均值的設置，BM25 搜索功能在實踐中往往會過度懲罰有用的長文檔。Na 等人[15-16]提出了文本冗余的概念，將BM25 改進為vnBM25，修正后的公式可以有效地緩解文章長度的冗余影響。

2.1.2 詞嵌入模型和WMD

考慮到詞語出現的順序是文本表達的重要因素，Bengio 等人[17]提出了神經網絡語言模型（neural network language model，NNLM），產生了詞嵌入文本表達方式，如word2vec，以及統計概率模型的產物glove[18]。word2vec 的核心思想是從大量的上下文信息中學習單詞的語義信息[19]，詞匯的語義表征值映射到k維實空間中的向量（k是一個可設置的超參數），即詞向量。

Kusner 等人[12]在詞向量的基礎上提出了詞移距離（WMD），從文本轉換成本的角度計算兩文本對象的相似度，該思想來源于測地距離（earth mover's distance，EMD）[20]：一種線性規劃中求解多工廠多倉庫運輸問題最優解的方法。Kusner 將查詢文本的每個詞向量視為工廠，并將候選文檔的每個詞向量視為倉庫。相關性越強，運輸轉換成本越低。假設將查詢文本Q轉換為文檔D，WMD 公式如下：

其中，單詞i和單詞j分別在文檔Q、文檔D中；文檔Q、D中出現的單詞總數分別為M、N；dij代表單詞i、j之間的距離，一般可以用向量之間的歐幾里德距離表示；fij表示單詞i轉換為單詞j的成本；Di、Qj為單詞i和單詞j用歸一化詞袋模型表示的值，即單詞在所在文本中的出現比率。

2.2 查詢擴展技術

查詢擴展（query expansion，QE）是目前文本檢索的常用手段。Hao[6]在問答研究中提出了基于wordnet的針對問題目標詞擴展方法，顯著提高了目標詞與回答類型匹配的準確性。Guo 等人[21]將實體的復雜關系一塊記錄在文本數據中，構造語義關系網絡，用于擴展查詢和啟發式查詢。Blei 等人[22]提出的生成概率模型（latent Dirichlet allocation，LDA），采用文檔、主題和單詞的三層結構來挖掘主題對應的單詞分布，相關研究者[23]利用LDA 模型在檢索前挖掘查詢文本的主題，并根據所屬題目的詞類分布情況添加擴展詞。

除了直接從輸入文本擴展單詞外，還有其他使用偽相關反饋技術的擴展方法[4,24]。反饋信息包括一些訓練模型的結果和一些實時數據或日志，記錄了在線用戶的點擊、閱讀停留時間、反饋意見等操作。通過分析反饋信息，補充一些有用的特性并用于重新查詢。但獲取高質量的相關查詢詞是一個挑戰，因為一個簡短的查詢常常不能完全傳達用戶的搜索意圖,使得查詢擴展的方向具有不穩定性。查詢擴展詞的不精確會導致檢索性能下降。許多實驗表現出QE 方法的性能不如原始查詢。

2.3 文本片段機制

Rathod 等人[25-26]研究發現，探索和利用包含多個相關且不同單詞的片段，往往比將這些單詞直接加入查詢進行檢索更有效，因為擴展的內容（特別是對于一般的、模糊的查詢）可能與查詢無關。許多相似性匹配方案往往受到長文本長度的影響[27]。Ceccarelli等人[28]證明了高質量短文本片段對用戶查詢具有較高的價值，可以顯著提高查詢的檢索性能。Chen 提取了有效的上下文片段，增強了主題模型的主題預測能力，在訓練過程中建立了一種新的分段提取判斷規則，將其從主題模型中分離出來，使實驗更具可調整性。

受上述思想的啟發，本文利用標點符號切割（句號、分號等）方法得到大量的文本片段，并利用相似度計算結果選擇出高質量的文檔片段。該方法通過提取重要的短文本句子片段來度量查詢與文檔之間的相關性，更好地消除文檔長度對相似度匹配的影響。

3 信息檢索中的文本片段機制

本文利用標點符號切割（句號、分號等）方法得到大量的文本片段，并利用相似度計算結果選擇出高質量的文檔片段。該方法通過提取重要的短文本句子片段來度量查詢與文檔之間的相關性，結合上下文并更好地消除文檔長度對相似度匹配的影響。

相對于已經提出的許多片段化方式，提出的TSM 目的是提取與查詢有關的短文本并進行相關度整合，包括片段篩選和相關性分數的整合計算過程。發現篩選過程產生的相關片段比例在評估文檔相關性中是一個非常重要的因素，它可以大大減少部分短文本高度相似偏向的影響。

3.1 基于文本片段機制檢索模型概述

本節提出了一種用于信息檢索的文本片段機制TSM，圖2 顯示了TSM 檢索模型的框架。它分為三個模塊，即預處理模塊、相似度匹配模塊、片段管理模塊。如圖2 中所示，主模塊對文本進行分詞、刪除停止詞與詞干等預處理，相關的候選文檔集通過倒排索引庫獲得，顯示最后的排序結果。片段機制管理模塊對相關候選文檔進行的一系列文檔片段操作，包括文本切割、片段間相關性計算、記錄片段信息、篩選相關片段、集成計算和文檔排序。相關性計算所涉及到的相似度匹配算法等都封裝在相似度匹配模塊中。圖3 展示了基于TSM 的檢索處理流程示例，分為如下三個階段。

Fig.2 Framework of retrieval model by TSM圖2 TSM 檢索模型運行流程

第一階段：文件切割。查詢文本和候選文檔將被標點符號和一些特殊符號分割。

第二階段：記錄片段信息。通過不同的相似度匹配對候選文檔中的每個片段進行評分。查詢和被查詢片段的文本特征表示與使用的相關性度量有關。如果使用BM25，則將文本單詞的TF-IDF 值作為文本特征；如果使用WMD，則將語義詞向量作為文本特征。

第三階段：提取、整合計算、排序。提取每個候選文檔的高度相關文本段，并記錄相關片段比率(相關片段比率是指高度相關片段占整個文檔片段的比例)；對收集的相關片段記錄元組綜合排序分配權重，根據整合公式計算出查詢與候選文檔相關度總分，并根據總分排序。

Fig.3 Processing flow of snippet model圖3 片段化管理模塊處理過程

例如，在圖3 中，假設候選文檔由六個句子組成，而查詢由三個句子組成。在候選文檔中記錄句子片段，用元組（index，r-score）表示，其中index是在候選文檔中句子片段的位置，r-score是這個句子片段與查詢句子計算后的相關分數。篩選后得到的相關片段以粗體顯示（本例是文檔中的第一個、第二個和第四個句子片段），它們的相關分數參與整合運算，結果為該文檔的最終相關性得分，并依據該得分參與檢索結果排序。

本文方法可以嵌入現有典型搜索方法中，如在Lucence 全文檢索引擎框架中應用本文方法是可行的。在第一階段，文檔片段來源于候選文本集，可以利用Lucence 本身的倒排索引與評分體系得到候選文本集，大大減少所需要片段化的文檔數量，接著候選集文本可以經過TSM 的處理，進一步篩選片段，并參與后續的相關度整合計算。將本文提出的片段化機制與現有搜索方法相結合，發揮了短文本匹配的優勢，同時考慮了上下文信息以及各片段的重要度，能夠提高檢索的準確性。

3.2 片段相關性評分及相關片段比率

有些相似性匹配方案，雖然考慮了相同或相似詞對的存在可能性，但它們可能對于檢索結果參考意義不大，即使在文檔中重復出現多次，也不能反映出真實的查詢意圖。本文分別基于BM25 和WMD相似度匹配方法進行片斷之間相關性計算。如果采用BM25，其已經考慮了查詢項在候選文檔中的權重，因此它們片段之間的相關評分參照式（1）計算。

如果采用WMD 相似度計算方法，補充考慮了片段中相似詞對權重的影響。基于WMD 的兩條句子的相關性評分計算式如下：

其中，S為提取的相似詞集，|S|為詞集中元素的個數，idfri代表詞語元素ri在語料庫中IDF 值，idfmax代表語料庫所有詞語中最大的IDF 值。

在獲取相關文本片段的過程中，相關性評分閾值m將用于判斷目標片段是否是相關片段，并影響相關片段比率（標記為rs_ratio）的結果。rs_ratio定義如式（6）。

其中，Q表示查詢，S表示最終在候選文檔D中包含的相關片段序列，Swhole是從文檔D中能提取到的所有片段，Saccept是經過篩選過濾操作后被接受的相關片段集合，s為某一片段。如果rela_score(Q,s)＞m，該片段為相關片段，rs_ratio(Q,S)表示在D中與Q相關的片段數與所有片段數的比值。

相關性閾值m在短文本片段篩選分析中起到非常重要的控制作用，當m值過高，會過濾掉過多的有參考價值片段，導致相關片段比例變小，整體分數降低；當m值過低（趨近于0），會保留過多沒有參考價值的片段，相關片段比例過大（趨近于1），這使得片段化失去了意義，無法提高大多數相關片段低頻均勻分布的關聯文檔。在實驗中，經敏感性分析取得了比較適當的值，即根據語料庫中的詞匯平均idf值進行調節，見4.3 節。

3.3 相關片段提取算法

給定一個元組序列，每個元組為與查詢高度相似的相關文本片段的索引號和相關性分數，形如[(Indexs1,Scores1),(Indexs2,Scores2),…]。提取高質量的片段直接影響到最終的方案選擇和整體評分。

相關的片段獲取處理流程描述（related snippet acquisition processing，RSAP），如算法1 所示。

變量說明如下：Q為查詢；processed_doc為預處理后候選文檔集；q-snippets、d-snippets為查詢文本片段、候選文本片段；片段總數分別為dlen、qlen；q-features、d-features分別為查詢文本片段和候選文本片段的文本表達特征；match_fun為計算片段相關性評分中使用到的相似性計算方法（BM25或WMD）；相關性片段的閾值設置為m；accept_num記錄篩選過程中被保留下來的相關片段數；最后返回輸出上述描述的記錄元組序列T和相關片段比率r。

算法1 RSAP 算法

在RSAP 算法中，步驟1 查詢文本和候選文本進行切割操作，得到相應片段集合；步驟2 根據匹配算法的需要提取相應的文本特征；步驟3 根據相似性匹配方法match_fun計算得到的結果相關性矩陣，其中矩陣元素為各個文本片段與查詢片段之間的相關性評分；步驟5～步驟10 給出了相關片段的標注和篩選過程。

例如，一個相關矩陣如下，其中S0、S1、S2 為候選文檔的句子片段，它們在候選文檔中的位置索引編號分別為0、1、2；Qa、Qb、Qc是組成查詢文本的疑問句子片段；S0-Qa表示S0 與Qa之間的相關性評分。

在上面矩陣的每一行中，選擇候選文檔語句和查詢語句的最大相關性評分，得到元組序列：[(0,2.00),(1,8.80),(2,9.11)]。如果閾值m設置為5.80，則根據式（6），最終選擇的相關片段元組序列T為[(1,8.80),(2,9.11)]，相關片段比率r為2/3=0.667。

3.4 計算相關性整合分數

所選元組序列的整合分數表示候選文檔的最終相關性評分，并由式（7）計算，如下：

在式（7）中，候選文檔的最終相關性整合分數可以分為兩部分：一個是針對記錄的相關片段元組中的相關性得分的價值函數v(S)，它反映了相關片段元組序列S的整體參考值；另一個是相關片段比率rs_ratio(Q,S)，它反映查詢與候選文本之間有多少相似成分。當文檔中的一個片段得分較高時，它能在一定程度上反映與查詢的相關性，將其作為關鍵文檔片段，可以增加得分高的相關片段的權重，同時考慮相關片段比例的影響。

本文提出兩種計算v(S)的方案：第一種計算方式，強調最重要的片段，并計算元組序列中相關片段的平均值，如式（8）所示；第二種計算方式，假設相關的代碼片段是第一個非增量排序的，根據相關性分數排序給出每個片段的權重，如式（9）所示。

價值函數1：

價值函數2：

其中，max(S)為相關片段元組序列S中最大的相關性評分數值，n為序列長度，si是指在序列中（已按相關性分數值由大到小排序）的第i個元組的相關性分數值。

例如，假設相關片段元組序列為[(0,9.00)(4,7.00)(5,6.00)]，相關片段比率為0.20，采取第一種價值函數計算方式時，整合得分為：

采取第二種價值函數計算方式時，整合得分為：

將價值函數引入到整合相關度評分中，更有效地利用了短文本片段的分數值。如果不采用價值函數判定短文本句子片段的重要性，單考慮相關片段比例，會導致許多文檔排名并列的情況，而缺乏大量的參考信息。所設計的價值函數能增加得分高的相關片段的權重。

3.5 TSM 運算復雜度分析

設R為某一種片段之間相關性評分算法（如BM25），其復雜度記為O(R)，p為查詢文本的片段數，n為候選文本的片段數，片段化機制的運行時間主要開銷花費在三部分：（1）片段之間相關度計算，復雜度為OPA=O(pnO(R))；（2）片段提取運算，為提取每個目標文本片段的最大值，復雜度為OPB=O(n)；（3）與價值函數有關片段整合運算，復雜度為OPC，因為片段提取過濾操作的存在，所剩片段數少于pn，所以OPC＜O(pn)，TSM 整體運行復雜度為O(TSM)=OPA+OPB+OPC＜O(n)+O(pn)+O(pnO(R))=O(pnO(R))。

當相關性評分算法R為BM25 時，運算復雜度為O(wq)，wq為查詢語句中的查詢詞個數，此時TSM運算復雜度O(TSM)=O(pnwq)；當R為WMD 時，運算復雜度為，wd為文檔中非重復詞的個數，因此采用WMD 的查詢效率明顯低于BM25。

由于查詢語句一般較短，p大部分為1，則采用TSM 方法與原始方法相比，候選文本的片段數n的大小是運算效率差別所在。當語料庫中文本可提取的片段越多時，TSM 單一查詢所消耗的時間越長。

與其他片段化方式比較，例如，固定窗口滑動切分的形式[10]，假設nk是以窗口長度為k分割后得到的片段數，Wd為構成文本的單詞總數，則復雜度為O(nkWdO(R))，高于TSM 的復雜度。

4 實驗結果分析對比

本文使用的數據集來自Glasgow 大學收錄的信息檢索標準文本測試集，數據集的詳細情況展示如表1。這6 個數據集的原始文本保留了標點符號，能用于實驗測試。

Table 1 Information of datasets表1 數據集信息

實驗中使用的實驗方法和代碼分享于https://github.com/malajuanxiao/tx_snippet。

Glasgow 大學IR test collection 數據集公開網址http://ir.dcs.gla.ac.uk/resources/test_collections。

4.1 評估標準

實驗使用準確率、召回率、F1[29]、mAP（mean average precision）[30]這幾個信息檢索常用指標作為實驗模型的評估標準。準確率、召回率定義為：

其中，TP為與查詢相關且被正確識別文檔的數目，FP為與查詢不相關且被錯誤識別文本的數目，FN為與查詢相關卻未能被識別文本的數目。

由于文本檢索中每組實驗獲取的是Top-K的文檔數，因此：

根據P和R，F值定義如下：

當參數a＞1，準確率的參考值加重，a＜1 則相反，一般情況下平等權衡取值為1，即F1=2PR/(P+R)。F1 綜合考慮準確率、召回率的性能，F1 越高，反映檢索模型性能越好。

mAP表示所有查詢在不同召回率下的平均精度的積分，反映了搜索排名的全局性能。定義如下：

其中，R*指召回率指標；P(R*)是指在不同R*下的準確率分布。

4.2 實驗對比分析

本節使用兩種基準匹配方案（baseline）BM25、WMD，與使用TSM 優化機制的實驗結果進行了對比，這里使用到的BM25 算法為vnBM25[15]。所有實驗中相關片段的選擇閾值m為基于語料庫中所有單詞的平均IDF值。Med 數據集的平均IDF值為5.878，LISA 數據集的平均IDF值為7.381。

采用的實驗方案歸納如下：

兩個baseline（BM25 和WMD）：基于python nlp的gensim[31-32]庫實現。

TSM_BM25(v1(S))：片段匹配方案使用BM25，相關性整合分數使用v1(S)。

TSM_BM25(v2(S))：片段匹配方案使用BM25，相關性整合分數使用v2(S)。

TSM_WMD(v1(S))：片段匹配方案使用WMD 的相關性整合分數使用v1(S)。

TSM_WMD(v2(S))：片段匹配方案使用WMD 的相關性整合分數使用v2(S)。

每個實驗從測試集查詢的搜索結果中提取Top5、Top10、Top20（Q5、Q10、Q20）來計算平均查準率、查全率和F1 得分。6 個數據集的評估結果如表2～表7 所示。下面以Med 和LISA 的實驗結果為例進行分析。

從表2、表3 中的結果來看，Med 的實驗結果比LISA 好。LISA 數據集涉及與信息技術相關的知識，領域廣泛，存在大量的噪聲數據，容易混淆；而Med數據集只涉及醫學領域，范圍和內容更為具體，因此搜索結果的準確性會更好。TSM 能取得較好的結果，特別是Top5 和Top10 的查詢結果，符合精細搜索結果的目的。

為了更直觀地反映性能差距，選取了兩種方法的實驗結果進行了可視化對比，一個是BM25，另一個是TSM_BM25，片段整合計算使用v2(S)價值函數，這兩種方法針對全文本庫在不同召回率下的平均精度的曲線直觀地反映出mAP值，如圖4 和圖5 所示。

Table 2 Evaluation of Med dataset表2 Med 數據集測試評估

Table 3 Evaluation of LISA dataset表3 LISA 數據集測試評估

Table 4 Evaluation of ADI dataset表4 ADI數據集測試評估

Table 5 Evaluation of CACM dataset表5 CACM 數據集測試評估

另外，本文模型與多個其他文獻公開的檢索模型的實驗結果進行了比較，包括圖檢索模型（graph comparison，GC）、TF-IDF空間矢量的余弦方法Cosine（TF-IDF）[33]、改進的LSI方法（latent semantic indexing），如kLSI、LSI-Q、LSI-U[34]。此外，根據文獻[6,22]的描述，結合wordnet、LDA 模擬查詢擴展[35]的方法進行了實驗，標記為QE（WN）、QE（LDA）。表8 列出了針對Med 數據集每種方法的平均精度，實驗結果表明TSM 具有最好的效果。

Fig.4 mAP distribution comparison in Med圖4 Med 數據集mAP 曲線

Fig.5 mAP distribution comparison in LISA圖5 LISA 數據集mAP 曲線

Table 8 Average precision of several methods表8 各實驗方法的平均精度比較

4.3 參數敏感性分析

實驗發現average idf與相關片段的閾值m密切相關。以Med 數據集和LISA 數據集為例，Med 數據集的average idf為5.878，LISA 數據集的average idf為7.381。從圖6 和圖7 可以看出，理想取值范圍是average idf周邊。

Fig.6 F1 with different thresholds for dataset Med圖6 Med 不同閾值下F1 柱形分布圖

Fig.7 F1 with different thresholds for dataset LISA圖7 LISA 不同閾值下F1 柱形分布圖

5 總結和展望

本文針對長文本在檢索中可能出現的問題提出了一種文本片段化機制TSM 來計算查詢與被查詢文本間的相關度，通過提取重要的短文本句子片段來度量查詢與文檔之間的相關性，目的是利用關鍵有效的文本片段信息提升文檔整體評分的參考價值，在一定程度上消除文檔長度對相似度匹配的影響。TSM 針對檢索過程的優化，結合了不同的相似度匹配算法，可以有效嵌入到許多搜索算法中。實驗結果驗證了TSM 提升了檢索模型的性能。

盡管TSM 在信息檢索準確性方面取得了一定的成果，但仍有一些方面需要改進，如候選文本集的質量也會決定最終結果集的質量，且一些匹配過程，如與詞向量有關的運算，時間效率較低。下一步擬研究改進的倒排索引方法，結合一些針對文本本身的語義挖掘和拓展技術，減小候選文本的數量和檢索時間。