自編碼器預訓練和多表征交互的段落重排序模型

2023-02-21 02:31:43張康陳明顧凡

計算機應用研究 2023年12期

張康陳明顧凡

摘要：在段落重排序任務中，最近研究人員提出了基于雙編碼器的后期交互架構以實現快速計算。由于這些模型在訓練和推理中都使用預訓練模型對查詢和段落進行獨立編碼，其排序性能較大地依賴了預訓練模型的編碼質量。此外，一些多向量的后期交互方式采用字符向量之間的最大相似度之和來計算文本相似度，容易出現部分匹配的問題。針對以上不足，提出了替換段落預測（RPP）的預訓練方法，它采用一種部分連接的自編碼器架構，使用ELECTRA類似的替換詞匯預測任務來讓預訓練模型建立給定查詢和文檔之間的語義關系，從而增強其表示能力。在交互方式改進上，設計了一種新的后期交互范式。使用不同注意力引導待排序段落文本表征，通過動態融合后使用點積與查詢向量進行相似度計算，具有較低的復雜度和較細的粒度特征。在MS MACRO段落檢索數據集上的重排序實驗表明：在不同訓練條件下，該模型比ColBERT和PreTTR在MRR@10指標上都要優秀；在使用知識蒸餾情況下，性能接近教師模型的水平，且排序時間在GPU和CPU大幅縮短。

關鍵詞：自編碼器；預訓練；重排序；后期交互

中圖分類號：TP391?? 文獻標志碼：A?? 文章編號：1001-3695（2023）12-018-3643-08

doi：10.19734/j.issn.10013695.2023.05.0165

Passage reranking model with autoencoder pretraining and multirepresentation interaction

Abstract：In the tasks of passage reranking，recent studies propose late interaction architectures based on biencoders for faster computation.Since these models independently encode queries and passages during training and inference，the performance of the ranking model heavily relies on the embedding quality of the encoder.Moreover，some multivector lateinteraction approaches，which calculate text similarity by summing the maximum similarities between character vectors，may encounter partial matching issues.To address these limitations，this paper proposed a pretraining method called replacement paragraph prediction（RPP）.It adopted a partially connected autoencoder architecture and employed a task similar to ELECTRAs replacement token prediction to enable the pretrained model to establish semantic relationships between given queries and passages，thus enhancing its representational capacity.Regarding the improvement of interaction methods，it designed a new lateinteraction paradigm.It used different attention mechanisms to guide different text representations for the passages to be ranked.It dynamically fused these representations and computes similarity with the query vector through dot product，providing a lower complexity and finer granularity in interaction.Experiments on the MS MACRO passages ranking dataset demonstrate that the proposed model outperforms ColBERT and PreTTR on the MRR@10 metric under different training conditions.When using knowledge distillation，the proposed model achieves performance comparable to that of the teacher model，and reduces the sorting time on GPUs and a CPUs.

Key words：autoencoder；pretraining； reranking； late interaction

0 引言

現代文本文檔搜索引擎通常采用多級排序的方式提升檢索效率。在第一檢索階段中，通常使用簡單的排序方法從大型搜索索引中提取與查詢匹配的候選文檔，第二階段或稍后階段使用更復雜的算法來徹底地對候選項進行重排序。最近，大型預訓練語言模型（例如BERT［1］）在許多NLP任務上取得了巨大成功［2］，顯著提高了文本檢索和排序的性能［3～5］。

目前基于BERT的語義匹配框架主要有兩種：一種是利用交叉編碼器（cross encoder），另一種則采用雙編碼器（bi encoder）的架構。它們有各自的優點，bi encoder使用孿生網絡，犧牲了精度，分別對查詢和段落進行編碼，使用簡單的距離函數度量查詢和文本之間的距離，支持文本的離線編碼和近鄰搜索，可以在語料庫中快速召回相關的文本；相反，在cross encoder中，查詢和文本常常被拼接起來作為預訓練模型的輸入，并執行完整的自注意力機制，允許查詢和文本之間進行充分的交互，但它需計算查詢和每個文本連接后的表示，導致效率較低，常用于文本的重排序。

雖然這種多階段的排序在一定程度上平衡了精度和效率，但是由于預訓練模型參數量較大，在低延時的場景下cross encoder的應用仍然存在限制。為了解決這個問題，一些工作被提出來。例如，通過知識蒸餾訓練更小的預訓練模型進行排序［6］，但這種方法對效率提升有限，特別是在候選文本較多時；另外一些模型則采用了一些后期交互的范式，這些模型通常在bi encoder 編碼器的基礎上采用相對復雜的交互，并支持文檔向量的離線存儲，例如Poly encoders［7］、ColBERT［8］和PreTTR［9］，如圖1所示。在這些模型中，由于查詢和文本存在適當的交互，通常能取得比bi encoder更好的效果。盡管這些方法取得了成功，但仍然存在以下局限性：

首先，由于查詢和段落之間編碼的獨立性和有限交互，排序模型的性能很大程度上依賴模型編碼器的語義編碼能力，在雙塔模式的訓練中，通常采用先在目標數據集上進行預訓練后再進行微調的訓練范式，以提升編碼器性能。最近的研究表明，一些預訓練任務，如ICT（inverse cloze task）、BFS（body first selection）、WLP（Wiki link prediction）等，可以顯著提升模型的排序性能［10］，然而，這些任務都基于段落級別，無法充分發揮多向量排序模型中字符級別的語義匹配能力。經典的MLM（masked language model）將任務聚焦在特定段落內，但缺少了下游具體任務的先驗知識，不能捕獲段落查詢之間的語義一致性。因此，有必要針對多向量排序模型的特點設計合適的預訓練方式。

其次，現階段ColBERT的MaxSim這種類cross attention交互方式在后期交互上取得了巨大的成功，具有較高效率的同時也有較好的性能，但將其用作重排序時，缺少對文本更細粒度相似度建模的能力。ColBERT的MaxSim在相似度計算上僅關注了與每個查詢詞匯和段落詞匯中的最大相似度，并將它們的和作為最終相似分數。這導致當負樣本中出現局部語義相似度較高但整體語義卻不同的情況下，模型可能無法區分出正確樣例。如表1所示，在multi CPR medical［4］數據集的檢索示例中，不相關的文本中包含了大量與查詢相似的內容（加粗顯示）。在對文本進行重排序時，如果模型無法捕捉細微的差異信息，將損害模型的性能，并且使得模型缺乏通用性。

針對以上問題，為了使得預訓練任務在形式和粒度上能充分發揮多向量模型的優勢，并且使編碼器能學習到查詢和正樣例段落之間潛在的語義聯系，本文提出了針對多向量后期交互模型的預訓練任務——替換段落預測（replaced passage prediction，RPP），來增強文本編碼。在交互上為了防止模型過分關注查詢與段落中重疊的某一主題，提出一種基于BERT的多表征交互（multiple representation interaction over BERT，MRIBERT）方法，在保證效率的同時也提升交互粒度。本文主要貢獻如下：

a）首次提出了面向多向量后期交互模型的預訓練方法RPP。RPP 采用了一種自編碼的架構，在模型編碼器的基礎上引入了一個單層的解碼器和，并進行部分連接。對于給定的查詢和段落對，通過本文的上下文掩碼策略，隨機地掩蔽段落部分詞匯，并使用ELECTRA［11］生成器將掩蔽的部分替換，輸入到編碼器和解碼器中。最后使用編碼器和淺解碼器來預測所有位置的原始標記。由于解碼器能力有限，所以它必須依靠表示編碼器提供信息才能很好地執行此預訓練任務，從而實現編碼器對查詢和段落中語義一致性的構建。

b）本文的MRIBERT在交互設計上擴展了ColBERT中MaxSim的類cross attention的相似度計算方式，通過兩種不同的注意力引導段落上下文表征，最終通過動態融合后使用點積進行相似度計算，具有較細的交互粒度。并且這種輕量級交互設計允許交互層并行處理所有候選。因此，無論候選數量如何，MRIBERT都只需要對查詢進行一次編碼。同時在交互過程中，相比PreTTR完整的selfattention交互，本文交互算法的復雜度只有O（mnd），其中m、n分別為查詢和文檔長度，d為向量維度，且m<

c）通過在不同數據集的大量對比實驗和消融實驗證明，本文的預訓練方法能有效提升模型的性能，并且提出的后期交互方式具有較高精度的同時也有較快的計算速度。

1 相關工作

段落排序是問答系統和信息檢索系統中重要的組成部分，它的作用是學習一個排序函數，對于給定的問題將最相關的段落返回到列表前面。預訓練語言模型的成功使得其在最近的一些文本排序任務中變得非常流行。Nogueira等人［12］首次將BERT模型應用于信息檢索的重排序任務中，并提出了基于Pointwise和Pairwise訓練目標的MonoBERT和DuoBert。Han等人［13］提出TFRanking，它是基于BERT的排序學習模型。Chen等人［14］提出CoBERT，該模型在排序的過程中考慮了跨文檔之間的交互和查詢中的特定特征。上述模型都采用了交叉注意力機制，使得查詢和文本有充分交互，然而高昂的計算成本使得這些模型很難部署到大型語料庫中。為了降低成本，一些研究探究了更有效的模型，例如采用雙編碼架構，利用預訓練語言模型分別將查詢和文本編碼到高維的向量空間，并通過距離函數度量文本之間的相似性，由于支持最近鄰查找，雙編碼架構常用于快速召回。目前以DPR［15］、RocketQA［16］等為代表的稠密檢索模型，在許多基準數據集上對比傳統檢索模型顯示出了強大的競爭力。但這些模型在性能上和cross encoder仍有差距。一些采用后期交互范式的模型則結合了交叉編碼器和雙編碼器的優點。這些模型在編碼上都對查詢和文本進行獨立編碼，在交互時都有各自的特點。如PreTTR、DCBERT［17］在交互上都采用了crossattention模式，區別在于DCBERT 在編碼上使用了完整的BERT編碼器，并引入額外的Transformer架構進行交互，PreTTR則將底層的BERT用作編碼，上層的BERT進行交互；polyencoders通過學習全局而不是selfattention字符級別的文本表征，并通過特殊的注意力對查詢和文本之間進行交互；ColBERT提出了基于多向量表示的MaxSim運算，在文檔級別進行多粒度的匹配。

表征學習已被證明對自然語言任務至關重要，并對下游任務產生重大影響［1，18］。然而，大多數預訓練任務是在沒有任何下游應用程序先驗知識的情況下設計的。一個常見的任務如BERT和RoBERTa［19］所采用的掩蔽語言建模（MLM），其中掩蔽詞是基于其上下文進行預測的。隨著時間的推移，掩蔽類型也得到了多方面擴展。例如實體掩蔽、短語掩蔽［20］和跨度掩蔽［21］等可以幫助預先訓練的模型更好地支持序列標記應用。ELECTRA則將 MLM預訓練任務改成了判別式的replaced token detection（RTD）任務，判斷當前token是否被語言模型替換過，這種預訓練方式避免了因引入［MASK］標記導致的預訓練階段與微調階段數據不一致，并且大幅提高了訓練效率。

目前，針對語義相似度計算的具體下游任務的預訓練研究主要集中在單向量表示模型上，因為單向量表示模型往往比多向量模型面臨著更嚴重的表示能力不足和無法精準地捕獲詞匹配信息的問題［22］。這些方法從訓練方式來看，主要分為兩類：一類是自對比學習的方法，如SimCSE［23］、DiffCSE［24］，通過數據增強和對于學習的方式讓語言模型學習區分給定錨點的正負樣例；另一類則是自編碼的方法，通過句子嵌入進行不同的重建任務，如RetroMAE［25］等。以上方法除了只適應于句向量模型外，也僅考慮了模型對文本單方面的理解。盡管多向量模型在語義表示方面更具優勢，但對于編碼器來說，能進一步理解查詢和段落的內容對排序任務來說是更重要的。因此本文從這個角度出發，不同于以上模型以增強句向量的表示能力為目的，RPP將查詢作為上下文，待預測段落部分進行部分掩碼的策略，使得模型更加關注查詢與段落在詞匯級別上的語義一致性，并且通過引入ELECTRA的替換詞檢測任務來提升任務粒度。

2 方法

2.1 問題定義

對于一個典型的大規模文檔檢索任務，常包括兩個主要的階段。首先，給定一個查詢q，從一個大型語料庫C={p1，p2，…，pn}中使用簡單的模型（如BM25、DPR）和其專用的索引結構召回所有與查詢相關的文檔。隨后，在重排序階段，用更加復雜的模型來改進第一階段輸出的排序。形式化地，給定數據集Euclid Math OneDAp={（qi，Pi，Yi）}ni=1，其中Di=［pi1，pi2，…，pik］是每個查詢本文，Yi=［yi1，yi2，…，yik］，y∈{0，1}為對應文本Pi的標簽。本文的目的是學習一個打分模型f*（·，·），使得模型預測與真實標簽之間的一致性最大化，即

其中：是預測和標簽的評估度量，如MRR@10；F（q，P）={f（q，pi）}Ni=1為對應查詢q下文檔的分數集合。

2.2 整體架構

本文模型的框架如圖2所示，在訓練流程上主要包括了預訓練和微調。在預訓練上采用了編碼器加解碼器的架構，并借助ECECTRA中的生成器，將傳統MLM任務替換為RTD任務，通過編碼器和解碼器的預測任務，提高編碼器表示能力。在推理上，主要包括編碼層和交互層，對于查詢和段落的編碼采用了參數共享的編碼器進行獨立編碼，再通過兩種不同的注意力機制引導文檔的表征。文檔的離線存儲使用了帶邊信息的自編碼器進行維度壓縮和還原。最終，通過兩者向量的點積得到文檔和查詢的相似度分數。

2.3 預訓練增強的編碼層

預訓練上，框架如圖2左半部分所示，其架構由基于BERT的編碼器Φenc（·）、Electra生成器和一個單層Transformer解碼器Φdec（·）組成。不同于原始的MLM掩碼策略，本文針對多向量模型交互的特點設計了特定的掩碼方式，即對于給定的查詢和正樣例文本，分別將其作為上下文或者待預測對象，組合成訓練樣本，其中待預測段落中的tokens會以ρ的概率被［MASK］替換。為了保證上下長度的一致性，對于長度不足的查詢使用段落部分進行擴充，得到形如〈［CLS］，q1，q2，…，qm，p1，p2，…，[MASK]，pn，［SEP］〉的組合序列，并將其作為生成器Euclid Math OneGAp的輸入。隨后，生成器將MASK字符標記的token進行替換，得到序列ecn=〈［CLS］，q1，q2，…，qm，p1，p2，…，p′n-1，pn，［SEP］〉，同理用dec表示在解碼器下的輸入序列。其中p′n-1為替換后的token。對于編碼器和解碼器，采用了不同的掩碼概率，對于編碼器ρ取0.3，解碼器則取0.5，并且使用不同替換概率，保證編碼器中被替換的內容在解碼器中也被替換，采用較高的掩碼率是為了使解碼器部分的預測任務更加有難度，而且模型能更加依賴于未被掩碼替換的查詢上下文，而不是待預測本身的上下文進行預測，從而捕捉查詢和對應正樣例段落之間的聯系。

在得到替換序列后，首先計算編碼器的預測損失：

對于解碼操作，其輸入Hdec包括編碼器輸出的CLS嵌入、上下文嵌入以及解碼器的待預測嵌入：

此外為了能預測所有的替換標記，本文解碼器中的自注意是雙向的，即在掩碼上能讓某一位置的token同時感知前后的上下文。最終，預訓練損失由編碼器損失和解碼器損失相加得到。

Lpre=Lenc+Ldec（6）

2.4 相似注意力引導段落表征

不同于MaxSim只選取與查詢token相似度最大的段落token來計算相似度，本文提出了簡單有效的交叉注意力池化的方法進行細粒度的上下文表征引導，用作與對應的查詢進行相似度計算。它將編碼層輸出的Eq作為注意力機制中的Q。離線解碼后的段落向量Ep為鍵值矩陣K，V，執行操作。在Q，K的相似度量選擇上，采用點積的形式，如下所示。

2.5 差異注意力引導段落表征

在以上常規的注意力計算中，采用相似注意力會使得模型容易過度關注字面的相似部分。為了使得本文模型捕捉句子之間的細微差異信息，本文在注意力機制上額外使用曼哈頓距離（L1距離）來衡量查詢文本和待排序文本之間的相似度。引入L1距離會使得在對應池化的表征上更注重token粒度上的差異特征，其過程如式（8）所示。

其中：‖Eq-Ep‖∈Euclid Math TwoRApm×n為差異度矩陣；D∈Euclid Math TwoRApm×h為差異注意力引導的全局文檔表征。

2.6 動態融合

在表征融合上，本文基于coattention［26］對齊操作，設計了動態融合框架。在對齊上，首先獲得D相對A注意力權值矩陣，再通過softmax歸一化后的權重矩陣進行加權求和，得到D的對齊，其計算公式如下：

其中：ai為A中第i個向量；

Wd1，

Wa1∈Euclid Math TwoRAph×h，

Wadi∈Euclid Math TwoRAp2h為可學習參數；H（i）A，D∈Euclid Math TwoRApm×2h為中間向量；b1，b2∈Euclid Math TwoRAph為學習偏置；dj為D中第j個向量。

隨后通過級聯的結構，得到A的對齊，其過程如下：

最后，將兩者對齊后的向量就行拼接，經過簡單的線性層和sigmoid 激活函數后得到門控權重，并對兩種表征進行加權融合。

2.7 文檔向量壓縮和還原

對于后期交互的模型，向量的壓縮策略至關重要，這是因為用于交互的文本向量不是直接來自編碼器本身，而是來自離線存儲中。在大型語料中存儲編碼器全部的原始輸出是不切實際的，因此，需要結合模型交互的特點，選擇合適的向量壓縮存儲方案。本文受SDR［27］啟發，選擇了帶邊信息的自編碼器進行向量壓縮和還原，并以此作為實驗的基礎。

在具體實現上，將BERT Transformer前的embedding層輸出的向量ui作為邊信息，這一部分是對各個語料庫獨立的，不包含具體上下文。待壓縮向量為編碼器輸出的文本字符向量vi，通過兩層的線性層編碼后得到壓縮后的向量，如式（18）所示。

其中：We1∈Euclid Math TwoRApi×2h，We2∈Euclid Math TwoRApc×i為可訓練參數，i為中間向量維度，本文取1 536，h為文本向量維度，c為壓縮后文本向量維度，默認設置為128；gelu（·）為高斯誤差線性單元。

在對向量的還原上，自編碼器的解碼部分同樣由兩層線性層組成，通過將邊信息與待解碼向量拼接后進行上下文還原：

其中：Wd1∈Euclid Math TwoRApi×（c+h）和Wd2∈Euclid Math TwoRAph×i為可訓練參數。

在默認情況下，本文的對比實驗都在壓縮維度為c=128，16 bit存儲精度的條件下進行實驗，這與文獻［8］中ColBERT 采用的向量存儲參數一致。

2.8 相似度計算

在計算相似度時，通過查詢的多向量表示和還原后的段落多向量表示，利用多注意力引導和動態融合得到最終的段落表征。查詢和文本之間的相似度為

其中：X={x1，x2，x3，…，xm}為通過式（17）最終得到的段落多向量表示。

2.9 監督訓練

a）排序模型訓練。如今的一些文本排序模型大多采用較為復雜的訓練方式和技巧。為了使得本文模型與各種模型有相對公平的比較，本文采用了兩種不同的訓練模式。一種是常見的，通過BM25檢索難負樣本進行對比學習；另外一種訓練方式則結合了使用稠密檢索器進行難負例挖掘和知識蒸餾。

在BM25負樣例挖掘下，采用局部對比估計損失（LCE loss）進行對比學習訓練：

其中：Euclid Math OneQAp為每個訓練批次的查詢；Euclid Math TwoGApq={p+，RKq}表示一個正樣例p+和檢索器R檢索出的K個與查詢q非相關的難負樣例。

在知識蒸餾中，使用檢索器檢索前K個段落，將這些段落輸入到交叉編碼器ft中，并對分數進行歸一化：

對于學生模型fs，同樣可以得到

通過最小化KL 散度損失，將教師模型的分數蒸餾到學生模型中：

b）SDR訓練。SDR訓練上與Cohen等人［27］的方式相同，流程上與排序模型獨立，在排序模型訓練完后，從語料庫中隨機抽取一定比例的文本，使用BERT編碼后的嵌入作為訓練樣本，通過最小化壓縮前向量和還原后向量的MSE損失來訓練自編碼器。

3 實驗

3.1 數據集介紹和評估指標

在本文中，選用了兩個不同語種的段落檢索數據集進行實驗：

a）MS MARCO Passage［3］為英文數據集，由Bing的搜索日志和Bing檢索到的Web文檔構成，為開放領域。它包含約880萬篇段落文章。訓練集上，有著大約50萬個訓練查詢，其中大多數查詢都有一個標記為相關的文章，但這些不一定代表其所有相關的段落，因為數據集中的許多查詢很可能有多個相關段落。在評估方面，有一個帶有6 980個查詢的小型開發集，與許多工作類似，本文使用開發集來評估模型的性能。

b）Multi CPR［4］是從阿里巴巴不同的搜索系統中提取的用戶搜索日志，為中文數據集，包含電子商務（Ecommerce，簡稱Ecom）、娛樂視頻（entertainment video）和醫療（簡稱medical）三個專業領域的數據，本文選取了醫療和電子商務領域數據。其中每個領域共計大約10萬的訓練數據、1 000條測試數據和大約100萬個段落，與官方工作一樣，使用原始數據集開發集用作模型評估。

本文采用了平均排名倒數MRR（mean reciprocal rank）和召回率recall@K作為指標來評估檢索器，MRR@10計算前十個結果中第一個正確文本排名的倒數和的平均，recall@K計算前K個段落中包含所有正樣例的比例。

3.2 對比模型

3.2.1 MS MACRO

1）檢索基線

BM25：常見的稀疏檢索算法。

TCTColBERT v2［28］：使用ColBERT 作為教師模型訓練的稠密檢索器。

2）BM25 負樣挖掘訓練下對比模型

ColBERT［8］：基于MaxSim的后期交互模型。

PreTTR［9］：將BERT中第1～L層的Transformer層用作查詢和文檔的編碼，L+1～T層用作交互，其中T為BERT總的層數。在實驗對比上，使用Hofsttter等人［29］的實驗數據。

3）知識蒸餾下的對比模型

CAKD［29］：采用多教師集成和跨架構蒸餾ColBERT與PreTTR，分別記作CAKDColBERT和CAKDPreTTR。

ColBERT v2［30］：采用知識蒸餾的訓練方式，不同于本文，ColBERT v2在訓練時，每個查詢使用了64個段落作為訓練樣本進行知識蒸餾。

3.2.2 Multi CPR

1）檢索基線

DPR（本文算法）：基于BERTbase的雙編碼架構，使用官方數據集訓練，采用批內負樣例的對比學習方式。

2）對比模型

BERT［4］base ：Muti CPR官方基線模型，基于BERTbase，采用cross encoder交互方式，訓練上使用LCE損失，采用DPR檢索的負樣本。

3.3 實驗設置

在MS MACRO數據集上，本文采用BERTbase預訓練模型作為編碼器初始權重，生成器使用谷歌的ELECTRAbase生成器，并將生成器參數凍結，上下文context的長度設置為32。在微調上，模型訓練的難負樣本數為1，這與官方提供的每個查詢包含一個正樣例和一個BM25負樣例的三元組訓練數據的形式類似，區別在于本文訓練中額外引入了批內負樣例穩定訓練。知識蒸餾上，本文同ColBERT v2一樣，使用了MiniLML6 v2（https：//huggingface.co/sentencetransformers/allMiniLML6v2）作為教師模型，每個查詢使用檢索器檢索16個段落。

Multi CPR數據集上則采用哈工大訊飛聯合實驗室發布的ChineseBERTwwm2F初始化模型編碼器權重，采用ELECTRAbase生成器，同樣凍結生成器參數，context長度同樣設置為32。在微調上與官方實現一樣，采用稠密檢索模型進行負樣例挖掘。

實驗環境在CPU為AMD EPYC 7543（32 Core），2張A40（48 GB）顯卡，內存為220 GB的Ubuntu云服務器上進行。模型實現基于PyTorch 1.13。在所有的數據集上，將查詢最大長度設置為32，文本最大長度設置為128。在預訓練中，每個GPU的batch size為128，學習速率為3E-4，每個數據集迭代15個epoch。微調時，每個GPU的 batch size為16 （使用批內負樣例），學習速率為2E-5。選取各數據集的10% 作為驗證集，模型最多迭代10萬次，采用早停的方式，即當驗證集精度不再升高時停止訓練。所有訓練都使用AdamW優化器，linear scheduling warmup ration設置為0.1。

3.4 對比實驗結果

表2顯示了在MS MACRO數據集上不同檢索器的結果。這兩個模型第一階段的檢索結果構成了之后重排實驗的基礎。

目前大多數模型的重排實驗是采用BM25作為第一階段的檢索，本文實驗也主要在BM25的基礎上進行。表3顯示了本文模型與不同模型在常規訓練下的比較結果。ColBERT在文獻［8，29］中報告了不同的結果，MRR@10分別為0.349和0.357，原因是在文獻［8］中考慮到了向量存儲，使用了維度壓縮，而文獻［29］采用了編碼器原始的向量維度，這說明編碼壓縮對性能的影響較大，交互方式的設計要考慮較高的抗噪性。PreTTR使用了BERT底層的 Transformer獨立編碼查詢和文本，并在高層的交互中獲得效率和性能的平衡，在相同的實驗條件下，其性能比ColBERT 略高，MRR@10為0.358，說明了完整的交叉注意力的有效性。本文模型相比未使用維度壓縮的ColBERT和PreTTR在MRR上分別提升了1.4%和1.3%，主要原因是，對比ColBERT，本文的相似度計算上有著更加細粒度的特征，PreTTR使用堆疊的Transformer 執行完整自注意力，雖然有較為充分的交互，但本文模型同時也使用了預訓練增強的編碼器，并且在交互機制上除了關注字符間語義相似度之外，還建模了兩者之間的差異性特征，因此取得了較好的效果。

表4為不同檢索器下的MS MACRO重排序結果，本文模型經過知識蒸餾后獲得了顯著的收益，這說明在不同歸納偏好下，cross encoder模型仍能為本文的后期交互提供較好的監督信號。對比其他的后期交互模型，本文模型也顯示了更好的性能。在基于BM25重排的基礎上，本文模型的MRR@10為0.389，分別高出CAKDPreTTR和CAKDColBERT性能0.3%和1.4%。其中CAKD ColBERT 和 CAKD PreTTR都使用相同訓練方式和教師模型，但性能差距較大，這說明交互模式對重排序結果影響較大。值得注意的是，CAKD PreTTR 使用的教師模型比本文的教師模型性能更高，但本文模型在MRR@10上接近了教師模型的0.390，在對TCT ColBERT v2稠密檢索模型的重排實驗上，也同樣接近于教師模型MiniLML6的性能，這說明本文模型在性能提升上具有較大潛力。ColBERT v2不同于ColBERT ，采用了較為復雜的訓練方式，也比本文的訓練資源需求要多。其端到端檢索采用了centroids聯合倒排索引的檢索方式為后期交互提供候選文本，其候選排序項相當于整個文本庫，MRR@10 達到了0.397，本文模型在同樣使用MiniLML6作為教師模型，且僅使用TCT ColBERT v2檢索結果前50個候選文本時，排序結果的MRR@10 達到0.407，這說明單從性能上考慮，本文的后期交互模式比ColBERT的MaxSim要優，適合應用于簡單模型召回后的重排序任務。

BEIR［5］建議信息檢索系統應該在不同的領域或場景下進行評估，因此，本文在中文垂直領域的數據集上對模型的性能進行了驗證。表5展現了第一階段檢索器的結果。在重排序方面，本文的模型僅采用了稠密檢索器的負樣例進行訓練。通過表6可以看到，本文的后期交互模型和cross encoder基線模型在醫療領域的重排結果相當，MRR@10都為0.389，并高于官方提供的基線模型的0.385，但在電子商務領域，本文基線模型相比官方模型的略低，主要原因在于訓練方式檢索的負樣例的差別，MRIBERT的性能也低于本文的cross encoder模型較多，這主要的原因是相比其他領域的查詢和段落都是以問答對的形式出現，而在Multi CPR電子商務鄰域，段落的形式都是不連貫的句子或者是連續的實體出現，這導致本文模型不能把握單個句子上的重要主題。這也反映了cross encoder在大多的領域下具有較強的泛化能力，在對模型性能的提升上，使用cross encoder蒸餾具有較大的意義。

整體來看，本文模型在不同訓練模式上都接近了cross encoder的能力，其有效性來自于兩個方面：a）本文針對多向量表示交互的預訓練方法為本文模型提供了較好的初始化，在使用訓練數據微調后，可以在相應的場景中產生較高的排序性能；b）本文模型在交互方式的設計上同時吸收了cross encoder 交互和表示模型的特點，除了使得模型關注token 級別的語義信息外，還采用了多種相似度建模方式，使得模型在僅增加少量計算的情況下有更好的性能，并在不同領域有更多的通用性。

3.5 模型效率分析

文本排序的另一個重要問題是推理成本，本文探討了在不同維度參數下，存儲成本和時間成本對排序精度的影響。具體地，將編碼成不同維度的待排序文本的離線向量進行還原，將還原后的向量與查詢向量進行交互，本文同時使用了文獻［29］提供的權重實現了ColBERT的MaxSim交互，以便進行本地比較。表7顯示了不同壓縮條件下的效率和性能之間的關系，并與cross encoder模型和ColBERT 進行了比較。在存儲性能上，當采用默認參數時，此時c=128，與ColBERT相比，本文的存儲與其相當，但本文模型在排序精度上更高。當使用更加激進的壓縮率時，此時維度為32，模型的MRR@10下降到了0.373，但與ColBERT的性能差距很小，且存儲需求也低得多。這說明本文的帶邊信息自編碼器除了能較好地還原向量上下文信息外，本文的交互模式也具有較強的抗噪能力。這使得本文模型在大規模文本排序中能有較好的應用。

本文進一步分析了在不同參數設置下的排序延遲，值得注意的是，實驗假設所有的向量存儲在內存中，忽略了由于文本向量過大而存儲在磁盤中導致額外IO的情況，在對1 000個文本重排序的情況下， ColBERT在GPU上的交互時延最低，查詢編碼和交互共計需要7 ms。本文在不同壓縮程度下的排序時間相當，在對排序時延的分解上，通過表8可以看到，時延主要產生在BERT對問題的在線編碼上，占據了6 ms的時延，而對1 000個文本向量進行還原和排序只用了5 ms。對比cross encoder模型，本文實現了10倍的加速，在CPU情況下，本文模型的時延在28 ms以內，ColBERT大約為18 ms，這說明本文的模型在性能和效率上有著較好的平衡。盡管MiniLML6參數量只有22 M ［31］，但時延超過了1 s。總的來看， cross encoder在排序上有著最高的精度，但在排序過程中需要對問題對進行1 000次編碼，這使得cross encoder模型在低時延需求的場景下無法應用。

4 消融實驗和實例分析

為了探究模型不同模塊的影響，本文設計了多個消融實驗。需要特別說明的是，模型自身的對照實驗采用BM25負樣本挖掘，并在BM25檢索基礎上進行。

4.1 預訓練方法消融

本文的預訓練任務是為了鼓勵模型學習特定的語言模式，來理解對應的查詢和正樣例文檔在語義上是具有一致性的。為了驗證本文預訓練方法的有效性，選取了不同的預訓練方法來進行對比：

a）無decoder。不使用decoder，且采用全量掩碼，即不區分問題和段落，都采用30%的掩碼概率。此時預訓練方式退化為RTD任務。

b）無generator。在使用encoderdecoder架構的同時，在訓練上將RTD任務替換成傳統MLM任務。

表9展示了消融實驗的詳細結果，從表中可以看到，在無預訓練的情況下，模型最終結果下降1.2%，說明本文預訓練任務能有效提升下游任務的能力。進一步分析，當去掉decoder組件后，性能下降較多，原因是當去掉decoder后，模型僅需要在編碼器端通過提供的上下文來預測被替換的詞匯，這對于已經在大型語料庫訓練過的模型來說是一項簡單的任務，所以對于模型的提升有限，同時本文的decoder采用了單層的Transformer和較高的掩碼率，這使得在解碼過程中很大程度依賴于編碼器提供的上下文嵌入，并且本文的掩碼方案充分結合了這個特性，提供查詢視角的上下文，迫使編碼器捕獲查詢和正樣例段落之間更加深層次的語義關系。在將生成器去掉后，可以看到模型的MRR@10下降了0.4%，這說明在本文中使用RTD模式的訓練相比MLM方式訓練性能要高，這是因為RTD任務是定義在所有文本輸入上，而不是僅僅被掩蓋的部分，這使得模型會更加關注全局中細粒度的語義特征，具有更好的效果。

4.2 交互層消融實驗

為了驗證交互模塊各組分的有效性，本文在MS MACRO數據集上進行了消融實驗，在不同的模型上對BM25檢索的候選進行重排實驗，如表10所示。

MRIBERT在后期交互上包括了兩種核心的注意力池化，在只保留差異注意力的情況下對模型的性能影響較大，MRR@10下降了1.5%，這是由于相似注意力可以捕獲詞與詞之間的對齊關系，這對文本匹配至關重要。在去除差異注意力后模型性能MRR@10下降了0.6%，這說明差異注意力可以為模型提供進一步的細粒度特征，使得模型獲得更好的性能。最后，當模型采用直接融合后模型性能也急劇下降，幅度高達2.1%，表明采用硬融合的方式會破壞模型的性能，通常情況下查詢和段落并不總是高度相似的，此時相似注意力引導的表征應該占據主流。

為了直觀地分析本文的差異注意力在模型中的作用，本文從multi CPR medical驗證集中列舉了表1中類似情況下，本文模型在有無差異注意力訓練情況下的注意力矩陣，并通過權重進行了疊加，其中橫軸方向表示查詢，圖中的注意力系數大小代表了最終池化的權重。為了方便表示，本文對多余信息進行了截斷，如圖3所示，在只使用相似引導的注意力情況下，模型會過分關注查詢和文本之間的重疊，對于與查詢相同的一些段落token的池化權重接近1，這使得模型在一定程度上退化成了MaxSim的相似度計算方式，使得實際語義不同的句子具有較高的相似度。當引入差異注意力后，模型除了關注其相同部分外，還可以學習到文本中不同但是關鍵的信息，如“桃”和“槐花”，并且

加大差異信息在融合時的比重，最終使得文本與查詢語義相似度被拉遠，從而實現對關鍵信息的識別。

4.3 實例分析

為了定性地理解本文方法的有效性，表11展示了本文模型能準確將最相關的段落排序到最前面的示例。對照選取使用了各自數據集基線模型和未進行預訓練的本文模型。在MS MACRO的示例中，可以看到對于給定的查詢，主題集中在“green soap”和“used for ”兩個方面，從段落排序的結果上看，ColBERT只關注到了部分重要主題“green soap”，并將更多注意力放在了“green”上，陷入了部分匹配。在對照上，無預訓練的本文模型由于差異注意力迫使模型關注段落中未出現在查詢中的主題，避免對某個主題的過度關注，排名第一的段落中包括了查詢中所有重要主題，然而其對段落的整體主題把握不夠準確。第一名的段落更加傾向于解釋“How to use…”，而不是查詢中的“what … used for”。相反，使用完整方法的本文模型能較好地捕獲查詢中的所有主題和意圖，這得益于多種不同注意力的池化組合，避免了部分關注。通過預訓練的語義輔助，模型能有效地把握查詢和段落之間的整體語義聯系，從而有效實現查詢和正樣例段落的匹配。類似地，在中文的multi CPR數據集的實例中，查詢中的主要關注點為“一個月大”“逗他會笑嗎”。基線DPR檢索模型同樣不能有效地把握文本所有的主題，只關注到了查詢中的“一個月大”和“會笑”。相反，本文模型在僅使用多注意力的情況下就能捕捉到查詢中所有的關鍵信息，能將與查詢主題相似度較高的正負樣例段落進行準確區分。

5 結束語

本文針對現階段一些后期交互模型的不足，提出了面向多向量交互模型的預訓練方法RPP，以及用于快速段落重排序的多表征交互模型MRIBERT。通過RPP預訓練的編碼器可以更好地理解查詢和正樣例段落之間的語義關系，從而指導模型在大規模文本排序中識別相關的文本。同時為了在后期交互上區分相似度較高的待排序段落，增加對細粒度特征的捕獲能力，MRIBERT提出了通過不同注意力引導文本表征的后期交互方法。在交互中，模型依賴于不同的注意力和查詢向量來細粒度地聚合段落文本中的關鍵信息，并強調差異特征建模。實驗結果表明，在文檔重新排序任務中，與基線相比，本文方法取得了較好的性能。在未來的工作中，將探究在預訓練任務中對文本編碼中的句向量和普通字符向量使用各自的解碼器和解碼任務，并在下游任務上采用多任務學習方法，通過不同類型向量聯合表示語義相似度，進一步提升模排序模型的表示性能和效率。

參考文獻：

［1］Kenton J D M W C，Toutanova L K.BERT：pretraining of deep bidirectional transformers for language understanding［C］//Proc of NAACLHLT.2019：41714186.

［2］Sun Tianxiang，Liu Xiangyang，Qiu Xipeng，et al.Paradigm shift in natural language processing［J］.Machine Intelligence Research，2022，19（3）：169183.

［3］Nguyen T，Rosenberg M，Xia Song，et al.MS MARCO：a human generated machine reading comprehension dataset［C］//Proc of CoCo@NIPs.2016.

［4］Dingkun Long，Qiong Gao，Kuan Zou，et al.MultiCPR：a multi domain Chinese dataset for passage retrieval［C］//Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：ACM Press，2022：30463056.

［5］Thakur N，Reimers N，Rücklé A，et al.BEIR：a heterogenous benchmark for zeroshot evaluation of information retrieval models［EB/OL］.（20211021）［20230307］.https：//arxiv.org/abs/2104.08663.

［6］Gao Luyu，Dai Zhuyun，Callan J.Understanding BERT rankers under distillation［C］//Proc of ACM SIGIR on International Conference on Theory of Information Retrieval.New York：ACM Press，2020：149152.

［7］Humeau S，Shuster K，Lachaux M A，et al.Polyencoders：Transformer architectures and pretraining strategies for fast and accurate multisentence scoring［EB/OL］.（20200325）［20230307］.https：//arxiv.org/abs/1905.01969.

［8］Khattab O，Zaharia M.ColBERT：efficient and effective passage search via contextualized late interaction over BERT［C］//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：ACM Press，2020：3948.

［9］MacAvaney S，Nardini F M，Perego R，et al.Efficient document reranking for transformers by precomputing term representations［C］//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：ACM Press，2020：4958.

［10］Chang Weicheng，Yu F X，Chang Yinwen，et al.Pretraining tasks for embeddingbased largescale retrieval［EB/OL］.（20200210）［20230307］.https：//arxiv.org/abs/2002.03932.

［11］Clark K，Luong M T，Le Q V，et al.Electra：pretraining text encoders as discriminators rather than generators［EB/OL］.（20200323）［20230307］.https：//arxiv.org/abs/2003.10555.

［12］Nogueira R，Cho K.Passage reranking with BERT［EB/OL］.（20200414）［20230307］.https：//arxiv.org/abs/1901.04085.

［13］Han Shuguang，Wang Xuanhui，Bendersky M，et al.Learningtorank with BERT in TFranking［EB/OL］.（20200608）［20230307］.https：//arxiv.org/abs/2004.08476.

［14］Chen Xiaoyang，Hui Kai，He Ben，et al.CoBERT：a contextaware BERT retrieval model incorporating local and queryspecific context［EB/OL］.（20210417）［20230307］.https：//arxiv.org/abs/2104.08523.

［15］Karpukhin V，Ogˇuz B，Min S，et al.Dense passage retrieval for opendomain question answering［EB/OL］.（20200930）［20230307］.https：//arxiv.org/abs/2004.04906.

［16］Qu Yingqi，Ding Yuchen，Liu Jing，et al.RocketQA：an optimized training approach to dense passage retrieval for opendomain question answering［EB/OL］.（20210512）［20230307］.https：//arxiv.org/abs/ 2010.08191.

［17］Nie Ping，Zhang Yuyu，Geng Xiubo，et al.DCBERT：decoupling question and document for efficient contextual encoding［C］//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York：ACM Press，2020：18291832.

［18］Yan Ming，Li Chenliang，Bi Bin，et al.A unified pretraining framework for passage ranking and expansion［C］//Proc of AAAI Conference on Artificial Intelligence.2021：45554563.

［19］Liu Yinhan，Ott M，Goyal N，et al.ROBERTA：a robustly optimized BERT pretraining approach［EB/OL］.（20190726）［20230307］.https：//arxiv.org/abs/1907.11692.

［20］Sun Yu，Wang Shuohuan，Li Yukun，et al.ERNIE：enhanced representation through knowledge integration［EB/OL］.（20190419）［20230307］.https：//arxiv.org/abs/1904.09223.

［21］Joshi M，Chen Danqi，Liu Yinhan，et al.SpanBERT：improving pretraining by representing and predicting spans［J］.Trans of the Association for Computational Linguistics，2020，8：6477.

［22］Sciavolino C，Zhong Zexuan，Lee J，et al.Simple entitycentric questions challenge dense retrievers［C］//Proc of Conference on Empirical Methods in Natural Language Processing.2021：61386148

［23］Gao Tianyu，Yao Xingcheng，Chen Danqi.SimCSE：simple contrastive learning of sentence embeddings［C］//Proc of Conference on Empirical Methods in Natural Language Processing.2021：68946910.

［24］Chuang Yungsung，Dangovski R，Luo Hongyin，et al.DiffCSE：differencebased contrastive learning for sentence embeddings［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.2022：42074218.

［25］Xiao Shitao，Liu Zheng，Shao Yingxia，et al.RetroMAE：pretraining retrievaloriented transformers via masked autoencoder［EB/OL］.（20221017）［20230307］.https：//arxiv.org/abs/2205.12035.

［26］Lu Jiasen，Yang Jianwei，Batra D，et al.Hierarchical questionimage coattention for visual question answering［C］//Proc of the 30th International Conference on Neural Information Processing Systems.2016：289297.

［27］Cohen N，Portnoy A，Fetahu B，et al.SDR：efficient neural reranking using succinct document representation［C］//Proc of the 60th Annual Meeting of the Association for Computational Linguistics.2022：66246637.

［28］Lin S C，Yang J H，Lin J.Inbatch negatives for knowledge distillation with tightlycoupled teachers for dense retrieval［C］//Proc of the 6th Workshop on Representation Learning for NLP.2021：163173.

［29］Hofsttter S，Althammer S，Schrder M，et al.Improving efficient neural ranking models with crossarchitecture knowledge distillation［EB/OL］.（20210122）［20230307］.https：// arxiv.org/ abs/ 2010.02666.

［30］Santhanam K，Khattab O，SaadFalcon J，et al.ColBERTv2：effective and efficient retrieval via lightweight late interaction［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.2022：37153734

［31］Wang Wenhui，Wei Furu，Dong Li，et al.MiniLM：deep selfattention distillation for taskagnostic compression of pretrained transformers［J］.Advances in Neural Information Processing Systems，2020，33：57765788.

計算機應用研究2023年12期

計算機應用研究的其它文章: 物聯網環境下基于云邊協同的數據審計方案; 一種AES S盒改進方案及其硬件設計; 基于烏鴉搜索的隱私保護聚類算法; 頻分多址系統分布式強化學習功率控制方法; 基于知識圖譜的用戶表征及在互補產品推薦中的應用; 融合狀態關系的知識追蹤模型