基于自蒸餾與自集成的問答模型

2024-02-18 07:05:43王同結李燁

計算機應用研究 2024年1期

王同結李燁

摘要：知識蒸餾結合預訓練語言模型是構建問答模型的主要方法之一，然而，這類方法存在知識轉移效率低下、訓練教師模型耗時嚴重、教師模型和學生模型能力不匹配等問題。針對上述問題，提出了一種基于自蒸餾與自集成的問答模型SD-SE-BERT。其中：自集成基于滑窗機制設計；學生模型采用BERT；教師模型由訓練過程中得到的若干學生模型基于其驗證集性能進行加權平均組合得到；損失函數利用集成后的輸出結果和真實標簽指導當前輪次的學生模型進行訓練。在SQuAD1.1數據集上的實驗結果表明，SD-SE-BERT的EM指標和F1指標相比較BERT模型分別提高7.5和4.9，并且模型性能優于其他代表性的單模型和蒸餾模型；相較于大型語言模型ChatGLM-6B的微調結果，EM指標提高4.5，F1指標提高2.5。證明SD-SE-BERT可以利用模型自身的監督信息來提高模型組合不同文本數據特征的能力，無須訓練復雜的教師模型，避免了教師模型與學生模型不匹配的問題。

關鍵詞：問答模型；知識蒸餾；集成學習；BERT

中圖分類號：TP391.1?? 文獻標志碼：A?? 文章編號：1001-3695（2024）01-032-0212-05

doi：10.19734/j.issn.1001-3695.2023.05.0281

Question answering model based on self-distillation and self-ensemble

Abstract：Knowledge distillation combined with pre-trained language models is one of the primary methods for constructing question-answering models.However，these methods suffer from inefficiencies in knowledge transfer，time-consuming teacher model training，and mismatched capabilities between teacher and student models.To address these issues，this paper proposed a question-answering model based on self-distillation and self-ensemble，named SD-SE-BERT.The self-ensemble mechanism was designed based on a sliding window；the student model used BERT；the teacher model was derived from a weighted average combination of several student models during the training process，based on their performance on the validation set.The loss function used the output of the ensemble and the true labels to guide the training of the student model in the current round.Experimental results on the SQuAD1.1 dataset show that the EM and F1 scores of SD-SE-BERT are respectively 7.5 and 4.9 higher than those of the BERT model，and the models performance surpasses other representative single models and distillation models.Compared to the fine-tuning results of the large-scale language model ChatGLM-6B，the EM score was improved by 4.5，and the F1 score by 2.5.It proves that SD-SE-BERT can leverage the models supervision information to enhance the models capacity to combine different text data features，eliminating the need for complex teacher-model training and avoiding the problem of mismatch between teacher and student models.

Key words：question answering model；knowledge distillation；ensemble learning；BERT

0 引言

問答模型是自然語言處理中的熱點研究領域。該任務的價值在于利用計算機幫助人類在大量文本中快速找到準確答案，從而減輕信息獲取的成本［1］，具有多樣的落地場景。閱讀理解任務中的跨度提取任務［2～4］的目標是從段落中預測出包含答案范圍的跨度。由于其答案形式不局限于個別單詞、數據集構建成本小且評估指標明確，利于測試機器對文本的理解。

目前，微調訓練語言模型是解決此類任務的主要方法［5］，其中最出名的預訓練語言模型是Devlin等人［6］提出的BERT（bidirectional encoder representations from Transformers）。由于BERT采用MLM（masked language model）和NSP（next sentence prediction）這兩種預訓練任務，可以學習到更加全面和豐富的語言表示，提高下游任務的性能。其在問答數據集SQuAD1.1［7］上的表現一舉超越了之前所發布的模型，成為自然語言處理領域的重要里程碑。Liu等人［8］在BERT的基礎上構建了RoBERTa（robustly optimized BERT pretraining approach），在訓練過程中加載更多的文本數據，使用動態掩蓋（dynamic mas-king）策略隨機掩蓋短語或句子，能更好地學習到單詞的上下文信息，在SQuAD1.1數據集上取得當時的最好結果。許多研究者注意到為語言模型新增加預訓練任務可以有效提高模型性能，2022年Yasunaga等人［9］為原始BERT模型增加文檔關系預測的預訓練任務。以學習跨問題的依賴關系，在問答數據集HotpotQA和TriviaQA上的性能相比BERT提高了5%。一些研究者按照使用更多種預訓練任務和更大量級的訓練數據的思路，推出了大型語言模型（large language models），例如Chat-GPT［10］、訊飛星火、ChatGLM［11］等。這些大語言模型在人機對話以及其他NLP領域上迅速占據了統治地位。大語言模型的參數量和所采用的數據量十分驚人，比如ChatGPT的參數量高達1 750億，采用的訓練數據為45 TB，且仍在快速增長，總算力消耗約為3 640 PF-days。然而，部分研究者認為大模型的能力可能被高估，如文獻［12］通過分析大型語言模型Codex證明，如果將任務目標替換，Codex的性能會大幅度下降，這表明大型語言模型的性能可能依賴于對訓練語料的記憶。文獻［13］通過在自制數據集上精調7B的LLaMA，在BIG-bench算數任務上取得和GPT-4相當的表現，證明在特定任務上微調預訓練語言模型的訓練方式依然有效，但會犧牲模型的通用性。

限制預訓練模型應用范圍的關鍵問題是模型的泛化性和復雜度［14］。引入集成學習是提高模型泛化性能的有效途徑，例如Pranesh等人［15］通過集成多個BERT變體模型的前K個跨度預測，來確定最佳答案。這類方法的主要缺點是基礎模型需要分別訓練，導致訓練成本過高，且集成后的模型的參數量龐大，難以在資源有限的環境中部署［16］，因此，將大型模型與模型壓縮技術相結合成為了研究熱點。文獻［17］通過Transformer distillation方法，使得BERT中具有的語言知識可以遷移到TinyBERT中，并設計了一種兩階段學習框架，在預訓練階段和微調階段都進行蒸餾，確保TinyBERT可以從BERT充分學習到一般領域和特定任務兩部分的知識。Yang等人［18］提出兩階段多教師知識蒸餾，預訓練語言模型在下游任務上微調的同時能夠從多個教師模型當中學習知識，緩解單個教師模型的過擬合偏置問題，在教師模型的選擇一般采用固定權重或者隨機選擇某一個教師模型。Yuan等人［19］提出了一種動態選擇教師模型的知識蒸餾方法，其基本假設是，由于訓練樣本的復雜性以及學生模型能力的差異，從教師模型中進行差異化學習可以提高學生模型的蒸餾性能。

知識蒸餾方法存在教師模型和學生模型不匹配導致知識轉移效率低下問題［20，21］，使得學生無法有效學習教師的表征，在推理期間相對教師模型會出現不同程度的性能下降［22］。自蒸餾是一種比較特殊的蒸餾模式，其利用訓練到一定階段的模型作為教師模型來提供蒸餾監督信號。在模型訓練前期按正常方式訓練，訓練到指定輪數后將此刻的模型作為教師模型，指導后續的學生模型訓練。Yang等人［23］截取ResNets訓練過程中的前幾輪作為教師模型對后續訓練進行知識蒸餾，在圖像分類數據集CIFAR100和ILSVRC2012上取得了較好結果。

針對上述問題，設計了一種基于自集成與自蒸餾的問答模型SD-SE-BERT（self-distillation and self-ensemble BERT），將訓練過程中各次迭代得到的學生模型集成起來作為教師模型，指導下一輪學生模型的學習。模型內容具體包括：設計一種基于加權平均的集成策略，并引入自蒸餾思想，將集成和自蒸餾結合；改進了一種數據增強模塊，并設計出基于歸并排序的答案輸出模塊。在問答數據集SQuAD1.1上進行實驗，SD-SE-BERT在F1和EM指標上優于目前的問答模型。所提方法主要貢獻為：a）將自集成與自蒸餾相結合，引入到跨度提取任務中，使得問答模型在每輪訓練中學習到的知識得到及時傳遞，利用了模型本身提供的監督信息，有利于捕獲和組合不同的文本數據特征以提高整體的預測能力；b）設計了以F1和EM（exa-ct match）的加權和作為權重的加權平均自集成策略。由于不需要預先訓練出復雜的教師模型，避免了教師模型與學生模型不匹配的問題。而學生模型的結構和容量可以根據應用場景來確定；c）改進了EDA（easy data augmentation techniques）［24］數據增強技術，以此提供適量的噪聲、并增加文本多樣性，減輕模型對固定樣本的過擬合。設計基于歸并排序的答案輸出模塊，降低輸出答案過程的復雜度。

1 提出的方法

方法的流程框架如圖1所示，由數據增強模塊、自集成、自蒸餾、答案跨度輸出四個部分構成。首先利用數據增強技術對樣本進行擴充，在訓練中按批提供給BERT模型。自集成基于滑窗機制設計，窗口中包含相對當前輪次的前K輪訓練得到的學生模型。將K個學生模型基于其各自的驗證集性能，采用加權平均的方法進行集成，集成的預測輸出與真實標簽提供給當前輪次訓練的學生模型進行學習。最后，依據最終的學生模型的預測結果輸出答案候選項。

1.1 數據增強模塊

數據增強模塊實現將樣本擴充，在訓練中按批提供給BERT，其是對EDA技術的一種改進實現?？紤]到數據集中文本長度參差不齊的特性，模型的輸入端添加改進的EDA進行數據增強操作。具體改進為，對樣本中段落長度超出輸入序列最大長度max_seq_length的上下文段落進行截斷。為避免遍歷尋找和比較最長文本的操作，統一將句子長度與max_seq_length比較得出EDA四種操作的概率。其次，由于跨度提取任務的樣本標簽（答案）是從問題文本中抽取的一段跨度文本，數據增強操作中，段落文本和答案文本需要同步更改。改進EDA后，訓練集中的文本通過數據增強模塊隨機選擇數據集中句子，按預設概率選擇單詞數量，執行以下增強操作：

a）同義詞替換：從段落文本中隨機選擇n個不是stop word的單詞。從總詞匯表中隨機選擇這些單詞的任意同義詞進行替換。如果被替換掉的單詞在答案文本出現，保持一致，替換相同同義詞。

b）隨機插入：從句子中隨機選擇n個不是停頓詞的單詞后，從總詞匯表中隨機選擇這些單詞的任意同義詞，插入句子中的隨機位置。

c）隨機交換：隨機選擇句子中的兩個單詞并交換它們的位置，選擇n次。

d）隨機刪除：隨機刪除句子中的n個單詞。

1.2 自集成

首先，將BERT最后一層的輸出結果進行softmax運算，得到段落中每個位置作為答案開始或結束的概率。

Pstart=softmax（W1，Jp），Pend=softmax（W2，Jp）（2）

其中：W1和W2是可以被訓練的參數矩陣，Jp是BERT最后一層的輸出結果，Pstart和Pend是段落中詞向量分別作為答案的起始位置的概率。假設當前訓練輪次為t，窗口大小設置為K，相對當前輪次t的前K輪模型為BERTK={BERTt-K ，BERTt-k ，…，BERTt-1}，假設樣本段落詞序列為Xi=［x1，x2，…，xn］。BERTK預測此序列中詞向量為開始位置的概率矩陣PKstart為

其中：PKstart的每一行為第t-k輪得到的BERT模型預測Xi各詞向量為開始位置的概率序列。記錄窗口內的K個歷史模型的性能指標，針對跨度提取任務性能指標是EM與F1，得到EMK={EMt-K ， EMt-k ，…， EMt-1}與F1K={F1t-K ， F1t-k ，…， F1t-1}。使用EM和F1指標的加權和Acc代表模型的性能。

其中：a和b為權重系數，Z為歸一化因子。由此得到前K輪模型輸出在結果集成中的權重。在第t輪訓練時，將PKstart與指標加權和AccK矩陣進行哈達瑪運算。

其中：PS（X）為前t-K輪的K個BERT模型預測段落詞序列Xi中所有詞向量為開始位置的加權平均概率值序列。同理，可以得到前t-K輪BERT模型預測段落詞序列X中所有詞向量為結束位置的加權平均概率值序列PE（X）。

1.3 自蒸餾

在跨度提取類型的問答任務中，假設C是上下文段落，Q是問題，而A是段落中存在的答案，問答模型的目的是對概率分布p（A|C，Q）進行建模。通常將p（A|C，Q）拆開為預測答案在段落中的開始位置n與結束位置m。

p（A|C，Q；θ）=pstart（n）pend（m|n）（7）

其中：p（C|P，Q；θ）表示模型的輸出分布；pstart（n）和pend（m|n）分別為pstart（n|C，Q；θ）和pend（m|n，P，Q；θ）的簡寫，表示模型對答案開始和結束位置的輸出分布；θ表示模型參數。使用交叉熵損失函數最小化答案開始位置n和結束位置m的概率之和。

其中：ystart和yend分別是答案開始和結束位置的真實標簽；ystartn表示ystart中的第n個標簽具體的值；lp表示上下文段落C的長度，且n≤m，表示答案的開始位置總在結束位置之前。

知識蒸餾由教師模型T、學生模型S和損失函數組成。在數據集中通過最小化交叉熵損失函數讓學生模型從數據中學習，并使用教師模型的輸出概率分布pT代替真實標簽，如下：

其中：α和β是softmax函數之前的預測概率，τ是溫度系數。通過讓學生模型學習教師模型的輸出分布，可以將教師的知識遷移到學生模型，從而提高學生模型的精度與泛化能力。學生模型通過結合上述兩種損失函數來進行訓練。

L（θS）=LCE（θS）+λLKD（θS）（11）

其中： λ是自蒸餾損失函數權重。在自蒸餾的具體運用上借鑒多教師知識蒸餾［17］方法，采用批處理的方式，對于每一批樣本，依據該輪次中模型的性能，調整其輸出在集成中的權重，該權重稱為可信程度。使用self-ensemble BERT模型作為教師模型，將模型結果集成的輸出分布替代真實標簽。當前輪次的模型作為學生模型，基于聯合損失函數進行訓練。

具體而言，當訓練輪次tK時，教師模型self-ensemble BERT的輸出是相對當前輪次t的前K輪BERT模型的加權集成，即PS（X）和PE（X）。定義當前輪次t時的模型Bert（x，θt）為學生模型，利用教師模型預測的答案開始位置輸出分布PS（X）和結束位置分布PE（X）替換真實標簽ystartn和yendm。

關于答案開始位置的預測概率分布。在訓練的每個輪次，當前的Bert（x，θt）模型從樣本標簽和self-ensemble BERT模型的輸出分布中學習。總的損失函數定義為

其中： λ是損失函數權重，η是正則項調節參數。在訓練前期準確率不高的情況下 λ取較小值，交叉熵損失LCE起到主導作用；隨著訓練的進行，集成的性能不斷提升， λ的取值相應不斷增加。正則化項可減少網絡對噪聲的敏感性，提高模型的泛化能力。

1.4 答案跨度輸出

答案跨度輸出模塊的作用是分別預測每個位置是答案的開始和結束的概率。訓練損失為預測分布中的開始位置和結束位置的負對數概率之和，對所有輸入樣本進行平均并使其最小化：

其中：θ是模型中所有可訓練權重的集合；N是數據集中的樣本數量；ysi和yei分別是第i條的真實開始和結束索引；pK表示向量p的第k個值。按照語義規則使用歸并排序輸出概率之和最大的跨度位置。具體而言：

a）對于長度為n的等長序列PS（X）和PE（X），分別計算它們的前綴和，得到兩個數組P和Q，其中P［i］表示P中前i個元素的和，Q［j］表示Q中前j個元素的和。

b）定義一個元素為（pair，s）的數據結構，其中pair表示PS（X）和PE（X）中的元素下標對，s表示對應的j和。對于所有的pair，按照它們的和s降序排序，存儲在一個大小為n2的數組C中。

c）對于數組C中的元素，依次檢查它們對應的pair是否滿足以下條件：

（a）越界條件A：

pair［0］

（b）語義條件B：

pair［0］

（c）更新條件C：

［pair［0］］+Q［pair［1］］≥P[pair[0]-1］+Q[pair[1]-1］（18）

如果滿足條件A和B、C，則將該元素的pair添加到結果集中。

d）返回結果中前k個pair，輸出與答案最匹配的一個。

2 實驗結果

2.1 實驗設置

在跨度提取任務數據集SQuAD1.1上評估所提出的SD-SE-BERT模型，SQuAD1.1為包含536篇維基百科文章以及超過100 000個問題與答案的基準數據集，問題和答案均由人工進行標注，答案被限定出現在相應的段落當中。

實驗采用exact match（EM）和F1 score（F1）作為評價指標。選取bert-base-uncased版本的BERT模型；batch size為16；epochs為4；輸入序列最大長度為384；初始學習率為5E-5，使用AdamW優化器在每100個迭代周期衰減學習率，衰減系數為0.1；在數據增強模塊EDA中同義詞替換、隨機插入、隨機交換、隨機刪除這四種操作的概率設置為0.25；在使用基于加權平均的自集成策略時，取前K=3輪epoch的BERT模型得到self-ensemble-BERT模型。在自蒸餾過程中，溫度系數τ固定設置為2，自蒸餾損失函數權重λ為0.1，為可學習參數，使用AdamW優化器進行更新；大型語言模型ChatGLM選用ChatGLM-6B的量化int4版本，選擇默認參數配置，一次訓練迭代以1的batchsize進行16次累加的前后向傳播。實驗在CUDA11.1和PyTorch 1.8.1的環境中實現了模型的最優性能。

2.2 實驗結果與分析

在SQuAD1.1數據集上，將所提出的SD-SE-BERT模型與近些年問答領域表現較為出色的問答模型比較。

對比模型包括：五種單模型BiDAF［25］、BERT、ALBERT［26］、LinkBERT［9］、RoBERTa；四種蒸餾模型TinyBERT［17］、BERT-PKD［27］、MobileBERT［28］、ITRD［29］以及大型語言模型ChatGLM。實驗結果對比如表1所示。

a）在單模型的對比中，BERT相比于BiDAF通過預訓練可以更好地處理長文本與未知單詞，有利于其捕捉問題和段落之間的交互信息。因此，BiDAF實驗效果相比于BERT較差；而ALBERT在BERT的基礎上使用自監督損失函數，并將預訓練任務NSP替換為SOP（sentence order prediction），預測兩個句子是否為同一篇文章中的連續句子，可以更好地學習句子語義信息和相互關系。LinkBERT新增加文檔關系預測任務，以學習跨文檔的句子之間的關系。RoBERTa則是在更大的數據集和最優的參數中訓練BERT。其中，ALBERT、RoBERTa、LinkBERT和ChatGLM模型的思路更為接近，均是在多種類的更大規模的數據集上改變或者增加預訓練任務。

b）在蒸餾模型的對比中，BERT-PKD由于使用知識蒸餾差異的方法，可以在保持模型性能的同時，在教師模型網絡的先前層中提取多層知識，相對于TinyBERT模型在EM指標上較優。MobileBERT則進一步使用特征圖遷移的方式允許學生模型模仿教師模型在每個Transformer層的輸出，整體上提高了模型性能。ITRD方法中教師模型使用BERT-base，除只使用12層encoder外，學生模型架構和BERT-base相同，其引入相關性損失和互信息損失使得學生模型在特征級別上與教師表示相匹配，并從教師網絡中提取補充信息。

SD-SE-BERT在測試集上的EM和F1分別為84.8和89.7，整體上比其他模型有所提升。相比較單模型中性能最佳的LinkBERT，EM指標提高2.2，F1指標下降0.4。相比五種單模型，EM指標平均提高6.52，F1指標平均提升4.22；證明了所提方法在改善BERT模型性能上的有效性。相比較四種蒸餾模型，EM指標平均提高4.625，F1指標平均提升3.275，表明SD-SE-BER相對其他蒸餾模型效果更好。相比較在SQuAD1.1數據集上微調的大型語言模型ChatGLM模型，EM指標提高4.5，F1指標提高2.5。由于ChatGLM已經在其他任務上進行預訓練，其通用性更強，在具體數據集上微調后的表現不佳的情況符合文獻［12，13］的結論。為進一步研究自集成和自蒸餾的聯合使用對于模型訓練過程中的影響，在訓練時記錄來自前幾輪訓練得出的教師模型的蒸餾損失和當前訓練的交叉熵損失，即式（16），得到SD-SE-BERT模型在SQuAD1.1上的訓練的誤差收斂曲線，如圖2所示。

當訓練開始時，CE損失主導優化目標。在訓練最后階段，交叉熵損失變小且變化較平穩，但蒸餾損失繼續呈現下降趨勢，說明目標函數中的自蒸餾部分對模型貢獻了很大的增益。在訓練階段結束時優化CE損失不能繼續提高BERT的性能，但以self-ensemble-BERT為教師的自蒸餾將繼續提高整體預測能力。

2.3 消融實驗

對基線模型添加EDA模塊、采用加權平均集成策略和使用自蒸餾的訓練方法來驗證提出方法的有效性。提出方法的幾種組合如表2所示，各項實驗結果以在SQuAD1.1數據集上EM和F1指標表示。第一行為基線模型BERT-base的結果，第二至六行為基線模型與對應方法組合的結果。

通過第一行和第二行結果的比較可以看出，在基線模型中添加所提的EDA模塊后，模型性能略有提升。第四行中，使用普通平均策略代替加權平均集成結合自蒸餾，模型的性能相較于只使用加權平均集成的第三行，在提升幅度上更大，說明方法中自蒸餾部分提供的增益較大。通過第一行和第五行結果的比較可以看出，對跨度提取任務，所提的加權平均集成策略結合自蒸餾的訓練方法相對基線，在EM和F1指標上分別提高了7.5%和4.9%。驗證了同時采用加權平均集成策略結合自蒸餾方法的有效性。

表3給出了部分樣本在經過所提方法訓練后的答案跨度預測結果，第三列probability表示跨度開始位置和結束位置的概率值。在針對“who”類別的答案預測里，BERT模型很好地捕捉到了上下文信息，使得其更多地關注到人物的身份信息，輸出正確答案“Rev.William Corby”，但在第三條樣本示例，答案并未直接在段落給出，需要模型理解文本并推理信息，BERT輸出錯誤答案“Rev.Theodore M.Hesburgh”，BERT受限于之前訓練中學到的知識，而所提的方法并不受此影響，進一步證明自蒸餾對于模型“知識更新”的有效性。在第一和第二條樣本示例中，雖然BERT和所提方法都預測正確，但在對于跨度中開始和結束位置的概率預測上，所提方法對于正確答案的關注更強，歸功于自蒸餾使得模型能夠更好地關注到目標詞的位置。

3 結束語

針對知識蒸餾結合預訓練語言模型在問答領域上存在的問題，將自蒸餾和自集成結合，構建出一種基于自蒸餾與自集成的問答模型SD-SE-BERT。使用不同訓練階段的BERT模型作為學生模型，自集成機制按學生模型在驗證集上的性能，對輸出結果進行加權平均以作為教師模型提供的監督信號，設計并結合自蒸餾損失函數和交叉熵損失函數，有效利用模型自身的監督信息和模型間的多樣性。該方法提高了模型組合不同文本數據特征的能力，避免了事先訓練教師模型、以及教師模型與學生模型不匹配的問題，通過與其他代表性方法的對比，證明了所構建的問答模型在跨度提取任務上的有效性。筆者相信，這項研究對于進一步發展問答模型以及相關領域的研究具有一定意義。在未來工作中，將繼續研究自蒸餾結合其他模型壓縮的方法，進一步提高問答模型性能，并將持續關注大型語言模型的動態，探索在問答領域的各類任務上微調其他大型語言模型的效果。

參考文獻：

［1］Chen Danqi.Neural reading comprehension and beyond［M］.Redwood City：Stanford University Press，2018.

［2］Liu Shanshan，Zhang Xin，Zhang Sheng，et al.Neural machine reading comprehension：methods and trends［J］.Applied Sciences，2019，9（18）：3698.

［3］葉俊民，趙曉麗，杜翔，等.片段抽取型機器閱讀理解算法研究［J］.計算機應用研究，2021，38（11）：3268-3273.（Ye Junmin，Zhao Xiaoli，Du Xiang，et al.Research on span-extraction algorithm for machine reading comprehension［J］.Application Research of Computers，2021，38（11）：3268-3273.）

［4］王寰，孫雷，吳斌，等.基于閱讀理解智能問答的RPR融合模型研究［J］.計算機應用研究，2022，39（3）：726-731，738.（Wang Huan，Sun Lei，Wu Bin，et al.Research on RPR fusion model based on reading comprehension intelligent question answering［J］.Application Research of Computers，2022，39（3）：726-731，738.）

［5］Joshi M，Chen Danqi，Liu Yinhan，et al.SpanBERT：improving pre-training by representing and predicting spans［J］.Trans of the Association for Computational Linguistics，2020，8：64-77.

［6］Devlin J，Chang Mingwei，Lee K，et al.BERT：pre-training of deep bidirectional transformers for language understanding［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics.Stroudsburg：ACL Press，2019：4171-4186.

［7］Rajpurkar P，Zhang J.Squad：100，000+questions for machine comprehension of text［C］//Proc of Conference on Empirical Methods in Na-tural Language Processing.Stroudsburg：ACL Press，2016：2383-2392.

［8］Liu Zhuang，Lin W，Shi Ya，et al.RoBERTa：a robustly optimized BERT pretraining approach［C］//Proc of the 20th Chinese National Conference on Computational Linguistics.Beijing：Chinese Information Processing Society of China Press，2019：1218-1227.

［9］Yasunaga M，Leskovec J.LinkBERT：pretraining language models with document links［C］//Proc of the 60th Annual Meeting of Association for Computational Linguistics.Stroudsburg：ACL Press，2022：8003-8016.

［10］Aljanabi M，Ghazi M，Ali A H，et al.ChatGPT：open possibilities［J］.Iraqi Journal For Computer Science and Mathematics，2023，4（1）：62-64.

［11］Du Zhengxiao，Qian Yujie，Liu Xiao，et al.GLM：general language model pretraining with autoregressive blank infilling［C］//Proc of the 60th Annual Meeting of the Association for Computational Linguistics.Stroudsburg：ACL Press，2022：320-335.

［12］Karmakar A，Prenner J A.Codex hacks HackerRank：memorization issues and a framework for code synthesis evaluation［EB/OL］.（2022）.https：//arxiv.org/abs/2212.02684.

［13］Liu Tiedong，Low B K H.Goat：fine-tuned LLaMA outperforms GPT-4 on arithmetic tasks［EB/OL］.（2023）.https：//arxiv.org/abs/2305.14201.

［14］Zhang Wenxuan，He Ruidan，Peng Haiyun，et al.Cross-lingual aspect-based sentiment analysis with aspect term code-switching［C］//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg：ACL Press，2021：9220-9230.

［15］Pranesh R，Shekhar A，Pallavi S.Quesbelm：a BERT based ensemble language model for natural questions［C］//Proc of the 5th Internatio-nal Conference on Computing，Communication and Security.Pisca-taway，NJ：IEEE Press，2020：1-5.

［16］Pant K，Dadu T，Mamidi R，et al.BERT-based ensembles for modeling disclosure and support in conversational social media text［C］//Proc of the 3rd Workshop on Affective Content Analysis.Menlo Park：AAAI Press，2020：130-139.

［17］Jiao Xiaoqi，Yin Yichun，Shang Lifeng，et al.TinyBERT：distilling BERT for natural language understanding［C］//Findings of the Association for Computational Linguistics.Stroudsburg：ACL Press，2019：4163-4174.

［18］Yang Ze，Shou Linjun，Gong Ming，et al.Model compression with two-stage multi-teacher knowledge distillation for Web question answering system［C］//Proc of the 13th International Conference on Web Search and Data Mining.New York：ACM Press，2020：690-698.

［19］Yuan Fei，Shou Linjun，Pei Jian，et al.Reinforced multiteacher selection for knowledge distillation［C］//Proc of AAAI Conference on Artificial Intelligence.Stroudsburg：ACL Press，2021：14284-14291.

［20］Chen Defang，Mei Jianping，Zhang Hailin，et al.Knowledge distillation with the reused teacher classifier［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2022：11933-11942.

［21］He Ruifei，Sun Shuyang，Yang Jihan，et al.Knowledge distillation as efficient pre-training：faster convergence，higher data-efficiency，and better transferability［C］//Proc of IEEE/CVF Conference on Compu-ter Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2022：9161-9171.

［22］葉榕，邵劍飛，張小為，等.基于BERT-CNN的新聞文本分類的知識蒸餾方法研究［J］.電子技術應用，2023，49（1）：8-13.（Ye Rong，Shao Jianfei，Zhang Xiaowei，et al.Knowledge distillation of news text classification based on BERT-CNN［J］.Application of Electronic Technique，2023，49（1）：8-13.）

［23］Yang Chenglin，Xie Lingxi，Su Chi，et al.Snapshot distillation：teacher-student optimization in one generation［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Washington DC：IEEE Computer Society，2019：2859-2868.

［24］Wei J，Zou Kai.EDA：easy data augmentation techniques for boosting performance on text classification tasks［C］//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg：ACL Press，2019：6382-6388.

［25］Seo M，Kembhavi A，Farhadi A，et al.Bidirectional attention flow for machine comprehension［C］//Proc of the 5th International Confe-rence on Learning Representations.2017：147-154.

［26］Lan Zhenzhong，Chen Mingda，Goodman S，et al.ALBERT：a lite BERT for self-supervised learning of language representations［C］//Proc of the 8th International Conference on Learning Representations.2020：344-350.

［27］Sun Siqi，Cheng Yu，Gan Zhe，et al.Patient knowledge distillation for BERT model compression［C］//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg：ACL Press，2019：4323-4332.

［28］Sun Zhiqing，Yu Hongkun，Song Xiaodan，et al.MobileBERT：a compact task-agnostic BERT for resource-limited devices［C］//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg：ACL Press，2020：2158-2170.

［29］Miles R，Rodriguez A L，Mikolajczyk K.Information theoretic representation distillation［C］//Proc of the 33rd British Machine Vision Conference.2022：385.

計算機應用研究2024年1期

計算機應用研究的其它文章: 多策略融合的蛇優化算法及其應用; 基于Spark和NRSCA策略的并行深度森林算法; 基于子空間學習的快速自適應局部比值和判別分析; 基于相似圖投影學習的多視圖聚類; HHUIM：一種新的啟發式高效用項集挖掘方法; 基于專家反饋的廣義孤立森林異常檢測算法