Adapter與Prompt Tuning微調方法研究綜述

2023-01-29 13:10:56林令德王正安

計算機工程與應用 2023年2期

林令德，劉納，王正安

1.北方民族大學計算機科學與工程學院，銀川750021

2.北方民族大學圖像圖形智能處理國家民委重點實驗室，銀川750021

在過去幾十年中，互聯網的興起改變了人們的生活方式，每天有大量的文本數據在互聯網中產生，如何從這些文本數據中獲取有用的信息是文本挖掘主要的研究內容。自然語言處理（natural language processing，NLP）作為文本挖掘的核心技術，是一門語言與計算機科學的交叉學科，屬于人工智能中一個重要研究領域，主要研究如何讓機器更好地理解人類語言，研究方向有機器翻譯、命名實體識別等。隨著深度學習發展，各種各樣的神經網絡模型在自然語言處理領域得到應用，例如卷積神經網絡（convolutional neural network，CNN）[1-3]、循環神經網絡（recurrent neural network，RNN）[4-5]、圖神經網絡（graph neural networks，GNN）[6-8]。神經網絡通過低維和密集向量表示文本中的句法與語義特征，緩解之前特征工程中存在的問題[9]。神經網絡的應用提高了NLP各個任務的準確率，然而神經網絡模型需要針對具體的任務進行設計，無法構建一個適用于多任務的通用模型。

從2018年起，遷移學習的思想被廣泛應用在自然語言處理領域，提出了許多預訓練語言模型，如ELMO[10]、GPT[11]、BERT[12]、XLNET[13]、ELECTRA[14]、Albert[15]等。預訓練語言模型采用兩階段學習方法，首先在大型語料庫中訓練模型，使模型學習通用語言表示，再根據不同的下游任務對預訓練模型進行微調。預訓練模型通常采用Transformer[16]結構，例如BERT模型基于多層雙向Transformer編碼器實現，這種雙向結構能更好地捕捉語句中單詞之間關系，提高模型在下游任務中的表現能力。而且使用預訓練模型可以降低后期訓練成本、加快在下游任務中模型的收斂速度、顯著提升下游任務的準確率。

隨著計算機性能的提升，預訓練模型參數量也呈現快速增長的趨勢。預訓練模型參數量從2018年的1.1億（Bert-base）增長到2021年的53 000億（Megatron-Turing），增長了48 000倍。隨著參數量的增長，模型的學習能力也隨之提升，在各個領域中的應用效果也更好，如Megatron-Turing NLG[17]、ERNIE 3.0[18]、Yuan 1.0[19]等。但是模型參數量的增長在帶來益處的同時，也表現出許多隱患。因為巨大的參數量會導致模型的遷移能力下降，傳統預訓練模型中的兩階段學習方法很難適用于參數量達到數萬億的巨大模型，即使在微調時使用了較大的數據集，也無法保障模型能夠快速記住微調樣本[20]。并且，傳統微調方法需要對每一種下游任務進行全模型微調，并存儲一份該任務的模型樣本，對存儲資源造成巨大壓力，對計算機算力也有更高的要求。而且，目前大多數研究組織還沒有足夠的算力對這些參數量巨大的模型進行微調，并在實際場景中部署應用。

近兩年，學者們提出了許多傳統微調方法的替代方案，主要可以分為Adapter和Prompt兩類。Adapter微調方法的主要思想是在預訓練模型中添加Adapter模塊，每個Adapter模塊中包含少量參數，在下游任務中微調時固定預訓練模型參數，通過Adapter模塊學習特定任務中的知識，其中每個下游任務通常對應多個Adapter模塊。由于每個Adapter模塊中包含的參數較少，訓練時只需更新Adapter模塊中的權重，降低了對計算機算力的要求。Prompt微調方法通過模板將不同的下游任務轉換為模型預訓練時常見的形式，縮小預訓練與微調時訓練數據的差異性，提升模型在下游任務中的表現。

目前預訓練模型微調方法綜述較多[21-22]，大多從預訓練模型出現開始，介紹了預訓練模型的整個發展歷程，導致篇幅較長。與之相比，本文僅對Adapter與Prompt兩類微調方法進行介紹，具有較強的針對性，且篇幅較短，適合研究人員快速了解該方向的發展現狀。

本文對Adapter與Prompt中的經典方法進行介紹，對各種方法的優缺點進行討論并總結歸納，并對本文工作進行總結與展望。本文的研究意義有：（1）與其他綜述文章相比較，本文針對Adapter與Prompt Tuning兩種方法進行介紹、分析與總結，針對性強。（2）以預訓練模型為切入點，引出當前微調方法現狀，幫助科研工作者了解當前預訓練模型微調方法發展動態與存在的問題。

1 基于Adapter的微調方法

隨著計算機硬件性能的提高，預訓練模型參數量越來越多，在訓練下游任務時進行全模型微調變得昂貴且耗時，Adapter的出現緩解了這個問題。Adapter在預訓練模型每層中插入用于下游任務的參數，在微調時將模型主體凍結，僅訓練特定于任務的參數，減少訓練時算力開銷。本章主要介紹Adapter模塊設計方法、后續改進算法以及在部分領域中的應用。

2019年，Houlsby等人[23]將Adapter引入NLP領域，作為全模型微調的一種替代方案。Adapter主體架構如圖1所示，在預訓練模型每一層（或某些層）中添加Adapter模塊（如圖1左），微調時凍結預訓練模型主體，由Adapter模塊學習特定下游任務的知識。每個Adapter模塊由兩個前饋子層組成，第一個前饋子層將Transformer塊的輸出作為輸入，將原始輸入維度d投影到m，通過控制m的大小來限制Adapter模塊的參數量，通常情況下m＜＜d。在輸出階段，通過第二個前饋子層還原輸入維度，將m重新投影到d，作為Adapter模塊的輸出（如圖1右）。通過添加Adapter模塊來產生一個易于擴展的下游模型，每當出現新的下游任務，通過添加Adapter模塊來避免全模型微調與災難性遺忘[24-25]的問題。Adapter方法不需要微調預訓練模型的全部參數，通過引入少量針對特定任務的參數，來存儲有關該任務的知識，降低對模型微調的算力要求。

圖1 Adapter主體架構圖Fig.1 Adapter main architecture diagram

2020年，Pfeiffer等人[26]對Adapter進行改進，提出Adapter Fusion算法，用以實現多個Adapter模塊間的最大化任務遷移（結構如圖2所示）。Adapter Fusion將學習過程分為兩個階段：（1）知識提取階段。訓練Adapter模塊學習下游任務的特定知識，將知識封裝在Adapter模塊參數中。（2）知識組合階段。將預訓練模型參數與特定于任務的Adapter參數固定，引入新參數學習組合多個Adapter中的知識，提高模型在目標任務中的表現。首先，對于N個不同的下游任務訓練N個Adapter模塊。然后使用Adapter Fusion組合N個適配器中的知識，將預訓練參數Θ和全部的Adapter參數Φ固定，引入新的參數Ψ，使用N個下游任務的數據集訓練，讓Adapter Fusion學習如何組合N個適配器解決特定任務。參數Ψ在每一層中包含Key、Value和Query（如圖2右）。在Transformer每一層中將前饋網絡子層的輸出作為Query、Value和Key的輸入是各自適配器的輸出，將Query和Key做點積傳入SoftMax函數中，根據上下文學習對適配器進行加權。在給定的上下文中，Adapter Fusion學習經過訓練的適配器的參數混合，根據給定的輸入識別和激活最有用的適配器。作者通過將適配器的訓練分為知識提取和知識組合兩部分，解決了災難性遺忘、任務間干擾和訓練不穩定的問題。Adapter模塊的添加也導致模型整體參數量的增加，降低了模型推理時的性能。

圖2 Adapter Fusion架構圖Fig.2 Adapter Fusion architecture diagram

Adapter Fusion在Adapter的基礎上進行優化，通過將學習過程分為兩階段來提升下游任務表現。如表1所示，作者對全模型微調（Full）、Adapter、Adapter Fusion三種方法在各個數據集上進行對比實驗。從表中數據可以看出，Adapter Fusion在大多數情況下性能優于全模型微調和Adapter，特別在MRPC[27]（相似性和釋義任務數據集）與RTE[27]（識別文本蘊含數據集）中性能顯著優于另外兩種方法。在MRPC數據集中，Adapter Fusion與全模型微調方法相比，提升了5.15個百分點，與Adapter相比提升3.63個百分點。

表1 Full（全模型微調）、Adapter、Adapter Fusion比較Table 1 Comparison of Full（full model fine-tuning），Adapter，and Adapter Fusion 單位：%

Rücklé等人[30]對Adapter的計算效率進行分析，發現與全模型微調相比適配器在訓練時快60%，但是在推理時慢4%～6%，并提出了Adapter Drop方法緩解該問題。Adapter Drop在不影響任務性能的情況下，對Adapter動態高效地移除，盡可能地減少模型的參數量，提高模型在反向傳播（訓練）和正向傳播（推理）時的效率。在刪除了前五層的Adapter后，在對八個任務進行推理時，效率提高了39%。

Bapna等人[31]基于Adapter的思想在機器翻譯領域提出了一種簡單的自適應機器翻譯方法。首先在大型語料庫中訓練一個基礎通用NMT（neural machine translation，神經機器翻譯）模型，作為預訓練模型。在模型收斂后將模型主體部分進行凍結，保留在預訓練階段學習的通用知識。在每個Transformer層中為每種語言分別添加Adapter模塊，在對應語料庫中進行訓練，調整Adapter參數，讓其學習對應語言知識。與全模型微調相比，基于Adapter的機器翻譯獲得了更好的效果，并且無需對不同自適應數據集和模型容量進行調整。

2020年，Wang等人[32]將Adapter應用在遷移學習領域，提出K-Adapter方法。解決新知識注入時，歷史知識被沖走（災難性遺忘）的問題。主要思想與Adapter類似，固定預訓練模型參數，針對每一種新知識添加一個Adapter模塊進行訓練。將Adapter模塊作為預訓練模型的插件，每個插件之間沒有信息流傳輸，這樣可以有效地訓練多個Adapter模塊，做到即插即用。避免了新的任務出現，需要對所有任務重新訓練的問題。

Adapter作為全模型微調的替代方法，已經廣泛應用在域遷移[33]、機器翻譯[31，34]、遷移學習[32，35-36]和跨語言遷移[37-39]等方面。表2從方法的貢獻、不足等方面進行總結歸納，輕量和易擴展的Adapter已經成為了全模型微調的合適替代方法。與之前昂貴的全模型微調方法相比，Adapter只需要一個較小的訓練和存儲代價就可以獲得與全模型微調方法相近的結果。然而，基于Adapter的微調方法需要在預訓練模型中添加針對下游任務的相關參數。雖然提高了模型的訓練效率，但也會降低模型推理時的性能。將模型在實際應用中部署時，速度下降會非常明顯。

表2 Adapter方法比較Table 2 Comparison of Adapter methods

2 基于Prompt Tuning的微調方法

全模型微調方法通過微調預訓練模型來提高模型在下游任務中的表現，但是目前預訓練模型都過于龐大，對預訓練模型進行全微調資源消耗巨大。Prompt方法為不同下游任務設計模板，通過將下游任務重構為與模型預訓練相近的形式，減少預訓練與在下游任務微調時輸入之間的差距。提出Prompt方法初衷是探測模型中的知識含量，讓模型回憶在預訓練時學習的知識?；赑rompt的微調方法降低了預訓練模型在下游任務微調時存儲和運算的資源使用。如圖3所示，Prompt的設計分為三個步驟：（1）模板設計。通過手動或自動設計模板，將輸入x轉變成x′。通常情況下x′中包含空槽，讓預訓練語言模型對空槽填充，從而推斷出y。模板的設計靈活多變，需要根據下游任務與預訓練語言模型來選擇合適的模板。（2）答案搜索。在通過模板得到x′后，預訓練語言模型在答案空間中進行搜索，找出得分最高的值填充到對應空槽中。（3）答案映射。通過答案搜索得到空槽對應填充值后，部分任務的槽值為最終結果，部分任務的槽值需要進行轉換，將槽值對應到最終的輸出標簽y。

圖3 Prompt流程圖Fig.3 Prompt flow chart

如何構建一個模板使模型在下游任務中獲得最好的表現是Prompt Tuning研究的主要問題，目前在模板設計階段主要有人工構建模板、離散模板和連續模版三種方法，本文會分別介紹這三種方法。

2.1 人工構建模板方法

依靠專業人員的經驗手動構建模板是最直接高效的方式，可以支持下游任務，也可以使用輔助半監督學習的方式構建數據集，進行數據增強。在大型預訓練模型的場景下可以實現小樣本甚至零樣本學習，實現全模型微調的效果。

2019年，Petroni等人[40]對預訓練模型中包含的知識進行探測。使用BERT作為基礎模型，通過將下游任務訓練數據集轉換為完形填空的形式（如表3所示）模仿MLM預訓練機制，縮小模型預訓練與微調時看到的數據差異，來檢驗模型中包含的知識量。作者提出了LAMA probe數據集，用來評估預訓練語言模型中包含的事實和常識知識。LAMA probe是Google-RE、T-Rex等數據集的整合，通過構造模板將知識三元組轉換為模型常見的完形填空的形式，來探測預訓練模型中所包含的知識。其思想為研究者們帶來了很大的啟發。

表3 模板構建示例Table 3 Template construction example

2020年，Open AI發布了GPT-3[41]，同樣采用了人工構建模板的方式。將預訓練好的模型參數凍結，在輸入文本中加入提示構成模板引導模型完成相應問題，在避免全模型微調的情況下獲得了很好的結果。提示通常由任務描述和幾個相關示例組成，將任務相關提示與輸入x拼接生成新的輸入，無需針對不同的下游任務進行設計。該方法使得同一個模型可以服務于不同的任務，無需針對每個任務分別生成模型副本。但是該方法也具有一定的缺點：（1）每一次做新預測時，都需要針對當前任務給定訓練樣本，無法將上次預測時的有用信息抓取并存儲。（2）該方法基于上下文來進行學習，通過注意力機制來處理序列信息。但通常模型輸入序列長度固定，導致該模型無法充分利用大數據集的優點。（3）該語言模型巨大，有1 750億參數，在實際場景中應用非常困難。

2021年，Schick等人[42]將有監督的微調和無監督的微調相結合提出了PET（pattern exploiting training），采用了半監督訓練的方式，將輸入示例轉換為完形填空形式的短語，幫助模型理解相應任務。該方法使用手工構建模板的方式，使用相應短語為未標記數據添加軟標簽，最后對生成的訓練集執行標準的監督訓練。通過定義一個模式函數P(x)，將x輸入后生成模板。在生成的模板中包含[mask]標記，讓模型對標記位置進行預測，預測結果通過詞表V映射為最終結果y。在每個任務中設計多個模板，采用模型集成與模型蒸餾的思想來尋找表現最好的模板。首先為每組模板分配權重，通過SoftMax和溫度系數生成偽標簽集合并在新的PLM中進行訓練。作者將多個PVP的結果融合得到置信度較高的軟標簽，而不是選擇最好的PVP。

由于模板之間無法相互學習，如果其中某個模板性能差，會導致最終生成的訓練集包含許多錯誤示例。作者針對這種情況提出iPET[42]。首先在數據集上進行訓練得到多個單獨微調模型，對于每個模型，隨機選取剩下的多個模型對未標注數據進行預測，將預測結果作為該模型新的訓練集。其次為每個模型分配新的數據集，繼續訓練得到一組新的PET模型。最后，將前面步驟重復k次，每次將生成的訓練集大小增加d倍，最后一組模型將用于創建軟標記數據集，用于標準分類。

雖然PET有助于將預訓練語言模型中包含的知識用于下游任務，但是只有在語言模型預測的答案對應于詞匯表中單個標記時才起作用，導致許多任務不容易通過這種方式完成。此外在PET中，是將每個V映射為一個token，但目前很多語言模型都是以BPE[43]為基本單元，預測中的token可能是單詞中的某一部分，所以無法解決答案由多個token組成的問題。對于這個問題，作者在PET的基礎上又進行了改進，提出Multiple Tasks PET[44]使其能夠應用在需要預測多個標記的任務。首先針對特定任務，計算詞表V中所有答案的最長長度k，在進行轉換時，將[mask]長度設置為k，一次預測這k個位置的數據。

2.2 離散模板方法

雖然人工構建模板較為直觀高效，但是由于構建過程繁瑣，模板微小的變化可能會導致結果出現較大的變化，自動構建模板方式的提出用于解決這一問題。離散模板是自動構建模板的一種方法，模板由具體的字符構成。

2020年，Shin等人[45]針對手動設計模板既耗時性能又不穩定的問題，提出了AUTOPROMPT。通過梯度引導搜索為各種任務創建提示。如圖4所示，首先定義模板λ,λ中包含觸發標記Xtrig、原始輸入Xinp和填充預測結果的插槽[mask]。觸發標記Xtrig在所有任務中共享，并通過梯度搜索尋找確定。將Xinp與Xtrig輸入到λ中，生成Xprompt作為預訓練模型輸入。對于抽象任務中標簽選擇不清晰的問題，作者使用通用的兩階段操作來自動選擇標簽集合的方法。首先訓練一個邏輯分類器，使用[mask]作為輸入來預測類標簽。然后將預訓練模型的輸出來當作訓練好的邏輯分類器的輸入，來獲得相應標簽。AUTOPROMPT與手工構建模板相比，減少了人力的消耗并獲得了不錯的性能。

圖4 AUTOPROMPT模板構建Fig.4 AUTOPROMPT template construction

GPT-3雖然在小樣本微調中有不錯的效果，但是其參數太多，在真實場景中難以應用部署。對此，Gao等人[46]在2020年提出LM-BFF模型。通過T5[47]模型來自動創建Prompt模板，避免人工標注導致的局部最優問題。首先自動選擇標簽值，針對每一個類c∈Y，使用初始L基于它們的條件似然來構建前k個詞匯單詞的剪枝集Vc?V,將Vc作為：

其中，PL表示L的輸出概率分布。為了進一步縮小搜索空間，在修剪后的空間中找到前n個分配來最大限度地提高在訓練集中的零樣本學習的精度。然后構建模板，選擇候選標簽詞，在標簽詞前后添加填充位后作為T5模型的輸入。并在T5輸出中，將標簽詞轉換為[mask]標簽形成多個模板，最后采用集束搜索對候選模板解碼，類似于詞表搜索方法[42，48]。對每一個模板在開發集中微調，選擇效果最好的模板。雖然LM-BFF微調效果高于標準微調，但是面對較困難的任務，性能仍然落后于全模型微調方法，并且結果中也存在高方差的現象。

目前提示的微調方法大都基于令牌級別的，基于GPT[11]的L2RLM（left to right language model）或者BERT[12]的MLM（mask language model）。2021年，Sun等人[49]使用了被RoBERTa[50]等模型拋棄的Bert原始訓練任務NSP（next sentence predict）來構建句子級提示方法，稱為NSP-BERT。NSP-BERT為不同的下游任務分別構建模板并通過添加soft-position將候選詞與[Blank]映射到同一位置，解決完形填空中候選詞無法感知[Blank]上下文的缺點。

BARTScore Prompt是Yuan等人[51]在2021年提出的一種模版生成方法，將Prompt加在源文本前面或采用自動搜索模板的方式。首先構建一個提示，對提示中文本進行同義詞替換生成新的提示，以這種方式來擴充提示數量。最終將生成的提示加在文本的前面或者后面，構成模板作為預訓練模型的輸入。雖然該構建方法簡單，但是沒有證明在事實和語言質量視角下的有效性。

2021年，Haviv等人[52]將構建模板將模板使用兩個步驟合并，提出了一種新的模板生成方法，使用BERT1和BERT2兩個模型完成任務。首先，構建初始模板作為BERT1模型的輸入，計算每一個隱時刻狀態與BERT1中哪一個詞嵌入的token最接近，將token與原始模板中對應詞進行替換優化生成新模板。將新模板作為BERT2的輸入，預測結果。雖然這個方法簡單并易于理解，但整個訓練過程需要使用兩個BERT模型，對計算機算力有較高的要求。

2.3 連續模板方法

由于手動設計模板十分困難，需要大量驗證集，并且當模板發生細微變化時，容易產生不可預估的變化。離散模板與連續模板相比，在許多情況下存在性能不理想的問題。連續模板構建是對整個連續空間進行微調，放松了模板由實際存在詞語組成的約束，與離散模板相比，連續模板具有更強的表現力。并且連續模板可以強調詞語，并對具有誤導性和歧義性的詞語進行調整。

2021年，Li等人[53]提出prefix-tuning解決全模型微調中每個任務存儲一份預訓練模型參數的問題。每個下游任務只需要存儲對應的前綴，使用前綴來優化任務。Prefix-tuning通過在預訓練模型的每一層插入與任務相關的向量，在下游任務中調整相關參數，同時保持預訓練模型參數不變。自回歸語言模型添加prefix后表示為z=[prefix;x;y]，編碼器-解碼器模型則表示為z=[prefix;x;prefix;y]，模型添加前綴可訓練的參數為Pθ∈R|pidx|×dim(hi)，其中|Pidx|表示前綴的長度，dim(hi)表示模型第i時刻的隱藏狀態維度。prefix的長度可以自己定義，但是寬度必須與預訓練模型的隱狀態維度保持一致。

2021年，Liu等人[54]提出P-tuning并證明GPT使用P-Tuning可以獲得與BERT相媲美的效果。給定一個模板T={[P0:i,x,[Pi+1;m],y]}，P-tuning將[Pi]映射到{h0,…,hi,e(x),hi+1,…,hm,e(y)}，其中hi的值是一個可以訓練的變量，這使得模型能夠找到超出模型M原始詞匯表V所能表達的更好的連續提示，并且使用BiLSTM將hi建模為序列，使提示嵌入hi的值相互依賴，緩解由于對hi進行隨機分布初始化，在梯度下降時只改變小鄰域參數[55]，容易落入局部最小值的問題。DART（differentiable prompt）[56]在為hi值建立依賴時，沒有使用BiLSTM，而是利用輔助流利度約束目標為hi之間建立聯系。

2021年，Lester等人[57]在prefix-tuning的基礎上進行簡化，提出Soft-Prompt。Soft-Prompt僅在輸入前加入提示，采用與目標任務相關的token對提示進行初始化。Soft-Prompt比prefix-tuning添加更少的參數，允許transformer根據輸入的上下文更新中間層的任務表示，不需要重新參數化。

Hambardzumyan等人[58]受到了對抗性重新編程[59]的啟發，提出了一種基于對抗性重構的方法WARP（word-level adversarial reprogramming）。與之前手工尋找或者學習離散token作為Prompt的方法不同，WARP直接優化embedding作為Prompt，給予模型更高的自由度，并且在最終的下游任務中獲得了更好的表現。在模型中有兩組需要優化的embeddingθ={θP,θV}，其中P表示Prompt，V表示每一類的分類參數。首先將Prompt tokenP1…p插入到輸入序列中（可以是前面、中間、后面任意位置），經過encoder、MLM head后，通過θV。使用梯度優化來尋找使loss最小的參數。

目前提示調優已經展現出強大的能力，但是想要達到全模型微調的效果，需要一個巨大的模型（參數量在100億以上）。然而超大的預訓練模型在實際應用部署中存在較多的問題，目前實際應用中通常使用中型模型（參數量在1億到10億之間）。在這部分模型中，提示調優效果遠低于全模型微調。2021年10月，Liu等人[60]受prefix-tuning啟發，在P-tuning基礎上進行改進提出P-tuning v2。采用了深層實體調優，通過在不同層中添加標記，增加可以調節的參數量，解決P-tuning在復雜NLU任務中表現差的問題。

2.4 小結

本章從人工模板構建、離散模板構建、連續模板構建三種模板構建方式對Prompt Tuning進行介紹。如表4所示，對三種模板構建方式的優缺點進行總結歸納。并對三種構建方式下不同的方法貢獻與不足進行分析梳理，如表5所示。

表4 模板構建方式比較Table 4 Comparison of template construction methods

表5 各種模板構建方法比較Table 5 Comparison of various template construction methods

3 總結與展望

Adapter方法在模型中添加少量參數，在訓練時將模型主體凍結，使Adapter塊學習下游任務的知識，減少了訓練時的參數量并達到了全模型微調的效果。與Adapter微調方法相比，基于Prompt的微調是非侵入性的，無需附加大量參數。在下游任務繁多的背景下，使用Prompt可以解決為每個任務生成一個模型樣本的問題，是全模型微調的一種輕量化替代方案。但目前Prompt的研究主要針對分類和生成兩方面，對于其他領域研究相對較少，對于模板與答案之間的關聯也了解甚少。Prompt在自然語言處理領域大放異彩，取得的優異成績足以證明其有效性。可以預見，在未來Prompt工作會推動自然語言處理領域的快速發展。

本文對預訓練模型微調方法進行了綜述，目前預訓練模型微調方式種類繁多，本文僅選取了Adapter與Prompt兩種方式進行介紹，對兩種微調方式中經典方法進行分析、總結、歸納。雖然目前的微調方法多樣且設計較為復雜，但總體趨勢是結構越來越簡單，未來預訓練模型的微調方法會更加豐富且簡單高效。

通過對最近幾年預訓練模型微調方法的梳理，本文對微調方法未來的發展趨勢進行展望。（1）訓練速度。Adapter和Prompt中連續模板的構造需要在預訓練模型的基礎上添加參數，并在訓練過程中對參數進行優化。與全模型微調方法相比，雖然降低了訓練成本，但是在模型中新添加了參數，會導致模型在推理過程中效率的降低，在實際中應用中這個缺點會被放大。如何在少量添加模型參數甚至不添加的情況下將模型微調至較好的效果是未來的一個研究方向。（2）Prompt的可解釋性。Prompt已經表現出強大的能力，甚至被稱為NLP的第四范式[22]，但是目前針對Prompt可解釋性的相關研究較少?；赑rompt的微調方法發展迅速，在短短幾年的時間里已有數百篇相關工作。Prompt Tuning應更加集中地針對目前的超大模型，探索其在小樣本甚至零樣本中的能力上界。未來在多模態、多任務等領域的提示學習也會成為一個重要的研究方向。