基于遷移學習的LLaMA 2大語言模型微調優化方法

2024-09-22 00:00:00孫倩石競澤裴麗君張倩怡徐鳳強

軟件工程 2024年9期

關鍵詞：大語言模型;微調優化;遷移學習

中圖分類號：TP312 文獻標志碼：A

0 引言（Introduction）

近年來，大型語言模型[1]的出現和發展對自然語言處理和人工智能領域產生了變革性影響。自GPT-3（Generative Pre-Trained Transformer v3）問世以來，逐漸涌現出一批具有強大競爭力的語言模型，例如ChatGPT[2]、Meta LLaMA[3]、文心一言、盤古大模型等。利用大模型技術解決實際任務，已經成為人工智能領域的發展趨勢。然而，大模型技術應用于下游任務時，常常面臨諸多挑戰，例如數據規模龐大、計算資源有限，以及模型微調所需的訓練成本高、微調時間長等，因此大模型難以通過傳統的模型訓練方式來進一步提高自身的性能。因此，本文主要研究大模型微調優化方法并對其進行改進，通過遷移學習[4]將預訓練模型遷移至下游任務場景，然后進行模型微調（Fine-tuning）優化，在繼承預訓練模型的泛化能力的同時，使模型能夠適應下游任務場景，從而提高LLaMA 2[5]預訓練大模型在特定任務場景下的應用性能。

1LLaMA 2大語言模型介紹（Introduction of LLaMA 2 pre-trained large model）

本文采用的預訓練模型是由Meta AI正式發布的最新一代開源大模型LLaMA 2[5]，是一種用于自然語言處理的深度學習模型。LLaMA 2大語言模型是基于原始Transformers架構[6]的生成式預訓練模型，其訓練數據集包括2萬億個token，上下文長度為4 096，參數包括7 B、13 B和70 B，在各種基準集的測試上的表現突出，并且在多個下游任務上的表現超過了GPT-3。

1.1LLaMA 2大語言模型結構

LLaMA 2大語言模型基于自回歸Transformer架構實現，采用32層Transformer的解碼器（decoder-only）作為主干網絡，通常用于條件生成任務。模型首先通過詞嵌入（WordEmbedding）將輸入文本轉換為詞向量;其次將詞向量輸入解碼器網絡，學習詞向量之間的語義關系，通過解碼器的迭代學習提高模型對文本信息的處理能力;最后根據給定的條件信息，可以通過解碼器生成相應的答案進行輸出，LLaMA 2大語言模型結構圖如圖1所示。

1.2 模型訓練及遷移應用

LLaMA 2大語言模型訓練過程如下：首先需要準備大規模的文本語料庫作為訓練數據，并進行預處理;其次采用詞嵌入技術將文本數據向量化;最后使用數據集訓練神經網絡模型，通過定義的損失函數和優化算法調整模型參數。在訓練過程中，參數更新分為前向傳播和反向傳播兩個階段。前向傳播是指將訓練數據從輸入層傳遞到輸出層的過程，反向傳播則是計算模型參數的梯度并利用優化器更新參數。經過多次迭代后，模型逐步學習到語料庫中的語言規律和概率分布。

LLaMA 2大語言模型訓練過程中，淺層語言知識，如詞法、詞性、句法等存儲在模型的底層和中層，而抽象類的語言知識，如語義、邏輯、推理等廣泛分布在模型的中層和頂層結構中，這種模型可以被視為通用的語言理解系統。因此，可以利用遷移學習思想將訓練好的LLaMA 2大語言模型用于各種下游任務，例如智能問答、文本分類、情感分析、機器翻譯等。

受訓練數據集的影響，在下游任務中，原始模型一般會面臨不完全適配具體任務場景的問題。因此，需要通過微調訓練，將模型的語言理解能力遷移到特定的下游任務中，并與下游任務的語境知識進行適配，提高模型的應用性能。

2LLaMA 2大語言模型微調優化方法（LLaMA 2large language model fine-tuning optimizationmethods）

2.1LLaMA 2大語言模型微調

微調LLaMA 2大語言模型的核心技術包含兩個部分：一部分是損失函數，用來驗證模型輸出的優劣;另一部分是優化器，通過損失函數的梯度更新模型的參數，使模型的輸出更接近正確的目標。

為了提高大語言模型的微調效率，本文分別對損失函數和優化器進行改進。通過在損失函數中引入權重方向懲罰因子，減少多頭自注意力機制中對輸入向量的加權值與其梯度方向相反的情況;通過改進優化器權重衰減策略，平衡模型權重參數的衰減程度，進一步提高模型的優化性能。

本文分別對原有損失函數和優化器進行改進，加快了LLaMA 2預訓練大模型的微調收斂速度。同時，本文優化的方法不僅適用于LLaMA 2預訓練大模型，還適用于其他具有前向傳播和后向傳播機制的網絡模型。

3 實驗（Experiment）

為了驗證本文方法的效果，設計了基于LLaMA 2預訓練模型的微調優化實驗。

3.1 數據集

本文的數據集來源是huggingface 2.4.1的問答任務。問答任務（Question Answering）[10]是根據提出的問題生成使用自然語言的回答，數據集如表1所示。

3.2 參數設置

模型由24層編碼器和解碼器組成，模型的隱層維度（Hidden State Dimensions）為1024，前饋網絡維度（FeedForward Dimensions）為[1 024， 4 096， 1 024]，設置參數更新步數（Steps）為1000，最大輸入序列長度（Maximum SequenceLength）為1 024，最大輸出序列長度（Maximum TargetLength）為512，批樣本容量（Batch Size）為16。使用改進后的優化器，其中β1=0.9，β2=0.95，ε=8×10^-4，并設置學習率初始為0，在前10%的步數中逐漸預熱至峰值，隨后在剩余的步數中逐漸衰減至8×10^-5，學習率變化曲線如圖2所示。設置權重方向懲罰的權重α=0.3。

3.3 問答任務實驗結果與分析

為驗證本文預訓練大模型微調優化方法的性能，基于LLaMA 2大語言模型進行問答任務微調實驗。采用問答任務數據集分別在原方法和改進后的優化方法上迭代微調1 000次，對實驗結果進行對比。為保證實現效果，本文使用相同的學習率設置策略。

3.3.1 問答任務損失情況分析

本實驗將訓練過程和驗證過程的損失收斂情況進行可視化，問答任務訓練損失曲線如圖3所示，問答任務驗證損失曲線如圖4所示，圖中的實線為優化后的訓練損失曲線和驗證損失曲線，虛線為未優化的訓練損失曲線和驗證損失曲線。

對訓練數據和驗證數據的損失函數收斂情況進行分析發現，無論是在訓練過程還是在驗證過程中，尤其是在迭代次數較小的情況下，經優化后的損失函數收斂速度更快。這說明本文提出的損失函數在較少的迭代步數下可以加速模型的學習，并且可以使模型的輸出更接近正確的目標。

3.3.2 問答任務實例

為了進一步驗證改進后的模型微調優化方法的性能，分別利用未改進與通過改進的微調優化方法的模型進行問答任務測試。當向模型提問“先天性單管擴張疾病是什么？”時，使用本文提出的改進的微調優化方法的模型在訓練初期（迭代第100輪時）便可得到正確答案，而此時未使用改進的微調優化方法的模型仍沒有得到正確答案，甚至出現亂碼等情況。通過實例說明本文提出的改進微調優化方法短時間內達到的收斂速率更快，問答任務實例如表2所示。

4 結論（Conclusion）

本文針對大模型在應用于實際任務場景的微調過程中面臨的時間過長、成本高等問題，提出一種基于遷移學習的LLaMA 2預訓練大模型微調優化方法。該方法通過改進自注意力驗jDXXGAILiQEHyjMPvPL+9Q==證的損失函數及優化器，加快模型的收斂速度。在問答任務的數據集上進行實驗驗證，通過訓練損失對比和驗證損失對比，可以看出改進后的模型收斂速度更快，因此改進后的微調優化方法可以有效減少微調的迭代次數，提高微調效率，從而提升大語言模型在下游任務的遷移應用能力。

作者簡介：

孫倩（1993-），女，碩士，講師。研究領域：深度學習，自然語言處理。

石競澤（2004-），男，本科生。研究領域：人工智能，深度學習。

裴麗君（1987-），女，碩士，講師。研究領域：人工智能，自然語言處理。

張倩怡（1994-），女，碩士，講師。研究領域：人工智能，自然語言處理。

徐鳳強（1991-），男，博士，講師。研究領域：人工智能，深度學習，圖像識別。

軟件工程2024年9期

軟件工程的其它文章: 基于對抗訓練和片段級別的雙向情感三元組抽取模型; 放牧策略對土壤與植被的影響及土壤濕度預測研究; 基于連續小波變換和殘差神經網絡的房顫預測研究; 花式紗線條干檢測的視覺傳感器標定方法研究; 基于圖卷積網絡和有效自注意力的3D腹部器官圖像分割方法; 二分圖中高效計算top-n maximal α-biclique的方法研究