PMoE：在P-tuning中引入混合專家的參數(shù)高效微調(diào)框架

2025-07-28 00:00:00王浩王珺胡海峰周飛飛龔銳張索非

計(jì)算機(jī)應(yīng)用研究 2025年7期

關(guān)鍵詞：大語言模型；參數(shù)高效微調(diào)；P-tuning；混合專家；多任務(wù)學(xué)習(xí)中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1001-3695（2025）07-005-1956-08doi：10.19734/j.issn.1001-3695.2024.11.0484

Abstract：Large language model （LLM）has significantly improved performanceinreasoning and generation tasks.However， existing open-sourceLLMstillackssuffcientdomain-specificknowledgeandrequiresfine-tunngforspecializedtasks.Traditionalfine-tuningmethodsstruggletobalancelowcostandhigheficiencyinmuli-taskleaing.Toaddressthisisue，hispaperproposedaparameter-effcientfine-tuning framework namedPMoE.BasedontheP-tuning method，this framework introducedamixture-of-expertsmechanism toenhancemulti-task proessingwhilemaintaininglow-costtuning.Ineach Transformer modulelayer，PMoE constructed trainable expert modules toreplace the prompt modules in P-tuning and utilizedarouting mechanism todynamicallyalocatetasksbasedoninput task features.Aditionally，itdesignedtheexpert modulesinMoEto bedetachable，enabling modelreuseacrossdferent task scenariosandfurtherreducingcomputationalcosts.Experimentalresults demonstrate that PMoE achieves a 6.24% performance improvement over P-tuning on a Chinese medical dataset and exhibitssuperiorcapabilities inmulti-taskprocessngandtransferlearning，verifying itseficiencyandbroadapplicability.

Key words：large language model；parameter-effcient fine-tuning；P-tuning；mixture of experts；multi-task learning

0 引言

隨著大語言模型（largelanguagemodel，LLM）的不斷迭代更新，這些模型在推理和文本生成方面的能力得到了顯著增強(qiáng)。企業(yè)在下游任務(wù)處理中對(duì)LLM的引人日益增多，處理諸如文本分類、知識(shí)問答和text2seq（自然語言到數(shù)據(jù)庫語言轉(zhuǎn)換）等任務(wù)，這一趨勢(shì)在醫(yī)療、金融、法律和教育等多個(gè)領(lǐng)域表現(xiàn)突出[1＼～3]。盡管現(xiàn)有的自動(dòng)化工具在一定程度上緩解了工作負(fù)擔(dān)，但手工輸入和校對(duì)的需求仍然繁重，易發(fā)生錯(cuò)誤且耗時(shí)較多。LLM可以進(jìn)一步簡(jiǎn)化這些流程，降低人工干預(yù)可能帶來的錯(cuò)誤概率。在處理特定領(lǐng)域的術(shù)語時(shí)，現(xiàn)有工具在處理各個(gè)領(lǐng)域的專業(yè)術(shù)語和縮略語時(shí)常常存在精確性不足的問題，可能導(dǎo)致術(shù)語誤解和分類錯(cuò)誤，采用更智能的LLM可以顯著提高術(shù)語處理的準(zhǔn)確性。在知識(shí)傳播方面，盡管教育資源豐富，但如何將復(fù)雜的信息轉(zhuǎn)換為公眾易于理解的表達(dá)形式依然是一個(gè)挑戰(zhàn)。LLM可以促進(jìn)信息的專業(yè)性和通俗性表達(dá)，有助于提升公眾的知識(shí)水平，促進(jìn)技能普及。

在多個(gè)領(lǐng)域中部署大型語言模型時(shí)，通常面臨一個(gè)關(guān)鍵問題：現(xiàn)有開源LLM大多為預(yù)訓(xùn)練模型，其訓(xùn)練過程主要聚焦于通用性能的優(yōu)化。因此，在專業(yè)性較強(qiáng)的領(lǐng)域，這些模型往往表現(xiàn)出知識(shí)覆蓋的不足，需基于特定任務(wù)和數(shù)據(jù)集進(jìn)行微調(diào)。微調(diào)過程中主要面臨兩個(gè)問題：a）微調(diào)任務(wù)問題。大型語言模型作為智能系統(tǒng)的基礎(chǔ)，需要支持多個(gè)下游任務(wù)，因此，必須針對(duì)多種類型的數(shù)據(jù)集進(jìn)行微調(diào)。然而，隨著不同任務(wù)微調(diào)數(shù)據(jù)集的持續(xù)積累，模型在微調(diào)過程中的災(zāi)難性遺忘現(xiàn)象也隨之加劇，導(dǎo)致模型的通用性能嚴(yán)重下降。b）微調(diào)成本問題。由收稿日期：2024-11-27；修回日期：2025-02-14 基金項(xiàng)目：國(guó)家自然科學(xué)基金資助項(xiàng)目（62371245）

作者簡(jiǎn)介：王浩（1999—），男，江蘇徐州人，碩士研究生，主要研究方向?yàn)榇笳Z言模型的微調(diào)以及RAG融合;王珺（1975—），女，副教授，主要研究方向?yàn)槲锫?lián)網(wǎng)、邊緣計(jì)算、下一代網(wǎng)絡(luò)及人工智能；胡海峰（1973—），男（通信作者），教授，主要研究方向?yàn)槿斯ぶ悄軕?yīng)用于無線網(wǎng)絡(luò)和生物信息等領(lǐng)域（huhf@njupt.edu.cn）；周飛飛（1990-），女，碩士研究生，主要研究方向?yàn)榇髷?shù)據(jù)和AI智能運(yùn)維、數(shù)據(jù)治理等；龔銳（1995—），女，碩士研究生，主要研究方向?yàn)辄c(diǎn)云深度學(xué)習(xí)、云原生等;張索非（1982—），男，主要研究方向?yàn)橛?jì)算機(jī)視覺、實(shí)時(shí)物體跟蹤和基于深度學(xué)習(xí)的圖像處理。

于智能系統(tǒng)需不斷引入新任務(wù)和知識(shí)體系，每次更新迭代都需對(duì)大型語言模型進(jìn)行參數(shù)更新以適應(yīng)新下游任務(wù)。傳統(tǒng)的全量微調(diào)方法在時(shí)間和成本方面的開銷極為顯著4，在一定程度上阻礙了系統(tǒng)的快速迭代。因此，考慮到上述兩個(gè)問題，尋求一種更高效的微調(diào)框架，以在低成本條件下提升多任務(wù)微調(diào)性能，以更好適應(yīng)各領(lǐng)域?qū)δＰ偷木唧w需求，并增強(qiáng)模型的持續(xù)學(xué)習(xí)與適應(yīng)能力。

近年來興起的基于混合專家（mixtureofexpert，MoE）5]架構(gòu)的大型語言模型可以有效解決上述的微調(diào)任務(wù)問題。該架構(gòu)通過不同的專家學(xué)習(xí)不同領(lǐng)域的知識(shí)，在推理時(shí)通過門函數(shù)平衡各個(gè)專家的貢獻(xiàn)，從而提升模型在多任務(wù)之間的泛化性能。然而，這些優(yōu)勢(shì)的實(shí)現(xiàn)以高算力需求為代價(jià)，其多個(gè)獨(dú)立的前饋神經(jīng)網(wǎng)絡(luò)專家層顯著增加了微調(diào)參數(shù)量，從而導(dǎo)致微調(diào)成本大幅提升。高效參數(shù)微調(diào)（parameter-efficient fine-tuning，PEFT）技術(shù)，如LoRA[6和 P-tuning^[7] ，能夠在下游任務(wù)的微調(diào)過程中，通過犧牲模型一定的通識(shí)性能來降低微調(diào)時(shí)間和成本。其中，P-tuning通過在每一層中增添可訓(xùn)練的提示詞來實(shí)現(xiàn)目標(biāo)輸出；LoRA則通過在自注意力模塊中的權(quán)重矩陣旁構(gòu)造可訓(xùn)練的低秩矩陣來改變模型輸出。這些方法在降低微調(diào)成本方面成效顯著，但在處理多任務(wù)方面卻暴露出如下三個(gè)問題：a）在多任務(wù)學(xué)習(xí)環(huán)境中，不同任務(wù)在微調(diào)過程中可能會(huì)相互干擾，進(jìn)而影響學(xué)習(xí)效果；b）不同任務(wù)之間數(shù)據(jù)量的差異可能導(dǎo)致模型偏向于數(shù)據(jù)量較大的任務(wù);c）“曉曉板”效應(yīng)問題：模型在提升一個(gè)任務(wù)性能的同時(shí)，可能會(huì)犧牲另一個(gè)任務(wù)的性能[8]。因此，盡管當(dāng)前的微調(diào)技術(shù)在多任務(wù)和低成本方向上分別取得了一定進(jìn)展，但仍無法同時(shí)兼顧微調(diào)的多任務(wù)和成本問題，在實(shí)際應(yīng)用中仍面臨多重技術(shù)和實(shí)現(xiàn)方面的挑戰(zhàn)。

基于混合專家架構(gòu)與高效微調(diào)技術(shù)中的P-tuning方法，本文提出了一種名為PMoE（P-tuningmixtureofexpert）的參數(shù)高效微調(diào)框架以解決多任務(wù)微調(diào)的效率瓶頸。該框架融合了P-tuning和MoE的核心優(yōu)勢(shì)，利用P-tuning來降低微調(diào)成本，并借助MoE的混合專家和路由機(jī)制提升模型在多任務(wù)學(xué)習(xí)中的效果，結(jié)合P-tuning的高效性與MoE的多任務(wù)處理能力，提升大語言模型的微調(diào)效率。具體而言，PMoE架構(gòu)在LLM的每層Transformer模塊前增加由可訓(xùn)練提示詞組成的專家模塊，在微調(diào)過程中凍結(jié)LLM原始權(quán)重，通過可訓(xùn)練專家模塊學(xué)習(xí)任務(wù)特定知識(shí)。為平衡各專家在任務(wù)中的學(xué)習(xí)效果，引人門函數(shù)調(diào)整分配權(quán)重。門函數(shù)設(shè)計(jì)包括all-router與each-router兩種形式。all-router將所有微調(diào)數(shù)據(jù)作為門函數(shù)的輸入，以使門函數(shù)學(xué)習(xí)多任務(wù)特征，在推理時(shí)生成合理的專家權(quán)重，通過實(shí)驗(yàn)將其生成結(jié)果與傳統(tǒng)微調(diào)對(duì)比，突出PMoE框架的性能優(yōu)勢(shì);each-router以單一任務(wù)的微調(diào)數(shù)據(jù)作為門函數(shù)輸入，通過多個(gè)門函數(shù)，在訓(xùn)練中使其分別學(xué)習(xí)對(duì)應(yīng)任務(wù)特征，為PMoE框架的微調(diào)可拆卸性提供理論與架構(gòu)基礎(chǔ)。前者旨在凸顯PMoE的微調(diào)性能，后者則支持專家模塊的可拆卸性研究。

綜上所述，本文的主要貢獻(xiàn)如下：

a）提出了一種基于P-tuning的新型微調(diào)框架PMoE。該框架通過P-tuning降低微調(diào)成本，并結(jié)合MoE的混合專家與門函數(shù)（router）機(jī)制，顯著提升多任務(wù)學(xué)習(xí)性能。

b）設(shè)計(jì)了兩種以任務(wù)類型為驅(qū)動(dòng)的門函數(shù)：（a）all-router，用于突出PMoE框架的微調(diào)性能；（b）each-router，為PMoE在不同任務(wù)場(chǎng)景下的免訓(xùn)練模型部署提供了理論支持和研究方向。

c）基于中國(guó)醫(yī)學(xué)數(shù)據(jù)集開展了全面的多任務(wù)實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果驗(yàn)證了PMoE框架在微調(diào)效率和多任務(wù)性能方面的優(yōu)越性。

1相關(guān)工作

1.1 混合專家模型

為應(yīng)對(duì)應(yīng)用場(chǎng)景增長(zhǎng)引發(fā)的大模型參數(shù)與規(guī)模擴(kuò)張對(duì)微調(diào)成本和效率的挑戰(zhàn)，目前，許多大型語言模型逐步引入了混合專家模型。MoE基于集成學(xué)習(xí)的理念，使不同專家分別學(xué)習(xí)特定領(lǐng)域的知識(shí)，并通過門函數(shù)調(diào)節(jié)各專家在模型推理中的權(quán)重。QuocLe團(tuán)隊(duì)9于2017年提出了一種新型的MoE層，通過引人稀疏性顯著提高了模型的規(guī)模和效率。同年，谷歌首次將MoE技術(shù)應(yīng)用于自然語言處理領(lǐng)域，通過在LSTM層之間加人MoE 模塊，提升了機(jī)器翻譯的性能。GShard[10]于2020 年率先將MoE技術(shù)應(yīng)用于Transformer架構(gòu)，構(gòu)建了高效的分布式并行計(jì)算架構(gòu)。2022 年的 LIMoE^[11] 是首個(gè)應(yīng)用稀疏混合專家模型技術(shù)的多模態(tài)模型，通過在前饋神經(jīng)網(wǎng)絡(luò)層構(gòu)造多個(gè)獨(dú)立的專家模塊，在訓(xùn)練和推理階段，僅選擇少量專家參與運(yùn)算，從而提升模型的訓(xùn)練與推理效率。然而，即使如此，為了使每個(gè)專家的訓(xùn)練達(dá)到原模型的性能，仍需消耗大量算力資源以重新訓(xùn)練多個(gè)專家模塊，模型的參數(shù)規(guī)模也呈現(xiàn)出不可控的快速增長(zhǎng)。

在MoE的微調(diào)領(lǐng)域，Dou等人[12]為減少專家訓(xùn)練過程中的參數(shù)量，采用了LoRA技術(shù)對(duì)已有專家模塊進(jìn)行微調(diào)，在微調(diào)時(shí)凍結(jié)稀疏混合專家模型的專家模塊，使用低秩矩陣作為可訓(xùn)練參數(shù)疊加在凍結(jié)的專家模塊上以實(shí)現(xiàn)微調(diào)效果。然而，即便如此，模型的改進(jìn)仍然基于MoE架構(gòu)，模型自身龐大的參數(shù)規(guī)模依然限制了LLM在下游任務(wù)場(chǎng)景中的部署。因此，亟需一種參數(shù)量可控的微調(diào)方法，以滿足多任務(wù)場(chǎng)景的實(shí)際需求。

1.2參數(shù)高效微調(diào)技術(shù)

參數(shù)高效微調(diào)技術(shù)旨在減少微調(diào)參數(shù)數(shù)量和計(jì)算復(fù)雜性，以提升LLM在新任務(wù)上的性能。Adapter微調(diào)[3率先提出了一種輕量級(jí)適配器模塊，該模塊以少量可訓(xùn)練參數(shù)實(shí)現(xiàn)了與對(duì)LLM頂層完整微調(diào)相當(dāng)?shù)男ЧoRA受LLM大參數(shù)模型中低內(nèi)在維度特性的啟發(fā)，在每個(gè)密集層中增加兩個(gè)可訓(xùn)練的低秩矩陣。盡管LoRA在微調(diào)領(lǐng)域中表現(xiàn)出色，但在多任務(wù)微調(diào)中的表現(xiàn)較差，因?yàn)槠鋮?shù)更新針對(duì)所有任務(wù)統(tǒng)一進(jìn)行，導(dǎo)致關(guān)鍵的任務(wù)特定信息無法被充分捕獲。

Prefix[14]和P-tuning微調(diào)通過為特定任務(wù)構(gòu)建虛擬令牌，在原始文本序列中添加可訓(xùn)練的連續(xù)提示，使優(yōu)化過程相比離散提示更加可行。然而，隨著多任務(wù)數(shù)據(jù)集規(guī)模增大，模型需更長(zhǎng)的提示詞以擬合正確輸出，提示詞長(zhǎng)度的不斷增加可能限制模型的可用序列范圍。近期，跨任務(wù)泛化研究提出了多種參數(shù)高效微調(diào)策略，以提升模型的多任務(wù)處理能力。然而，跨任務(wù)泛化研究的核心在于提升模型對(duì)未知領(lǐng)域的遷移能力，而本文關(guān)注的多任務(wù)微調(diào)側(cè)重于已知任務(wù)微調(diào)后的知識(shí)應(yīng)用能力，因此，這些方法在解決當(dāng)前問題時(shí)仍存在局限性。總之，LLM驅(qū)動(dòng)的多場(chǎng)景部署中的多任務(wù)參數(shù)高效微調(diào)仍是一個(gè)未被充分探索的領(lǐng)域，本文的研究圍繞這一問題展開。

2PMoE參數(shù)高效微調(diào)框架實(shí)現(xiàn)方法

2.1 方法概述

圖1呈現(xiàn)了PMoE微調(diào)的總體框架，并重點(diǎn)通過自注意力層的內(nèi)部機(jī)制，詳細(xì)解析了微調(diào)流程。

該框架在 L 層Transformer的自注意力層中，以可訓(xùn)練的專家模塊 PMoE_K 和 PMoE_?V 替代了P-tuning中的可訓(xùn)練虛擬令牌。具體而言，在訓(xùn)練過程中，router負(fù)責(zé)將不同任務(wù)匹配到相應(yīng)的專家模塊。當(dāng)本層Transformer接收來自上一層的隱藏狀態(tài)（hidden-states）向量時(shí)，該向量被同時(shí)輸人到router和自注意力模塊。router利用傳入向量的任務(wù)標(biāo)識(shí)（task-id）信息生成權(quán)重向量，并將其傳遞給相應(yīng)的專家模塊。自注意力模塊則保持原有的參數(shù)矩陣 W_q?W_k 和 W_v 凍結(jié)，并依次與隱藏狀態(tài)向量相乘，生成自注意力計(jì)算所需的查詢（）鍵（K）和值（ Ω_V）向量。隨后，專家模塊 PMoE_κ 和 PMoE_?V 與router生成的權(quán)重向量相乘，并附加在 K 和 u 向量的前端，以實(shí)現(xiàn)對(duì)自注意力模塊的微調(diào)。

在參數(shù)高效微調(diào)方面，本文參考了P-tuning的策略，在每個(gè)自注意力模塊的 K 和 V 向量前增設(shè)可訓(xùn)練的 PMoE_K 和 PMoE_?V 凍結(jié)預(yù)訓(xùn)練模型參數(shù)的同時(shí)，通過訓(xùn)練少量參數(shù)有效學(xué)習(xí)下游任務(wù)。在混合專家方面，在模型的每一層構(gòu)建可訓(xùn)練的 PMoE_K 和 PMoE_?V 作為專家均衡學(xué)習(xí)多任務(wù)知識(shí)。每個(gè)向量由若干專家參數(shù)加權(quán)構(gòu)成，加權(quán)所需的權(quán)重由門函數(shù)提供。這種設(shè)計(jì)使PMoE框架在保持低微調(diào)成本的同時(shí)，充分發(fā)揮了混合專家模型的優(yōu)勢(shì)，有效提升了模型在多任務(wù)環(huán)境中的性能。

2.2 PMoE框架下的專家實(shí)現(xiàn)

P-tuning作為一種參數(shù)高效微調(diào)方案，其低成本微調(diào)的有效性已在大語言模型領(lǐng)域得到驗(yàn)證。自注意力模塊的運(yùn)算過程可抽象為函數(shù) y=F（ax+b），其中： F 表示自注意力運(yùn)算， x 為模塊的輸入， a 和 b 為 F 中可訓(xùn)練的參數(shù)。P-tuning從本質(zhì)上是對(duì) x 進(jìn)行處理，如下所示。

其中：可訓(xùn)練參數(shù) P₀ 在模型中實(shí)際拼接于自注意力模塊的 K 、V 向量前，將 F 應(yīng)用于自注意力機(jī)制的公式[15表示為

其中：符號(hào) 表示可訓(xùn)練參數(shù) P_k 與 P_v 沿序列長(zhǎng)度維度拼接，而非簡(jiǎn)單相加。拼接了的 K 向量經(jīng)過轉(zhuǎn)置和softmax運(yùn)算后與拼接了 P_v 的 ν 向量相乘，保證了輸入輸出維度上的不變。該結(jié)構(gòu)調(diào)整在維持原始數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上，引人新的可訓(xùn)練參數(shù)，從而改變自注意力模塊的輸出，實(shí)現(xiàn)微調(diào)效果。

在醫(yī)療領(lǐng)域的多任務(wù)微調(diào)中，使用傳統(tǒng)的P-tuning方法時(shí)，需針對(duì)所有任務(wù)更新可訓(xùn)練參數(shù)，可能導(dǎo)致任務(wù)共享與數(shù)據(jù)集不平衡等問題，混合專家（MoE）模型通過專屬專家模塊學(xué)習(xí)各下游任務(wù)的特定知識(shí)，能夠有效捕捉微調(diào)數(shù)據(jù)的多樣性。因此，本框架引人了MoE混合專家的理念，構(gòu)建 N 個(gè)可訓(xùn)練的P 作為專家，用 {E_i}_i=1^N 表示，每個(gè)專家可進(jìn)一步拆解為作用于自注意力模塊的 K，V 向量前的兩個(gè)參數(shù)，單層自注意力模塊的輸出attention （Q，K，V）_j 表示為

（Q，K，V）_j=

其中： Q_j?K_j 和 V_j 表示自注意力模塊的第 j 層輸入 x 經(jīng)過凍結(jié)的權(quán)重矩陣 W_q?W_k 和 W_v 的輸出結(jié)果； P_ki 和 P_vi 表示第 i 個(gè)專家 P_i 在 K_j 和 V_j 前所拼接的可訓(xùn)練參數(shù)； ω_ji 表示當(dāng)前 j 層第 i 個(gè)專家的權(quán)重，該權(quán)重由訓(xùn)練后的門函數(shù)接收不同輸入動(dòng)態(tài)生成，其主要功能是平衡專家間的權(quán)重分配，在均衡各專家利用率的同時(shí)，避免任務(wù)共享沖突。下一節(jié)將詳細(xì)介紹兩種門函數(shù)的功能及其實(shí)現(xiàn)方式。

PMoE框架下專家模塊的具體實(shí)現(xiàn)如圖2所示，圖中以不同顏色表示8個(gè)專家。其中 Wo 表示一個(gè)連接層，用于改變自注意力計(jì)算后的輸出向量（attentionoutputs）的維度。所有專家的權(quán)重均與門函數(shù)（router）輸出的權(quán)重相乘，經(jīng)過加權(quán)后作為最終的 P_k 和 P_v 參與到自注意力模塊的計(jì)算之中。

為了確保與基線P-tuning微調(diào)技術(shù)的實(shí)驗(yàn)具有可比性，對(duì)PMoE專家的線性層維度進(jìn)行了調(diào)整，以確保雙方可訓(xùn)練的參數(shù)量均占總參數(shù)量的 1.85%±0.05% 。

圖2PMoE微調(diào)架構(gòu)中的專家實(shí)現(xiàn)（8種顏色代表8種不同的專家）Fig.2Implementation of expertsinthe PMoE fine-tuningarchitecture（8colorsrepresent 8different experts）

2.3 PMoE框架下的門函數(shù)實(shí)現(xiàn)

本節(jié)將深人闡述兩種門函數(shù)：all-router（所有微調(diào)任務(wù)數(shù)據(jù)作為輸人）和each-router（單一微調(diào)任務(wù)數(shù)據(jù)作為輸人）的部署位置及實(shí)現(xiàn)流程。

2.3.1all-router的實(shí)現(xiàn)原理

all-router是一種部署在模型Transformer層外的門函數(shù)，由三個(gè)線性層和一個(gè)激活函數(shù)組成。前兩個(gè)線性層和激活函數(shù)用于提取輸入特征并生成專家權(quán)重，第三個(gè)線性層負(fù)責(zé)生成路由噪聲，以提升路由決策的魯棒性。門函數(shù) R 在訓(xùn)練時(shí)接收輸入 h ，分別輸出 N 個(gè)專家權(quán)重 ω_j ，其中 j∈[0，N-1] ，權(quán)重可以表示為

ω_j=softmax（R?h）

為均衡各專家對(duì)不同任務(wù)數(shù)據(jù)的學(xué)習(xí)程度，門函數(shù)接收任務(wù)類型（task-id）標(biāo)簽，利用標(biāo)簽生成專家掩碼，以先驗(yàn)方式指導(dǎo)權(quán)重生成的分布規(guī)律，確保每個(gè)任務(wù)數(shù)據(jù)優(yōu)先被一個(gè)專家學(xué)習(xí)，通過損失函數(shù)對(duì)權(quán)重生成過程進(jìn)行約束，門函數(shù)的損失函數(shù)定義如下：

其中： T 表示目標(biāo)專家掩碼，該損失函數(shù)在訓(xùn)練階段幫助門函數(shù)學(xué)習(xí)不同任務(wù)的數(shù)據(jù)特征，以便在推理階段實(shí)現(xiàn)對(duì)專家權(quán)重的均衡作用。BCE（binary-cross-entropy）表示二元交叉熵函數(shù)，公式如下：

BCE（x，y）=-[xlog（y）+（1-x）log（1-y）]

其中： Ψ_x 為真實(shí)標(biāo)簽（0或 ^1）sy 為預(yù)測(cè)概率，在式（5）中分別指代目標(biāo)專家掩碼 T 和專家權(quán)重 ω_j 。

圖3展示了一個(gè)由3個(gè)專家模塊、3層Transformer和1個(gè)門函數(shù)（router）組成的訓(xùn)練與推理框架示例。當(dāng)初始層的隱藏狀態(tài)（hidden-states）傳入時(shí)會(huì)同時(shí)復(fù)制給router和layerO（第0層Transformer），router接收隱藏向量后生成對(duì)應(yīng)專家權(quán)重 ω_j j∈[0，2] 。其中， E（x，y）表示專家 x 的第 y 層參數(shù)， x，y∈[0 2]。路由權(quán)重 ω_j 作用于所有部署在layer0的專家參數(shù) P_k0 ，其計(jì)算公式為

3個(gè)專家加權(quán)后的參數(shù)作為當(dāng)前層的微調(diào)參數(shù) P₆₀ 和 P_v0 拼接在當(dāng)前層自注意力模塊內(nèi)的 K，V 向量前，layerO接收到P_k0?P_v0 后會(huì)與傳入的隱藏向量運(yùn)算，生成的輸出作為下一層layer1的輸入，逐層傳遞直至模型的最后一層。

圖3all-router訓(xùn)練與推理階段框架 Fig.3Framework oftheall-routerduringthe training and inference phases

在訓(xùn)練階段，router同時(shí)接收隱藏向量與任務(wù)標(biāo)簽（task-id），通過式（5）生成交叉熵?fù)p失，并通過反向傳播調(diào)整門函數(shù)的輸出權(quán)重，使其趨近伯努利分布，從而使專家對(duì)任務(wù)的學(xué)習(xí)更具專一性。該配置確保整個(gè)模型僅使用唯一門函數(shù)，以有效控制參數(shù)大小對(duì)模型優(yōu)化的影響。

2.3.2each-router的實(shí)現(xiàn)原理

如圖4所示，each-router與all-router相比，根據(jù)任務(wù)類型選擇完全獨(dú)立的門函數(shù)（router）和專家參與當(dāng)前批次訓(xùn)練。門函數(shù) R_j 和專家 E_j 的數(shù)量始終一一對(duì)應(yīng)，并且 j 隨著新任務(wù)類型的引入而自適應(yīng)增加，確保相同任務(wù)類型的數(shù)據(jù)集始終由唯一的門函數(shù)和專家組處理。在訓(xùn)練階段當(dāng)輸入（inputs）經(jīng)過編碼層（embedding）變?yōu)殡[藏向量傳給 R_j 時(shí)，任務(wù)標(biāo)簽（task-id）同時(shí)傳人，作為式（5）的一部分參與損失函數(shù)計(jì)算，損失函數(shù)確保當(dāng)前門函數(shù) R_j 與當(dāng)前專家 E_j 之間的唯一匹配。與 R_j 相匹配的專家 E_j 接收到隱藏向量后，生成拼接至 K，V 向量前的 P_k0 和 P_v0 參與后續(xù)的自注意力運(yùn)算。專家參數(shù)權(quán)重的更新由模型輸出與標(biāo)簽（labels）之間的交叉熵?fù)p失決定，門函數(shù)與專家的損失函數(shù)被統(tǒng)一求和，通過反向傳播確保推理階段門函數(shù)的單一選擇性能。推理階段，門函數(shù) R_j 根據(jù)輸入的不同任務(wù)類型的隱藏向量選擇對(duì)應(yīng)的專家 E_j 生成 K，V 向量前的 P₆₀ 和 P_v0 。

由于輸入是以單詞（token）為基礎(chǔ)組成的特征向量，不同下游任務(wù)數(shù)據(jù)集之間存在大量重復(fù)的單詞，從而降低了router生成權(quán)重的精確性。為實(shí)現(xiàn)高效專家選擇，設(shè)計(jì)了一種針對(duì)token的篩選模型，該模型需要對(duì)門函數(shù)生成的權(quán)重進(jìn)行篩選，選擇出貢獻(xiàn)度較高的單詞（token），從而確定最適合當(dāng)前任務(wù)的專家模塊[16]。門函數(shù) R_j 生成的篩選后的專家權(quán)重 ω_j 如下：

其中： M 表示輸入向量 h 的token總數(shù)； α 表示選取的token數(shù)在總數(shù) M 中的占比，一般取值為0.5，具體數(shù)值由多任務(wù)場(chǎng)景下數(shù)據(jù)集特征決定。篩選貢獻(xiàn)度較高的token是基于token生成專家權(quán)重的離散性特征，由高到低排序選取前 α×100% 個(gè)貢獻(xiàn)度高的token作為有效token；加權(quán)平均所選token的專家權(quán)重以選擇前top ??k 個(gè)專家模塊被激活，其中， top-k 表示參與推理的專家數(shù)量，默認(rèn)值為1。隨后加載選中專家的微調(diào)參數(shù)以執(zhí)行推理任務(wù)，推理過程中，某些問題特征可能跨越多個(gè)任務(wù)類型，門函數(shù)生成的權(quán)重會(huì)由多個(gè)專家參數(shù)共同組成，此方式能夠融合多個(gè)專家的優(yōu)勢(shì)，增強(qiáng)知識(shí)共享能力。

圖4each-router訓(xùn)練與推理階段流程（6種顏色代表 6種不同的專家及對(duì)應(yīng)的門函數(shù)） Fig.4Flowchartoftheeach-routerduring thetrainingand inferencephases（6colorsrepresent6different experts and their corresponding gate functions）

本文在訓(xùn)練階段通過任務(wù)類型離散化每組門函數(shù)和專家，旨在探索PMoE微調(diào)的可拆卸性。在部署環(huán)境中，算力限制以及類似P-tuning和LoRA等高效參數(shù)微調(diào)技術(shù)的時(shí)間與成本需求，特別是在多場(chǎng)景、多任務(wù)和低時(shí)延的LLM應(yīng)用中，微調(diào)任務(wù)數(shù)量及每任務(wù)的數(shù)據(jù)集規(guī)模進(jìn)一步增加了難度。可拆卸性PMoE的核心優(yōu)勢(shì)是每組門函數(shù)和專家模塊僅需訓(xùn)練一次，即可在不同任務(wù)中實(shí)現(xiàn)“一訓(xùn)多用”。盡管訓(xùn)練與推理分離的架構(gòu)可能降低推理階段的擬合能力，其目標(biāo)是盡量降低性能損失，實(shí)驗(yàn)結(jié)果和分析將在3.2.4節(jié)詳細(xì)闡述，以驗(yàn)證該方法在實(shí)際應(yīng)用中的有效性與優(yōu)勢(shì)。

2.4PMoE微調(diào)實(shí)現(xiàn)流程

圖5展示了PMoE微調(diào)框架的總體實(shí)現(xiàn)流程，涵蓋模型從輸入到輸出的完整過程。PMoE的混合專家與門函數(shù)部署于每層Transformerblock中，并作用于每層的自注意力運(yùn)算階段。

圖5PMoE微調(diào)實(shí)現(xiàn)流程 Fig.5Implementation process of PMoE fine-tuning

模型接收下游任務(wù)輸入后，首先通過編碼層生成句向量序列（token-id），隨后進(jìn)人Transformerblock層，并逐層進(jìn)行運(yùn)算。在每一層中，輸人會(huì)同時(shí)傳到router和向量 Q，K 和 V 的權(quán)重矩陣，router根據(jù)輸人為每個(gè)專家生成對(duì)應(yīng)的權(quán)重，權(quán)重疊加后的專家會(huì)拼接到權(quán)重矩陣生成的 K 和 V 向量前，與向量一同參與自注意力計(jì)算，計(jì)算結(jié)果作為下一層的輸入依次傳遞，最終生成模型的輸出。訓(xùn)練過程中，每層router生成交叉熵?fù)p失，模型經(jīng)過所有Transformer層后，預(yù)測(cè)值與標(biāo)簽生成交叉熵?fù)p失，將兩部分損失求和并通過反向傳播更新專家與門函數(shù)參數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)以醫(yī)療領(lǐng)域中應(yīng)用大型語言模型為背景，旨在驗(yàn)證PMoE框架在該領(lǐng)域的實(shí)際有效性。通過中國(guó)醫(yī)學(xué)數(shù)據(jù)集開展全面實(shí)驗(yàn)，評(píng)估PMoE在醫(yī)學(xué)文本分類與知識(shí)問答任務(wù)中的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明，PMoE在性能上顯著優(yōu)于傳統(tǒng)P-tuning微調(diào)方法，不僅在精度上有明顯提升，還在多任務(wù)學(xué)習(xí)中展現(xiàn)出更強(qiáng)的魯棒性和更高的效率。

3.1 實(shí)驗(yàn)設(shè)置

3.1.1數(shù)據(jù)集

本次實(shí)驗(yàn)的醫(yī)療數(shù)據(jù)源于PromptCBLUE中國(guó)多任務(wù)醫(yī)學(xué)數(shù)據(jù)集[17]，該數(shù)據(jù)集由天池競(jìng)賽平臺(tái)首次發(fā)布，涵蓋16個(gè)不同的醫(yī)療領(lǐng)域任務(wù)，如醫(yī)學(xué)命名實(shí)體識(shí)別和診斷報(bào)告生成等。為適配大模型微調(diào)任務(wù)，每個(gè)任務(wù)經(jīng)過文本處理，轉(zhuǎn)換為純文本格式以便調(diào)用。受計(jì)算能力限制，本次實(shí)驗(yàn)僅選取8個(gè)醫(yī)療任務(wù)，首先對(duì)8個(gè)任務(wù)進(jìn)行數(shù)據(jù)清洗，去除重復(fù)樣本及超過語言模型輸入最大token數(shù)限制的樣本，隨后對(duì)實(shí)體識(shí)別和文本分類任務(wù)進(jìn)行模版匹配，通過模版引導(dǎo)大語言模型以規(guī)定句式作答，從而便于實(shí)驗(yàn)結(jié)果評(píng)分[18]。具體任務(wù)分類及數(shù)據(jù)信息如表1所示。

3.1.2數(shù)據(jù)集的預(yù)處理

隨著智能醫(yī)療系統(tǒng)的廣泛部署，各類醫(yī)療數(shù)據(jù)進(jìn)行大型語言模型微調(diào)前，需進(jìn)行適當(dāng)?shù)母袷綐?biāo)準(zhǔn)化[19]。醫(yī)療任務(wù)通常分為實(shí)體識(shí)別、文本分類和文本問答三個(gè)主要類別。具體而言，實(shí)體識(shí)別任務(wù)從文本中提取醫(yī)療領(lǐng)域的名詞性實(shí)體；文本分類任務(wù)根據(jù)醫(yī)療綱要將文本歸類為具體的病理?xiàng)l目；文本問答任務(wù)基于文本生成滿足特定要求的回答[20]

表1數(shù)據(jù)集任務(wù)分類和數(shù)據(jù)信息Tab.1 Datasettaskclassificationanddatainformation

在實(shí)際微調(diào)中，文本問答任務(wù)通常無須特別處理，因?yàn)槟Ｐ洼斎氲膯栴}已包含所需內(nèi)容與具體要求，僅需執(zhí)行續(xù)寫功能。然而，實(shí)體識(shí)別和文本分類任務(wù)通常需根據(jù)具體需求制定模板，以提取關(guān)鍵信息三元組。此方法通過將任務(wù)數(shù)據(jù)處理為結(jié)構(gòu)化提取任務(wù)，提高生成結(jié)果的準(zhǔn)確率。圖6展示了CMeIE醫(yī)療數(shù)據(jù)集實(shí)體關(guān)系提取的預(yù)處理流程。預(yù)處理時(shí)，通過提示詞模板將原始數(shù)據(jù)合并后發(fā)送至LLM，LLM根據(jù)指令生成關(guān)系三元組，隨后通過腳本拼接生成最終結(jié)果。表2提供了其他相關(guān)模板的詳細(xì)信息。

圖6CMeIE醫(yī)療數(shù)據(jù)集提取特定關(guān)系實(shí)體對(duì)的預(yù)處理

表2不同數(shù)據(jù)集預(yù)處理時(shí)的模板要求Tab.2Template requirements for different datasets during preprocessing

3.1.3 實(shí)驗(yàn)基線

本實(shí)驗(yàn)針對(duì)未微調(diào)的LLM、微調(diào)后的LLM和多任務(wù)微調(diào)的LLM三種基線展開測(cè)試，其中多任務(wù)微調(diào)是基于本文提出的PMoE參數(shù)高效微調(diào)框架。未微調(diào)的LLM選擇ChatGPT[21]和ChatGLM3-6b進(jìn)行few-shot實(shí)驗(yàn)，通過附加2＼～3個(gè)情境事例作為prompt參考獲取輸出評(píng)分；微調(diào)后的LLM以P-tuning為基線，設(shè)置兩種微調(diào)方式：全部任務(wù)同時(shí)輸入（P-tuning-all）和每任務(wù)單獨(dú)輸人（P-tuning-single），用于分析“蹺曉板”效應(yīng)的影響;多任務(wù)微調(diào)的LLM采用PMoE框架，基于門函數(shù)分類設(shè)置PMoE-all-router（共用一個(gè)門函數(shù)）和PMoE-each-router（每任務(wù)獨(dú)立門函數(shù)）兩種實(shí)驗(yàn)基線。

3.1.4其他實(shí)驗(yàn)細(xì)節(jié)

受算力資源限制，所有實(shí)驗(yàn)均在1塊A800顯卡上進(jìn)行，該顯卡顯存為80GB，因此實(shí)驗(yàn)中的batch-size上限為2。實(shí)驗(yàn)運(yùn)行環(huán)境包括PyTorch2.1.2和Python3.10.13。由于PMoE框架建立在P-tuning的基礎(chǔ)上，所以選擇最先應(yīng)用P-tuning技術(shù)的ChatGLM3- ?6b^[22] 作為本次實(shí)驗(yàn)的基礎(chǔ)模型，此外還有如下實(shí)驗(yàn)細(xì)節(jié)需要補(bǔ)充：

a）模型層數(shù)：本次實(shí)驗(yàn)全部采用ChatGLM3-6b所有層數(shù)，共28個(gè)Transformer層進(jìn)行PMoE架構(gòu)的部署與實(shí)驗(yàn)。b）專家數(shù)量為8;專家的pre_seq_len參數(shù)設(shè)置為20；模型輸入輸出長(zhǎng)度為：2048/1024，batch_size為2，訓(xùn)練輪次為2。c）其他默認(rèn)參數(shù)如下：門函數(shù)線性層參數(shù)：（4096，1024）（1024，8）；專家線性層參數(shù)：（14336，512）＼（512，14336）。

3.1.5評(píng)分指標(biāo)

本次實(shí)驗(yàn)的所有模型出評(píng)分均在LongBench平臺(tái)上完成[23]，該平臺(tái)提供了完善的評(píng)測(cè)代碼和指標(biāo)體系，本次實(shí)驗(yàn)主要采用Rouge-zh-score（基于Rouge文本相似度的中文評(píng)分）和Qa-fl-zh-score（基于問答準(zhǔn)確率的中文評(píng)分）作為評(píng)分標(biāo)準(zhǔn)，實(shí)驗(yàn)數(shù)據(jù)集的評(píng)測(cè)指標(biāo)如表3所示。

表3實(shí)驗(yàn)數(shù)據(jù)集對(duì)應(yīng)的評(píng)分指標(biāo) Tab.3Evaluation metrics corresponding to the experimental dataset

3.2 實(shí)驗(yàn)結(jié)果分析

3.2.1PMoE與基線的微調(diào)結(jié)果及分析

如表4所示，所有實(shí)驗(yàn)方案的可訓(xùn)練參數(shù)量占比統(tǒng)一為1.85%±0.05% ，平均得分表明，PMoE框架下的高效微調(diào)結(jié)果優(yōu)于其他方法。粗體表示當(dāng)前數(shù)據(jù)集的最高指標(biāo)，下同。

未微調(diào)的LLM（ChatGPT和ChatGLM3-6b）在專業(yè)領(lǐng)域任務(wù)中的性能顯著低于微調(diào)后的模型，凸顯下游任務(wù)微調(diào)的必要性。其中，ChatGPT整體優(yōu)于ChatGLM3-6b，尤其在MedDG數(shù)據(jù)集上的對(duì)話推理任務(wù)中表現(xiàn)突出，表明超大參數(shù)模型在推理能力上的優(yōu)勢(shì)。

表4基于PromptCBLUE數(shù)據(jù)集上的各基線實(shí)驗(yàn)結(jié)果（粗體表示當(dāng)前數(shù)據(jù)集的最高指標(biāo)）ab.4Baseline experimental results onthe promptcbluedataset（bold indicates the highest metricon this di

微調(diào)后的LLM中，P-tuning-single在CHIP-CDN、CHIP-MDCFNPC和CHIP-CTC數(shù)據(jù)集上的獨(dú)立得分高于P-tuning-all，表明“蹺曉板\"效應(yīng)在P-tuning微調(diào)中依然存在。然而，在其他數(shù)據(jù)集中，P-tuning-all得分高于P-tuning-single，顯示多任務(wù)微調(diào)的知識(shí)共享優(yōu)勢(shì)。總體上，P-tuning在8個(gè)數(shù)據(jù)集上的平均得分均高于未微調(diào)的 LLM 。

基于PMoE框架的LLM（PMoE-all-router），通過結(jié)合MoE混合專家理念與門函數(shù)的均衡能力，在性能上較P-tuning-all提升約 6.24% 。在8個(gè)微調(diào)任務(wù)中，有6個(gè)任務(wù)明顯優(yōu)于P-tuning-all，同時(shí)在除CMeIE數(shù)據(jù)集外的任務(wù)中得分均高于P-tuning-single，這表明PMoE-all-router的性能無論從多任務(wù)綜合角度還是單一任務(wù)角度均較基線有顯著提升。PMoE框架通過門函數(shù)和專家機(jī)制有效利用知識(shí)共享來彌補(bǔ)“曉蹺板”效應(yīng)帶來的性能損失，緩解了多任務(wù)學(xué)習(xí)對(duì)模型性能的負(fù)面影響，展現(xiàn)出顯著的性能優(yōu)勢(shì)。

3.2.2門函數(shù)與專家參數(shù)消融實(shí)驗(yàn)結(jié)果及分析

圖7展示了門函數(shù)與專家參數(shù)在消融實(shí)驗(yàn)中的表現(xiàn)，實(shí)驗(yàn)以PMoE-all-router微調(diào)為基礎(chǔ)，展示了控制門函數(shù)或?qū)＜覅?shù)時(shí)，另一參數(shù)變化對(duì)平均得分的影響。圖中，橫軸表示當(dāng)前消融對(duì)象的可變參數(shù)占總模型參數(shù)的比重，縱軸表示實(shí)驗(yàn)平均得分。其中，紅點(diǎn)代表3.2.1節(jié)中PMoE-all-router的實(shí)驗(yàn)結(jié)果，門函數(shù)與專家參數(shù)量之和的占比控制在 1.90% （見電子版）。

其中圖7（a）將專家參數(shù)恒定在 1.84% ，通過兩倍縮放比例調(diào)整門函數(shù)參數(shù)比重。實(shí)驗(yàn)結(jié)果表明，門函數(shù)參數(shù)量對(duì)微調(diào)得分有顯著影響，微調(diào)性能與門函數(shù)線性層堆疊數(shù)呈正相關(guān)，但性能提升迅速達(dá)到上限，這是由于簡(jiǎn)單的線性層加激活函數(shù)的構(gòu)造形式在8個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)中存在擬合上限，在實(shí)際應(yīng)用中，應(yīng)根據(jù)多任務(wù)的區(qū)分度合理設(shè)置門函數(shù)權(quán)重。

圖7（b）中，門函數(shù)的參數(shù)量固定為 0.06% ，并采用兩倍縮放比例調(diào)整專家參數(shù)的比重。實(shí)驗(yàn)結(jié)果表明，與門函數(shù)相比，專家參數(shù)占比對(duì)微調(diào)平均得分的影響較小，其平均得分的變化范圍相對(duì)較為有限，這是由于當(dāng)前專家參數(shù)量已滿足訓(xùn)練集需求。綜上所述，在具體應(yīng)用中，門函數(shù)參數(shù)權(quán)重的設(shè)置應(yīng)得到更多重視。

圖8不同專家個(gè)數(shù)的性能得分 Fig.8Performance scores for different numbers of experts

3.2.3不同專家個(gè)數(shù)的消融實(shí)驗(yàn)結(jié)果及分析

在保證門函數(shù)加專家的參數(shù)總量為 1.90% 的條件下，通過調(diào)整專家個(gè)數(shù)以研究其對(duì)PMoE參數(shù)高效微調(diào)框架性能的影響，基于PMoE-all-router微調(diào)框架（該框架下門函數(shù)唯一），實(shí)驗(yàn)結(jié)果如圖8所示。

從圖8可以看出，當(dāng)專家數(shù)從2逐步增加到8時(shí)，平均得分呈現(xiàn)出逐漸上升的趨勢(shì)。這是由于在相同參數(shù)總量的限制下，多個(gè)專家能夠更有效地學(xué)習(xí)不同類型的任務(wù)知識(shí)。然而，當(dāng)專家數(shù)量超過8時(shí)，性能得分開始下降。這是因?yàn)樵诒ＷC相同參數(shù)總量的前提下，增加專家數(shù)量需要降低每個(gè)專家線性層的維度，從而削弱每個(gè)專家的擬合能力。因此，在實(shí)驗(yàn)中，專家數(shù)量應(yīng)與微調(diào)數(shù)據(jù)集中任務(wù)的數(shù)量相匹配，以實(shí)現(xiàn)最佳微調(diào)性能。

3.2.4PMoE基于each-router的可拆卸性實(shí)驗(yàn)結(jié)果及分析

拆卸性PMoE的核心優(yōu)勢(shì)在于為不同下游任務(wù)分別進(jìn)行一次性門函數(shù)與專家訓(xùn)練，訓(xùn)練完成后，可獨(dú)立保存針對(duì)不同任務(wù)的若干組門函數(shù)與專家，LLM可根據(jù)任務(wù)場(chǎng)景動(dòng)態(tài)加載或卸載門函數(shù)與專家，滿足多任務(wù)需求。在新任務(wù)場(chǎng)景下，僅需為新任務(wù)單獨(dú)訓(xùn)練門函數(shù)與專家，無須重新微調(diào)全部下游任務(wù)。

實(shí)驗(yàn)首先比較了PMoE-each-router微調(diào)與P-tuning微調(diào)在新任務(wù)場(chǎng)景下的訓(xùn)練開銷，由于實(shí)驗(yàn)中的門函數(shù)構(gòu)造較為簡(jiǎn)單，難以充分區(qū)分相似句子之間的細(xì)微差別，所以，為兼顧推理性能與可拆卸性，剔除了文本與其他數(shù)據(jù)集極為相似的CHIP-CDEE和IMCS-V2-MRG數(shù)據(jù)集。實(shí)驗(yàn)中，用新增訓(xùn)練數(shù)據(jù)集模擬新的任務(wù)場(chǎng)景需求，分別用A＼～F字母表示6個(gè)不同的數(shù)據(jù)集，其實(shí)驗(yàn)結(jié)果如圖9所示。

圖9PMoE-each-router與P-tuning的訓(xùn)練時(shí)間對(duì)比 Fig.9 Comparison of training time between PMoE-each-router and P-tuning

圖9中，橫軸表示數(shù)據(jù)集從A到F逐步堆疊參與訓(xùn)練，縱軸以小時(shí)為單位表示訓(xùn)練時(shí)間。圖9顯示，PMoE-each-router微調(diào)框架的訓(xùn)練時(shí)間不隨數(shù)據(jù)集堆疊而增加，其訓(xùn)練時(shí)間僅與數(shù)據(jù)集大小相關(guān)。新增數(shù)據(jù)集時(shí)，僅需訓(xùn)練新增部分，無須從頭訓(xùn)練全部數(shù)據(jù)集。相比之下，P-tuning微調(diào)（黃色）因數(shù)據(jù)集堆疊導(dǎo)致訓(xùn)練時(shí)間持續(xù)增長(zhǎng)（見電子版），這是因?yàn)镻-tuning每次都需從頭訓(xùn)練。PMoE-each-router框架顯著降低訓(xùn)練開銷，完美適配不同下游任務(wù)場(chǎng)景的LLM部署，為L(zhǎng)LM微調(diào)的廣泛應(yīng)用提供技術(shù)支持。

此外，通過評(píng)分實(shí)驗(yàn)對(duì)比了PMoE-each-router框架與Ptuning微調(diào)的性能差異，實(shí)驗(yàn)結(jié)果如表5所示，其中 α 為2.3.2節(jié)所提到的篩選模型可變參數(shù)。平均結(jié)果顯示，當(dāng) α=0.5 時(shí)，可拆卸性PMoE的性能比P-tuning微調(diào)略低 1.34% ；在 α= 0.375時(shí)PMoE-each-router達(dá)到最佳微調(diào)效果，在6個(gè)數(shù)據(jù)集上的平均得分要比P-tuning微調(diào)性能僅低 0.59% ；當(dāng) α 繼續(xù)降低時(shí)，篩選模型的準(zhǔn)確度開始下降，導(dǎo)致模型微調(diào)性能下降。PMoE-each-router與P-tuning的微調(diào)差距源于門函數(shù)訓(xùn)練與推理階段分離導(dǎo)致的模型推理誤差，即當(dāng)不同多任務(wù)數(shù)據(jù)輸人大語言模型時(shí)，門函數(shù)可能誤判相似但不屬于同一任務(wù)的數(shù)據(jù)向量，而生成錯(cuò)誤專家權(quán)重，導(dǎo)致模型輸出誤差。這一誤差在可接受范圍內(nèi)，因?yàn)榭刹鹦禤MoE加載微調(diào)模塊時(shí)無須重新訓(xùn)練，顯著節(jié)省了終端模型在時(shí)間與空間上的算力資源，提高了終端模型在不同場(chǎng)景中的適應(yīng)能力。 α 的最佳取值取決于實(shí)際應(yīng)用場(chǎng)景中多任務(wù)微調(diào)數(shù)據(jù)集的特征差異，理論上并無確定的最佳值。具體到醫(yī)療領(lǐng)域微調(diào)任務(wù)，可拆卸性PMoE在6個(gè)任務(wù)中，雖有4個(gè)任務(wù)表現(xiàn)低于P-tuning-all，但有2個(gè)任務(wù)優(yōu)于P-tuning，這一現(xiàn)象表明，盡管可拆卸性PMoE在推理階段存在一定性能損失，但權(quán)重的不確定性分布使其在調(diào)用專家時(shí)仍能體現(xiàn)多任務(wù)知識(shí)共享的優(yōu)勢(shì)。

表5PMoE基于each-router的可拆卸微調(diào)結(jié)果Tab.5Results ofPMoE based on each-router for detachable fine-tunii

的分類能力，在實(shí)際應(yīng)用中，可通過增加額外的線性層和激活函數(shù)，以增強(qiáng)其處理輸入數(shù)據(jù)的能力。此外，門函數(shù)可結(jié)合先進(jìn)神經(jīng)網(wǎng)絡(luò)技術(shù)（如Transformer機(jī)制）進(jìn)一步提升性能。也可采用基于BERT的分類模型[24]，模型在處理自然語言數(shù)據(jù)方面的高效性已被廣泛驗(yàn)證。將微調(diào)后的BERT模型作為門函數(shù)的一部分，可顯著提升模型理解復(fù)雜語句及文本細(xì)微差異的能力，本次實(shí)驗(yàn)需將微調(diào)參數(shù)量控制在與P-tuning-all相同的范圍以便進(jìn)行性能比較，因此，上述改進(jìn)方案在實(shí)際應(yīng)用場(chǎng)景中仍需進(jìn)一步研究與完善，可以預(yù)見，隨著門函數(shù)性能的提升，可拆卸性PMoE的整體性能將進(jìn)一步優(yōu)化。

3.2.5PMoE框架在不同LLM上的遷移效果對(duì)比

為評(píng)估PMoE高效微調(diào)框架對(duì)P-tuning微調(diào)在不同LLM模型中表現(xiàn)的影響，進(jìn)行了PMoE在不同模型中遷移效果的實(shí)驗(yàn)對(duì)比。結(jié)果表明，PMoE框架繼承了P-tuning微調(diào)的通用性，在4個(gè)開源LLM上，PMoE對(duì)8個(gè)醫(yī)療數(shù)據(jù)集的微調(diào)其性能平均提升 4.47% ，具體實(shí)驗(yàn)結(jié)果如表6所示。

表6PMoE在不同LLM下的遷移性能

（8個(gè)醫(yī)療數(shù)據(jù)集下的平均得分）Tab.6Transferperformance of PMoE across different LLMs（theaverage scores across8 medical datasets）

本次PMoE遷移實(shí)驗(yàn)選取了4個(gè)開源模型，并盡量保證參數(shù)量一致以便于比較。實(shí)驗(yàn)結(jié)果顯示，由于模型基礎(chǔ)性能存在差異，P-tuning實(shí)驗(yàn)的得分有所不同，除Qwen-7B模型外，各模型得分差異較小。引入PMoE微調(diào)框架后，專家參數(shù)量根據(jù)模型總參數(shù)量自適應(yīng)匹配來去除不同模型參數(shù)量下的專家參數(shù)量對(duì)模型性能的影響，由于模型架構(gòu)略有區(qū)別，導(dǎo)致了對(duì)P-tuning微調(diào)的改善程度有所波動(dòng)。實(shí)驗(yàn)結(jié)果表明，PMoE高效微調(diào)框架在多數(shù)模型中表現(xiàn)出穩(wěn)定的通用性。

3.2.6不同數(shù)據(jù)集下的專家參數(shù)分布實(shí)驗(yàn)結(jié)果及分析

圖10展示了4個(gè)數(shù)據(jù)集上8個(gè)專家的權(quán)重分配比例，門函數(shù)對(duì)指定數(shù)據(jù)的所有輸出權(quán)重求和并歸一化，生成每個(gè)專家在當(dāng)前數(shù)據(jù)集上的分配比例。門函數(shù)在訓(xùn)練時(shí)通過引入任務(wù)類型（task-id）作為引導(dǎo)，并通過交叉熵?fù)p失函數(shù)對(duì)生成的路由權(quán)重進(jìn)行約束，從而使每個(gè)專家專注于特定的任務(wù)數(shù)據(jù)集。門函數(shù)通過均衡分配專家模塊，專家在多任務(wù)數(shù)據(jù)中表現(xiàn)出各自的傾向性，降低了多任務(wù)微調(diào)中的沖突。此外，每個(gè)專家不僅學(xué)習(xí)了主要數(shù)據(jù)集的知識(shí)，還獲得了其他數(shù)據(jù)集的部分知識(shí)，這也反映了專家在推理時(shí)的知識(shí)共享能力。

圖104個(gè)數(shù)據(jù)集上的8個(gè)專家分布占比圖Fig.10Distributionchartsof8expertsacross4datasets

3.2.7PMoE微調(diào)框架的應(yīng)用實(shí)例

PMoE微調(diào)框架具備優(yōu)異的多任務(wù)微調(diào)性能，可作為強(qiáng)化大語言模型的理想微調(diào)方法。本文提出的PMoE微調(diào)框架已在江蘇省電信的運(yùn)維項(xiàng)目中成功應(yīng)用，該項(xiàng)目依托大語言模型，將自然語言翻譯為執(zhí)行指令。模型通過調(diào)用數(shù)據(jù)庫并執(zhí)行相關(guān)操作，以完成多個(gè)下游任務(wù)。開源模型ChatGLM3-6b在自然語言翻譯任務(wù)中的專業(yè)詞匯識(shí)別，以及數(shù)據(jù)處理中的專有名詞識(shí)別與存儲(chǔ)方面，難以滿足實(shí)際需求，因此需對(duì)基座模型在多任務(wù)場(chǎng)景下進(jìn)行專業(yè)性微調(diào)。根據(jù)具體任務(wù)類型構(gòu)建了若干數(shù)據(jù)集，采用PMoE微調(diào)框架，對(duì)基座模型ChatGLM3-6b進(jìn)行多任務(wù)場(chǎng)景下的專業(yè)性微調(diào)，顯著提升了基座模型在運(yùn)維領(lǐng)域的專業(yè)性能。數(shù)據(jù)集制作方式及微調(diào)參數(shù)與上述實(shí)驗(yàn)一致，微調(diào)后的模型通過LongBench平臺(tái)進(jìn)行評(píng)分，評(píng)分用于衡量模型對(duì)運(yùn)維領(lǐng)域?qū)I(yè)知識(shí)的掌握能力，具體結(jié)果如圖11所示。

圖11ChatGLM3-6b在LongBench平臺(tái)中不同微調(diào)方法得分柱狀圖Fig.11Bar chart of the scores fine-tuning using different fine-tuningmethodsforChatGLM3-6bontheLongBenchplatform

圖中橫軸表示ChatGLM3-6b模型在LongBench平臺(tái)下的兩種指標(biāo)，縱軸表示歸一化后的平均得分（見電子版）。圖中顯示，基座模型（藍(lán)色）因缺乏運(yùn)維領(lǐng)域的專業(yè)知識(shí)，在微調(diào)前難以完成專業(yè)性較強(qiáng)的下游任務(wù)。這凸顯了微調(diào)在提升大語言模型實(shí)際應(yīng)用能力中的重要性。ChatGLM3-6b在P-tuning（橙色）和PMoE（黃色）得分對(duì)比顯示，PMoE在實(shí)際應(yīng)用中，尤其是多任務(wù)場(chǎng)景下，整體優(yōu)于傳統(tǒng)微調(diào)方法。

4結(jié)束語

本文提出了一種基于參數(shù)高效微調(diào)P-tuning的新型框架PMoE。該框架繼承了P-tuning微調(diào)的高效性，在每層Trans-former前引入可訓(xùn)練的專家模塊，顯著降低了微調(diào)參數(shù)成本。此外，通過結(jié)合MoE的混合專家與門函數(shù)（router）機(jī)制，PMoE在多任務(wù)場(chǎng)景中充分利用專家模塊的知識(shí)共享與任務(wù)適應(yīng)能力，大幅提升了微調(diào)性能。

本文還初步研究了PMoE在不同場(chǎng)景下的可拆卸性與靈活部署。訓(xùn)練階段通過綁定專家模塊與router模塊，使PMoE在推理階段可根據(jù)需求動(dòng)態(tài)加載或卸載相應(yīng)的門函數(shù)與專家模塊，顯著提升模型在多任務(wù)場(chǎng)景下微調(diào)的靈活性。

未來研究可著重于進(jìn)一步優(yōu)化門函數(shù)性能，并重新設(shè)計(jì)門函數(shù)與專家模塊的參數(shù)權(quán)重及其在Transformer層中的部署位置，以提升PMoE在多任務(wù)處理中的適用性與穩(wěn)定性，進(jìn)而推動(dòng)大語言模型在更多領(lǐng)域的廣泛應(yīng)用。

參考文獻(xiàn)：

[1]Zhao Zihuai，F(xiàn)anWenqi，Li Jiatong，etal.Recommender systemsin theera oflargelanguagemodels（LLMs）[J].IEEETranson KnowledgeandDataEngineering，2024，36（11）：6889-6907.

[2]WangLei，Ma Chen，F(xiàn)eng Xueyang，et al.A survey on largelanguage model based autonomous agents[J].Frontiers of Computer Science，2024，18（6）：186345.

[3] HadiMU，Qureshi R，ShahA，etal.A surveyon large language models：applications，challenges，limitations，and practical usage[EB/ OL].（2023-07-10）.https：//www.techrxiv.org/doi/full/10.36227/ techrxiv.23589741.v1.

[4]GallifantJ，F(xiàn)iskeA，LevitesSYA，etal.PeerreviewofGPT-4 technicalreport and systemscard[J].PLoS Digital Health，2O24，3（1）： e0000417.

[5]楊程，車文剛.基于多門混合專家網(wǎng)絡(luò)的情感分析與文本摘要多任務(wù)模型[J].現(xiàn)代電子技術(shù)，2024，47（1）：94-99．（Yang Cheng， CheWengang.Multi-task model for sentiment analysis and text summarizationbased on multi-gate mixture of experts network[J].ModernElectronicsTechnology，2024，47（1）：94-99.）

[6]HuEJ，ShenYelong，WallisP，etal.Lora：low-rankadaptation of large language models[EB/OL]. （2021）. https：//arxiv.org/abs/ 2106.09685.

[7]Liu Xiao，Ji Kaixuan，F(xiàn)u Yicheng，et al. P-tuning v2 prompt tuning can be comparable to fine-tuning universally across scales and tasks [EB/OL].（2021-03-20）. https：//arxiv.org/abs/2110.07602.

[8]Li Xiao，Ji Kaixuan，F(xiàn)u Yicheng，et al. Dice lossfor data-imbalanced NLP tasks[EB/OL].（2020-08-29）.htps：//arxiv.org/abs/1911. 02855.

[9]Shazeer N，Mirhoseini A，Maziarz K，et al. Outrageously large neural networks：thesparsely-gated mixture-of-experts layer [EB/OL]. （2017-01-23）.https：//arxiv.org/abs/1701.06538.

[10]Lepikhin D，Lee H，Xu Yuanzong，et al. GShard;scaling giantodels with conditional computation and automatic sharding[EB/OL]. （2020-06-30）. https：//arxiv.org/abs/2006.16668.

[11]Mustafa B，Riquelme C，Puigcerver J，et al. Multimodal contrastive learning with LIMoE： the language-image mixture of experts[C]// Procof the36th International Conference on Neural Information Processing Systems. Cambridge，MA：MIT Press，2022：9564-9576.

[12] Dou Shihan， Zhou Enyu，Liu Yan，et al. LoRAMoE： revolutionizing mixture of experts for maintaining world knowledge in language model alignment[EB/OL]. （2024-03-08）. https：//arxiv.org/abs/2312. 09979.

[13] Zhang Renrui，Han Jiaming，Liu C，et al.LLaMA-adapter： fficient fine-tuning oflanguagemodelswithzero-initatention[EB/OL]. （2023-03-28）. https：//arxiv.org/abs/2303.16199.

[14]Li X L，Liang P. Prefix-tuning：optimizing continuous prompts for generation[EB/OL].（2021-01-01）.https：//arxiv.org/abs/2101. 00190.

[15]Vaswani A，Shazeer N，ParmarN，etal.Attention isall you need [C]//Proc of the31st International Conference on Neural Information Processing Systems.Red Hook，NY：Curran Associates Inc.，2017： 6000-6010.

[16]Wang Junke，Yang Xitong，Li Hengduo，et al.Efficient video Transformers with spatial-temporal token selection[C]//Proc of European Conference on Computer Vision. Cham：Springer Nature Switzerland， 2022：69-86.

[17] Zhu Wei， Wang Xiaoling， Zheng Huanran，et al. PromptCBLUE： a Chinese prompt tuning benchmark for the medical domain[EB/OL]. （2023-10-22） . https：//arxiv. org/abs/2310.14151.

[18]孫麗萍，童子龍，錢乾，等.基于醫(yī)療臨床數(shù)據(jù)的兩階段專業(yè)級(jí)大語言模型微調(diào)[J].計(jì)算機(jī)應(yīng)用研究，2024，41（10）：2906-2910. （Sun Liping，Tong Zilong，Qian Qian，et al. Two-phases fine-tuning of professional large language model via clinical data[J]. Application Research of Computers，2024，41（10）：2906-2910.）

[19]Wu Chengyan，Lin Zehong，F(xiàn)ang Wenlong，et al. A medical diagnostic assistant based on LLM[C]//China Health Information Processing Conference.Singapore：Springer Nature Singapore，2O23：135-147.

[20]顏見智，何雨鑫，駱子燁，等.生成式大語言模型在醫(yī)療領(lǐng)域的潛在典型應(yīng)用與面臨的挑戰(zhàn)[J].醫(yī)學(xué)信息學(xué)雜志，2023，44（9）： 23-31.（Yan Jianzhi，HeYuxin，Luo Ziye，et al.Generativelarge language models in the medical domain：potential and typical applications and challenges[J].Journal of Medical Informatics，2023，44（9）： 23-31.）

[21] Liu Xiao，Zheng Yanan，Du Zhengxiao，etal. GPT understands，too [J]. Al Open，2024，5：208-215.

[22]Zeng Aohan，Liu Xiao，Du Zhengxiao，et al. GLM-13OB：an open bilingual pre-trained model[EB/OL].（2022-10-05）. htps：//arxiv. org/ abs/2210. 02414.

[23]Bai Yushi，Lyu Xin，Zhang Jiajie，et al.LongBench：abilingual，multitask benchmark for long context understanding[EB/OL].（2023-08- 28）.https：//arxiv.org/abs/2308.14508.

[24]Devlin J，Chang Mingwei，Lee K，et al. BERT： pre-training of deep bidirectional Transformersfor language understanding[EB/OL]. （2018-10-11）.https：//arxiv.org/abs/1810.04805.