999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

PMoE:在P-tuning中引入混合專家的參數(shù)高效微調(diào)框架

2025-07-28 00:00:00王浩王珺胡海峰周飛飛龔銳張索非
關(guān)鍵詞:多任務(wù)專家函數(shù)

關(guān)鍵詞:大語言模型;參數(shù)高效微調(diào);P-tuning;混合專家;多任務(wù)學(xué)習(xí)中圖分類號(hào):TP18 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-005-1956-08doi:10.19734/j.issn.1001-3695.2024.11.0484

Abstract:Large language model (LLM)has significantly improved performanceinreasoning and generation tasks.However, existing open-sourceLLMstillackssuffcientdomain-specificknowledgeandrequiresfine-tunngforspecializedtasks.Traditionalfine-tuningmethodsstruggletobalancelowcostandhigheficiencyinmuli-taskleaing.Toaddressthisisue,hispaperproposedaparameter-effcientfine-tuning framework namedPMoE.BasedontheP-tuning method,this framework introducedamixture-of-expertsmechanism toenhancemulti-task proessingwhilemaintaininglow-costtuning.Ineach Transformer modulelayer,PMoE constructed trainable expert modules toreplace the prompt modules in P-tuning and utilizedarouting mechanism todynamicallyalocatetasksbasedoninput task features.Aditionally,itdesignedtheexpert modulesinMoEto bedetachable,enabling modelreuseacrossdferent task scenariosandfurtherreducingcomputationalcosts.Experimentalresults demonstrate that PMoE achieves a 6.24% performance improvement over P-tuning on a Chinese medical dataset and exhibitssuperiorcapabilities inmulti-taskprocessngandtransferlearning,verifying itseficiencyandbroadapplicability.

Key words:large language model;parameter-effcient fine-tuning;P-tuning;mixture of experts;multi-task learning

0 引言

隨著大語言模型(largelanguagemodel,LLM)的不斷迭代更新,這些模型在推理和文本生成方面的能力得到了顯著增強(qiáng)。企業(yè)在下游任務(wù)處理中對(duì)LLM的引人日益增多,處理諸如文本分類、知識(shí)問答和text2seq(自然語言到數(shù)據(jù)庫語言轉(zhuǎn)換)等任務(wù),這一趨勢(shì)在醫(yī)療、金融、法律和教育等多個(gè)領(lǐng)域表現(xiàn)突出[1\~3]。盡管現(xiàn)有的自動(dòng)化工具在一定程度上緩解了工作負(fù)擔(dān),但手工輸入和校對(duì)的需求仍然繁重,易發(fā)生錯(cuò)誤且耗時(shí)較多。LLM可以進(jìn)一步簡(jiǎn)化這些流程,降低人工干預(yù)可能帶來的錯(cuò)誤概率。在處理特定領(lǐng)域的術(shù)語時(shí),現(xiàn)有工具在處理各個(gè)領(lǐng)域的專業(yè)術(shù)語和縮略語時(shí)常常存在精確性不足的問題,可能導(dǎo)致術(shù)語誤解和分類錯(cuò)誤,采用更智能的LLM可以顯著提高術(shù)語處理的準(zhǔn)確性。在知識(shí)傳播方面,盡管教育資源豐富,但如何將復(fù)雜的信息轉(zhuǎn)換為公眾易于理解的表達(dá)形式依然是一個(gè)挑戰(zhàn)。LLM可以促進(jìn)信息的專業(yè)性和通俗性表達(dá),有助于提升公眾的知識(shí)水平,促進(jìn)技能普及。

在多個(gè)領(lǐng)域中部署大型語言模型時(shí),通常面臨一個(gè)關(guān)鍵問題:現(xiàn)有開源LLM大多為預(yù)訓(xùn)練模型,其訓(xùn)練過程主要聚焦于通用性能的優(yōu)化。因此,在專業(yè)性較強(qiáng)的領(lǐng)域,這些模型往往表現(xiàn)出知識(shí)覆蓋的不足,需基于特定任務(wù)和數(shù)據(jù)集進(jìn)行微調(diào)。微調(diào)過程中主要面臨兩個(gè)問題:a)微調(diào)任務(wù)問題。大型語言模型作為智能系統(tǒng)的基礎(chǔ),需要支持多個(gè)下游任務(wù),因此,必須針對(duì)多種類型的數(shù)據(jù)集進(jìn)行微調(diào)。然而,隨著不同任務(wù)微調(diào)數(shù)據(jù)集的持續(xù)積累,模型在微調(diào)過程中的災(zāi)難性遺忘現(xiàn)象也隨之加劇,導(dǎo)致模型的通用性能嚴(yán)重下降。b)微調(diào)成本問題。由收稿日期:2024-11-27;修回日期:2025-02-14 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(62371245)

作者簡(jiǎn)介:王浩(1999—),男,江蘇徐州人,碩士研究生,主要研究方向?yàn)榇笳Z言模型的微調(diào)以及RAG融合;王珺(1975—),女,副教授,主要研究方向?yàn)槲锫?lián)網(wǎng)、邊緣計(jì)算、下一代網(wǎng)絡(luò)及人工智能;胡海峰(1973—),男(通信作者),教授,主要研究方向?yàn)槿斯ぶ悄軕?yīng)用于無線網(wǎng)絡(luò)和生物信息等領(lǐng)域(huhf@njupt.edu.cn);周飛飛(1990-),女,碩士研究生,主要研究方向?yàn)榇髷?shù)據(jù)和AI智能運(yùn)維、數(shù)據(jù)治理等;龔銳(1995—),女,碩士研究生,主要研究方向?yàn)辄c(diǎn)云深度學(xué)習(xí)、云原生等;張索非(1982—),男,主要研究方向?yàn)橛?jì)算機(jī)視覺、實(shí)時(shí)物體跟蹤和基于深度學(xué)習(xí)的圖像處理。

于智能系統(tǒng)需不斷引入新任務(wù)和知識(shí)體系,每次更新迭代都需對(duì)大型語言模型進(jìn)行參數(shù)更新以適應(yīng)新下游任務(wù)。傳統(tǒng)的全量微調(diào)方法在時(shí)間和成本方面的開銷極為顯著4,在一定程度上阻礙了系統(tǒng)的快速迭代。因此,考慮到上述兩個(gè)問題,尋求一種更高效的微調(diào)框架,以在低成本條件下提升多任務(wù)微調(diào)性能,以更好適應(yīng)各領(lǐng)域?qū)δP偷木唧w需求,并增強(qiáng)模型的持續(xù)學(xué)習(xí)與適應(yīng)能力。

近年來興起的基于混合專家(mixtureofexpert,MoE)5]架構(gòu)的大型語言模型可以有效解決上述的微調(diào)任務(wù)問題。該架構(gòu)通過不同的專家學(xué)習(xí)不同領(lǐng)域的知識(shí),在推理時(shí)通過門函數(shù)平衡各個(gè)專家的貢獻(xiàn),從而提升模型在多任務(wù)之間的泛化性能。然而,這些優(yōu)勢(shì)的實(shí)現(xiàn)以高算力需求為代價(jià),其多個(gè)獨(dú)立的前饋神經(jīng)網(wǎng)絡(luò)專家層顯著增加了微調(diào)參數(shù)量,從而導(dǎo)致微調(diào)成本大幅提升。高效參數(shù)微調(diào)(parameter-efficient fine-tuning,PEFT)技術(shù),如LoRA[6和 P-tuning[7] ,能夠在下游任務(wù)的微調(diào)過程中,通過犧牲模型一定的通識(shí)性能來降低微調(diào)時(shí)間和成本。其中,P-tuning通過在每一層中增添可訓(xùn)練的提示詞來實(shí)現(xiàn)目標(biāo)輸出;LoRA則通過在自注意力模塊中的權(quán)重矩陣旁構(gòu)造可訓(xùn)練的低秩矩陣來改變模型輸出。這些方法在降低微調(diào)成本方面成效顯著,但在處理多任務(wù)方面卻暴露出如下三個(gè)問題:a)在多任務(wù)學(xué)習(xí)環(huán)境中,不同任務(wù)在微調(diào)過程中可能會(huì)相互干擾,進(jìn)而影響學(xué)習(xí)效果;b)不同任務(wù)之間數(shù)據(jù)量的差異可能導(dǎo)致模型偏向于數(shù)據(jù)量較大的任務(wù);c)“曉曉板”效應(yīng)問題:模型在提升一個(gè)任務(wù)性能的同時(shí),可能會(huì)犧牲另一個(gè)任務(wù)的性能[8]。因此,盡管當(dāng)前的微調(diào)技術(shù)在多任務(wù)和低成本方向上分別取得了一定進(jìn)展,但仍無法同時(shí)兼顧微調(diào)的多任務(wù)和成本問題,在實(shí)際應(yīng)用中仍面臨多重技術(shù)和實(shí)現(xiàn)方面的挑戰(zhàn)。

基于混合專家架構(gòu)與高效微調(diào)技術(shù)中的P-tuning方法,本文提出了一種名為PMoE(P-tuningmixtureofexpert)的參數(shù)高效微調(diào)框架以解決多任務(wù)微調(diào)的效率瓶頸。該框架融合了P-tuning和MoE的核心優(yōu)勢(shì),利用P-tuning來降低微調(diào)成本,并借助MoE的混合專家和路由機(jī)制提升模型在多任務(wù)學(xué)習(xí)中的效果,結(jié)合P-tuning的高效性與MoE的多任務(wù)處理能力,提升大語言模型的微調(diào)效率。具體而言,PMoE架構(gòu)在LLM的每層Transformer模塊前增加由可訓(xùn)練提示詞組成的專家模塊,在微調(diào)過程中凍結(jié)LLM原始權(quán)重,通過可訓(xùn)練專家模塊學(xué)習(xí)任務(wù)特定知識(shí)。為平衡各專家在任務(wù)中的學(xué)習(xí)效果,引人門函數(shù)調(diào)整分配權(quán)重。門函數(shù)設(shè)計(jì)包括all-router與each-router兩種形式。all-router將所有微調(diào)數(shù)據(jù)作為門函數(shù)的輸入,以使門函數(shù)學(xué)習(xí)多任務(wù)特征,在推理時(shí)生成合理的專家權(quán)重,通過實(shí)驗(yàn)將其生成結(jié)果與傳統(tǒng)微調(diào)對(duì)比,突出PMoE框架的性能優(yōu)勢(shì);each-router以單一任務(wù)的微調(diào)數(shù)據(jù)作為門函數(shù)輸入,通過多個(gè)門函數(shù),在訓(xùn)練中使其分別學(xué)習(xí)對(duì)應(yīng)任務(wù)特征,為PMoE框架的微調(diào)可拆卸性提供理論與架構(gòu)基礎(chǔ)。前者旨在凸顯PMoE的微調(diào)性能,后者則支持專家模塊的可拆卸性研究。

綜上所述,本文的主要貢獻(xiàn)如下:

a)提出了一種基于P-tuning的新型微調(diào)框架PMoE。該框架通過P-tuning降低微調(diào)成本,并結(jié)合MoE的混合專家與門函數(shù)(router)機(jī)制,顯著提升多任務(wù)學(xué)習(xí)性能。

b)設(shè)計(jì)了兩種以任務(wù)類型為驅(qū)動(dòng)的門函數(shù):(a)all-router,用于突出PMoE框架的微調(diào)性能;(b)each-router,為PMoE在不同任務(wù)場(chǎng)景下的免訓(xùn)練模型部署提供了理論支持和研究方向。

c)基于中國(guó)醫(yī)學(xué)數(shù)據(jù)集開展了全面的多任務(wù)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了PMoE框架在微調(diào)效率和多任務(wù)性能方面的優(yōu)越性。

1相關(guān)工作

1.1 混合專家模型

為應(yīng)對(duì)應(yīng)用場(chǎng)景增長(zhǎng)引發(fā)的大模型參數(shù)與規(guī)模擴(kuò)張對(duì)微調(diào)成本和效率的挑戰(zhàn),目前,許多大型語言模型逐步引入了混合專家模型。MoE基于集成學(xué)習(xí)的理念,使不同專家分別學(xué)習(xí)特定領(lǐng)域的知識(shí),并通過門函數(shù)調(diào)節(jié)各專家在模型推理中的權(quán)重。QuocLe團(tuán)隊(duì)9于2017年提出了一種新型的MoE層,通過引人稀疏性顯著提高了模型的規(guī)模和效率。同年,谷歌首次將MoE技術(shù)應(yīng)用于自然語言處理領(lǐng)域,通過在LSTM層之間加人MoE 模塊,提升了機(jī)器翻譯的性能。GShard[10]于2020 年率先將MoE技術(shù)應(yīng)用于Transformer架構(gòu),構(gòu)建了高效的分布式并行計(jì)算架構(gòu)。2022 年的 LIMoE[11] 是首個(gè)應(yīng)用稀疏混合專家模型技術(shù)的多模態(tài)模型,通過在前饋神經(jīng)網(wǎng)絡(luò)層構(gòu)造多個(gè)獨(dú)立的專家模塊,在訓(xùn)練和推理階段,僅選擇少量專家參與運(yùn)算,從而提升模型的訓(xùn)練與推理效率。然而,即使如此,為了使每個(gè)專家的訓(xùn)練達(dá)到原模型的性能,仍需消耗大量算力資源以重新訓(xùn)練多個(gè)專家模塊,模型的參數(shù)規(guī)模也呈現(xiàn)出不可控的快速增長(zhǎng)。

在MoE的微調(diào)領(lǐng)域,Dou等人[12]為減少專家訓(xùn)練過程中的參數(shù)量,采用了LoRA技術(shù)對(duì)已有專家模塊進(jìn)行微調(diào),在微調(diào)時(shí)凍結(jié)稀疏混合專家模型的專家模塊,使用低秩矩陣作為可訓(xùn)練參數(shù)疊加在凍結(jié)的專家模塊上以實(shí)現(xiàn)微調(diào)效果。然而,即便如此,模型的改進(jìn)仍然基于MoE架構(gòu),模型自身龐大的參數(shù)規(guī)模依然限制了LLM在下游任務(wù)場(chǎng)景中的部署。因此,亟需一種參數(shù)量可控的微調(diào)方法,以滿足多任務(wù)場(chǎng)景的實(shí)際需求。

1.2參數(shù)高效微調(diào)技術(shù)

參數(shù)高效微調(diào)技術(shù)旨在減少微調(diào)參數(shù)數(shù)量和計(jì)算復(fù)雜性,以提升LLM在新任務(wù)上的性能。Adapter微調(diào)[3率先提出了一種輕量級(jí)適配器模塊,該模塊以少量可訓(xùn)練參數(shù)實(shí)現(xiàn)了與對(duì)LLM頂層完整微調(diào)相當(dāng)?shù)男ЧoRA受LLM大參數(shù)模型中低內(nèi)在維度特性的啟發(fā),在每個(gè)密集層中增加兩個(gè)可訓(xùn)練的低秩矩陣。盡管LoRA在微調(diào)領(lǐng)域中表現(xiàn)出色,但在多任務(wù)微調(diào)中的表現(xiàn)較差,因?yàn)槠鋮?shù)更新針對(duì)所有任務(wù)統(tǒng)一進(jìn)行,導(dǎo)致關(guān)鍵的任務(wù)特定信息無法被充分捕獲。

Prefix[14]和P-tuning微調(diào)通過為特定任務(wù)構(gòu)建虛擬令牌,在原始文本序列中添加可訓(xùn)練的連續(xù)提示,使優(yōu)化過程相比離散提示更加可行。然而,隨著多任務(wù)數(shù)據(jù)集規(guī)模增大,模型需更長(zhǎng)的提示詞以擬合正確輸出,提示詞長(zhǎng)度的不斷增加可能限制模型的可用序列范圍。近期,跨任務(wù)泛化研究提出了多種參數(shù)高效微調(diào)策略,以提升模型的多任務(wù)處理能力。然而,跨任務(wù)泛化研究的核心在于提升模型對(duì)未知領(lǐng)域的遷移能力,而本文關(guān)注的多任務(wù)微調(diào)側(cè)重于已知任務(wù)微調(diào)后的知識(shí)應(yīng)用能力,因此,這些方法在解決當(dāng)前問題時(shí)仍存在局限性。總之,LLM驅(qū)動(dòng)的多場(chǎng)景部署中的多任務(wù)參數(shù)高效微調(diào)仍是一個(gè)未被充分探索的領(lǐng)域,本文的研究圍繞這一問題展開。

2PMoE參數(shù)高效微調(diào)框架實(shí)現(xiàn)方法

2.1 方法概述

圖1呈現(xiàn)了PMoE微調(diào)的總體框架,并重點(diǎn)通過自注意力層的內(nèi)部機(jī)制,詳細(xì)解析了微調(diào)流程。

該框架在 L 層Transformer的自注意力層中,以可訓(xùn)練的專家模塊 PMoEK 和 PMoE?V 替代了P-tuning中的可訓(xùn)練虛擬令牌。具體而言,在訓(xùn)練過程中,router負(fù)責(zé)將不同任務(wù)匹配到相應(yīng)的專家模塊。當(dāng)本層Transformer接收來自上一層的隱藏狀態(tài)(hidden-states)向量時(shí),該向量被同時(shí)輸人到router和自注意力模塊。router利用傳入向量的任務(wù)標(biāo)識(shí)(task-id)信息生成權(quán)重向量,并將其傳遞給相應(yīng)的專家模塊。自注意力模塊則保持原有的參數(shù)矩陣 Wq?Wk 和 Wv 凍結(jié),并依次與隱藏狀態(tài)向量相乘,生成自注意力計(jì)算所需的查詢( )鍵 (K) 和值( ΩV) 向量。隨后,專家模塊 PMoEκ 和 PMoE?V 與router生成的權(quán)重向量相乘,并附加在 K 和 u 向量的前端,以實(shí)現(xiàn)對(duì)自注意力模塊的微調(diào)。

在參數(shù)高效微調(diào)方面,本文參考了P-tuning的策略,在每個(gè)自注意力模塊的 K 和 V 向量前增設(shè)可訓(xùn)練的 PMoEK 和 PMoE?V 凍結(jié)預(yù)訓(xùn)練模型參數(shù)的同時(shí),通過訓(xùn)練少量參數(shù)有效學(xué)習(xí)下游任務(wù)。在混合專家方面,在模型的每一層構(gòu)建可訓(xùn)練的 PMoEK 和 PMoE?V 作為專家均衡學(xué)習(xí)多任務(wù)知識(shí)。每個(gè)向量由若干專家參數(shù)加權(quán)構(gòu)成,加權(quán)所需的權(quán)重由門函數(shù)提供。這種設(shè)計(jì)使PMoE框架在保持低微調(diào)成本的同時(shí),充分發(fā)揮了混合專家模型的優(yōu)勢(shì),有效提升了模型在多任務(wù)環(huán)境中的性能。

圖1PMoE參數(shù)高效微調(diào)的總體框架

2.2 PMoE框架下的專家實(shí)現(xiàn)

P-tuning作為一種參數(shù)高效微調(diào)方案,其低成本微調(diào)的有效性已在大語言模型領(lǐng)域得到驗(yàn)證。自注意力模塊的運(yùn)算過程可抽象為函數(shù) y=F(ax+b) ,其中: F 表示自注意力運(yùn)算, x 為模塊的輸入, a 和 b 為 F 中可訓(xùn)練的參數(shù)。P-tuning從本質(zhì)上是對(duì) x 進(jìn)行處理,如下所示。

其中:可訓(xùn)練參數(shù) P0 在模型中實(shí)際拼接于自注意力模塊的 K 、V 向量前,將 F 應(yīng)用于自注意力機(jī)制的公式[15表示為

其中:符號(hào) 表示可訓(xùn)練參數(shù) Pk 與 Pv 沿序列長(zhǎng)度維度拼接,而非簡(jiǎn)單相加。拼接了 的 K 向量經(jīng)過轉(zhuǎn)置和softmax運(yùn)算后與拼接了 Pv 的 ν 向量相乘,保證了輸入輸出維度上的不變。該結(jié)構(gòu)調(diào)整在維持原始數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,引人新的可訓(xùn)練參數(shù),從而改變自注意力模塊的輸出,實(shí)現(xiàn)微調(diào)效果。

在醫(yī)療領(lǐng)域的多任務(wù)微調(diào)中,使用傳統(tǒng)的P-tuning方法時(shí),需針對(duì)所有任務(wù)更新可訓(xùn)練參數(shù),可能導(dǎo)致任務(wù)共享與數(shù)據(jù)集不平衡等問題,混合專家(MoE)模型通過專屬專家模塊學(xué)習(xí)各下游任務(wù)的特定知識(shí),能夠有效捕捉微調(diào)數(shù)據(jù)的多樣性。因此,本框架引人了MoE混合專家的理念,構(gòu)建 N 個(gè)可訓(xùn)練的P 作為專家,用 {Ei}i=1N 表示,每個(gè)專家可進(jìn)一步拆解為作用于自注意力模塊的 K,V 向量前的兩個(gè)參數(shù),單層自注意力模塊的輸出attention (Q,K,V)j 表示為

(Q,K,V)j=

其中: Qj?Kj 和 Vj 表示自注意力模塊的第 j 層輸入 x 經(jīng)過凍結(jié)的權(quán)重矩陣 Wq?Wk 和 Wv 的輸出結(jié)果; Pki 和 Pvi 表示第 i 個(gè)專家 Pi 在 Kj 和 Vj 前所拼接的可訓(xùn)練參數(shù); ωji 表示當(dāng)前 j 層第 i 個(gè)專家的權(quán)重,該權(quán)重由訓(xùn)練后的門函數(shù)接收不同輸入動(dòng)態(tài)生成,其主要功能是平衡專家間的權(quán)重分配,在均衡各專家利用率的同時(shí),避免任務(wù)共享沖突。下一節(jié)將詳細(xì)介紹兩種門函數(shù)的功能及其實(shí)現(xiàn)方式。

PMoE框架下專家模塊的具體實(shí)現(xiàn)如圖2所示,圖中以不同顏色表示8個(gè)專家。其中 Wo 表示一個(gè)連接層,用于改變自注意力計(jì)算后的輸出向量(attentionoutputs)的維度。所有專家的權(quán)重均與門函數(shù)(router)輸出的權(quán)重相乘,經(jīng)過加權(quán)后作為最終的 Pk 和 Pv 參與到自注意力模塊的計(jì)算之中。

為了確保與基線P-tuning微調(diào)技術(shù)的實(shí)驗(yàn)具有可比性,對(duì)PMoE專家的線性層維度進(jìn)行了調(diào)整,以確保雙方可訓(xùn)練的參數(shù)量均占總參數(shù)量的 1.85%±0.05% 。

圖2PMoE微調(diào)架構(gòu)中的專家實(shí)現(xiàn)(8種顏色代表8種不同的專家)Fig.2Implementation of expertsinthe PMoE fine-tuningarchitecture(8colorsrepresent 8different experts)

2.3 PMoE框架下的門函數(shù)實(shí)現(xiàn)

本節(jié)將深人闡述兩種門函數(shù):all-router(所有微調(diào)任務(wù)數(shù)據(jù)作為輸人)和each-router(單一微調(diào)任務(wù)數(shù)據(jù)作為輸人)的部署位置及實(shí)現(xiàn)流程。

2.3.1all-router的實(shí)現(xiàn)原理

all-router是一種部署在模型Transformer層外的門函數(shù),由三個(gè)線性層和一個(gè)激活函數(shù)組成。前兩個(gè)線性層和激活函數(shù)用于提取輸入特征并生成專家權(quán)重,第三個(gè)線性層負(fù)責(zé)生成路由噪聲,以提升路由決策的魯棒性。門函數(shù) R 在訓(xùn)練時(shí)接收輸入 h ,分別輸出 N 個(gè)專家權(quán)重 ωj ,其中 j∈[0,N-1] ,權(quán)重可以表示為

ωj=softmax(R?h)

為均衡各專家對(duì)不同任務(wù)數(shù)據(jù)的學(xué)習(xí)程度,門函數(shù)接收任務(wù)類型(task-id)標(biāo)簽,利用標(biāo)簽生成專家掩碼,以先驗(yàn)方式指導(dǎo)權(quán)重生成的分布規(guī)律,確保每個(gè)任務(wù)數(shù)據(jù)優(yōu)先被一個(gè)專家學(xué)習(xí),通過損失函數(shù)對(duì)權(quán)重生成過程進(jìn)行約束,門函數(shù)的損失函數(shù)定義如下:

其中: T 表示目標(biāo)專家掩碼,該損失函數(shù)在訓(xùn)練階段幫助門函數(shù)學(xué)習(xí)不同任務(wù)的數(shù)據(jù)特征,以便在推理階段實(shí)現(xiàn)對(duì)專家權(quán)重的均衡作用。BCE(binary-cross-entropy)表示二元交叉熵函數(shù),公式如下:

BCE(x,y)=-[xlog(y)+(1-x)log(1-y)]

其中: Ψx 為真實(shí)標(biāo)簽(0或 1)sy 為預(yù)測(cè)概率,在式(5)中分別指代目標(biāo)專家掩碼 T 和專家權(quán)重 ωj

圖3展示了一個(gè)由3個(gè)專家模塊、3層Transformer和1個(gè)門函數(shù)(router)組成的訓(xùn)練與推理框架示例。當(dāng)初始層的隱藏狀態(tài)(hidden-states)傳入時(shí)會(huì)同時(shí)復(fù)制給router和layerO(第0層Transformer),router接收隱藏向量后生成對(duì)應(yīng)專家權(quán)重 ωj j∈[0,2] 。其中, E(x,y) 表示專家 x 的第 y 層參數(shù), x,y∈[0 2]。路由權(quán)重 ωj 作用于所有部署在layer0的專家參數(shù) Pk0 ,其計(jì)算公式為

3個(gè)專家加權(quán)后的參數(shù)作為當(dāng)前層的微調(diào)參數(shù) P60 和 Pv0 拼接在當(dāng)前層自注意力模塊內(nèi)的 K,V 向量前,layerO接收到Pk0?Pv0 后會(huì)與傳入的隱藏向量運(yùn)算,生成的輸出作為下一層layer1的輸入,逐層傳遞直至模型的最后一層。

圖3all-router訓(xùn)練與推理階段框架 Fig.3Framework oftheall-routerduringthe training and inference phases

在訓(xùn)練階段,router同時(shí)接收隱藏向量與任務(wù)標(biāo)簽(task-id),通過式(5)生成交叉熵?fù)p失,并通過反向傳播調(diào)整門函數(shù)的輸出權(quán)重,使其趨近伯努利分布,從而使專家對(duì)任務(wù)的學(xué)習(xí)更具專一性。該配置確保整個(gè)模型僅使用唯一門函數(shù),以有效控制參數(shù)大小對(duì)模型優(yōu)化的影響。

2.3.2each-router的實(shí)現(xiàn)原理

如圖4所示,each-router與all-router相比,根據(jù)任務(wù)類型選擇完全獨(dú)立的門函數(shù)(router)和專家參與當(dāng)前批次訓(xùn)練。門函數(shù) Rj 和專家 Ej 的數(shù)量始終一一對(duì)應(yīng),并且 j 隨著新任務(wù)類型的引入而自適應(yīng)增加,確保相同任務(wù)類型的數(shù)據(jù)集始終由唯一的門函數(shù)和專家組處理。在訓(xùn)練階段當(dāng)輸入(inputs)經(jīng)過編碼層(embedding)變?yōu)殡[藏向量傳給 Rj 時(shí),任務(wù)標(biāo)簽(task-id)同時(shí)傳人,作為式(5)的一部分參與損失函數(shù)計(jì)算,損失函數(shù)確保當(dāng)前門函數(shù) Rj 與當(dāng)前專家 Ej 之間的唯一匹配。與 Rj 相匹配的專家 Ej 接收到隱藏向量后,生成拼接至 K,V 向量前的 Pk0 和 Pv0 參與后續(xù)的自注意力運(yùn)算。專家參數(shù)權(quán)重的更新由模型輸出與標(biāo)簽(labels)之間的交叉熵?fù)p失決定,門函數(shù)與專家的損失函數(shù)被統(tǒng)一求和,通過反向傳播確保推理階段門函數(shù)的單一選擇性能。推理階段,門函數(shù) Rj 根據(jù)輸入的不同任務(wù)類型的隱藏向量選擇對(duì)應(yīng)的專家 Ej 生成 K,V 向量前的 P60 和 Pv0

由于輸入是以單詞(token)為基礎(chǔ)組成的特征向量,不同下游任務(wù)數(shù)據(jù)集之間存在大量重復(fù)的單詞,從而降低了router生成權(quán)重的精確性。為實(shí)現(xiàn)高效專家選擇,設(shè)計(jì)了一種針對(duì)token的篩選模型,該模型需要對(duì)門函數(shù)生成的權(quán)重進(jìn)行篩選,選擇出貢獻(xiàn)度較高的單詞(token),從而確定最適合當(dāng)前任務(wù)的專家模塊[16]。門函數(shù) Rj 生成的篩選后的專家權(quán)重 ωj 如下:

其中: M 表示輸入向量 h 的token總數(shù); α 表示選取的token數(shù)在總數(shù) M 中的占比,一般取值為0.5,具體數(shù)值由多任務(wù)場(chǎng)景下數(shù)據(jù)集特征決定。篩選貢獻(xiàn)度較高的token是基于token生成專家權(quán)重的離散性特征,由高到低排序選取前 α×100% 個(gè)貢獻(xiàn)度高的token作為有效token;加權(quán)平均所選token的專家權(quán)重以選擇前top ??k 個(gè)專家模塊被激活,其中, top-k 表示參與推理的專家數(shù)量,默認(rèn)值為1。隨后加載選中專家的微調(diào)參數(shù)以執(zhí)行推理任務(wù),推理過程中,某些問題特征可能跨越多個(gè)任務(wù)類型,門函數(shù)生成的權(quán)重會(huì)由多個(gè)專家參數(shù)共同組成,此方式能夠融合多個(gè)專家的優(yōu)勢(shì),增強(qiáng)知識(shí)共享能力。

圖4each-router訓(xùn)練與推理階段流程(6種顏色代表 6種不同的專家及對(duì)應(yīng)的門函數(shù)) Fig.4Flowchartoftheeach-routerduring thetrainingand inferencephases(6colorsrepresent6different experts and their corresponding gate functions)

本文在訓(xùn)練階段通過任務(wù)類型離散化每組門函數(shù)和專家,旨在探索PMoE微調(diào)的可拆卸性。在部署環(huán)境中,算力限制以及類似P-tuning和LoRA等高效參數(shù)微調(diào)技術(shù)的時(shí)間與成本需求,特別是在多場(chǎng)景、多任務(wù)和低時(shí)延的LLM應(yīng)用中,微調(diào)任務(wù)數(shù)量及每任務(wù)的數(shù)據(jù)集規(guī)模進(jìn)一步增加了難度。可拆卸性PMoE的核心優(yōu)勢(shì)是每組門函數(shù)和專家模塊僅需訓(xùn)練一次,即可在不同任務(wù)中實(shí)現(xiàn)“一訓(xùn)多用”。盡管訓(xùn)練與推理分離的架構(gòu)可能降低推理階段的擬合能力,其目標(biāo)是盡量降低性能損失,實(shí)驗(yàn)結(jié)果和分析將在3.2.4節(jié)詳細(xì)闡述,以驗(yàn)證該方法在實(shí)際應(yīng)用中的有效性與優(yōu)勢(shì)。

2.4PMoE微調(diào)實(shí)現(xiàn)流程

圖5展示了PMoE微調(diào)框架的總體實(shí)現(xiàn)流程,涵蓋模型從輸入到輸出的完整過程。PMoE的混合專家與門函數(shù)部署于每層Transformerblock中,并作用于每層的自注意力運(yùn)算階段。

圖5PMoE微調(diào)實(shí)現(xiàn)流程 Fig.5Implementation process of PMoE fine-tuning

模型接收下游任務(wù)輸入后,首先通過編碼層生成句向量序列(token-id),隨后進(jìn)人Transformerblock層,并逐層進(jìn)行運(yùn)算。在每一層中,輸人會(huì)同時(shí)傳到router和向量 Q,K 和 V 的權(quán)重矩陣,router根據(jù)輸人為每個(gè)專家生成對(duì)應(yīng)的權(quán)重,權(quán)重疊加后的專家會(huì)拼接到權(quán)重矩陣生成的 K 和 V 向量前,與 向量一同參與自注意力計(jì)算,計(jì)算結(jié)果作為下一層的輸入依次傳遞,最終生成模型的輸出。訓(xùn)練過程中,每層router生成交叉熵?fù)p失,模型經(jīng)過所有Transformer層后,預(yù)測(cè)值與標(biāo)簽生成交叉熵?fù)p失,將兩部分損失求和并通過反向傳播更新專家與門函數(shù)參數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)以醫(yī)療領(lǐng)域中應(yīng)用大型語言模型為背景,旨在驗(yàn)證PMoE框架在該領(lǐng)域的實(shí)際有效性。通過中國(guó)醫(yī)學(xué)數(shù)據(jù)集開展全面實(shí)驗(yàn),評(píng)估PMoE在醫(yī)學(xué)文本分類與知識(shí)問答任務(wù)中的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,PMoE在性能上顯著優(yōu)于傳統(tǒng)P-tuning微調(diào)方法,不僅在精度上有明顯提升,還在多任務(wù)學(xué)習(xí)中展現(xiàn)出更強(qiáng)的魯棒性和更高的效率。

3.1 實(shí)驗(yàn)設(shè)置

3.1.1數(shù)據(jù)集

本次實(shí)驗(yàn)的醫(yī)療數(shù)據(jù)源于PromptCBLUE中國(guó)多任務(wù)醫(yī)學(xué)數(shù)據(jù)集[17],該數(shù)據(jù)集由天池競(jìng)賽平臺(tái)首次發(fā)布,涵蓋16個(gè)不同的醫(yī)療領(lǐng)域任務(wù),如醫(yī)學(xué)命名實(shí)體識(shí)別和診斷報(bào)告生成等。為適配大模型微調(diào)任務(wù),每個(gè)任務(wù)經(jīng)過文本處理,轉(zhuǎn)換為純文本格式以便調(diào)用。受計(jì)算能力限制,本次實(shí)驗(yàn)僅選取8個(gè)醫(yī)療任務(wù),首先對(duì)8個(gè)任務(wù)進(jìn)行數(shù)據(jù)清洗,去除重復(fù)樣本及超過語言模型輸入最大token數(shù)限制的樣本,隨后對(duì)實(shí)體識(shí)別和文本分類任務(wù)進(jìn)行模版匹配,通過模版引導(dǎo)大語言模型以規(guī)定句式作答,從而便于實(shí)驗(yàn)結(jié)果評(píng)分[18]。具體任務(wù)分類及數(shù)據(jù)信息如表1所示。

3.1.2數(shù)據(jù)集的預(yù)處理

隨著智能醫(yī)療系統(tǒng)的廣泛部署,各類醫(yī)療數(shù)據(jù)進(jìn)行大型語言模型微調(diào)前,需進(jìn)行適當(dāng)?shù)母袷綐?biāo)準(zhǔn)化[19]。醫(yī)療任務(wù)通常分為實(shí)體識(shí)別、文本分類和文本問答三個(gè)主要類別。具體而言,實(shí)體識(shí)別任務(wù)從文本中提取醫(yī)療領(lǐng)域的名詞性實(shí)體;文本分類任務(wù)根據(jù)醫(yī)療綱要將文本歸類為具體的病理?xiàng)l目;文本問答任務(wù)基于文本生成滿足特定要求的回答[20]

表1數(shù)據(jù)集任務(wù)分類和數(shù)據(jù)信息Tab.1 Datasettaskclassificationanddatainformation

在實(shí)際微調(diào)中,文本問答任務(wù)通常無須特別處理,因?yàn)槟P洼斎氲膯栴}已包含所需內(nèi)容與具體要求,僅需執(zhí)行續(xù)寫功能。然而,實(shí)體識(shí)別和文本分類任務(wù)通常需根據(jù)具體需求制定模板,以提取關(guān)鍵信息三元組。此方法通過將任務(wù)數(shù)據(jù)處理為結(jié)構(gòu)化提取任務(wù),提高生成結(jié)果的準(zhǔn)確率。圖6展示了CMeIE醫(yī)療數(shù)據(jù)集實(shí)體關(guān)系提取的預(yù)處理流程。預(yù)處理時(shí),通過提示詞模板將原始數(shù)據(jù)合并后發(fā)送至LLM,LLM根據(jù)指令生成關(guān)系三元組,隨后通過腳本拼接生成最終結(jié)果。表2提供了其他相關(guān)模板的詳細(xì)信息。

圖6CMeIE醫(yī)療數(shù)據(jù)集提取特定關(guān)系實(shí)體對(duì)的預(yù)處理
Fig.6Preprocessng for extracting specificrelational entity pairs from the CMeIE medical dataset
表2不同數(shù)據(jù)集預(yù)處理時(shí)的模板要求Tab.2Template requirements for different datasets during preprocessing

3.1.3 實(shí)驗(yàn)基線

本實(shí)驗(yàn)針對(duì)未微調(diào)的LLM、微調(diào)后的LLM和多任務(wù)微調(diào)的LLM三種基線展開測(cè)試,其中多任務(wù)微調(diào)是基于本文提出的PMoE參數(shù)高效微調(diào)框架。未微調(diào)的LLM選擇ChatGPT[21]和ChatGLM3-6b進(jìn)行few-shot實(shí)驗(yàn),通過附加2\~3個(gè)情境事例作為prompt參考獲取輸出評(píng)分;微調(diào)后的LLM以P-tuning為基線,設(shè)置兩種微調(diào)方式:全部任務(wù)同時(shí)輸入(P-tuning-all)和每任務(wù)單獨(dú)輸人(P-tuning-single),用于分析“蹺曉板”效應(yīng)的影響;多任務(wù)微調(diào)的LLM采用PMoE框架,基于門函數(shù)分類設(shè)置PMoE-all-router(共用一個(gè)門函數(shù))和PMoE-each-router(每任務(wù)獨(dú)立門函數(shù))兩種實(shí)驗(yàn)基線。

3.1.4其他實(shí)驗(yàn)細(xì)節(jié)

受算力資源限制,所有實(shí)驗(yàn)均在1塊A800顯卡上進(jìn)行,該顯卡顯存為80GB,因此實(shí)驗(yàn)中的batch-size上限為2。實(shí)驗(yàn)運(yùn)行環(huán)境包括PyTorch2.1.2和Python3.10.13。由于PMoE框架建立在P-tuning的基礎(chǔ)上,所以選擇最先應(yīng)用P-tuning技術(shù)的ChatGLM3- ?6b[22] 作為本次實(shí)驗(yàn)的基礎(chǔ)模型,此外還有如下實(shí)驗(yàn)細(xì)節(jié)需要補(bǔ)充:

a)模型層數(shù):本次實(shí)驗(yàn)全部采用ChatGLM3-6b所有層數(shù),共28個(gè)Transformer層進(jìn)行PMoE架構(gòu)的部署與實(shí)驗(yàn)。b)專家數(shù)量為8;專家的pre_seq_len參數(shù)設(shè)置為20;模型輸入輸出長(zhǎng)度為:2048/1024,batch_size為2,訓(xùn)練輪次為2。c)其他默認(rèn)參數(shù)如下:門函數(shù)線性層參數(shù):(4096,1024)(1024,8);專家線性層參數(shù):(14336,512)\(512,14336)。

3.1.5評(píng)分指標(biāo)

本次實(shí)驗(yàn)的所有模型出評(píng)分均在LongBench平臺(tái)上完成[23],該平臺(tái)提供了完善的評(píng)測(cè)代碼和指標(biāo)體系,本次實(shí)驗(yàn)主要采用Rouge-zh-score(基于Rouge文本相似度的中文評(píng)分)和Qa-fl-zh-score(基于問答準(zhǔn)確率的中文評(píng)分)作為評(píng)分標(biāo)準(zhǔn),實(shí)驗(yàn)數(shù)據(jù)集的評(píng)測(cè)指標(biāo)如表3所示。

表3實(shí)驗(yàn)數(shù)據(jù)集對(duì)應(yīng)的評(píng)分指標(biāo) Tab.3Evaluation metrics corresponding to the experimental dataset

3.2 實(shí)驗(yàn)結(jié)果分析

3.2.1PMoE與基線的微調(diào)結(jié)果及分析

如表4所示,所有實(shí)驗(yàn)方案的可訓(xùn)練參數(shù)量占比統(tǒng)一為1.85%±0.05% ,平均得分表明,PMoE框架下的高效微調(diào)結(jié)果優(yōu)于其他方法。粗體表示當(dāng)前數(shù)據(jù)集的最高指標(biāo),下同。

未微調(diào)的LLM(ChatGPT和ChatGLM3-6b)在專業(yè)領(lǐng)域任務(wù)中的性能顯著低于微調(diào)后的模型,凸顯下游任務(wù)微調(diào)的必要性。其中,ChatGPT整體優(yōu)于ChatGLM3-6b,尤其在MedDG數(shù)據(jù)集上的對(duì)話推理任務(wù)中表現(xiàn)突出,表明超大參數(shù)模型在推理能力上的優(yōu)勢(shì)。

表4基于PromptCBLUE數(shù)據(jù)集上的各基線實(shí)驗(yàn)結(jié)果(粗體表示當(dāng)前數(shù)據(jù)集的最高指標(biāo))ab.4Baseline experimental results onthe promptcbluedataset(bold indicates the highest metricon this di

微調(diào)后的LLM中,P-tuning-single在CHIP-CDN、CHIP-MDCFNPC和CHIP-CTC數(shù)據(jù)集上的獨(dú)立得分高于P-tuning-all,表明“蹺曉板\"效應(yīng)在P-tuning微調(diào)中依然存在。然而,在其他數(shù)據(jù)集中,P-tuning-all得分高于P-tuning-single,顯示多任務(wù)微調(diào)的知識(shí)共享優(yōu)勢(shì)。總體上,P-tuning在8個(gè)數(shù)據(jù)集上的平均得分均高于未微調(diào)的 LLM 。

基于PMoE框架的LLM(PMoE-all-router),通過結(jié)合MoE混合專家理念與門函數(shù)的均衡能力,在性能上較P-tuning-all提升約 6.24% 。在8個(gè)微調(diào)任務(wù)中,有6個(gè)任務(wù)明顯優(yōu)于P-tuning-all,同時(shí)在除CMeIE數(shù)據(jù)集外的任務(wù)中得分均高于P-tuning-single,這表明PMoE-all-router的性能無論從多任務(wù)綜合角度還是單一任務(wù)角度均較基線有顯著提升。PMoE框架通過門函數(shù)和專家機(jī)制有效利用知識(shí)共享來彌補(bǔ)“曉蹺板”效應(yīng)帶來的性能損失,緩解了多任務(wù)學(xué)習(xí)對(duì)模型性能的負(fù)面影響,展現(xiàn)出顯著的性能優(yōu)勢(shì)。

3.2.2門函數(shù)與專家參數(shù)消融實(shí)驗(yàn)結(jié)果及分析

圖7展示了門函數(shù)與專家參數(shù)在消融實(shí)驗(yàn)中的表現(xiàn),實(shí)驗(yàn)以PMoE-all-router微調(diào)為基礎(chǔ),展示了控制門函數(shù)或?qū)<覅?shù)時(shí),另一參數(shù)變化對(duì)平均得分的影響。圖中,橫軸表示當(dāng)前消融對(duì)象的可變參數(shù)占總模型參數(shù)的比重,縱軸表示實(shí)驗(yàn)平均得分。其中,紅點(diǎn)代表3.2.1節(jié)中PMoE-all-router的實(shí)驗(yàn)結(jié)果,門函數(shù)與專家參數(shù)量之和的占比控制在 1.90% (見電子版)。

其中圖7(a)將專家參數(shù)恒定在 1.84% ,通過兩倍縮放比例調(diào)整門函數(shù)參數(shù)比重。實(shí)驗(yàn)結(jié)果表明,門函數(shù)參數(shù)量對(duì)微調(diào)得分有顯著影響,微調(diào)性能與門函數(shù)線性層堆疊數(shù)呈正相關(guān),但性能提升迅速達(dá)到上限,這是由于簡(jiǎn)單的線性層加激活函數(shù)的構(gòu)造形式在8個(gè)任務(wù)的訓(xùn)練數(shù)據(jù)中存在擬合上限,在實(shí)際應(yīng)用中,應(yīng)根據(jù)多任務(wù)的區(qū)分度合理設(shè)置門函數(shù)權(quán)重。

圖7(b)中,門函數(shù)的參數(shù)量固定為 0.06% ,并采用兩倍縮放比例調(diào)整專家參數(shù)的比重。實(shí)驗(yàn)結(jié)果表明,與門函數(shù)相比,專家參數(shù)占比對(duì)微調(diào)平均得分的影響較小,其平均得分的變化范圍相對(duì)較為有限,這是由于當(dāng)前專家參數(shù)量已滿足訓(xùn)練集需求。綜上所述,在具體應(yīng)用中,門函數(shù)參數(shù)權(quán)重的設(shè)置應(yīng)得到更多重視。

圖8不同專家個(gè)數(shù)的性能得分 Fig.8Performance scores for different numbers of experts

3.2.3不同專家個(gè)數(shù)的消融實(shí)驗(yàn)結(jié)果及分析

在保證門函數(shù)加專家的參數(shù)總量為 1.90% 的條件下,通過調(diào)整專家個(gè)數(shù)以研究其對(duì)PMoE參數(shù)高效微調(diào)框架性能的影響,基于PMoE-all-router微調(diào)框架(該框架下門函數(shù)唯一),實(shí)驗(yàn)結(jié)果如圖8所示。

從圖8可以看出,當(dāng)專家數(shù)從2逐步增加到8時(shí),平均得分呈現(xiàn)出逐漸上升的趨勢(shì)。這是由于在相同參數(shù)總量的限制下,多個(gè)專家能夠更有效地學(xué)習(xí)不同類型的任務(wù)知識(shí)。然而,當(dāng)專家數(shù)量超過8時(shí),性能得分開始下降。這是因?yàn)樵诒WC相同參數(shù)總量的前提下,增加專家數(shù)量需要降低每個(gè)專家線性層的維度,從而削弱每個(gè)專家的擬合能力。因此,在實(shí)驗(yàn)中,專家數(shù)量應(yīng)與微調(diào)數(shù)據(jù)集中任務(wù)的數(shù)量相匹配,以實(shí)現(xiàn)最佳微調(diào)性能。

3.2.4PMoE基于each-router的可拆卸性實(shí)驗(yàn)結(jié)果及分析

拆卸性PMoE的核心優(yōu)勢(shì)在于為不同下游任務(wù)分別進(jìn)行一次性門函數(shù)與專家訓(xùn)練,訓(xùn)練完成后,可獨(dú)立保存針對(duì)不同任務(wù)的若干組門函數(shù)與專家,LLM可根據(jù)任務(wù)場(chǎng)景動(dòng)態(tài)加載或卸載門函數(shù)與專家,滿足多任務(wù)需求。在新任務(wù)場(chǎng)景下,僅需為新任務(wù)單獨(dú)訓(xùn)練門函數(shù)與專家,無須重新微調(diào)全部下游任務(wù)。

實(shí)驗(yàn)首先比較了PMoE-each-router微調(diào)與P-tuning微調(diào)在新任務(wù)場(chǎng)景下的訓(xùn)練開銷,由于實(shí)驗(yàn)中的門函數(shù)構(gòu)造較為簡(jiǎn)單,難以充分區(qū)分相似句子之間的細(xì)微差別,所以,為兼顧推理性能與可拆卸性,剔除了文本與其他數(shù)據(jù)集極為相似的CHIP-CDEE和IMCS-V2-MRG數(shù)據(jù)集。實(shí)驗(yàn)中,用新增訓(xùn)練數(shù)據(jù)集模擬新的任務(wù)場(chǎng)景需求,分別用A\~F字母表示6個(gè)不同的數(shù)據(jù)集,其實(shí)驗(yàn)結(jié)果如圖9所示。

圖9PMoE-each-router與P-tuning的訓(xùn)練時(shí)間對(duì)比 Fig.9 Comparison of training time between PMoE-each-router and P-tuning

圖9中,橫軸表示數(shù)據(jù)集從A到F逐步堆疊參與訓(xùn)練,縱軸以小時(shí)為單位表示訓(xùn)練時(shí)間。圖9顯示,PMoE-each-router微調(diào)框架的訓(xùn)練時(shí)間不隨數(shù)據(jù)集堆疊而增加,其訓(xùn)練時(shí)間僅與數(shù)據(jù)集大小相關(guān)。新增數(shù)據(jù)集時(shí),僅需訓(xùn)練新增部分,無須從頭訓(xùn)練全部數(shù)據(jù)集。相比之下,P-tuning微調(diào)(黃色)因數(shù)據(jù)集堆疊導(dǎo)致訓(xùn)練時(shí)間持續(xù)增長(zhǎng)(見電子版),這是因?yàn)镻-tuning每次都需從頭訓(xùn)練。PMoE-each-router框架顯著降低訓(xùn)練開銷,完美適配不同下游任務(wù)場(chǎng)景的LLM部署,為L(zhǎng)LM微調(diào)的廣泛應(yīng)用提供技術(shù)支持。

此外,通過評(píng)分實(shí)驗(yàn)對(duì)比了PMoE-each-router框架與Ptuning微調(diào)的性能差異,實(shí)驗(yàn)結(jié)果如表5所示,其中 α 為2.3.2節(jié)所提到的篩選模型可變參數(shù)。平均結(jié)果顯示,當(dāng) α=0.5 時(shí),可拆卸性PMoE的性能比P-tuning微調(diào)略低 1.34% ;在 α= 0.375時(shí)PMoE-each-router達(dá)到最佳微調(diào)效果,在6個(gè)數(shù)據(jù)集上的平均得分要比P-tuning微調(diào)性能僅低 0.59% ;當(dāng) α 繼續(xù)降低時(shí),篩選模型的準(zhǔn)確度開始下降,導(dǎo)致模型微調(diào)性能下降。PMoE-each-router與P-tuning的微調(diào)差距源于門函數(shù)訓(xùn)練與推理階段分離導(dǎo)致的模型推理誤差,即當(dāng)不同多任務(wù)數(shù)據(jù)輸人大語言模型時(shí),門函數(shù)可能誤判相似但不屬于同一任務(wù)的數(shù)據(jù)向量,而生成錯(cuò)誤專家權(quán)重,導(dǎo)致模型輸出誤差。這一誤差在可接受范圍內(nèi),因?yàn)榭刹鹦禤MoE加載微調(diào)模塊時(shí)無須重新訓(xùn)練,顯著節(jié)省了終端模型在時(shí)間與空間上的算力資源,提高了終端模型在不同場(chǎng)景中的適應(yīng)能力。 α 的最佳取值取決于實(shí)際應(yīng)用場(chǎng)景中多任務(wù)微調(diào)數(shù)據(jù)集的特征差異,理論上并無確定的最佳值。具體到醫(yī)療領(lǐng)域微調(diào)任務(wù),可拆卸性PMoE在6個(gè)任務(wù)中,雖有4個(gè)任務(wù)表現(xiàn)低于P-tuning-all,但有2個(gè)任務(wù)優(yōu)于P-tuning,這一現(xiàn)象表明,盡管可拆卸性PMoE在推理階段存在一定性能損失,但權(quán)重的不確定性分布使其在調(diào)用專家時(shí)仍能體現(xiàn)多任務(wù)知識(shí)共享的優(yōu)勢(shì)。

表5PMoE基于each-router的可拆卸微調(diào)結(jié)果Tab.5Results ofPMoE based on each-router for detachable fine-tunii
此外,可拆卸PMoE的多任務(wù)泛化性能主要依賴于門函數(shù)

的分類能力,在實(shí)際應(yīng)用中,可通過增加額外的線性層和激活函數(shù),以增強(qiáng)其處理輸入數(shù)據(jù)的能力。此外,門函數(shù)可結(jié)合先進(jìn)神經(jīng)網(wǎng)絡(luò)技術(shù)(如Transformer機(jī)制)進(jìn)一步提升性能。也可采用基于BERT的分類模型[24],模型在處理自然語言數(shù)據(jù)方面的高效性已被廣泛驗(yàn)證。將微調(diào)后的BERT模型作為門函數(shù)的一部分,可顯著提升模型理解復(fù)雜語句及文本細(xì)微差異的能力,本次實(shí)驗(yàn)需將微調(diào)參數(shù)量控制在與P-tuning-all相同的范圍以便進(jìn)行性能比較,因此,上述改進(jìn)方案在實(shí)際應(yīng)用場(chǎng)景中仍需進(jìn)一步研究與完善,可以預(yù)見,隨著門函數(shù)性能的提升,可拆卸性PMoE的整體性能將進(jìn)一步優(yōu)化。

3.2.5PMoE框架在不同LLM上的遷移效果對(duì)比

為評(píng)估PMoE高效微調(diào)框架對(duì)P-tuning微調(diào)在不同LLM模型中表現(xiàn)的影響,進(jìn)行了PMoE在不同模型中遷移效果的實(shí)驗(yàn)對(duì)比。結(jié)果表明,PMoE框架繼承了P-tuning微調(diào)的通用性,在4個(gè)開源LLM上,PMoE對(duì)8個(gè)醫(yī)療數(shù)據(jù)集的微調(diào)其性能平均提升 4.47% ,具體實(shí)驗(yàn)結(jié)果如表6所示。

表6PMoE在不同LLM下的遷移性能

(8個(gè)醫(yī)療數(shù)據(jù)集下的平均得分)Tab.6Transferperformance of PMoE across different LLMs(theaverage scores across8 medical datasets)

本次PMoE遷移實(shí)驗(yàn)選取了4個(gè)開源模型,并盡量保證參數(shù)量一致以便于比較。實(shí)驗(yàn)結(jié)果顯示,由于模型基礎(chǔ)性能存在差異,P-tuning實(shí)驗(yàn)的得分有所不同,除Qwen-7B模型外,各模型得分差異較小。引入PMoE微調(diào)框架后,專家參數(shù)量根據(jù)模型總參數(shù)量自適應(yīng)匹配來去除不同模型參數(shù)量下的專家參數(shù)量對(duì)模型性能的影響,由于模型架構(gòu)略有區(qū)別,導(dǎo)致了對(duì)P-tuning微調(diào)的改善程度有所波動(dòng)。實(shí)驗(yàn)結(jié)果表明,PMoE高效微調(diào)框架在多數(shù)模型中表現(xiàn)出穩(wěn)定的通用性。

3.2.6不同數(shù)據(jù)集下的專家參數(shù)分布實(shí)驗(yàn)結(jié)果及分析

圖10展示了4個(gè)數(shù)據(jù)集上8個(gè)專家的權(quán)重分配比例,門函數(shù)對(duì)指定數(shù)據(jù)的所有輸出權(quán)重求和并歸一化,生成每個(gè)專家在當(dāng)前數(shù)據(jù)集上的分配比例。門函數(shù)在訓(xùn)練時(shí)通過引入任務(wù)類型(task-id)作為引導(dǎo),并通過交叉熵?fù)p失函數(shù)對(duì)生成的路由權(quán)重進(jìn)行約束,從而使每個(gè)專家專注于特定的任務(wù)數(shù)據(jù)集。門函數(shù)通過均衡分配專家模塊,專家在多任務(wù)數(shù)據(jù)中表現(xiàn)出各自的傾向性,降低了多任務(wù)微調(diào)中的沖突。此外,每個(gè)專家不僅學(xué)習(xí)了主要數(shù)據(jù)集的知識(shí),還獲得了其他數(shù)據(jù)集的部分知識(shí),這也反映了專家在推理時(shí)的知識(shí)共享能力。

圖104個(gè)數(shù)據(jù)集上的8個(gè)專家分布占比圖Fig.10Distributionchartsof8expertsacross4datasets

3.2.7PMoE微調(diào)框架的應(yīng)用實(shí)例

PMoE微調(diào)框架具備優(yōu)異的多任務(wù)微調(diào)性能,可作為強(qiáng)化大語言模型的理想微調(diào)方法。本文提出的PMoE微調(diào)框架已在江蘇省電信的運(yùn)維項(xiàng)目中成功應(yīng)用,該項(xiàng)目依托大語言模型,將自然語言翻譯為執(zhí)行指令。模型通過調(diào)用數(shù)據(jù)庫并執(zhí)行相關(guān)操作,以完成多個(gè)下游任務(wù)。開源模型ChatGLM3-6b在自然語言翻譯任務(wù)中的專業(yè)詞匯識(shí)別,以及數(shù)據(jù)處理中的專有名詞識(shí)別與存儲(chǔ)方面,難以滿足實(shí)際需求,因此需對(duì)基座模型在多任務(wù)場(chǎng)景下進(jìn)行專業(yè)性微調(diào)。根據(jù)具體任務(wù)類型構(gòu)建了若干數(shù)據(jù)集,采用PMoE微調(diào)框架,對(duì)基座模型ChatGLM3-6b進(jìn)行多任務(wù)場(chǎng)景下的專業(yè)性微調(diào),顯著提升了基座模型在運(yùn)維領(lǐng)域的專業(yè)性能。數(shù)據(jù)集制作方式及微調(diào)參數(shù)與上述實(shí)驗(yàn)一致,微調(diào)后的模型通過LongBench平臺(tái)進(jìn)行評(píng)分,評(píng)分用于衡量模型對(duì)運(yùn)維領(lǐng)域?qū)I(yè)知識(shí)的掌握能力,具體結(jié)果如圖11所示。

圖11ChatGLM3-6b在LongBench平臺(tái)中不同微調(diào)方法得分柱狀圖Fig.11Bar chart of the scores fine-tuning using different fine-tuningmethodsforChatGLM3-6bontheLongBenchplatform

圖中橫軸表示ChatGLM3-6b模型在LongBench平臺(tái)下的兩種指標(biāo),縱軸表示歸一化后的平均得分(見電子版)。圖中顯示,基座模型(藍(lán)色)因缺乏運(yùn)維領(lǐng)域的專業(yè)知識(shí),在微調(diào)前難以完成專業(yè)性較強(qiáng)的下游任務(wù)。這凸顯了微調(diào)在提升大語言模型實(shí)際應(yīng)用能力中的重要性。ChatGLM3-6b在P-tuning(橙色)和PMoE(黃色)得分對(duì)比顯示,PMoE在實(shí)際應(yīng)用中,尤其是多任務(wù)場(chǎng)景下,整體優(yōu)于傳統(tǒng)微調(diào)方法。

4結(jié)束語

本文提出了一種基于參數(shù)高效微調(diào)P-tuning的新型框架PMoE。該框架繼承了P-tuning微調(diào)的高效性,在每層Trans-former前引入可訓(xùn)練的專家模塊,顯著降低了微調(diào)參數(shù)成本。此外,通過結(jié)合MoE的混合專家與門函數(shù)(router)機(jī)制,PMoE在多任務(wù)場(chǎng)景中充分利用專家模塊的知識(shí)共享與任務(wù)適應(yīng)能力,大幅提升了微調(diào)性能。

本文還初步研究了PMoE在不同場(chǎng)景下的可拆卸性與靈活部署。訓(xùn)練階段通過綁定專家模塊與router模塊,使PMoE在推理階段可根據(jù)需求動(dòng)態(tài)加載或卸載相應(yīng)的門函數(shù)與專家模塊,顯著提升模型在多任務(wù)場(chǎng)景下微調(diào)的靈活性。

未來研究可著重于進(jìn)一步優(yōu)化門函數(shù)性能,并重新設(shè)計(jì)門函數(shù)與專家模塊的參數(shù)權(quán)重及其在Transformer層中的部署位置,以提升PMoE在多任務(wù)處理中的適用性與穩(wěn)定性,進(jìn)而推動(dòng)大語言模型在更多領(lǐng)域的廣泛應(yīng)用。

參考文獻(xiàn):

[1]Zhao Zihuai,F(xiàn)anWenqi,Li Jiatong,etal.Recommender systemsin theera oflargelanguagemodels(LLMs)[J].IEEETranson KnowledgeandDataEngineering,2024,36(11):6889-6907.

[2]WangLei,Ma Chen,F(xiàn)eng Xueyang,et al.A survey on largelanguage model based autonomous agents[J].Frontiers of Computer Science,2024,18(6):186345.

[3] HadiMU,Qureshi R,ShahA,etal.A surveyon large language models:applications,challenges,limitations,and practical usage[EB/ OL].(2023-07-10).https://www.techrxiv.org/doi/full/10.36227/ techrxiv.23589741.v1.

[4]GallifantJ,F(xiàn)iskeA,LevitesSYA,etal.PeerreviewofGPT-4 technicalreport and systemscard[J].PLoS Digital Health,2O24,3(1): e0000417.

[5]楊程,車文剛.基于多門混合專家網(wǎng)絡(luò)的情感分析與文本摘要多 任務(wù)模型[J].現(xiàn)代電子技術(shù),2024,47(1):94-99.(Yang Cheng, CheWengang.Multi-task model for sentiment analysis and text summarizationbased on multi-gate mixture of experts network[J].ModernElectronicsTechnology,2024,47(1):94-99.)

[6]HuEJ,ShenYelong,WallisP,etal.Lora:low-rankadaptation of large language models[EB/OL]. (2021). https://arxiv.org/abs/ 2106.09685.

[7]Liu Xiao,Ji Kaixuan,F(xiàn)u Yicheng,et al. P-tuning v2 prompt tuning can be comparable to fine-tuning universally across scales and tasks [EB/OL].(2021-03-20). https://arxiv.org/abs/2110.07602.

[8]Li Xiao,Ji Kaixuan,F(xiàn)u Yicheng,et al. Dice lossfor data-imbalanced NLP tasks[EB/OL].(2020-08-29).htps://arxiv.org/abs/1911. 02855.

[9]Shazeer N,Mirhoseini A,Maziarz K,et al. Outrageously large neural networks:thesparsely-gated mixture-of-experts layer [EB/OL]. (2017-01-23).https://arxiv.org/abs/1701.06538.

[10]Lepikhin D,Lee H,Xu Yuanzong,et al. GShard;scaling giantodels with conditional computation and automatic sharding[EB/OL]. (2020-06-30). https://arxiv.org/abs/2006.16668.

[11]Mustafa B,Riquelme C,Puigcerver J,et al. Multimodal contrastive learning with LIMoE: the language-image mixture of experts[C]// Procof the36th International Conference on Neural Information Processing Systems. Cambridge,MA:MIT Press,2022:9564-9576.

[12] Dou Shihan, Zhou Enyu,Liu Yan,et al. LoRAMoE: revolutionizing mixture of experts for maintaining world knowledge in language model alignment[EB/OL]. (2024-03-08). https://arxiv.org/abs/2312. 09979.

[13] Zhang Renrui,Han Jiaming,Liu C,et al.LLaMA-adapter: fficient fine-tuning oflanguagemodelswithzero-initatention[EB/OL]. (2023-03-28). https://arxiv.org/abs/2303.16199.

[14]Li X L,Liang P. Prefix-tuning:optimizing continuous prompts for generation[EB/OL].(2021-01-01).https://arxiv.org/abs/2101. 00190.

[15]Vaswani A,Shazeer N,ParmarN,etal.Attention isall you need [C]//Proc of the31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017: 6000-6010.

[16]Wang Junke,Yang Xitong,Li Hengduo,et al.Efficient video Transformers with spatial-temporal token selection[C]//Proc of European Conference on Computer Vision. Cham:Springer Nature Switzerland, 2022:69-86.

[17] Zhu Wei, Wang Xiaoling, Zheng Huanran,et al. PromptCBLUE: a Chinese prompt tuning benchmark for the medical domain[EB/OL]. (2023-10-22) . https://arxiv. org/abs/2310.14151.

[18]孫麗萍,童子龍,錢乾,等.基于醫(yī)療臨床數(shù)據(jù)的兩階段專業(yè)級(jí)大 語言模型微調(diào)[J].計(jì)算機(jī)應(yīng)用研究,2024,41(10):2906-2910. (Sun Liping,Tong Zilong,Qian Qian,et al. Two-phases fine-tuning of professional large language model via clinical data[J]. Application Research of Computers,2024,41(10) :2906-2910.)

[19]Wu Chengyan,Lin Zehong,F(xiàn)ang Wenlong,et al. A medical diagnostic assistant based on LLM[C]//China Health Information Processing Conference.Singapore:Springer Nature Singapore,2O23:135-147.

[20]顏見智,何雨鑫,駱子燁,等.生成式大語言模型在醫(yī)療領(lǐng)域的潛 在典型應(yīng)用與面臨的挑戰(zhàn)[J].醫(yī)學(xué)信息學(xué)雜志,2023,44(9): 23-31.(Yan Jianzhi,HeYuxin,Luo Ziye,et al.Generativelarge language models in the medical domain:potential and typical applications and challenges[J].Journal of Medical Informatics,2023,44(9): 23-31.)

[21] Liu Xiao,Zheng Yanan,Du Zhengxiao,etal. GPT understands,too [J]. Al Open,2024,5:208-215.

[22]Zeng Aohan,Liu Xiao,Du Zhengxiao,et al. GLM-13OB:an open bilingual pre-trained model[EB/OL].(2022-10-05). htps://arxiv. org/ abs/2210. 02414.

[23]Bai Yushi,Lyu Xin,Zhang Jiajie,et al.LongBench:abilingual,multitask benchmark for long context understanding[EB/OL].(2023-08- 28).https://arxiv.org/abs/2308.14508.

[24]Devlin J,Chang Mingwei,Lee K,et al. BERT: pre-training of deep bidirectional Transformersfor language understanding[EB/OL]. (2018-10-11).https://arxiv.org/abs/1810.04805.

猜你喜歡
多任務(wù)專家函數(shù)
生活
“導(dǎo)數(shù)法\"在研究含參函數(shù)極值、最值問題上的應(yīng)用
常規(guī)求解二次函數(shù)解析式的不同技巧例析
一種面向情緒壓力分布外檢測(cè)的多任務(wù)跨模態(tài)學(xué)習(xí)方法
函數(shù)新定義 坐標(biāo)來解析
埋頭實(shí)踐
讀者(2025年15期)2025-07-30 00:00:00
注意力分配、任務(wù)結(jié)構(gòu)與應(yīng)急效果差異
治理研究(2025年3期)2025-07-21 00:00:00
淺談兩類無理函數(shù)的最值問題
專家答疑
專家點(diǎn)評(píng)
主站蜘蛛池模板: 久久黄色免费电影| 国产主播一区二区三区| 日韩精品久久无码中文字幕色欲| 国产人妖视频一区在线观看| 伊人久久大香线蕉综合影视| 精品视频一区在线观看| 国产成人精品亚洲77美色| 国产日韩欧美精品区性色| 在线观看亚洲天堂| 亚洲人成在线精品| yjizz视频最新网站在线| 欧美啪啪一区| 日韩成人在线网站| 91小视频在线| 亚洲一区二区三区麻豆| 亚洲人成网址| 国产一区二区精品高清在线观看| 天天躁日日躁狠狠躁中文字幕| 亚洲综合第一页| 国产成人精品综合| 国产日本一区二区三区| 中文字幕在线播放不卡| 久996视频精品免费观看| 国产成人精品免费视频大全五级| 欧美第一页在线| 日韩国产一区二区三区无码| 无码免费的亚洲视频| 国产丰满成熟女性性满足视频| 欧美日韩国产在线播放| 国产欧美日韩视频怡春院| 亚洲天堂精品视频| 波多野结衣第一页| 亚洲va精品中文字幕| 日韩高清成人| 91最新精品视频发布页| 一级黄色网站在线免费看| 国产成人1024精品下载| 欧美精品不卡| 黄色国产在线| 毛片卡一卡二| 国产特级毛片| 国产h视频在线观看视频| 国产一级小视频| 欧美日韩在线观看一区二区三区| 亚洲无限乱码| 亚洲精品无码AⅤ片青青在线观看| 日本一区中文字幕最新在线| 国产精品久久久精品三级| 中文无码精品a∨在线观看| 三区在线视频| 亚洲乱强伦| 国产在线观看一区精品| 激情爆乳一区二区| 久久人午夜亚洲精品无码区| a级毛片免费网站| 国产精品九九视频| 中文字幕有乳无码| 国产在线无码av完整版在线观看| 久久特级毛片| 97在线公开视频| 久久99久久无码毛片一区二区| av免费在线观看美女叉开腿| 国产成人超碰无码| 欧美a网站| 久久这里只精品国产99热8| 亚洲浓毛av| 精品国产91爱| 婷婷综合色| 亚洲AV无码乱码在线观看代蜜桃 | 国产成人一区免费观看| 亚洲一区毛片| 99热最新在线| 国产美女无遮挡免费视频网站 | 97综合久久| 亚洲无限乱码| 国产成+人+综合+亚洲欧美| 激情综合婷婷丁香五月尤物 | 亚洲天堂啪啪| 91青青草视频在线观看的| 99热最新网址| 国产女人18水真多毛片18精品| 亚洲六月丁香六月婷婷蜜芽|