




摘" 要: 針對在硬件資源有限的情況下,難以有效提升低資源分類任務(wù)性能這一難題,提出使用基于新一代大型語言模型Claude3 Haiku的數(shù)據(jù)增強,并設(shè)計了一種更小更快的文本分類模型EQSBERT。首先基于Claude3 Haiku,使用分布式比例增強法和動態(tài)均衡過采樣增強法來增強低資源文本分類任務(wù)數(shù)據(jù)集。通過二次自蒸餾、多目標知識蒸餾、多維剪枝,提出一種更小更快的BERT系列文本分類模型EQSBERT,采用EQSBERT對增強后的數(shù)據(jù)集進行分類。結(jié)果表明:Claude3 Haiku具有較好的性能,且成本效益高于GPT?4;EQSBERT在參數(shù)大幅減少的情況下也能維持其高性能,顯著降低了運行成本。兩者結(jié)合搭配使用,可以有效解決在硬件條件有限的情況下低資源分類任務(wù)方面的問題。該方案為資源受限情況下的自然語言處理任務(wù)提供了新的解決策略,在自動化數(shù)據(jù)標注、社交媒體監(jiān)控以及內(nèi)容審核系統(tǒng)應(yīng)用方面有巨大潛力。
關(guān)鍵詞: 自然語言處理; 低資源文本分類; 大型語言模型Claude3 Haiku; 數(shù)據(jù)增強; GPT?4; 多目標知識蒸餾
中圖分類號: TN919.72?34; TP391.1" " " " " " "文獻標識碼: A" " " " " " " " " " " 文章編號: 1004?373X(2025)08?0056?07
Low?resource text new strategy classification in hardware?limited environments
YIN Zhaoyu, SONG Wenai, LIU Honghao
(School of Software, North University of China, Taiyuan 030051, China)
Abstract: In allusion to the problem that it is difficult to effectively improve the performance of low?resource classification tasks under the condition of limited hardware resources, a data enhancement based on the new?generation large language model Claude3 Haiku is proposed, and a smaller and faster text classification model EQSBERT is designed. Based on Claude3 Haiku, the distributed scale enhancement method and dynamic equalization oversampling enhancement method are used to enhance the low?resource text classification task dataset. A smaller and faster BERT text classification model EQSBERT is proposed by means of secondary self?distillation, multi?objective knowledge distillation and multi?dimensional pruning, and EQSBERT is used to classify the enhanced dataset. The results show that Claude3 Haiku has better performance and higher cost?effectiveness than GPT?4; EQSBERT can maintain its high performance under the condition of greatly reduced parameters, which significantly reduces operating costs. The combined use of both approaches effectively addresses the issue of low?resource classification tasks under limited hardware conditions. This solution can provide a novel strategy for natural language processing tasks in resource?constrained environments, with significant potential applications in automated data annotation, social media monitoring, and content moderation systems.
Keywords: natural language processing; low?resource text classification; large language model Claude3 Haiku; data enhancement; GPT?4; multi?objective knowledge distillation
0" 引" 言
在自然語言處理(NLP)領(lǐng)域,數(shù)據(jù)的質(zhì)量和數(shù)量是影響模型性能的關(guān)鍵因素之一。在實際應(yīng)用中,獲取足夠多的高質(zhì)量標注數(shù)據(jù)仍然面臨巨大挑戰(zhàn),特別是在低資源語言任務(wù)方面。低資源文本數(shù)據(jù)往往因為語言使用者少、數(shù)據(jù)獲取難度大,導(dǎo)致訓練數(shù)據(jù)稀缺。為了解決這一問題,數(shù)據(jù)增強(Data Augmentation)技術(shù)被提出并逐漸應(yīng)用于低資源文本數(shù)據(jù)的處理。
近年來,使用大型語言模型(Large Language Model, LLM)進行數(shù)據(jù)增強已經(jīng)取得了顯著的效果。在低資源文本數(shù)據(jù)增強中,LLM能夠生成高質(zhì)量的偽樣本,并有效地擴展訓練數(shù)據(jù)集的規(guī)模和多樣性,從而提升下游任務(wù)的性能。然而,這些大型語言模型通常擁有數(shù)十億甚至上千億的參數(shù),導(dǎo)致其訓練和推理過程需要大量的硬件資源和計算能力,對科研人員的研究以及技術(shù)發(fā)展有較大限制。在硬件資源受限的條件下,如何利用大型語言模型有效地進行文本數(shù)據(jù)增強已成為一個關(guān)鍵問題。Claude3 Haiku以其快速和經(jīng)濟的特性,為解決上述問題提供了新的思路,本研究利用Claude3 Haiku對低資源分類任務(wù)進行數(shù)據(jù)增強。本文提出了兩種數(shù)據(jù)增強方法:分布式比例增強法和動態(tài)均衡過采樣增強法;還將GPT?4作為對比對象,通過對比實驗詳細分析了兩種模型在不同數(shù)據(jù)增強方法上的性能差異。為了進一步解決硬件條件有限情況下的低資源文本分類任務(wù)問題,提出一種小型化分類模型EQSBERT,該模型是基于自蒸餾、多目標知識蒸餾以及多維剪枝技術(shù)來進行壓縮小型化,在參數(shù)大幅減少的情況下,仍然具有出色的性能。Claude3 Haiku與EQSBERT模型結(jié)合使用,可為低資源文本分類任務(wù)提供一種更加有效和實用的解決方案,有助于推動這一領(lǐng)域的發(fā)展。本研究對于硬件資源有限的情況具有重要意義,它允許研究人員以更少的硬件資源獲取更高質(zhì)量的數(shù)據(jù),并進行有效的下游操作。
1" 相關(guān)工作
在2020年,文獻[1]的研究推動了大型語言模型(LLM)的發(fā)展,這些模型的規(guī)模從小型的70億參數(shù)模型(例如Llama,由文獻[2]在2023年提出),擴大到中等規(guī)模的InstructGPT/ChatGPT(由文獻[3]在2022年提出),再到包含1 750億參數(shù)的GPT?3(由文獻[4]在2020年提出)。ChatGPT的發(fā)展得益于一種關(guān)鍵技術(shù)——融合人類反饋的強化學習(RLHF),該技術(shù)由文獻[3]和文獻[5]提出并進一步發(fā)展。文獻[6]探討了如何使用GPT來擴充現(xiàn)有的數(shù)據(jù)集。文獻[7]的研究重點是使用GPT生成用于訓練機器學習模型的合成數(shù)據(jù)集。文獻[8]中調(diào)查并分析了基礎(chǔ)模型的潛力。文獻[9]研究討論了文本數(shù)據(jù)增強的高級技術(shù)。文獻[10]介紹了一種新的文本數(shù)據(jù)增強方法LAMBADA。文獻[11]提出了一種稱為PREDATOR的文本數(shù)據(jù)增強方法。文獻[12]提出一種剪枝壓縮方法——Optimal Brain Damage。文獻[13]受到人類學習方式的啟發(fā)后,提出“知識蒸餾”的概念。
2" 實驗框架
2.1" 數(shù)據(jù)集
本研究采用低資源的仇恨言論數(shù)據(jù)集和社會維度數(shù)據(jù)集,評估所提出的EQSBERT模型和數(shù)據(jù)增強方法的有效性。
仇恨言論數(shù)據(jù)集:采用了由文獻[14]提出的 DKHATE數(shù)據(jù)集,該數(shù)據(jù)集專注于收集丹麥語中含有冒犯性言論的用戶生成內(nèi)容。丹麥語屬于低資源語言,相較于英語、中文等高資源語言,其高質(zhì)量標注數(shù)據(jù)獲取難度大,數(shù)據(jù)量較少。DKHATE數(shù)據(jù)集包含2 960個訓練樣本和329個測試樣本,由于樣本量較少,本次實驗通過數(shù)據(jù)增強技術(shù)將訓練樣本擴充至10 000個。
社會維度數(shù)據(jù)集:收集了來自網(wǎng)絡(luò)社交媒體的7 855 篇文本[15],這些文本由多個評注者標注了多種復(fù)雜的社會互動維度,形成了一個多標簽和多類別的分類任務(wù)。類似于仇恨言論數(shù)據(jù)集,社會維度數(shù)據(jù)集也通過數(shù)據(jù)增強技術(shù)將訓練文本樣本擴充至10 000個。
對于上述數(shù)據(jù)集,研究過程中隨機抽取20%的數(shù)據(jù)作為測試集。此外,最初抽取500個文本作為基礎(chǔ)數(shù)據(jù)集,并在訓練階段從剩余的未標注數(shù)據(jù)中隨機選擇750個文本用于驗證。為了確保實驗結(jié)果的可重復(fù)性,本文使用了固定隨機種子。
2.2" 數(shù)據(jù)增強
本研究使用OpenAI API和Anthropic API向GPT?4和Claude3 Haiku發(fā)送請求,并使用LangChain的LLM Wrapper來構(gòu)建提示的Python框架。另外,還創(chuàng)建了一種提示方式,利用單個示例及其相應(yīng)的標簽指導(dǎo)LLM合成相同標簽的類似示例。
本文提出了兩種增強方法:分布式比例增強法(簡稱proportional)和動態(tài)均衡過采樣增強法(簡稱balanced)。
1) 分布式比例增強法:根據(jù)基礎(chǔ)數(shù)據(jù)集中各類別的分布比例來生成數(shù)據(jù)。生成這些數(shù)據(jù)時,本文采用了標準的超參數(shù)設(shè)置,唯一不同的是為了保證結(jié)果的可重復(fù)性,將某些超參數(shù)設(shè)定為0。
2) 動態(tài)均衡過采樣增強法:通過調(diào)整增強過程中的類別分布來實現(xiàn)平衡。面對某些類別數(shù)據(jù)不足的情況,本文采取了對少數(shù)類別的過采樣方法,目的是達到一個均衡的標簽分布。接著通過設(shè)置超參數(shù)為1的生成流程,確保了從這些過采樣的類別中生成的模擬數(shù)據(jù)具備明顯的多樣性。
本研究通過將兩種增強方法應(yīng)用于兩種模型,為每項任務(wù)生成了4個增強策略。具體來說,Claude3 Haiku和GPT?4分別采用了分布式比例增強法和動態(tài)均衡過采樣增強法,每種組合產(chǎn)生了一個獨特的策略。
2.3" EQSBERT模型的小型化與優(yōu)化策略
本文提出一種小型化分類模型EQSBERT,該模型是基于自蒸餾、多目標知識蒸餾以及多維剪枝技術(shù)來進行壓縮小型化,最終用于文本分類,實現(xiàn)了模型參數(shù)的高效壓縮和性能提升。
本研究使用MNLI(Multi?Genre Natural Language Inference)數(shù)據(jù)集對模型進行自蒸餾以及多目標知識蒸餾。MNLI數(shù)據(jù)集是GLUE基準中的重要組成部分,憑借多樣性、高質(zhì)量和大規(guī)模的優(yōu)點,為小型模型的知識蒸餾提供了堅實基礎(chǔ),在文本分類模型的小型化知識蒸餾任務(wù)中具有顯著應(yīng)用價值。
2.3.1" 自蒸餾
在自蒸餾階段,通過改變蒸餾概率的方法(即在兩次自蒸餾的過程中提高替換的概率)使得替換的可能性達到1,如公式(1)所示。也就是說,所有的母模塊都會被相應(yīng)的子模塊取代,形成自蒸餾后的壓縮子模型,進一步將深度壓縮至原來的[12]。
式中:k是斜率,控制著蒸餾概率增長的速率;b是截距,用于調(diào)節(jié)蒸餾概率的基準值;t表示訓練步長。
該階段二次自蒸餾過程在MNLI數(shù)據(jù)集中進行,具體的參數(shù)設(shè)定如表1所示。
在兩次自蒸餾階段,分別將原始BERT模型蒸餾至6層、3層。在第一階段選擇了較低的初始替換率R和較低的概率增長率K,因為此時母模型參數(shù)量較大,這樣可以確保子模型在蒸餾過程中的學習曲線更加平穩(wěn)。在第二階段的蒸餾過程中,本文采用了較高的替換率和增長率。
2.3.2" 基于多目標訓練的知識蒸餾
本文借鑒了DistilBERT的蒸餾方式,采用多目標的蒸餾方法,可以更好地從多維度學習教師模型的知識。本文采用傳統(tǒng)的交叉熵損失函數(shù)Lce和掩碼語言模型損失函數(shù)Lmin作為損失函數(shù),公式如下所示:
式中:m(x)表示輸入序列被掩蓋的字詞;[x\m(x)]表示未被掩蓋的字詞;p(·)表示根據(jù)輸入序列中未被掩蓋的字詞推理出真實被掩蓋字詞的概率。
本文還將教師和學生模型隱層的余弦相似度Lcos作為知識蒸餾的目標之一,從而更好地利用教師模型的隱層知識,公式如下:
式中:Weightteacher表示教師模型的隱層參數(shù);Weightstudent表示學生模型的隱層參數(shù)。
本研究使用的多目標知識蒸餾損失函數(shù)如下:
式中,α、β和γ均是人為設(shè)置的超參數(shù),分別代表了Lce、Lmin和Lcos對Loss函數(shù)的貢獻程度。多目標蒸餾階段依然在MNLI數(shù)據(jù)集上進行,為實現(xiàn)加速蒸餾,采用了混合精度訓練的方法,參數(shù)如表2所示。
2.3.3" 多維剪枝
在使用目標數(shù)據(jù)集訓練模型時,根據(jù)各模型參數(shù)對當前任務(wù)的貢獻程度來決定被剪枝的優(yōu)先級大小,公式如下:
式中:top表示原模型參數(shù);Topv表示絕對值大小排名前[v](單位為%)的參數(shù)。
本研究進行剪枝操作的過程中使用了哈工大訊飛實驗室開發(fā)的Text?Pruner工具包,具體來說,將模型最初的3 072層隱層維度降低到2 048層,原先注意力頭的數(shù)量為12個,現(xiàn)減少到8個。
2.3.4" 文本分類模型訓練
本文對比分析EQSBERT、BERT?base、BERT?large和BERT?3四種模型在使用原始數(shù)據(jù)集和經(jīng)過4種增強策略進行文本分類時的表現(xiàn)。設(shè)置batch size為32,進行了10輪的模型訓練,使用AdamW[16]作為優(yōu)化器,學習率為0.000 02。本研究對每個Epoch迭代進行評估,并選擇具有最低驗證損失的檢查點GPU為評估測試集。測試集使用macro F1和準確率進行評估。計算機配置為Intel Xeon Gold 6330,擁有28核心和56線程,基礎(chǔ)頻率為2.0 GHz,最大Turbo頻率為3.1 GHz,GPU為NVIDIA Tesla V100 PCle 32 GB。
2.3.5" 評估標準
為了驗證本文提出模型的性能,重點采用準確率和macro F1作為評價指標。準確率是指正確分類的觀測數(shù)量與所有觀測數(shù)量之間的比率;macro F1是多類別分類任務(wù)中的一種指標,首先計算每個類別的F1分數(shù),然后對這些F1分數(shù)取平均值。F1分數(shù)是召回率與精確度的調(diào)和平均值。
3" 實驗及數(shù)據(jù)分析
本文從以下三個方面對Claude3 Haiku和GPT?4在數(shù)據(jù)集上的數(shù)據(jù)增強效果以及EQSBERT文本分類模型的性能進行了對比分析:
1) 在數(shù)據(jù)增強過程中的消耗時間和GPU使用率;
2) EQSBERT、BERT?base、BERT?large和BERT?3四種模型在使用原始數(shù)據(jù)集和4個策略上進行文本分類時的表現(xiàn);
3) 四種分類模型在使用Claude3 Haiku(balanced)增強方法進行文本分類時的平均推理時間。
3.1" 數(shù)據(jù)增強時間和GPU使用率對比
在此次實驗中,針對仇恨言論數(shù)據(jù)集和社會維度數(shù)據(jù)集,分別使用了Claude3 Haiku和GPT?4兩種大模型,采用動態(tài)均衡過采樣增強法和分布式比例增強法進行數(shù)據(jù)增強,重點記錄各方法在消耗時間和GPU使用率方面的數(shù)據(jù)。仇恨言論數(shù)據(jù)集進行數(shù)據(jù)增強的相關(guān)數(shù)據(jù)如表3所示,社會維度數(shù)據(jù)集進行數(shù)據(jù)增強的相關(guān)數(shù)據(jù)如表4所示。
在消耗時間方面,Claude3 Haiku在兩種增強方法中的運行時間明顯短于GPT?4,這表明Claude3 Haiku在處理數(shù)據(jù)增強任務(wù)時運行速度更快;在GPU使用率方面,Claude3 Haiku系列也表現(xiàn)出色,其GPU使用率遠低于GPT?4,這說明在執(zhí)行相同任務(wù)時,Claude3 Haiku占用的計算資源更少。GPT?4雖然具有強大的數(shù)據(jù)處理能力,但從實驗數(shù)據(jù)中可以得出,其時間和資源消耗都較高,表現(xiàn)不如Claude3 Haiku。
除此之外,Claude3 Haiku的使用成本顯著低于GPT?4,其輸入成本為0.25美元/百萬tokens,輸出成本為1.25美元/百萬tokens,相較之下,GPT?4的輸入成本為10美元/百萬tokens,輸出成本為30美元/百萬tokens。
3.2" 文本分類模型性能及增強技術(shù)效果對比
為了重點對比EQSBERT文本分類模型的性能以及兩種數(shù)據(jù)增強方法的效果,使用EQSBERT、BERT?base、BERT?large和BERT?3四種模型,分別在原始未增強的數(shù)據(jù)集和四種增強策略上進行文本分類實驗,性能評價指標為準確率和F1分數(shù),仇恨言論數(shù)據(jù)集相關(guān)實驗數(shù)據(jù)如表5所示,社會維度數(shù)據(jù)集相關(guān)實驗數(shù)據(jù)如表6所示。
在仇恨言論數(shù)據(jù)集的實驗中,EQSBERT模型在使用Claude3 Haiku(balanced)增強策略時,以0.38×108的參數(shù)量達到了0.893 6的準確率和0.692 8的F1分數(shù),表現(xiàn)最佳;相較之下,BERT?base和BERT?large雖然參數(shù)量更大,分別為1.10×108和3.40×108,但其F1分數(shù)僅為0.611 5和0.598 8。在使用Claude3 Haiku(proportional)增強策略時,EQSBERT的準確率和F1分數(shù)(分別為0.881 4和0.684 2)依然保持領(lǐng)先。這表明EQSBERT在處理仇恨言論數(shù)據(jù)時不僅在效率上具備優(yōu)勢,而且在硬件資源受限的情況下也能提供更高的分類性能;同時也能明顯看出,本文提出的兩種數(shù)據(jù)增強方法可切實提升文本任務(wù)分類的準確率。
在社會維度數(shù)據(jù)集的實驗中,EQSBERT同樣有出色表現(xiàn)。在Claude3 Haiku(balanced)增強策略下,其準確率為0.450 4,F(xiàn)1分數(shù)為0.266 3,依然領(lǐng)先于其他模型;BERT?base和BERT?large表現(xiàn)雖然不錯,準確率分別為0.374 1和0.386 7,F(xiàn)1分數(shù)分別為0.204 8和0.217 2,但顯著低于EQSBERT。在Claude3 Haiku(proportional)增強策略下,EQSBERT的準確率和F1分數(shù)分別為0.424 7和0.250 8,繼續(xù)領(lǐng)先。這說明EQSBERT在社會維度數(shù)據(jù)集的復(fù)雜分類任務(wù)中,無論是均衡數(shù)據(jù)分布還是比例分布增強策略,都能提供更高效的分類性能和較好的魯棒性,進一步驗證了其在低資源數(shù)據(jù)集中的適用性和優(yōu)勢。
從以上數(shù)據(jù)可以看出,四種增強策略均顯著提高了模型的分類性能,尤其是對于EQSBERT模型。這些方法通過不同的增強策略(動態(tài)均衡過采樣和分布式比例增強)有效地提高了模型的準確率和F1分數(shù)。EQSBERT作為一種小型化文本分類模型,通過二次自蒸餾和多目標訓練等方法,在保證模型參數(shù)量較少的情況下,仍然展現(xiàn)出了卓越的性能。在所有增強策略下,EQSBERT均表現(xiàn)出色,甚至超過了BERT?base和BERT?large等大模型。
3.3" 平均推理時間對比
本文將EQSBERT與BERT?3、BERT?base、BERT?large在速度性能方面進行對比,表7為仇恨言論數(shù)據(jù)集在Claude3 Haiku(balanced)增強策略上的推理時間以及標準差數(shù)據(jù),表8為社會維度數(shù)據(jù)集在Claude3 Haiku(balanced)增強策略上的推理時間以及標準差數(shù)據(jù)。
從表7、表8實驗數(shù)據(jù)可以看到:在仇恨言論數(shù)據(jù)集上EQSBERT的平均推理速度比BERT?large快了4.9倍;在社會維度數(shù)據(jù)集上,EQSBERT的平均推理速度比BERT?large快了2.9倍,并且在兩個數(shù)據(jù)集上測試推理時間的標準差較小,模型的推理時間序列較為平穩(wěn)。
4" 分析討論
本研究驗證了利用大型語言模型(LLM)生成稀疏及低密度合成數(shù)據(jù)的潛力。在仇恨言論檢測與社會維度分類任務(wù)中,與原始數(shù)據(jù)相比,合成數(shù)據(jù)能夠更加有效地支持模型訓練。數(shù)據(jù)顯示,Claude3 Haiku在這些多語言任務(wù)中有杰出的性能,彰顯了Claude3系列模型在處理多語言任務(wù)時的優(yōu)勢。作為Claude3系列中最輕量化的模型,Claude3 Haiku在仇恨言論檢測及社會維度分類任務(wù)方面的性能優(yōu)于GPT?4;并且Claude3 Haiku的使用成本顯著低于GPT?4。2024年3月4日,Anthropic公司發(fā)布了最新一代大型語言模型Claude3,報告稱該模型在多模態(tài)和各項語言指標上都能夠優(yōu)于GPT?4。Claude3系列模型按能力和體量分為Claude3 Opus、Claude3 Sonnet和Claude3 Haiku,Claude3 Haiku是Claude3系列中最快速和最經(jīng)濟的模型,盡管在規(guī)模上較小,但通過優(yōu)化其模型架構(gòu)和訓練方法,在多語言處理和NLP任務(wù)上表現(xiàn)出了卓越的性能,特別是在部署成本、資源使用效率及成本效益方面,為開發(fā)者提供了更為有效和經(jīng)濟的選擇。
針對分類模型的性能及效率評估,本研究致力于對EQSBERT與BERT?3、BERT?large及BERT?base進行詳細的比較分析,采用模型參數(shù)量、準確率、F1分數(shù)以及推理時間等關(guān)鍵性能指標來評價。
從模型參數(shù)量來看,EQSBERT僅需0.38×108,而BERT?3、BERT?base和BERT?large分別需要0.457×108、1.10×108和3.40×108。這表明EQSBERT在減少計算資源依賴、提升能源效率并增強模型部署的靈活性方面非常出色。盡管EQSBERT參數(shù)量大幅減少,但其性能并未顯著下降,可以與更大參數(shù)量模型相當,甚至有更優(yōu)的性能。這凸顯了EQSBERT在模型架構(gòu)設(shè)計上的高效性及優(yōu)化策略的成功,證明了輕量化與高性能的兼顧是可行的。在運行時間方面,由于參數(shù)量較少和采用優(yōu)化的模型結(jié)構(gòu),EQSBERT的數(shù)據(jù)處理能力更快。
Claude3 Haiku和EQSBERT都是低資源自然語言處理的有效選擇,可以在不同的場景中展現(xiàn)出獨特優(yōu)勢,如Claude3 Haiku擅長于生成任務(wù),而EQSBERT在文本理解和分類任務(wù)中表現(xiàn)出色。為了在低資源環(huán)境下實現(xiàn)最優(yōu)的自然語言處理效果,將這兩個模型結(jié)合使用,可以發(fā)揮它們各自的特長,并彌補單一模型的不足。兩者搭配使用可以徹底解決基于大型語言模型的數(shù)據(jù)增強技術(shù)對于低資源分類任務(wù)的難題。通過這種協(xié)同工作,Claude3 Haiku和EQSBERT不僅能夠在各自擅長的任務(wù)中表現(xiàn)出色,還能通過相互配合提高整體系統(tǒng)的性能,并提供靈活的解決方案,充分發(fā)揮出兩者在低資源自然語言處理任務(wù)中的優(yōu)勢。
本文研究為計算資源受限的環(huán)境中文本分類任務(wù)提供了一種高效的解決方案,同時有良好的性能表現(xiàn),這對于希望在硬件資源有限的情況下部署先進自然語言處理技術(shù)進行文本分類任務(wù)的研究者和開發(fā)者具有重要意義。
5" 結(jié)" 語
本文初次采用Claude3 Haiku對低資源分類任務(wù)進行數(shù)據(jù)增強,并提出兩種不同情景下的數(shù)據(jù)增強辦法:分布式比例增強法和動態(tài)均衡過采樣增強法。結(jié)合了自蒸餾、多目標知識蒸餾和剪枝技術(shù),提出了EQSBERT分類模型。Claude3 Haiku相比GPT?4展示了更快的運行速度和更低的GPU使用率,體現(xiàn)出較高的效率和資源利用率,而EQSBERT分類模型在低資源文本分類任務(wù)中性能提升顯著。Claude3 Haiku和EQSBERT的結(jié)合使用既解決了低資源數(shù)據(jù)的獲取難題,又具有了強大的文本分類能力,為在硬件資源受限環(huán)境下的自然語言處理任務(wù)提供了高效的解決方案,這一研究具有重要的實際意義。未來的工作將進一步優(yōu)化Claude3 Haiku在特定語言或方言上的表現(xiàn),進一步驗證和提升其在多語言處理中的適用性和性能,發(fā)揮其在自動化數(shù)據(jù)標注、社交媒體監(jiān)控以及內(nèi)容審核系統(tǒng)方面的潛力,為自然語言處理技術(shù)的發(fā)展貢獻一份力量。
注:本文通訊作者為宋文愛。
參考文獻
[1] KAPLAN J, MCCANDLISH S, HENIGHAN T, et al. Scaling laws for neural language models [EB/OL].[2020?01?23].http://arxiv.org/pdf/2001.08361.pdf.
[2] TOUVRON H, LAVRIL T, IZACARD G, et al. Llama: open and efficient foundation language models [EB/OL]. [2023?02?27]. http://arxiv.org/pdf/2302.13971.pdf.
[3] OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback [J]. Advances in neural information processing systems, 2022, 35: 27730?27744.
[4] BROWN T, MANN B, RYDER N, et al. Language models are few?shot learners [J]. Advances in neural information processing systems, 2020, 33: 1877?1901.
[5] ZIEGLER D M, STIENNON N, WU J, et al. Fine?tuning language models from human preferences [EB/OL]. [2020?01?18]. http://arxiv.org/pdf/1909.08593.pdf.
[6] JANSEN B J, JUNG S, SALMINEN J. Employing large language models in survey research [J]. Natural language processing journal, 2023, 4: 100020.
[7] ACHARYA A, SINGH B, ONOE N. Llm based generation of item?description for recommendation system [C]// Proceedings of the 17th ACM Conference on Recommender Systems. [S.l.]: ACM, 2023: 1204?1207.
[8] NARAYAN A, CHAMI I, ORR L, et al. Can foundation models wrangle your data? [EB/OL]. [2022?12?24]. http://arxiv.org/pdf/2205.09911.pdf.
[9] BAYER M, KAUFHOLD M A, BUCHHOLD B, et al. Data augmentation in natural language processing: a novel text generation approach for long and short text classifiers [J]. International journal of machine learning and cybernetics, 2023, 14(1): 135?150.
[10] ANABY?TAVOR A, CARMELI B, GOLDBRAICH E, et al. Do not have enough data? Deep learning to the rescue! [J]. Proceedings of the AAAI conference on artificial intelligence,2020, 34(5): 7383?7390.
[11] QUEIROZ A H, BARBON J S. Pre?trained data augmentation for text classification [C]// Brazilian Conference on Intelligent Systems. Cham: Springer, 2020: 551?565.
[12] BENGIO Y, LAMBLIN P, POPOVICI D, et al. Advances in neural information processing systems 22 [J]. Chinese medical ethics, 2008, 23(1): 80?83.
[13] HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network [EB/OL]. [2015?03?09]. http://arxiv.org/pdf/1503.02531.pdf.
[14] SIGURBERGSSON G I, DERCZYNSKI L. Offensive language and hate speech detection for Danish [EB/OL]. [2023?03?23]. http://arxiv.org/pdf/1908.04531.pdf.
[15] CHOI M, AIELLO L M, VARGA K Z, et al. Ten social dimen?sions of conversations and relationships [C]// Proceedings of The Web Conference 2020. [S.l.]: ACM, 2020: 1514?1525.
[16] LOSHCHILOV I, HUTTER F. Decoupled weight decay regula?rization [EB/OL]. [2019?01?04]. http://arxiv.org/pdf/1711.05101.pdf.
作者簡介:尹照煜(1997—),男,山西汾陽人,碩士研究生,主要研究方向為自然語言處理。
宋文愛(1964—),女,山西臨汾人,博士后,教授,主要研究方向為云計算與大數(shù)據(jù)、自動化技術(shù)。
劉宏昊(2000—),男,回族,山東濟南人,在讀碩士研究生,主要研究方向為目標檢測與識別。
收稿日期:2024?06?26" " " " " "修回日期:2024?08?02
基金項目:山西省研究生實踐創(chuàng)新項目(2023SJ223)