

摘? 要:文章針對多標(biāo)簽文本分類這一熱點(diǎn)問題,采用“預(yù)先訓(xùn)練模型+微調(diào)策略”模式,即研究持續(xù)學(xué)習(xí)語義理解框架ERNIE 2.0和基于知識蒸餾的壓縮模型ERNIE Tiny預(yù)先訓(xùn)練模型,以及傾斜的三角學(xué)習(xí)率STLR微調(diào)策略在用戶評論多標(biāo)簽文本數(shù)據(jù)集中的實(shí)踐。相對經(jīng)典語義表征模型BERT,采用ERNIE 2.0模型的效果可提高1%以上,采用ERNIE Tiny模型的速率可提升3倍左右;相對默認(rèn)微調(diào)策略,采用傾斜的三角學(xué)習(xí)率STLR微調(diào)策略的效果同樣可再提高1%左右。
關(guān)鍵詞:多標(biāo)簽文本分類;預(yù)先訓(xùn)練模型;微調(diào)策略;知識蒸餾
中圖分類號:TP391.4? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2021)17-0087-05
Abstract: Aiming at the hotspot issue of multi label text classification, this paper adopts the mode of “pre training model + fine tuning strategy”, that is, to study the continuous learning semantic understanding framework ERNIE 2.0, the compression model ERNIE Tiny pre training model based on knowledge distillation, and the practice of inclined triangular learning rate STLR fine tuning strategy in user comments multi label text data sets. Compared with the classical semantic representation model BERT, the effect of ERNIE 2.0 model can be improved by more than 1%, and the rate of ERNIE Tiny model can be increased by about 3 times; compared with the default fine tuning strategy, the effect of inclined triangular learning rate STLR fine tuning strategy can also be improved by about 1%.
Keywords: multi label text classification; pre training model; fine tuning strategy; knowledge distillation
0? 引? 言
多標(biāo)簽文本分類是自然語言處理中一個重要而富有挑戰(zhàn)性的任務(wù),與通常一個文本僅歸屬于一個標(biāo)簽的單標(biāo)簽文本分類不同[1-3],多標(biāo)簽文本分類任務(wù)則是將文本同時歸屬于一個或多個標(biāo)簽,并且多個標(biāo)簽之間可能存在更加復(fù)雜的關(guān)系。
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究者提出各種基于深度神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽文本分類模型,特別是將多標(biāo)簽分類任務(wù)當(dāng)作序列生成問題,考慮標(biāo)簽間相關(guān)性的序列到序列Seq2Seq模型與考慮輸入文本關(guān)鍵信息的注意力Attention機(jī)制結(jié)合的各類算法大放異彩,進(jìn)一步提升多標(biāo)簽文本分類模型的性能。與此同時,將上游預(yù)先訓(xùn)練語言模型應(yīng)用于自然語言處理下游特定任務(wù)這個劃時代的思想,讓預(yù)先訓(xùn)練模型PTMs(Pre-trained models)漸漸步入人們的視野。隨著ELMo、GPT、BERT等預(yù)先訓(xùn)練模型在自然語言處理任務(wù)方面取得SOTA結(jié)果,一系列以BERT為基礎(chǔ)的改進(jìn)模型相繼被提出,大大推動自然語言處理領(lǐng)域的進(jìn)步。
本文基于某用戶評論多標(biāo)簽文本分類數(shù)據(jù)集,分別從如何構(gòu)建基于預(yù)先訓(xùn)練模型的多標(biāo)簽中文文本分類模型,如何在效果損失較少的情況下顯著地提升模型速率,如何有效地設(shè)計(jì)微調(diào)策略這三個方面進(jìn)行研究。主要的貢獻(xiàn)有:
(1)改造某細(xì)粒度用戶評論情感分析數(shù)據(jù)集成為用戶評論多標(biāo)簽文本分類數(shù)據(jù)集,并采用二元交叉熵?fù)p失作為多標(biāo)簽分類的損失函數(shù)。
(2)相對于典型的預(yù)先訓(xùn)練模型BERT,本文采用的持續(xù)學(xué)習(xí)語義理解框架ERNIE 2.0的效果可提高1%以上,而基于知識蒸餾的壓縮模型ERNIE Tiny的速率可提升3倍左右。
(3)相對于模型默認(rèn)微調(diào)策略,本文采用的傾斜的三角學(xué)習(xí)率STLR微調(diào)策略效果可再提高1%左右。
1? 相關(guān)工作
1.1? 多標(biāo)簽分類
多標(biāo)簽文本分類的關(guān)鍵是如何合適地表達(dá)標(biāo)簽間復(fù)雜的相關(guān)性。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究者提出各種基于深度神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽文本分類模型。
Zhang等人提出[4]多標(biāo)記學(xué)習(xí)的反向傳播算法BP-MLL(Back Propagation for Multi-Label Learning),通過定義成對排序損失函數(shù)來捕獲多標(biāo)簽學(xué)習(xí)的特征,首次在多標(biāo)簽文本分類問題上展現(xiàn)多層前饋神經(jīng)網(wǎng)絡(luò)明顯優(yōu)勢。Nam等人基于Zhang的工作,以交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù)[5],并采用整流線性單元ReLUs激活函數(shù)、Dropout正則化機(jī)制和AdaGrad優(yōu)化器學(xué)習(xí)率調(diào)整等技巧來提升訓(xùn)練效果。此后,Kurata等人提出[6]利用標(biāo)簽之間的共現(xiàn)關(guān)系來初始化輸出層權(quán)重,采用詞嵌入和卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)結(jié)構(gòu)來捕獲標(biāo)簽相關(guān)性,而Chen等人提出[7]采用卷積神經(jīng)網(wǎng)絡(luò)CNN和遞歸神經(jīng)網(wǎng)絡(luò)RNN(Recursive Neural Network)來從文本中提取全局和局部語義信息。
為了更好地解決多標(biāo)簽文本分類問題,Nam等人利用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)巧妙地使用序列到序列Seq2Seq模型[8],對給定的源文本進(jìn)行編碼,并對表示進(jìn)行解碼,將多標(biāo)簽文本分類問題近似于序列預(yù)測問題。Yang等人采用[9]短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)處理標(biāo)簽序列的依賴關(guān)系來考慮標(biāo)簽之間的相關(guān)性,并利用注意力Attention機(jī)制考慮文本不同部分的貢獻(xiàn),提出一種新的全局嵌入解碼器結(jié)構(gòu)。Lin等人通過[10]多層擴(kuò)展卷積產(chǎn)生更高層次的語義單位表示并結(jié)合注意力機(jī)制來進(jìn)行多標(biāo)簽分類,與傳統(tǒng)的Seq2Seq模型相比,該模型能夠更好地預(yù)測低頻標(biāo)簽,并且受標(biāo)簽序列先驗(yàn)分布的影響較小。Yang等人結(jié)合[11]卷積神經(jīng)網(wǎng)絡(luò)CNN和并行自注意力機(jī)制設(shè)計(jì)分層解碼器來生成標(biāo)簽序列,以從源文本中提取細(xì)粒度的局部鄰域信息和全局交互信息。
1.2? 預(yù)先訓(xùn)練模型
預(yù)先訓(xùn)練一直是學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)參數(shù)的有效策略,早在2006年,Hinton等人就指出通過“預(yù)先訓(xùn)練”可以得到比較接近最優(yōu)模型參數(shù)的初始化權(quán)值,并經(jīng)“全局微調(diào)”達(dá)到模型優(yōu)化重建的目的[12]。
Peters等人2018年采用深度雙向Bi-LSTM來實(shí)現(xiàn)上下文相關(guān),提出一種動態(tài)的、語境化的語言模型ELMo(Embedding from Language Models),將目標(biāo)任務(wù)處理轉(zhuǎn)移到預(yù)先訓(xùn)練產(chǎn)生詞向量的過程中[13]。Radford等人2018年提出基于多層單向Transformer結(jié)構(gòu)的生成式預(yù)先訓(xùn)練方法GPT(Generative Pre-Training),先用無標(biāo)簽的文本去訓(xùn)練生成語言模型,再根據(jù)具體的目標(biāo)任務(wù)對模型進(jìn)行微調(diào)[14]。Devlin等人2018年提出基于多層雙向Transformer結(jié)構(gòu)的語義表征模型BERT(Bidirectional Encoder Representations from Transformers),同時利用下一句子預(yù)測任務(wù)和掩碼語言模型來獲得高級別的語義表征[15]。Zhang等人2019年提出增強(qiáng)的語言表征模型ERNIE(Enhanced Language Representation with Informative Entities),該模型[16]結(jié)合大規(guī)模語料庫和知識圖譜,可同時充分利用詞匯、句法和知識信息。Sun等人進(jìn)而提出持續(xù)學(xué)習(xí)語義理解框架ERNIE 2.0(AContinual Pre-Training Framework for Language Understanding),該框架[17]以遞增方式構(gòu)建預(yù)先訓(xùn)練任務(wù),并通過連續(xù)多任務(wù)學(xué)習(xí)來讓模型學(xué)習(xí)這些已構(gòu)建的任務(wù)。
1.3? 微調(diào)策略
隨著預(yù)先訓(xùn)練模型深度的增加,其所捕獲的語言表征使目標(biāo)任務(wù)更加容易,微調(diào)策略已逐漸成為預(yù)先訓(xùn)練模型適應(yīng)目標(biāo)任務(wù)的主要方法。然而,微調(diào)的過程往往是脆弱的,即使有相同的超參數(shù)值,不同的隨機(jī)種子就可導(dǎo)致實(shí)質(zhì)上不同的結(jié)果。Sun等人的研究表明[18],對相關(guān)領(lǐng)域語料進(jìn)行進(jìn)一步的預(yù)先訓(xùn)練,可以進(jìn)一步提高BERT的能力,并在文本分類數(shù)據(jù)集上取得SOTA的性能。Li等人提出的TransBERT(Transferable BERT)[19],不僅可以從大規(guī)模的未標(biāo)注數(shù)據(jù)中遷移學(xué)習(xí)通用的語言知識,還可以從各種語義相關(guān)的監(jiān)督任務(wù)中遷移學(xué)習(xí)到特定類型的知識。Stickland等人在預(yù)先訓(xùn)練模型BERT添加額外的特定任務(wù)適應(yīng)模塊PALs(Projected Attention Layers)[20],實(shí)現(xiàn)比標(biāo)準(zhǔn)微調(diào)模型少7倍參數(shù),卻在通用語言理解評估基準(zhǔn)GLUE(General Language Understanding Evaluation)表現(xiàn)相當(dāng)?shù)男阅?。Goyal等人2017年提出預(yù)熱方法[21],即在訓(xùn)練初期使用較小的學(xué)習(xí)率開始,并在訓(xùn)練后期逐步增大到較大的學(xué)習(xí)率;Howard等人2018年提出傾斜的三角學(xué)習(xí)率STLR(Slanted Triangular Learning Rates)方法[22],先線性地增加學(xué)習(xí)率,然后根據(jù)訓(xùn)練周期線性地衰減學(xué)習(xí)率。
2? 關(guān)鍵技術(shù)
2.1? 持續(xù)學(xué)習(xí)語義理解框架
持續(xù)學(xué)習(xí)語義理解框架ERNIE 2.0通過不斷地引入各種各樣的預(yù)先訓(xùn)練任務(wù),以幫助模型有效地學(xué)習(xí)詞匯,句法和語義表示[17]。其訓(xùn)練過程包含:
(1)基于大數(shù)據(jù)和先驗(yàn)知識的無監(jiān)督預(yù)先訓(xùn)練任務(wù)構(gòu)建。
(2)持續(xù)的多任務(wù)學(xué)習(xí)更新。
2.1.1? 預(yù)先訓(xùn)練任務(wù)構(gòu)建
先前的預(yù)先訓(xùn)練模型通常基于單詞和句子的共現(xiàn)來訓(xùn)練模型。實(shí)際上,除單詞和句子的共現(xiàn)外,還有其他詞匯,句法和語義信息值得在訓(xùn)練時進(jìn)行檢查。比如,個人名稱、位置名稱和組織名稱之類的命名實(shí)體可能包含概念性信息;句子順序和句子接近度之類的信息可能包含結(jié)構(gòu)感知表示;文檔級別的語義相似性或句子之間的語篇關(guān)系可能包含語義感知表示。因此,ERNIE 2.0構(gòu)造單詞感知任務(wù)、結(jié)構(gòu)感知任務(wù)和語義感知任務(wù)等不同種類任務(wù)。其中,單詞感知任務(wù)能夠使模型捕獲詞匯信息,結(jié)構(gòu)感知任務(wù)能夠使模型捕獲語料庫的句法信息,而語義感知任務(wù)能夠使模型學(xué)習(xí)語義信息。
2.1.2? 持續(xù)的多任務(wù)學(xué)習(xí)
受人類能夠不斷積累通過學(xué)習(xí)或經(jīng)驗(yàn)獲得的信息,從而有效地開發(fā)新技能這一學(xué)習(xí)特點(diǎn)的啟發(fā),ERNIE 2.0引入持續(xù)學(xué)習(xí)的理念,即通過增量的方式進(jìn)行多任務(wù)學(xué)習(xí),不是只使用新增的任務(wù)來訓(xùn)練,而是通過多任務(wù)學(xué)習(xí)同時學(xué)習(xí)之前的和新增的任務(wù)。
為有效地管理和訓(xùn)練這些任務(wù),ERNIE 2.0構(gòu)建Task Embedding模型提供任務(wù)嵌入以表示不同任務(wù)的特征。每個任務(wù)ID都分配給一個唯一的任務(wù)嵌入,并以相應(yīng)的令牌Token、位置Position、句子Sentence和任務(wù)Task嵌入作為模型的輸入。對于給定的序列,特殊分類嵌入[CLS]標(biāo)記序列的首位,分隔符[SEP]標(biāo)記多個輸入任務(wù)的間隔;同時,ERNIE 2.0使用多層Transformer作為基本編碼器,通過Self-Attention機(jī)制來捕獲序列中每個令牌的上下文信息,并自動將每個任務(wù)分配給不同的訓(xùn)練階段。這樣,模型就可以即保證方法的效率,又不會忘記先前訓(xùn)練有素的知識。
2.1.3? 壓縮模型
ERNIE Tiny通過如圖1所示的方法進(jìn)行模型結(jié)構(gòu)壓縮和模型蒸餾。ERNIE Tiny模型采用3層Transformer結(jié)構(gòu)實(shí)現(xiàn)線性提速,并采用加寬Hidden層來實(shí)現(xiàn)效果提升。ERNIE Tiny模型采用中文Subword粒度輸入來縮短輸入文本的序列長度,進(jìn)一步降低計(jì)算復(fù)雜度。ERNIE Tiny利用模型蒸餾的方式,扮演學(xué)生角色在Transformer層和Prediction層學(xué)習(xí)教師模型ERNIE 2.0模型對應(yīng)層的分布和輸出。
2.2? 多標(biāo)簽分類損失函數(shù)
本文使用二元交叉熵?fù)p失(Binary Cross Entropy Loss)作為多標(biāo)簽分類的損失函數(shù)[5],其定義為:
其中,N為樣本的數(shù)量,K為標(biāo)簽的數(shù)量,yij∈{0,1}和∈[0,1]分別表示第i個樣本的第j個標(biāo)簽的真實(shí)標(biāo)簽值和概率預(yù)測值。
2.3? 傾斜的三角學(xué)習(xí)率
本文使用傾斜的三角學(xué)習(xí)率STLR(Slanted Triangular Learning Rates)方法[22],即先線性地增加學(xué)習(xí)率,再根據(jù)訓(xùn)練周期線性地衰減學(xué)習(xí)率。具體表達(dá)為:
其中,T是總的訓(xùn)練迭代次數(shù),cut_frac是學(xué)習(xí)率上升在整個訓(xùn)練迭代次數(shù)的比例,cut是學(xué)習(xí)率轉(zhuǎn)折時的迭代次數(shù),p是學(xué)習(xí)率遞增或?qū)⑦f減的放縮比例,ratio是最小學(xué)習(xí)率與最大學(xué)習(xí)率ηmax的比值,ηt是第t次迭代的學(xué)習(xí)速率。
經(jīng)驗(yàn)發(fā)現(xiàn),當(dāng)cut_frac等于0.1,且ratio等于32時,具有短期增長和長衰減期特性,結(jié)果較好。
3? 實(shí)驗(yàn)與分析
3.1? 實(shí)驗(yàn)數(shù)據(jù)
本文改造AI Challenger 2018細(xì)粒度用戶評論情感分析數(shù)據(jù)集,將其正向、中性、負(fù)向、未提及四種情感傾向狀態(tài)合并成用戶評論的“提及(1)”和“未提及(0)”兩種類別,形成包含6大類共20個標(biāo)簽的用戶評論多標(biāo)簽中文數(shù)據(jù)集,訓(xùn)練集105 000個樣本,測試集15 000個樣本,以測試集為例介紹數(shù)據(jù)集的基本情況如表1所示。
該用戶評論多標(biāo)簽數(shù)據(jù)的訓(xùn)練集和測試集的文本平均字?jǐn)?shù)分別為348.74和347.12,文本平均標(biāo)簽數(shù)分別為5.42和5.39。
3.2? 評價指標(biāo)
本文實(shí)驗(yàn)使用AUC(Area Under ROCCurve),即ROC(Receiver Operating Characteristic)曲線下的面積作為評價指標(biāo)。根據(jù)分類模型產(chǎn)生的概率預(yù)測結(jié)果將樣本排序[23],并按某一截斷點(diǎn)(Cut Point)將該排序的樣本分為兩部分{x1,x2,…xm+1,xm+n},前一部分m樣本判作正例,后一部分n樣本判作反例。AUC的定義為:
其中,f為分類函數(shù);I為示性函數(shù),即當(dāng)括號內(nèi)的表達(dá)式成立時值為1,否則為0。AUC的取值范圍在[0.5,1]之間,其值越大表明分類模型的性能越好。
3.3? 實(shí)驗(yàn)結(jié)果及分析
本文實(shí)驗(yàn)使用3.1節(jié)介紹的用戶評論多標(biāo)簽分類數(shù)據(jù)集,并以3.2節(jié)介紹的AUC作為分類結(jié)果的評價標(biāo)準(zhǔn)。實(shí)驗(yàn)環(huán)境單卡32 GB的Tesla V100顯卡。
實(shí)驗(yàn)選擇2.1節(jié)介紹的ERNIE 2.0、ERNIE Tiny和BERT模型作為預(yù)先訓(xùn)練模型,采用2.3節(jié)介紹的STLR微調(diào)策略和參數(shù)及默認(rèn)策略(即采用自適應(yīng)矩估計(jì)Adam優(yōu)化器,批次大小等于16,全局學(xué)習(xí)率等于1e-4,微調(diào)迭代周期等于3作為微調(diào)策略,最大序列長度均等于512。實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果表明,相對典型的預(yù)先訓(xùn)練模型BERT,本文采用的持續(xù)學(xué)習(xí)語義理解框架ERNIE 2.0的效果可提高1%以上,而基于知識蒸餾的壓縮模型ERNIE Tiny的效果與之相近,但速率可提升3倍左右,這是由于ERNIE 2.0不斷地引入各種各樣的預(yù)先訓(xùn)練任務(wù),可以有效地學(xué)習(xí)詞匯、句法和語義表示;采用傾斜的三角學(xué)習(xí)率STLR的“預(yù)熱”策略,同樣可再提高模型的效果1%左右,這是由于該策略有助于減緩模型在初始階段的提前過擬合現(xiàn)象和保持模型深層的穩(wěn)定性。
同時,分析實(shí)驗(yàn)結(jié)果也發(fā)現(xiàn),上述三種預(yù)先訓(xùn)練模型在此用戶評論多標(biāo)簽中文數(shù)據(jù)集的絕大多數(shù)類別的AUC值可達(dá)90%以上的優(yōu)秀表現(xiàn),而在如“菜品—口感”和“其他—本次消費(fèi)感受”等嚴(yán)重不平衡類別的表現(xiàn)不佳。
4? 結(jié)? 論
在本文的研究中,作者證實(shí)“預(yù)先訓(xùn)練模型+微調(diào)策略”模式在多標(biāo)簽文本分類問題研究的優(yōu)異性能,展現(xiàn)ERNIE 2.0和ERNIE Tiny預(yù)先訓(xùn)練模型和STLR微調(diào)策略在用戶評論多標(biāo)簽文本數(shù)據(jù)集上的突出表現(xiàn)。同時,作者也發(fā)現(xiàn)多標(biāo)簽分類損失函數(shù)的定義、預(yù)先訓(xùn)練模型的蒸餾壓縮、微調(diào)策略的設(shè)計(jì)和超參數(shù)的設(shè)定,以及類別不平衡導(dǎo)致效果不佳的問題,都將是作者后續(xù)此類研究的突破點(diǎn)。
參考文獻(xiàn):
[1] 肖琳,陳博理,黃鑫,等.基于標(biāo)簽語義注意力的多標(biāo)簽文本分類 [J].軟件學(xué)報,2020,31(4):1079-1089.
[2] 謝志煒,馮鴻懷,許銳埼,等.電力基建施工問題文本分類研究 [J].現(xiàn)代信息科技,2019,3(17):17-19.
[3] 孫明敏.基于GRU-Attention的中文文本分類 [J].現(xiàn)代信息科技,2019,3(3):10-12.
[4] ZHANG M L, ZHOU Z H. Multi-label Neural Networks with Applications to Functional Genomics and Text Categorization [J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1338-1351.
[5] NAM J,KIM J,MENC?A E L,et al. Large-Scale Multi-label Text Classification — Revisiting Neural Networks [C]//ECML PKDD 2014:Machine Learning and Knowledge Discovery in Databases:Nancy:Springer,2014(8725):437-452.
[6] KURATA G,XIANG B,ZHOU B. Improved Neural Network-based Multi-label Classification with Better Initialization Leveraging Label Co-occurrence [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.San Diego:Association for Computational Linguistics,2016:521-526.
[7] CHEN G B,YE D H,XING Z C,et al.Ensemble application of convolutional and recurrent neural networks for multi-label text categorization [C]//2017 International Joint Conference on Neural Networks(IJCNN).Anchorage:IEEE,2017:2377-2383.
[8] NAM J,MENC?A E L,KIM H J,et al. Maximizing subset accuracy with recurrent neural networks in multi-label classification [C]//NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Inc.2017:5419-5429.
[9] YANG P C,SUN X,LI W,et al.SGM:Sequence Generation Model for Multi-label Classification [J/OL]. arXiv:1806.04822 [cs.CL].(2018-06-13).https://arxiv.org/abs/1806.04822.
[10] LIN J Y,SU Q,YANG P C,et al.Semantic-Unit-Based Dilated Convolution for Multi-Label Text Classification [J/OL]. arXiv:1808.08561 [cs.CL].(2018-8-26).https://arxiv.org/abs/1808.08561.
[11] YANG Z,LIU G J. Hierarchical Sequence-to-Sequence Model for Multi-Label Text Classification [J].IEEE Access,2019(7):153012-153020.
[12] HINTON G E,SALAKHUTDINOV RR. Reducing the Dimensionality of Data With Neural Networks [J].Science,2006,313(5786):504-507.
[13] PETERS M E,NEUMANN M,IYYER M,et al. Deep contextualized word representations [J/OL].arXiv:1802.05365 [cs.CL].(2018-02-15).https://arxiv.org/abs/1802.05365.
[14] RADFORD A,NARASIMHAN K,SALIMANS T,et al.Improving Language Understanding by Generative Pre-Training [EB/OL].[2021-05-20].https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf.
[15] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv:1810.04805 [cs.CL].(2018-10-11).https://arxiv.org/abs/1810.04805.
[16] ZHANG Z Y,HAN X,LIU Z Y,et al. ERNIE: Enhanced language representation with informative entities [J/OL].arXiv:1905.07129 [cs.CL].(2019-05-17).https://arxiv.org/abs/1905.07129v1.
[17] SUN Y,WANG S H,LI Y K,et al.ERNIE 2.0:A Continual Pre-training Framework for Language Understanding [J/OL].rXiv:1907.12412 [cs.CL].(2019-07-29).https://arxiv.org/abs/1907.12412v2.
[18] SUN S Q,CHENG Y,GAN Z,et al.Patient Knowledge Distillation for BERT Model Compression [J/OL].arXiv:1908.09355 [cs.CL].(2019-08-25).https://arxiv.org/abs/1908.09355v1.
[19] LI Z Y,DING X,LIU T. Story ending prediction by transferable bert [J/OL].arXiv:1905.07504 [cs.CL].(2019-05-17).https://arxiv.org/abs/1905.07504v2.
[20] LIU X D,HE P C,CHEN W Z,et al.Multi-Task Deep Neural Networks for Natural Language Understanding [J/OL].arXiv:1901.11504 [cs.CL].(2019-01-31).https://arxiv.org/abs/1901.11504v1.
[21] GOYAL P,DOLL?R P,GIRSHICK R,et al.Accurate, Large Minibatch SGD:Training ImageNet in 1 Hour [J/OL].arXiv:1706.02677 [cs.CV].(2017-06-08).https://arxiv.org/abs/1706.02677.
[22] HOWARD J,RUDER S.Universal Language Model Fine-tuning for Text Classification [J/OL].arXiv:1801.06146 [cs.CL].(2018-01-18).https://arxiv.org/abs/1801.06146v5.
[23] 周志華.機(jī)器學(xué)習(xí) [M].北京:清華大學(xué)出版社,2016:33-35.
作者簡介:孟曉龍(1988—),男,漢族,上海人,講師,碩士學(xué)歷,主要研究方向:數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。