999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

提示學(xué)習(xí)驅(qū)動的新聞輿情風(fēng)險識別方法研究

2024-01-18 16:52:34曾慧玲呂思洋
計算機工程與應(yīng)用 2024年1期
關(guān)鍵詞:分類文本模型

曾慧玲,李 琳,呂思洋,何 錚

1.武漢理工大學(xué) 計算機與人工智能學(xué)院,武漢 430070

2.武漢理工大學(xué) 經(jīng)濟學(xué)院,武漢 430070

3.德勤咨詢(上海)有限公司,上海 510623

近年來,資本市場違約事件頻發(fā),企業(yè)風(fēng)險呈多樣化,債務(wù)逾期、安全事故、信息披露違規(guī)等負(fù)面事件屢屢出現(xiàn)。而在大數(shù)據(jù)和人工智能技術(shù)加持下,各種新興的金融風(fēng)險控制手段也正在高速發(fā)展,其中通過采集互聯(lián)網(wǎng)上的企業(yè)輿情信息來挖掘潛在風(fēng)險是一種較為有效的方式。但這些風(fēng)險信息散落在互聯(lián)網(wǎng)上的海量資訊中[1],若能從中及時識別出企業(yè)所涉及的風(fēng)險,并挖掘出潛在的風(fēng)險特征,將使得銀行、證券等金融機構(gòu)在風(fēng)險監(jiān)控領(lǐng)域中更及時、全面和直觀地掌握客戶風(fēng)險情況,大幅度提升識別和揭示風(fēng)險的能力。而風(fēng)險以文本的形式存在,需要采用人工智能方法進(jìn)行自然語言理解,實現(xiàn)風(fēng)險標(biāo)簽的高精度智能識別。

對新聞輿情的風(fēng)險識別可以看作是一個風(fēng)險標(biāo)簽的多分類問題。現(xiàn)在主要是通過深度學(xué)習(xí)方法學(xué)習(xí)詞的分布式向量表示來實現(xiàn)文本分類。2018 年預(yù)訓(xùn)練微調(diào)方法的研究和實踐應(yīng)用在自然語言處理領(lǐng)域掀起一股熱潮,目前主流的文本分類方法是預(yù)訓(xùn)練+微調(diào)模式。張宇豪[2]研究了BERT 預(yù)訓(xùn)練模型,通過微調(diào)實現(xiàn)新聞文本分類;李心雨[3]在細(xì)粒度的新聞文本分類方面提出基于BERT 預(yù)訓(xùn)練語言模型構(gòu)建層次化的長文本建??蚣懿⑦M(jìn)行目標(biāo)任務(wù)的微調(diào)實驗;楊杰等人[4]提出使用預(yù)訓(xùn)練好的BERT 模型進(jìn)行微調(diào)來進(jìn)行文本評論情感分析。微調(diào)實際上是利用大型預(yù)訓(xùn)練過的語言模型來執(zhí)行下游任務(wù)的一種方法,針對具體的任務(wù),將預(yù)訓(xùn)練模型應(yīng)用在特定任務(wù)數(shù)據(jù)集上,使得參數(shù)適應(yīng)數(shù)據(jù)集并執(zhí)行特定的有監(jiān)督的訓(xùn)練[5]。

隨著預(yù)訓(xùn)練語言模型體量的不斷增大,微調(diào)訓(xùn)練模式對硬件要求和數(shù)據(jù)量的需求在不斷上漲,此外豐富多樣的下游任務(wù)使得預(yù)訓(xùn)練和微調(diào)階段的設(shè)計變得繁瑣復(fù)雜,在大多數(shù)下游任務(wù)微調(diào)時,下游任務(wù)的目標(biāo)與預(yù)訓(xùn)練的目標(biāo)差距過大導(dǎo)致提升效果不明顯。因此有研究者提出以GPT-3[6]、PET[7]為首的一種基于預(yù)訓(xùn)練語言模型的新范式——提示學(xué)習(xí)(prompt learning)[8],旨在通過添加模板的方法來避免引入額外參數(shù),讓語言模型可以在小樣本場景下達(dá)到理想效果。目前提示學(xué)習(xí)已經(jīng)運用到了分類、信息抽取、問答、文本生成、多模態(tài)學(xué)習(xí)等多個NLP領(lǐng)域[8]。

總的來說,預(yù)訓(xùn)練+微調(diào)的方法是讓預(yù)訓(xùn)練語言模型“遷就”各種下游任務(wù),具體體現(xiàn)就是通過引入各種任務(wù)的損失函數(shù),將其添加到預(yù)訓(xùn)練模型中然后繼續(xù)預(yù)訓(xùn)練,使模型更加適配下游任務(wù),在這個過程中,預(yù)訓(xùn)練語言模型做出了一定性能上的損耗。提示學(xué)習(xí)是讓各種下游任務(wù)“遷就”預(yù)訓(xùn)練語言模型,需要對下游任務(wù)進(jìn)行重構(gòu),使得它達(dá)到適配預(yù)訓(xùn)練語言模型的效果,此時是下游任務(wù)做出了更多的改變。例如在文本情感分類任務(wù)中,輸入“我喜歡這部電影”,希望輸出的是“正面/負(fù)面”中的一個標(biāo)簽,可以設(shè)置一個提示模板形如“這部電影是___”,然后讓模型用表示情感狀態(tài)的標(biāo)簽,將空白部分補全預(yù)測進(jìn)行輸出。所以給定合適的提示模板,可以以無監(jiān)督的方式訓(xùn)練單個的語言模型,完成下游的訓(xùn)練任務(wù)。

已有研究將提示學(xué)習(xí)用于軟件需求的精確分類[9],受現(xiàn)有研究工作的啟發(fā),將提示學(xué)習(xí)用于風(fēng)險識別是一種新的嘗試和途徑,所以本文提出了基于提示學(xué)習(xí)的新聞輿情風(fēng)險識別方法,在BERT的遮蔽語言模型(masked language model,MLM)基礎(chǔ)之上運用提示學(xué)習(xí)的思想設(shè)計新聞輿情涉及風(fēng)險的提示模板,并在不同規(guī)模的新聞輿情數(shù)據(jù)集上進(jìn)行了實驗,實驗設(shè)計了訓(xùn)練集為500、1 000、1 500、2 000、所有數(shù)據(jù)樣本實驗,結(jié)果表明:在不同大小的新聞輿情數(shù)據(jù)集上,基于BERT的提示學(xué)習(xí)方法的Acc和Mairo-F1均高于微調(diào)的效果,尤其在小樣本數(shù)據(jù)集上提升較為明顯,數(shù)據(jù)集越小提升越明顯。

1 相關(guān)工作研究

1.1 新聞文本分類

新聞文本分類是當(dāng)前NLP 文本分類的重要研究方向之一,互聯(lián)網(wǎng)發(fā)展至今,每天都有各種各樣的新聞產(chǎn)生,海量非結(jié)構(gòu)化數(shù)據(jù)沖擊著人們的眼球,人們需要尋找一種有效的途徑從大量新聞中獲取關(guān)鍵信息,因此對新聞主題或者內(nèi)容進(jìn)行分類具有重要的研究意義。新聞文本分類的一般步驟是對新聞文本進(jìn)行特征處理、模型訓(xùn)練、輸出分類,所以新聞文本分類的兩大基礎(chǔ)結(jié)構(gòu)是特征表示和分類模型。分類模型又分為傳統(tǒng)機器學(xué)習(xí)模型和深度學(xué)習(xí)模型,深度學(xué)習(xí)模型結(jié)構(gòu)相對復(fù)雜,可以不依賴于人工獲取新聞文本特征,直接對新聞文本內(nèi)容進(jìn)行特征學(xué)習(xí)和預(yù)測建模,基于Transformer 的預(yù)訓(xùn)練語言模型就屬于其中的一種。預(yù)訓(xùn)練語言模型可以動態(tài)表示詞向量,能夠解決自然語言中經(jīng)常出現(xiàn)的一詞多義問題,從而有效學(xué)習(xí)全局語義表征并顯著提升新聞文本分類效果。目前主流的預(yù)訓(xùn)練模型包含ELMo、GPT、BERT等,BERT模型性能強大,許多優(yōu)秀的新聞文本分類模型都是在BERT模型基礎(chǔ)上進(jìn)行改進(jìn)的,并取得了不錯的效果。范昊等人[10]提出了一種融合BERT、TEXTCNN、BILSTM的新聞標(biāo)題文本分類模型,將使用BERT生成的新聞標(biāo)題文本向量輸入到TEXTCNN提取特征,將TEXTCNN的結(jié)果輸入到BILSTM捕獲新聞標(biāo)題上下文信息,利用softmax 判斷分類結(jié)果,其在準(zhǔn)確率、精確率、召回率和F1 值均達(dá)到了0.92 以上,而且具有良好的泛化能力,優(yōu)于傳統(tǒng)的文本分類模型。張海豐等人[11]提出了結(jié)合BERT和特征投影網(wǎng)絡(luò)的新聞主題文本分類方法,在今日頭條、搜狐新聞、THUCNews-L、THUCNews-S 數(shù)據(jù)集上相較于基線BERT 方法在準(zhǔn)確率、宏平均F1值上均具有更好的表現(xiàn)。楊文浩等人[12]在BERT預(yù)訓(xùn)練語言模型的基礎(chǔ)上提出一種融合多層等長卷積和殘差連接的新聞標(biāo)簽分類模型,將新聞文本中的每個字轉(zhuǎn)換為向量輸入到BERT 模型中以獲取文本的全文上下文關(guān)系,通過初始語義提取層和深層等長卷積來獲取文本中的局部上下文關(guān)系,最后通過單層全連接神經(jīng)網(wǎng)絡(luò)獲得整個新聞文本的預(yù)測標(biāo)簽。與卷積神經(jīng)網(wǎng)絡(luò)分類模型(Text CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)分類模型(TextRNN)等模型進(jìn)行對比,模型的預(yù)測準(zhǔn)確率達(dá)到94.68%,F(xiàn)1值達(dá)到94.67%,優(yōu)于對比模型。

1.2 NLP領(lǐng)域的提示學(xué)習(xí)

2020年,引領(lǐng)NLP社區(qū)的GPT-3在眾多自然語言理解任務(wù)中展現(xiàn)了驚人能力,GPT-3僅僅通過一個自然語言提示和少量的任務(wù)示例就可以做出正確的預(yù)測。隨著GPT-3 的誕生打破了傳統(tǒng)的預(yù)訓(xùn)練+微調(diào)模式,越來越多的學(xué)者開始研究提示學(xué)習(xí),現(xiàn)在提示學(xué)習(xí)已成為NLP研究的第四范式[8],是NLP領(lǐng)域的一大熱點。提示學(xué)習(xí)不需要對預(yù)訓(xùn)練模型改動太多,而是利用合適的提示模板重新定義下游任務(wù)。提示學(xué)習(xí)已經(jīng)在很多NLP任務(wù)上達(dá)到了較好的效果,比如自然語言推理、情感分類和知識檢索等。Schick等人[7]介紹了一種基于模版和詞遮蓋將文本分類任務(wù)轉(zhuǎn)換為完形填空任務(wù)的半監(jiān)督訓(xùn)練方法,這種訓(xùn)練模式被稱為pattern-exploiting training(PET),僅使用RoBERTa-base 模型就在多個半監(jiān)督場景下取得了當(dāng)時最先進(jìn)的結(jié)果。在上述半監(jiān)督場景工作的基礎(chǔ)上,通過將ALBERT 和GPT-3 在SuperGLUE基準(zhǔn)數(shù)據(jù)集上進(jìn)行對比,進(jìn)一步挖掘了PET訓(xùn)練在小樣本場景下的潛力。同時作者也指出通過適當(dāng)?shù)臉?gòu)造,用BERT 的MLM 模型也可以做小樣本學(xué)習(xí)[13]。陳丹琦等人[14]借鑒GPT-3 思想,將提示思想運用在語言模型上,通過少量樣本進(jìn)行微調(diào),在SST-2等16個任務(wù)上表現(xiàn)突出,比普通的標(biāo)準(zhǔn)微調(diào)方法最高提升30%,平均提升11%。清華大學(xué)將提示學(xué)習(xí)用于細(xì)粒度實體分類,提出一種基于掩碼語言模型的提示學(xué)習(xí)管道方法,并在三個公開數(shù)據(jù)集的大量實驗中發(fā)現(xiàn)全監(jiān)督、小樣本和零樣本取得的效果遠(yuǎn)高于基于微調(diào)的方法[15]。目前已有研究將提示學(xué)習(xí)與BERT 模型結(jié)合用于軟件需求的精確分類,并在PROMISE 數(shù)據(jù)集上的F1 分?jǐn)?shù)遠(yuǎn)勝過SVM 分類算法和NoRBERT,而且提示學(xué)習(xí)針對少樣本類的提升效果遠(yuǎn)大于多樣本類的提升效果[9]。由此可見提示學(xué)習(xí)在小樣本學(xué)習(xí)上借助中等大小的語言模型(如BERT)能實現(xiàn)較好的效果。因此本文提出將提示學(xué)習(xí)的思想用于新聞輿情的風(fēng)險識別方面,并探究其跟普通微調(diào)方法效果的對比,以及在小樣本數(shù)據(jù)集上的表現(xiàn)。

2 基于提示學(xué)習(xí)的新聞輿情風(fēng)險識別

基于提示學(xué)習(xí)的新聞輿情風(fēng)險識別方法將提示思想用于BERT模型上,將風(fēng)險識別轉(zhuǎn)化為MLM任務(wù),通過[MASK]位置的輸出來判斷類別。提示學(xué)習(xí)包括提示工程的構(gòu)造、預(yù)訓(xùn)練模型的選擇、答案工程的構(gòu)造三部分。本文中選用的預(yù)訓(xùn)練模型是BERT,構(gòu)建好的提示工程作為BERT 模型的輸入,設(shè)計好的答案工程將BERT模型的輸出映射到具體風(fēng)險標(biāo)簽。新聞輿情風(fēng)險識別的總體框架如圖1所示,包括新聞文本的提示工程層、新聞文本的模型訓(xùn)練層、新聞文本的答案工程層,下面將對每一層進(jìn)行詳細(xì)介紹。

圖1 風(fēng)險識別框架圖Fig.1 Overview diagram of risk identification

2.1 新聞文本的提示工程層

由于本文運用了提示學(xué)習(xí)的思想,所以首先需要構(gòu)造一個提示工程。提示模板可以有多種方式設(shè)定,手寫模板、自動離散模板、自動連續(xù)模板等,本文采用手寫模板的形式進(jìn)行設(shè)計,本實驗中的提示模板設(shè)計為:“新聞涉及[MASK][MASK][MASK][MASK]風(fēng)險。+新聞分類文本”。這種方式相當(dāng)于在新聞分類文本前添加提示語,進(jìn)一步明確了分類任務(wù),使模型可利用更多的信息,充分發(fā)揮預(yù)訓(xùn)練模型的潛能。在本文中風(fēng)險標(biāo)簽長度不一樣,但是MASK 風(fēng)險標(biāo)簽時有相對的位置固定,而且MLM 模型無法預(yù)測不定長的答案,所以為了模型方便處理需將風(fēng)險標(biāo)簽處理成相同長度的字符??紤]到MLM所使用的獨立假設(shè)限制了它對長文本的預(yù)測能力(空位處的文字不能太長),所以本文將風(fēng)險標(biāo)簽歸納成四個字。

將“新聞涉及實控變更風(fēng)險。+新聞分類文本”(以“實控變更”風(fēng)險標(biāo)簽為例)輸入模型,如圖2 所示。模型在接收和讀取輸入序列之后,首先會對輸入序列進(jìn)行處理,在風(fēng)險標(biāo)簽對應(yīng)的位置采用[MASK]替換掉,在輸入序列中插入[CLS]、[SEP]、[MASK]標(biāo)簽。[CLS]會被插到句子頭部,同時也作為句子開始的標(biāo)志,[SEP]會被插到句子尾部。[MASK]是遮蔽標(biāo)簽,處于該位置的詞將會被隱藏。模型通過查詢字向量表將輸入序列的每個字轉(zhuǎn)化成一維向量,然后融合塊向量和位置向量作為模型的總輸入向量。

圖2 提示學(xué)習(xí)預(yù)測風(fēng)險標(biāo)簽Fig.2 Risk identification based on prompt

2.2 新聞文本的模型訓(xùn)練層

模型訓(xùn)練層主要由堆疊在一起的Transformer 編碼器組成,每個編碼器包含多頭自注意力層(multi-head attention)和前饋神經(jīng)網(wǎng)絡(luò)層(feedforward)兩個子層。多頭自注意力機制相當(dāng)于多個不同的自注意力模型的集成,類似于卷積神經(jīng)網(wǎng)絡(luò)中的多個卷積核,不同的自注意力頭可以抽取不同的特征。Transformer 架構(gòu)實現(xiàn)了重要的并行處理,可以縮短模型的訓(xùn)練時間。

MLM 預(yù)訓(xùn)練模型對文本采用先遮蔽后預(yù)測的方法,先完全遮蔽輸入文本中的部分詞,然后通過Transformer 中的注意力機制使用上下全文來預(yù)測被遮住的詞,以一種更符合人類語言習(xí)慣的過程來學(xué)習(xí)表達(dá)詞向量,這也體現(xiàn)了BERT模型的雙向性。在遮蔽語言模型中,本文中選擇的遮蔽區(qū)域就是要預(yù)測的風(fēng)險標(biāo)簽部分,在該步驟中,被選擇的特殊標(biāo)記會被[MASK]代替,以此來完全遮蔽某一個字符在層次編碼中的全部信息。如:“新聞涉及實控變更風(fēng)險”,這句話遮蔽之后就會變成“新聞涉及[MASK][MASK][MASK][MASK]風(fēng)險”。輸入向量經(jīng)過Transformer編碼器訓(xùn)練之后,連接兩個全連接層并對第一個全連接層進(jìn)行歸一化處理,通過最后一個全連接層的輸出在[MASK]的位置上得到模型認(rèn)為正確的預(yù)測詞。

2.3 新聞風(fēng)險標(biāo)簽的答案工程層

由于MLM 生成文本的結(jié)果沒有范圍限制,所以最后預(yù)測結(jié)果不僅局限于“罰款查處”“實控變更”等目標(biāo)詞,這時需要建立答案工程即構(gòu)建一個詞庫與標(biāo)簽的映射詞表,用來映射預(yù)測詞語與標(biāo)簽,將預(yù)測結(jié)果映射回下游任務(wù)需要的輸出形式[16]。具體做法是遍歷所有風(fēng)險標(biāo)簽,尋找預(yù)測結(jié)果與風(fēng)險標(biāo)簽中編輯距離(edit distance)最小的一個,并返回其名字,若有多個相同,則優(yōu)先返回靠前面的風(fēng)險標(biāo)簽,具體事例如圖2所示。其中編輯距離是對兩個字符串的差異程度的量化量測,量測方式是看至少需要多少次的處理(包括刪除、加入、取代字符串中的任何一個字元)才能將一個字符串變成另一個字符串。以計算字符串str1 和str2 的編輯距離為例,其計算公式為:

disstr1,str2(i,j)表示str1 的前i個字符和str2 的前j個字符之間的距離,i和j分別表示字符串str1 和str2 的下標(biāo),都從1 開始。是一個指示函數(shù),當(dāng)str1i≠str2j時的值為1,其余值是0。

總之,基于BERT的提示學(xué)習(xí)旨在添加一個額外的模板,復(fù)用預(yù)訓(xùn)練好的MLM分類器(BertForMaskedLM)即可直接得到[MASK]預(yù)測的各個詞的概率分布,但是不同于MLM 傳統(tǒng)的訓(xùn)練目標(biāo),傳統(tǒng)的MLM 訓(xùn)練目標(biāo)是預(yù)測隨機遮蔽的輸入文本中的詞,而添加了提示模板的MLM的訓(xùn)練目標(biāo)是預(yù)測特定的遮蔽詞。微調(diào)在進(jìn)行文本分類任務(wù)時需要在預(yù)訓(xùn)練語言模型的基礎(chǔ)上再增加一個分類器,這需要引入新的參數(shù)。

實際上提示可以看作是對預(yù)訓(xùn)練模型中已經(jīng)記憶知識的一種檢索方式,由于提示任務(wù)形式和預(yù)訓(xùn)練任務(wù)一致,和微調(diào)相比,當(dāng)使用提示形式向模型輸入樣本時,預(yù)測得到了“提示”,因此所需要使用到的信息量更多,這也是提示學(xué)習(xí)在小樣本上效果顯著的原因。

3 數(shù)據(jù)集

本次實驗用到的數(shù)據(jù)集是從AIWIN 比賽(世界人工智能創(chuàng)新大賽)獲取的數(shù)據(jù)集(其網(wǎng)址為http://ailab.aiwin.org.cn/competitions/48#learn_the_details),數(shù)據(jù)從新聞、博客、長微博等文章類型中提取,來自今日頭條、搜狐新聞、證券日報等網(wǎng)站。由于提供的測試集中無標(biāo)簽故使用了該比賽的訓(xùn)練集進(jìn)行實驗。訓(xùn)練集中共有11 685 條數(shù)據(jù),13 個風(fēng)險標(biāo)簽,在數(shù)據(jù)集中風(fēng)險標(biāo)簽的對應(yīng)的關(guān)系如表1所示。

表1 風(fēng)險標(biāo)簽對應(yīng)labelTable 1 Risk labels corresponding to label index

標(biāo)簽為“無”表明該條數(shù)據(jù)不包含需要識別的風(fēng)險標(biāo)簽,由于風(fēng)險標(biāo)簽為“無”占比過高且無實際意義故去除標(biāo)簽為“無”的數(shù)據(jù),去除重復(fù)數(shù)據(jù),最終剩下7 274條數(shù)據(jù)。這些數(shù)據(jù)對應(yīng)的12個風(fēng)險標(biāo)簽的具體分布如圖3所示。從統(tǒng)計結(jié)果可以看出新聞風(fēng)險標(biāo)簽的數(shù)據(jù)集類別分布相對較為均勻。

圖3 各風(fēng)險標(biāo)簽分布Fig.3 Risk labels

本文要實現(xiàn)新聞輿情風(fēng)險標(biāo)簽的識別,故保留新聞和對應(yīng)的風(fēng)險標(biāo)簽兩列數(shù)據(jù)。將這些數(shù)據(jù)按照8∶2 的比例劃分為訓(xùn)練集和測試集,再從劃分出來的訓(xùn)練集中按照9∶1的比例劃分為訓(xùn)練集和驗證集,具體數(shù)據(jù)如表2所示。

表2 數(shù)據(jù)集分布Table 2 Dataset distribution

構(gòu)造提示工程需要將數(shù)據(jù)集處理成對應(yīng)的數(shù)據(jù)模板類型,具體做法是在每一條新聞前面加上“該新聞涉及XXXX風(fēng)險?!逼渲蠿XXX是由實際的風(fēng)險標(biāo)簽簡要概括的四個字,字?jǐn)?shù)要求根據(jù)實驗要求來確定,若提取的字?jǐn)?shù)未達(dá)到規(guī)定長度則用[PAD]補齊。同時新聞對應(yīng)的風(fēng)險標(biāo)簽這一列也按照相同規(guī)則進(jìn)行修改。

為了進(jìn)一步探究提示學(xué)習(xí)在小樣本數(shù)據(jù)集上的效果,本文設(shè)計了小樣本數(shù)據(jù)實驗并將訓(xùn)練集分別設(shè)計為500、1 000、1 500、2 000條新聞,驗證集和測試集則保持不變。具體取樣規(guī)則:根據(jù)每類風(fēng)險標(biāo)簽在訓(xùn)練集中的占比情況等比例地從訓(xùn)練集中抽取每類風(fēng)險標(biāo)簽的數(shù)目。

4 實驗結(jié)果

4.1 評價指標(biāo)

本文采用準(zhǔn)確率Acc(Accuracy)、精確率P(Precision)與召回率R(Recall)的宏平均F1(Mairo-F1)值對模型進(jìn)行評價。Acc 和Mairo-F1 都是目前新聞文本分類研究常用的多類別分類任務(wù)評價指標(biāo)[11]。

4.2 軟硬件實驗環(huán)境

本文的實驗采用hfl/chinese-roberta-wwm-ext 預(yù)訓(xùn)練模型進(jìn)行初始化,使用Huggingface-Transformers加載模型。該模型有12個子層,其隱藏維度為768,注意力模型頭數(shù)為12,總計1.1億參數(shù)量。訓(xùn)練時學(xué)習(xí)率(learning rate)固定為1E-5,權(quán)值衰減(weight decay)為1E-2,時期(epoch)設(shè)置為10,數(shù)據(jù)批量(batch size)大小為16,序列最大長度為300 子詞,優(yōu)化器選擇Adam。本實驗的軟硬件實驗環(huán)境如表3所示。

表3 軟硬件實驗環(huán)境Table 3 Hardware and software experiment environment

微調(diào)實驗訓(xùn)練時的學(xué)習(xí)率、權(quán)重衰減、時期、數(shù)據(jù)批量、序列最大長度、優(yōu)化器以及軟硬件實驗環(huán)境與本文方法保持一致。

4.3 結(jié)果與分析

4.3.1 綜合性能分析

本小節(jié)通過對風(fēng)險標(biāo)簽的分類實驗論證提示學(xué)習(xí)相比微調(diào)基準(zhǔn)模型的優(yōu)越性。從每一條新聞中識別出不同的風(fēng)險標(biāo)簽對于輿情分析具有重大意義,可以幫助企業(yè)更快地掌握目前所面臨的問題,從而更好地提高企業(yè)面對風(fēng)險時的處理能力。因此本實驗將對AIWIN比賽數(shù)據(jù)集風(fēng)險標(biāo)簽進(jìn)行預(yù)測,選取了12 個風(fēng)險標(biāo)簽作為新聞輿情的分類對象,同時在新聞中添加了提示模板,根據(jù)模板的設(shè)計可將風(fēng)險標(biāo)簽改成4 個字,并在不同大小的數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后觀察模型的預(yù)測能力。實驗選擇的基準(zhǔn)為BERT 模型,分別使用hfl/chinese-bert-wwm和hfl/chinese-roberta-wwm-ext預(yù)訓(xùn)練模型對其進(jìn)行初始化。如表4所示,運用提示學(xué)習(xí)方法在新聞輿情所有樣本數(shù)據(jù)上取得的風(fēng)險標(biāo)簽分類準(zhǔn)確度、精確率、召回率以及Mairo-F1均略高于微調(diào)。

表4 風(fēng)險標(biāo)簽分類性能Table 4 Risk identification performance

同時為了驗證模型在小數(shù)據(jù)樣本上的表現(xiàn)能力,本文通過設(shè)置了樣本數(shù)據(jù)為500、1 000、1 500、2 000 的實驗,如表5所示,在這些不同樣本數(shù)據(jù)情況下,基于提示學(xué)習(xí)的預(yù)訓(xùn)練模型的Acc 和Mairo-F1 均高于微調(diào)的效果,且樣本數(shù)據(jù)越少提升效果越明顯。

表5 不同樣本數(shù)據(jù)實驗結(jié)果Table 5 Experimental results under different samples

4.3.2 樣例分析

對于同一條新聞,用提示學(xué)習(xí)方法和用微調(diào)的方法預(yù)測得到的標(biāo)簽可能不一樣,所以給出了兩個樣例分析,如圖4 所示。提示學(xué)習(xí)是一個生成式任務(wù),生成的答案和標(biāo)簽不能一一匹配,需要一個映射過程將生成的答案映射到已有的標(biāo)簽。在樣例1 中提示學(xué)習(xí)生成了環(huán)境污染標(biāo)簽,映射到數(shù)據(jù)集中的標(biāo)簽也是環(huán)境污染。提示學(xué)習(xí)的誤差來自映射階段,但在本實驗數(shù)據(jù)集上由于標(biāo)簽之間語義信息差別較大,在進(jìn)行映射時出錯率較低,不會將環(huán)境污染映射到實控人變更或安全事故等標(biāo)簽上。在樣例2中提示學(xué)習(xí)生成了罰款查處的標(biāo)簽,但映射到數(shù)據(jù)集中的標(biāo)簽卻是被政府機構(gòu)罰款查處,此時提示學(xué)習(xí)的生成沒有接近正確的標(biāo)簽,所以映射到了跟生成語義接近的標(biāo)簽。提示學(xué)習(xí)的缺點在于映射,把已經(jīng)生成的標(biāo)簽映射到正確的標(biāo)簽上有一定的難度,現(xiàn)在主要是通過人工設(shè)置規(guī)則來構(gòu)造映射器,后期的研究可以考慮一些其他的方法,比如說連續(xù)提示學(xué)習(xí)。微調(diào)加分類的傳統(tǒng)模式把標(biāo)簽當(dāng)成0,1,…,11等數(shù)值,沒有考慮標(biāo)簽的語義,所以總體上還是提示學(xué)習(xí)預(yù)測對的比例較高。

圖4 提示學(xué)習(xí)與微調(diào)預(yù)測樣例對比Fig.4 Prompt learning vs fine-tuning

5 結(jié)語

本文將提示學(xué)習(xí)的思想用于BERT模型上,將新聞輿情的風(fēng)險標(biāo)簽分類任務(wù)轉(zhuǎn)化成MLM任務(wù),在AIWIN比賽數(shù)據(jù)集的不同數(shù)量的樣本上進(jìn)行了實驗,并跟微調(diào)的方法進(jìn)行了對比。實驗有力地證明了提示學(xué)習(xí)對比微調(diào)方法的優(yōu)越性,使用提示學(xué)習(xí)去調(diào)節(jié)預(yù)訓(xùn)練模型在處理風(fēng)險標(biāo)簽分類任務(wù)上的效果比直接微調(diào)模型的效果更好,且在小樣本數(shù)據(jù)上的改善尤為突出。運用提示學(xué)習(xí)思想直接讓下游風(fēng)險標(biāo)簽分類任務(wù)適應(yīng)提示學(xué)習(xí)模板,通過[MASK]位置預(yù)測風(fēng)險標(biāo)簽,更加突出預(yù)訓(xùn)練模型的真實能力。

新聞輿情風(fēng)險識別一直以來是各個企業(yè)關(guān)注的重點,此次將提示學(xué)習(xí)的思想用于新聞輿情風(fēng)險識別方面也是一次新的嘗試。實驗中的提示模板是人工設(shè)計的并不唯一,不同的提示模板會有不同的實驗效果,而且人工設(shè)計的模板遷移有局限,后期可以嘗試自動設(shè)計的模板。本文是將提示思想用于BERT 的MLM 任務(wù)上,將提示思想用于BERT 的NSP 任務(wù)也是一個可以嘗試的方向。除了BERT預(yù)訓(xùn)練模型外,還可以將提示學(xué)習(xí)的思想用于ELECTRA 等預(yù)訓(xùn)練模型上。當(dāng)前關(guān)于提示學(xué)習(xí)的研究還在如火如荼地進(jìn)行,研究的方向越來越多,提示學(xué)習(xí)的一些限制、框架的完善都是未來可以繼續(xù)探索的地方。

猜你喜歡
分類文本模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
3D打印中的模型分割與打包
主站蜘蛛池模板: 中文字幕在线看| 91精品在线视频观看| 成年女人a毛片免费视频| 亚洲欧美精品一中文字幕| 欧美成人区| 国产成人精品在线| 毛片网站观看| 色丁丁毛片在线观看| 中文字幕乱码中文乱码51精品| 日本三级欧美三级| 最新亚洲av女人的天堂| 狠狠色成人综合首页| 人妻无码中文字幕一区二区三区| 中文天堂在线视频| 91麻豆精品国产91久久久久| 国产特级毛片| 91免费国产高清观看| 一级毛片免费高清视频| 中字无码精油按摩中出视频| 国产成人精品高清不卡在线| 国产精品福利导航| 国产91在线|中文| 国产精品福利导航| 国产成人精品高清不卡在线| 狠狠ⅴ日韩v欧美v天堂| 成人福利在线免费观看| 国产精品视频导航| 天天爽免费视频| 麻豆精品国产自产在线| 女人爽到高潮免费视频大全| 国产日本一区二区三区| 欧美第一页在线| 香蕉精品在线| 沈阳少妇高潮在线| 亚洲天堂久久新| 午夜在线不卡| 欧美成人精品在线| 国产精选小视频在线观看| 欧美a在线看| 久久综合久久鬼| 亚洲区视频在线观看| 国产精品尤物在线| 国产永久免费视频m3u8| 中文字幕av一区二区三区欲色| 香蕉视频在线观看www| 亚洲天堂久久| 国产毛片高清一级国语| 国产精品无码久久久久AV| 国产高清在线丝袜精品一区| 欧美精品成人一区二区视频一| 色综合天天综合中文网| 久久国产黑丝袜视频| 一本大道香蕉中文日本不卡高清二区| 激情视频综合网| 欧美97色| 色窝窝免费一区二区三区| 五月天久久婷婷| 在线观看亚洲天堂| 国产精品人人做人人爽人人添| 91精品小视频| 婷婷伊人久久| 狠狠做深爱婷婷久久一区| 国产欧美另类| 国产激情在线视频| 午夜视频免费一区二区在线看| 精品福利一区二区免费视频| 亚洲综合精品香蕉久久网| 青青青伊人色综合久久| 欧美性精品| 国产精品亚欧美一区二区| 九九久久精品免费观看| 欧美日本激情| 国产精品专区第1页| 国内精品久久人妻无码大片高| 91人妻日韩人妻无码专区精品| 欧美综合成人| 免费一级无码在线网站| 狠狠亚洲五月天| 视频一本大道香蕉久在线播放 | 欧美精品aⅴ在线视频| 国产乱视频网站| 亚洲制服丝袜第一页|