基于mBERT的東南亞小語種推特文本情感分析

2023-05-30 06:37:42賀友程

電腦知識與技術(shù) 2023年1期

關(guān)鍵詞：小語種

賀友程

摘要：小語種由于其訓(xùn)練語料資源稀缺，在自然語言處理領(lǐng)域一直是一大難題，使用傳統(tǒng)的機器學(xué)習(xí)方法與神經(jīng)網(wǎng)絡(luò)方法，具有很大的瓶頸。而跨語言預(yù)訓(xùn)練語言模型的出現(xiàn)，對于低資源語種的包括文本分類在內(nèi)的多項任務(wù)，都起到了很大的提升效果。在基于海量語料訓(xùn)練得到的跨語言預(yù)訓(xùn)練語言模型mBERT的基礎(chǔ)上進行微調(diào)，相較于傳統(tǒng)的機器學(xué)習(xí)方法，在情感分析任務(wù)的效率和準(zhǔn)確度都可得到不錯的提升。

關(guān)鍵詞：小語種；預(yù)訓(xùn)練語言模型；文本分類；情感分析；BERT

中圖分類號：TP391? ? ? 文獻標(biāo)識碼：A

文章編號：1009-3044（2023）01-0074-03

1 引言

對小語種文本的情感分析的方法，經(jīng)歷了從構(gòu)建其情感詞典并采用基于規(guī)則的無監(jiān)督方法、挖掘其文本特征并采用有監(jiān)督的分類方法，再到基于跨語種的方法。然而，傳統(tǒng)基于機器翻譯的方法，或直接將源語種情感詞典翻譯為目標(biāo)語種，或直接將目標(biāo)語種翻譯為源語種后進行訓(xùn)練，模型效果不夠理想。

對于低資源語種的情感分析，文獻[1]通過將目標(biāo)小語種機器翻譯為源語種，通過英語情感分類器對目標(biāo)小語種實現(xiàn)分類；文獻[2]提出CoNBiLSTM詞嵌入模型在多語言和多領(lǐng)域環(huán)境中進行文本分類；文獻[3]比較了4種機器學(xué)習(xí)方法對少量的印尼語推特文本進行情感分析的效果；文獻[4]提出LAAE網(wǎng)絡(luò)模型，通過LSTM+AAE獲得跨語言情感向量后利用雙向GRU進行情感分類任務(wù)；文獻[5]提出基于時間卷積注意力膠囊網(wǎng)絡(luò)的維吾爾語情感分類模型；文獻[6]研究了通過多任務(wù)學(xué)習(xí)訓(xùn)練小語種文本的情感分析模型。

BERT[7]通過詞嵌入、句子類別、位置信息3個維度的特征，通過MLM與NSP進行微調(diào)，在包括文本分類在內(nèi)的多項任務(wù)中均取得良好效果。而mBERT跨語言模型則是BERT的一個分支，支持100多種語言的多項NLP任務(wù)。本文將mBERT運用到東南亞小語種推特文本的情感分析中，構(gòu)建目標(biāo)語種數(shù)據(jù)集，對mBERT的輸出層進行調(diào)整后，通過微調(diào)訓(xùn)練實現(xiàn)目標(biāo)東南亞小語種推特文本的情感分析器。

2 數(shù)據(jù)預(yù)處理與數(shù)據(jù)集構(gòu)建

Sentiment140[8]是由Go等構(gòu)建的包含了1，600，000條從推特爬取的推文的數(shù)據(jù)集，可用于情感分析相關(guān)的訓(xùn)練。本文基于其首先構(gòu)建了源語言的微調(diào)訓(xùn)練數(shù)據(jù)集，并借助谷歌翻譯構(gòu)建了目標(biāo)語言的微調(diào)訓(xùn)練數(shù)據(jù)集。

2.1 源語言微調(diào)數(shù)據(jù)集構(gòu)建

Sentiment140數(shù)據(jù)集可用于研究推特中關(guān)于品牌、產(chǎn)品、話題的情感極性，它移除了推文中的表情符號，以csv文件格式存儲。它標(biāo)注了推文的情感極性（積極情感用4表示，消極情感用0表示）、ID、發(fā)布時間、發(fā)布用戶與內(nèi)容等信息，其格式如表1所示。

對于微調(diào)訓(xùn)練數(shù)據(jù)集，僅需要關(guān)注其推文內(nèi)容與情感極性，因此本文從中分別截取了僅包含推文情感標(biāo)注與推文內(nèi)容的10000條正向情感推文與負(fù)向情感推文，共20000條數(shù)據(jù)作為源語言微調(diào)數(shù)據(jù)集。

2.2 構(gòu)建目標(biāo)語言微調(diào)訓(xùn)練數(shù)據(jù)集

本文利用了GitHub上的開源工具googletrans調(diào)用谷歌翻譯任務(wù)，它具備快速、可靠的特點，支持源語言自動識別、批量翻譯、自定義服務(wù)地址以及HTTP/2。它的原理是通過構(gòu)造AJAX請求完成谷歌翻譯的請求過程，再對HTTP GET請求的返回結(jié)果進行解析，得到最終的翻譯結(jié)果。通過設(shè)置多個翻譯服務(wù)地址，可以使其在每次翻譯時隨機選擇一個服務(wù)地址進行請求，避免短時間內(nèi)對同一個地址進行多次請求。

3 mBERT模型與微調(diào)

BERT模型的輸入表示由字向量（Token Embedding）、文本向量（Segment Embedding）和位置向量（Position Embedding）三部分求和而成，模型輸出為各字對應(yīng)的融合全文語義信息后的向量表示，內(nèi)部則是由Transformer編碼器堆疊而成。

BERT的多語言版本mBERT直接使用多語言的單語語料，采用MLM作為訓(xùn)練目標(biāo)進行訓(xùn)練，過程中沒有加入任何信息來指示每句話的語種，也沒有促使不同語言同義句具有相似表達(dá)的顯性機制。它有cased與uncased兩個模型，均具備12層Transformer塊、768維的字向量與12個注意力機制頭。而前者會考慮字符的大小寫并支持非拉丁字符，因此本文選擇前者進行微調(diào)訓(xùn)練。

本文通過修改BERT中Processor的邏輯，調(diào)整最后的輸出層為二分類任務(wù)，用上述得到的目標(biāo)語種二分類文本訓(xùn)練數(shù)據(jù)集進行微調(diào)訓(xùn)練，最終得到目標(biāo)語種的推特文本情感分類模型，過程如圖1所示。

4 實驗

4.1 實驗數(shù)據(jù)集

本文使用推特情感分析數(shù)據(jù)集Sentiment140中提取的20000條數(shù)據(jù)通過谷歌翻譯后得到的越南語（vi）、泰語（th）、緬甸語（my）和印尼語（id）數(shù)據(jù)集進行實驗。由于通過googletrans進行谷歌翻譯對于用戶直接調(diào)用AJAX請求的頻率有限制，而本文需要完成的翻譯量較大，因此采用多線程方式，結(jié)合多個谷歌翻譯服務(wù)地址，以加速文本的翻譯。為此，本文對20000條源語言推文數(shù)據(jù)，采用以2000條為一組，8個谷歌翻譯服務(wù)地址，10個線程共同進行翻譯任務(wù)。另外，由于mBERT原生支持的數(shù)據(jù)格式為tsv格式，因此將翻譯后的數(shù)據(jù)輸出為tsv格式，僅包含標(biāo)簽與數(shù)據(jù)兩項內(nèi)容。其中，按照9：1的方式劃分訓(xùn)練集與測試集。實驗數(shù)據(jù)詳情見表2。

4.2 評價標(biāo)準(zhǔn)

本文進行的是文本分類任務(wù)，采用準(zhǔn)確率（A）、精確率（P）、召回率（R）與F1值作為評價標(biāo)準(zhǔn)。定義如下：

4.3 實驗結(jié)果

為了對比不同方法對東南亞小語種推特情感分析的效果，本文對比了文獻[3]中得到的兩種最佳方法：樸素貝葉斯算法與多層感知機算法。其中對多層感知機方法的實驗采用維度為（50，50）的隱藏層結(jié)構(gòu)。通過相同的方法劃分訓(xùn)練集與測試集，得到各項評價指標(biāo)。實驗結(jié)果如表3所示。

實驗結(jié)果表明，對于低資源的東南亞小語種，通過預(yù)訓(xùn)練跨語言模型mBERT進行微調(diào)后得到的情感分析模型效果，要優(yōu)于樸素貝葉斯方法與多層感知機方法。

5 結(jié)束語

在情感分析的研究中，對于英語等語料庫豐富的高資源語種，已經(jīng)有非常成熟的研究與實踐方法，而對于低資源語種，尤其是包含東南亞語種在內(nèi)的小語種，由于訓(xùn)練數(shù)據(jù)缺乏，因此無法像英語等語種一樣訓(xùn)練出健壯成熟的單語言模型，目前在包括文本分類等任務(wù)中無法達(dá)到同等的效果。

本文在對東南亞小語種情感分析相關(guān)研究的基礎(chǔ)上，探索了采用預(yù)訓(xùn)練跨語言模型mBERT進行微調(diào)的方法對目標(biāo)語種推特文本的情感分析，實驗結(jié)果表明該方法可以獲得比傳統(tǒng)的樸素貝葉斯方法與多層感知機方法更好的效果。然而，由于本文微調(diào)數(shù)據(jù)集基于機器翻譯得出，因此最終模型可能受機器翻譯模型效果的影響。未來可通過對微調(diào)訓(xùn)練數(shù)據(jù)進行降噪處理、改善微調(diào)模型等，提升情感分類效果。

參考文獻：

[1] Can E F，Ezen-Can A，Can F.Multilingual sentiment analysis：an RNN-based framework for limited data[EB/OL].[2021-09-20].2018：arXiv：1806.04511.https：//arxiv.org/abs/1806.04511.

[2] Nguyen H T，Le Nguyen M.Multilingual opinion mining on YouTube - A convolutional N-gram BiLSTM word embedding[J].Information Processing & Management，2018，54（3）：451-462.

[3] Indriani D，Nasution A H，Monika W，et al.Towards a sentiment analyser for low-resource languages[M]//Proceedings of International Conference on Smart Computing and Cyber Security.Singapore：Springer Singapore，2020：109-118.

[4] 沈江紅，廖曉東.基于LAAE網(wǎng)絡(luò)的跨語言短文本情感分析方法[J].計算機系統(tǒng)應(yīng)用，2021，30（6）：203-208.

[5] Luo H， Yang Y， Dong R， et al. 基于時間注意力膠囊網(wǎng)絡(luò)的維吾爾語情感分類模型（Uyghur Sentiment Classification Model Based on Temporal Attention Capsule Networks）[C]//Proceedings of the 20th Chinese National Conference on Computational Linguistics， 2021： 248-257.

[6] Hande A，Hegde S U，Priyadharshini R，et al.Benchmarking multi-task learning for sentiment analysis and offensive language identification in under-resourced Dravidian languages[EB/OL]. [2022-03-20].2021：arXiv：2108.03867.https：//arxiv.org/abs/2108.03867.

[7] Devlin J，Chang M W，Lee K，et al.BERT：pre-training of deep bidirectional transformers for language nderstanding[EB/OL].[2021-09-20].2018：arXiv：1810.04805.https：//arxiv.org/abs/1810.04805.

[8] Go A，Bhayani R，Huang L.Twitter sentiment classification using distant supervision[J].CS224N project report， Stanford，2009，1（12）：2009.

【通聯(lián)編輯：光文玲】