999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于mBERT的東南亞小語種推特文本情感分析

2023-05-30 06:37:42賀友程
電腦知識與技術(shù) 2023年1期
關(guān)鍵詞:小語種

賀友程

摘要:小語種由于其訓(xùn)練語料資源稀缺,在自然語言處理領(lǐng)域一直是一大難題,使用傳統(tǒng)的機器學(xué)習(xí)方法與神經(jīng)網(wǎng)絡(luò)方法,具有很大的瓶頸。而跨語言預(yù)訓(xùn)練語言模型的出現(xiàn),對于低資源語種的包括文本分類在內(nèi)的多項任務(wù),都起到了很大的提升效果。在基于海量語料訓(xùn)練得到的跨語言預(yù)訓(xùn)練語言模型mBERT的基礎(chǔ)上進行微調(diào),相較于傳統(tǒng)的機器學(xué)習(xí)方法,在情感分析任務(wù)的效率和準(zhǔn)確度都可得到不錯的提升。

關(guān)鍵詞: 小語種;預(yù)訓(xùn)練語言模型;文本分類;情感分析;BERT

中圖分類號:TP391? ? ? 文獻標(biāo)識碼:A

文章編號:1009-3044(2023)01-0074-03

1 引言

對小語種文本的情感分析的方法,經(jīng)歷了從構(gòu)建其情感詞典并采用基于規(guī)則的無監(jiān)督方法、挖掘其文本特征并采用有監(jiān)督的分類方法,再到基于跨語種的方法。然而,傳統(tǒng)基于機器翻譯的方法,或直接將源語種情感詞典翻譯為目標(biāo)語種,或直接將目標(biāo)語種翻譯為源語種后進行訓(xùn)練,模型效果不夠理想。

對于低資源語種的情感分析,文獻[1]通過將目標(biāo)小語種機器翻譯為源語種,通過英語情感分類器對目標(biāo)小語種實現(xiàn)分類;文獻[2]提出CoNBiLSTM詞嵌入模型在多語言和多領(lǐng)域環(huán)境中進行文本分類;文獻[3]比較了4種機器學(xué)習(xí)方法對少量的印尼語推特文本進行情感分析的效果;文獻[4]提出LAAE網(wǎng)絡(luò)模型,通過LSTM+AAE獲得跨語言情感向量后利用雙向GRU進行情感分類任務(wù);文獻[5]提出基于時間卷積注意力膠囊網(wǎng)絡(luò)的維吾爾語情感分類模型;文獻[6]研究了通過多任務(wù)學(xué)習(xí)訓(xùn)練小語種文本的情感分析模型。

BERT[7]通過詞嵌入、句子類別、位置信息3個維度的特征,通過MLM與NSP進行微調(diào),在包括文本分類在內(nèi)的多項任務(wù)中均取得良好效果。而mBERT跨語言模型則是BERT的一個分支,支持100多種語言的多項NLP任務(wù)。本文將mBERT運用到東南亞小語種推特文本的情感分析中,構(gòu)建目標(biāo)語種數(shù)據(jù)集,對mBERT的輸出層進行調(diào)整后,通過微調(diào)訓(xùn)練實現(xiàn)目標(biāo)東南亞小語種推特文本的情感分析器。

2 數(shù)據(jù)預(yù)處理與數(shù)據(jù)集構(gòu)建

Sentiment140[8]是由Go等構(gòu)建的包含了1,600,000條從推特爬取的推文的數(shù)據(jù)集,可用于情感分析相關(guān)的訓(xùn)練。本文基于其首先構(gòu)建了源語言的微調(diào)訓(xùn)練數(shù)據(jù)集,并借助谷歌翻譯構(gòu)建了目標(biāo)語言的微調(diào)訓(xùn)練數(shù)據(jù)集。

2.1 源語言微調(diào)數(shù)據(jù)集構(gòu)建

Sentiment140數(shù)據(jù)集可用于研究推特中關(guān)于品牌、產(chǎn)品、話題的情感極性,它移除了推文中的表情符號,以csv文件格式存儲。它標(biāo)注了推文的情感極性(積極情感用4表示,消極情感用0表示)、ID、發(fā)布時間、發(fā)布用戶與內(nèi)容等信息,其格式如表1所示。

對于微調(diào)訓(xùn)練數(shù)據(jù)集,僅需要關(guān)注其推文內(nèi)容與情感極性,因此本文從中分別截取了僅包含推文情感標(biāo)注與推文內(nèi)容的10000條正向情感推文與負(fù)向情感推文,共20000條數(shù)據(jù)作為源語言微調(diào)數(shù)據(jù)集。

2.2 構(gòu)建目標(biāo)語言微調(diào)訓(xùn)練數(shù)據(jù)集

本文利用了GitHub上的開源工具googletrans調(diào)用谷歌翻譯任務(wù),它具備快速、可靠的特點,支持源語言自動識別、批量翻譯、自定義服務(wù)地址以及HTTP/2。它的原理是通過構(gòu)造AJAX請求完成谷歌翻譯的請求過程,再對HTTP GET請求的返回結(jié)果進行解析,得到最終的翻譯結(jié)果。通過設(shè)置多個翻譯服務(wù)地址,可以使其在每次翻譯時隨機選擇一個服務(wù)地址進行請求,避免短時間內(nèi)對同一個地址進行多次請求。

3 mBERT模型與微調(diào)

BERT模型的輸入表示由字向量(Token Embedding) 、文本向量(Segment Embedding) 和位置向量(Position Embedding) 三部分求和而成,模型輸出為各字對應(yīng)的融合全文語義信息后的向量表示,內(nèi)部則是由Transformer編碼器堆疊而成。

BERT的多語言版本mBERT直接使用多語言的單語語料,采用MLM作為訓(xùn)練目標(biāo)進行訓(xùn)練,過程中沒有加入任何信息來指示每句話的語種,也沒有促使不同語言同義句具有相似表達(dá)的顯性機制。它有cased與uncased兩個模型,均具備12層Transformer塊、768維的字向量與12個注意力機制頭。而前者會考慮字符的大小寫并支持非拉丁字符,因此本文選擇前者進行微調(diào)訓(xùn)練。

本文通過修改BERT中Processor的邏輯,調(diào)整最后的輸出層為二分類任務(wù),用上述得到的目標(biāo)語種二分類文本訓(xùn)練數(shù)據(jù)集進行微調(diào)訓(xùn)練,最終得到目標(biāo)語種的推特文本情感分類模型,過程如圖1所示。

4 實驗

4.1 實驗數(shù)據(jù)集

本文使用推特情感分析數(shù)據(jù)集Sentiment140中提取的20000條數(shù)據(jù)通過谷歌翻譯后得到的越南語(vi) 、泰語(th) 、緬甸語(my) 和印尼語(id) 數(shù)據(jù)集進行實驗。由于通過googletrans進行谷歌翻譯對于用戶直接調(diào)用AJAX請求的頻率有限制,而本文需要完成的翻譯量較大,因此采用多線程方式,結(jié)合多個谷歌翻譯服務(wù)地址,以加速文本的翻譯。為此,本文對20000條源語言推文數(shù)據(jù),采用以2000條為一組,8個谷歌翻譯服務(wù)地址,10個線程共同進行翻譯任務(wù)。另外,由于mBERT原生支持的數(shù)據(jù)格式為tsv格式,因此將翻譯后的數(shù)據(jù)輸出為tsv格式,僅包含標(biāo)簽與數(shù)據(jù)兩項內(nèi)容。其中,按照9:1的方式劃分訓(xùn)練集與測試集。實驗數(shù)據(jù)詳情見表2。

4.2 評價標(biāo)準(zhǔn)

本文進行的是文本分類任務(wù),采用準(zhǔn)確率(A) 、精確率(P) 、召回率(R) 與F1值作為評價標(biāo)準(zhǔn)。定義如下:

4.3 實驗結(jié)果

為了對比不同方法對東南亞小語種推特情感分析的效果,本文對比了文獻[3]中得到的兩種最佳方法:樸素貝葉斯算法與多層感知機算法。其中對多層感知機方法的實驗采用維度為(50,50) 的隱藏層結(jié)構(gòu)。通過相同的方法劃分訓(xùn)練集與測試集,得到各項評價指標(biāo)。實驗結(jié)果如表3所示。

實驗結(jié)果表明,對于低資源的東南亞小語種,通過預(yù)訓(xùn)練跨語言模型mBERT進行微調(diào)后得到的情感分析模型效果,要優(yōu)于樸素貝葉斯方法與多層感知機方法。

5 結(jié)束語

在情感分析的研究中,對于英語等語料庫豐富的高資源語種,已經(jīng)有非常成熟的研究與實踐方法,而對于低資源語種,尤其是包含東南亞語種在內(nèi)的小語種,由于訓(xùn)練數(shù)據(jù)缺乏,因此無法像英語等語種一樣訓(xùn)練出健壯成熟的單語言模型,目前在包括文本分類等任務(wù)中無法達(dá)到同等的效果。

本文在對東南亞小語種情感分析相關(guān)研究的基礎(chǔ)上,探索了采用預(yù)訓(xùn)練跨語言模型mBERT進行微調(diào)的方法對目標(biāo)語種推特文本的情感分析,實驗結(jié)果表明該方法可以獲得比傳統(tǒng)的樸素貝葉斯方法與多層感知機方法更好的效果。然而,由于本文微調(diào)數(shù)據(jù)集基于機器翻譯得出,因此最終模型可能受機器翻譯模型效果的影響。未來可通過對微調(diào)訓(xùn)練數(shù)據(jù)進行降噪處理、改善微調(diào)模型等,提升情感分類效果。

參考文獻:

[1] Can E F,Ezen-Can A,Can F.Multilingual sentiment analysis:an RNN-based framework for limited data[EB/OL].[2021-09-20].2018:arXiv:1806.04511.https://arxiv.org/abs/1806.04511.

[2] Nguyen H T,Le Nguyen M.Multilingual opinion mining on YouTube - A convolutional N-gram BiLSTM word embedding[J].Information Processing & Management,2018,54(3):451-462.

[3] Indriani D,Nasution A H,Monika W,et al.Towards a sentiment analyser for low-resource languages[M]//Proceedings of International Conference on Smart Computing and Cyber Security.Singapore:Springer Singapore,2020:109-118.

[4] 沈江紅,廖曉東.基于LAAE網(wǎng)絡(luò)的跨語言短文本情感分析方法[J].計算機系統(tǒng)應(yīng)用,2021,30(6):203-208.

[5] Luo H, Yang Y, Dong R, et al. 基于時間注意力膠囊網(wǎng)絡(luò)的維吾爾語情感分類模型 (Uyghur Sentiment Classification Model Based on Temporal Attention Capsule Networks)[C]//Proceedings of the 20th Chinese National Conference on Computational Linguistics, 2021: 248-257.

[6] Hande A,Hegde S U,Priyadharshini R,et al.Benchmarking multi-task learning for sentiment analysis and offensive language identification in under-resourced Dravidian languages[EB/OL]. [2022-03-20].2021:arXiv:2108.03867.https://arxiv.org/abs/2108.03867.

[7] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language nderstanding[EB/OL].[2021-09-20].2018:arXiv:1810.04805.https://arxiv.org/abs/1810.04805.

[8] Go A,Bhayani R,Huang L.Twitter sentiment classification using distant supervision[J].CS224N project report, Stanford,2009,1(12):2009.

【通聯(lián)編輯:光文玲】

猜你喜歡
小語種
小語種 大世界
“一帶一路”背景下小語種專業(yè)面臨的挑戰(zhàn)和對策
祖國(2017年3期)2017-03-16 11:06:39
小語種國際化人才培養(yǎng)模式初探
社會機構(gòu)小語種培訓(xùn)現(xiàn)狀及存在的問題
中國周邊區(qū)域研究文獻的需求與保障
中國周邊區(qū)域研究文獻的需求與保障
小語種就業(yè)現(xiàn)狀調(diào)查與分析
商情(2016年42期)2016-12-23 16:59:56
高職單招班小語種優(yōu)質(zhì)課堂教學(xué)探究
教師·下(2016年10期)2016-12-03 09:32:13
全球化背景下小語種語言的發(fā)展
考試周刊(2016年45期)2016-06-24 13:37:23
小語種對大學(xué)生(非小語種專業(yè))就業(yè)競爭力影響調(diào)查
考試周刊(2016年3期)2016-03-11 10:15:09
主站蜘蛛池模板: 亚洲国产综合精品一区| 波多野结衣在线一区二区| 黄色不卡视频| 亚洲男人在线| 97一区二区在线播放| 亚洲一区二区三区中文字幕5566| 亚洲色精品国产一区二区三区| 国产经典在线观看一区| 亚洲精品少妇熟女| 久久成人国产精品免费软件| 久久综合九色综合97婷婷| 国产亚洲欧美在线人成aaaa| 日韩激情成人| 日韩精品一区二区三区免费| 亚洲Va中文字幕久久一区| 欧美高清三区| 国产欧美视频综合二区| 性做久久久久久久免费看| 欧美日韩动态图| 免费国产黄线在线观看| 国产激情无码一区二区APP| 国产无码制服丝袜| 久久99热66这里只有精品一| 国产成人麻豆精品| 97精品伊人久久大香线蕉| 国产精品久久国产精麻豆99网站| 日韩国产综合精选| 欧美成人精品在线| 亚洲人成亚洲精品| 老司机aⅴ在线精品导航| 国产真实二区一区在线亚洲| 欧美性久久久久| 97视频在线精品国自产拍| 国产成人喷潮在线观看| 国产成人亚洲无吗淙合青草| 国产精品xxx| 91视频首页| 日韩av在线直播| 久草国产在线观看| 激情网址在线观看| 亚洲色欲色欲www网| 欧美亚洲国产日韩电影在线| 国产日韩欧美中文| 国产理论一区| 国产精品人人做人人爽人人添| 亚洲AV无码乱码在线观看裸奔| 999国产精品| 久久a毛片| 在线播放真实国产乱子伦| 在线无码私拍| 国产aⅴ无码专区亚洲av综合网| 久久免费看片| 天堂网亚洲系列亚洲系列| 国产精品久久久久无码网站| 国产二级毛片| 国产福利一区在线| 国产综合色在线视频播放线视| 狠狠色香婷婷久久亚洲精品| 日韩久草视频| 97久久人人超碰国产精品| 久久99热66这里只有精品一| 欧美一区二区三区欧美日韩亚洲| 婷婷五月在线视频| 71pao成人国产永久免费视频| 日本高清免费不卡视频| 中文字幕佐山爱一区二区免费| 香蕉网久久| 5555国产在线观看| 国产丝袜啪啪| 亚洲第一成年网| 久久亚洲精少妇毛片午夜无码| 亚洲无码精彩视频在线观看| 久久久精品久久久久三级| 亚洲成人黄色网址| 欧美日本在线观看| 特级欧美视频aaaaaa| 色婷婷色丁香| 午夜免费小视频| 国产午夜不卡| a级毛片网| 亚洲欧美日韩中文字幕一区二区三区 | 中日韩一区二区三区中文免费视频|