999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

BERT蒙古文詞向量學習

2023-01-29 13:16:26王玉榮李艷玲
計算機工程與應用 2023年2期

王玉榮,林 民,李艷玲

內蒙古師范大學 計算機科學技術學院,呼和浩特010022

詞向量(word embedding)是一種詞的特征表示,能表達文本的語法、語義信息,是很多自然語言處理任務的基礎步驟[1],如命名實體識別、機器翻譯、信息檢索等。以Word2Vec[2]為代表的蒙古文詞向量技術是一直以來最常用的文本表示方法,它能捕獲隱藏在單詞上下文的語法、語義信息。但它只考慮固定大小窗口內的單詞并且獲得的詞向量具有聚義現象,這種上下文無關的靜態表示方法僅學習了文本的淺層表征,不能表達一詞多義,并給其后的自然語言處理任務帶來的提升非常有限。2018年底BERT(bidirectional encoder representations from transformers,BERT)[3]預訓練模型的出現,解決了一詞多義的問題。BERT模型的突出優勢是通過海量語料的訓練,得到了一組適用性十分廣泛的詞向量,同時還能在具體任務中進一步動態優化,生成上下文語境敏感的動態詞向量,解決了以往Word2Vec、Glove等模型的聚義問題,在并行處理能力方面也優于之前的ELMo(embedings from language models)[4]等預訓練模型。但是,BERT預訓練模型的詞表中沒有傳統蒙古文的單詞,須通過有效的方法學習蒙古文詞向量。本文將傳統蒙古文轉換為拉丁蒙古文輸入到多語言BERT預訓練模型中,將其精調(fine-tuning)過程與條件隨機場(conditional random fields,CRF)[5]相結合,通過有效的方法融合在下游任務中訓練的子詞級向量,實現動態的蒙古文詞向量表示。通過計算同一上下文中語義相近詞向量之間的距離,表明了詞向量對聚義詞具有良好的區分性,采用K-means聚類算法對蒙古文詞語進行聚類分析,表明學出的詞向量更接近詞義的真實分布,最后在嵌入式主題詞挖掘任務中進行了驗證。

1 相關工作

Bengio等[6]在2003年提出了神經網絡語言模型(neural network language model,NNLM),NNLM在學習語言模型的同時可以得到詞向量,此后越來越多的學者開始研究預訓練模型,以提高詞向量的語義表達能力。曹宜超[7]采用Word2Vec模型訓練蒙古文詞向量,利用跨語言詞向量對齊的方法實現蒙漢神經機器翻譯系統。但該方法中的蒙古文詞向量是靜態的,故很難解決詞匯的聚義現象。樊文婷等[8]將詞性特征融入到詞向量表示中,來豐富詞向量的語義特征。王煒華[9]利用循環神經網絡(recurrent neural network,RNN)學習蒙古文詞向量,應用于蒙古文命名實體識別,并得到了不錯的效果。但RNN語言模型也沒能兼顧語言的兩個主要特性:第一,語句內局部語法正確性和語句間長距離的語義連貫性;第二,獲得的詞向量具有聚義現象,將處于不同語境的詞匯多種語義綜合表示成一個向量,不能表達一詞多義。針對雙向長短時記憶網絡(bidirectional long short-term memory,BiLSTM)模型的輸入層中蒙古文詞素向量和字符級向量間存在信息表達能力不均衡的現象,熊玉竹[10]使用注意力機制動態組合兩種特征向量,增強模型輸入層的信息表達能力。朝汗[11]為了在BERT上學習到動態蒙古文詞向量,將傳統蒙古文轉換為西里爾文蒙古文作為模型輸入,但兩種語言的機器翻譯過程不能完全保留蒙古文語法結構,人工翻譯又需要消耗大量時間和精力。

通過對蒙古文詞向量訓練任務的相關工作進行分析,可以發現,近年來學出的蒙古文詞向量大都僅學出詞的表層特征,是一種靜態的表示方法,或沒有使用預訓練模型每次重新訓練詞向量以及通過翻譯語料實現動態的蒙古文詞向量。因此本文提出,利用少量的語料精調多語言BERT預訓練模型獲得動態的蒙古文詞向量表示,解決詞匯聚義問題。

2 基于BERT-CRF的蒙古文詞向量學習算法

BERT模型分詞器將不在詞匯表中的單詞分解為詞匯表中包含的盡可能大的子詞。例如,“embeddings”雖然不在詞匯表中,但沒有將它標記為未知詞匯,而是分解為四個子詞['em'、'##bed'、'##ding'、'##s'],這些子詞將保留原單詞的上下文含義。傳統蒙古文所有單詞都不在BERT的詞匯表中,需要將其轉換成拉丁蒙古文并重新融合這些子詞。為了使融合后的單詞更具有真實的語法、語義信息,并解決蒙古文沒有大量人工標注的數據問題,以標記子詞在單詞中的位置(詞首、詞中、詞尾、單個詞)作為下游任務訓練蒙古文詞向量。

2.1 模型

模型的整體結構如圖1所示。首先將BERT分詞器分解的子詞輸入到BERT模型中,經過深層次的上下文語義編碼,詞向量被映射成詞向量矩陣,然后利用CRF維特比算法解碼輸出標簽序列的概率,概率最大的標簽作為子詞的分類結果(子詞分為詞首、詞中、詞尾、獨立單詞)。模型的輸入如圖2所示,是由詞向量、句向量、位置向量3部分組成。

圖1 模型整體結構Fig.1 Overall structure of model

圖2 模型的輸入Fig.2 Input of model

2.1.1 BERT模型

BERT模型由12個雙向Transformer[12]編碼器組成,有768個隱藏層,其目的是融合詞向量兩側上下文的信息。為了感知模型在不同位置的注意力能力,采用多頭注意力模式[13],如公式(1)所示:

其中Q、K、V是輸入的子詞向量矩陣,將子詞向量矩陣輸入到注意力機制中得到不同位置的信息[13]。

由于Transformer編碼器舍棄了循環神經網絡的循環式網絡結構,所以無法捕捉序列信息,而序列信息又代表了全局的結構,因此采用序列信息的相對或絕對位置信息來計算序列信息[14],位置信息計算公式如下:

其中,p表示單詞在句子中的位置,取值從0到句子的最大長度,i表示詞向量的某一維度,dmodel表示每個子詞的位置維度,dmodel=512。每個單詞的位置信息僅和詞向量維度和位置有關。

2.1.2 CRF序列標注模塊

CRF常被用于詞性標注、分詞、命名實體識別等自然語言處理領域中[15],CRF層通過對預測標簽添加約束,利用已知標簽信息判斷當前的標簽,如子詞標簽“B”的下一個子詞對應的標簽應該是“M”或“E”。CRF還能在訓練過程中從數據集中學習到某些約束,比如子詞中第一個子詞的標簽應該是“B”或“S”。

CRF的輸入特征序列X=(x1,x2,…,xn),經過特征提取得到輸出矩陣Pn×k=(p1,p2,…,pn),其中n為詞的個數,k為標簽的個數,Pij表示第i個詞的第j個標簽的分數,對應的預測序列Y=(y1,y2,…,yn),定義它的評估函數公式如公式(4)所示[15]:

其中,Aij是i標簽轉移到j標簽的得分,整個序列的分值是各位置分值之和,每個位置的分值由兩部分組成,一部分是CRF的轉移分數矩陣A,另一部分是特征提取模塊的輸出矩陣P[15]。

CRF模型在做預測時,利用動態規劃算法中的維特比算法解碼輸出標簽序列概率,得到子詞的分類標簽結果,如公式(5)所示:

其中,Yr為真實標注數據序列,Y*是預測標簽,取所有預測標簽結果中的最大值。

2.2 融合方法

蒙古文單詞向量是通過融合子詞向量得到的,本文提出全子詞平均和取最后一子詞向量兩種融合方法。設蒙古文單詞向量為W=(w1,w2,…,wn),其中wi表示某個單詞的第i個子詞的向量。全子詞向量平均是,BERT分詞器進行單詞切分后,在學習蒙古文單詞時,求BERT同一編碼層一個單詞的所有子詞向量平均值作為整個單詞的詞向量值,如公式(6)所示。同樣,取最后子詞向量是求BERT分詞器切分單詞的同一編碼層中該單詞的所有子詞的最后一子詞向量作為整個單詞的向量值,如公式(7)所示。

3 實驗

實驗使用的操作系統是Centos7.5,預訓練模型是區分大小寫的多語言BERT(multilingual BERT,Multi-BERT),編程語言是python 3.6,實驗硬件環境配置如表1所示。

表1 硬件配置表Table 1 Hardware configuration table

3.1 實驗數據和數據標注

實驗使用的語料庫來自于內蒙古師范大學的蒙古文碩博論文的15萬句子,覆蓋的蒙古文單詞有14萬。蒙古文語料做了Unicode編碼,轉換成內蒙古大學拉丁轉寫形式。文學領域的句子有10萬,教育學領域的句子有5萬,按照8∶1∶1的比例劃分訓練集、驗證集和測試集,如表2所示。

表2 訓練語料Table 2 Training corpus

數據標注方式如表3所示,有機器輔助完成,以字母開頭的都是B或S,以#開頭且后一子詞以字母開頭都是E,其他都是M。但蒙古文進行分解后的子詞有“_”“-”“--”“$”等符號會干擾機器的判斷,如“VR_A”的子詞是['$','ATV','##N'],機器給的標注是['S','B','E']。

表3 數據標注Table 3 Data annotations

3.2 模型評價指標和詞向量質量度量指標

因模型的任務和命名實體識別任務較相似,故采用精確率(P)、召回率(R)、F值做評判指標,其中P、R和F值的計算如公式(8)、(9)、(10):

考慮到詞向量模型分布的差異性,采用比較嚴謹的方法衡量同義詞對(A-B)詞義相似度,設A和B的距離為s1、A和其他所有詞的平均距離為s2、B和其他詞的平均距離為s3,同義詞詞義計算公式如公式(11)所示,兩詞的距離用向量余弦相似度表示,如公式(12)所示。

此外,利用K-means聚類算法分析蒙古文詞向量分布情況。聚類是一個將某方面相似的數據進行分類組織的過程,能夠較好地表達內在結構。K-means是基于歐式距離的聚類算法,其認為兩個點的距離越近,相似度越大。

3.3 實驗結果與對比分析

3.3.1 模型

實驗采用的BERT-CRF模型對蒙古文子詞的標注準確率較高,F值為97.6%,說明該模型可以實現融合蒙古文子詞的任務。經過分析,標注錯誤的主要原因是:一是模型看到的樣本數據較少,對少量的獨立詞不敏感,如“$”詞有兩種標注情況“S”和“B”,標注為S時是一個獨立的符號,標注為B的時候是蒙古文字母“??”的拉丁轉寫,而訓練集中常用作是蒙古文字母;另一個是蒙古文連接符“--”和控制符“_”在同一個單詞中出現時偶爾不敏感,所以建議應用時做基于詞素的切分,即附加成分的切分。

3.3.2 蒙古文同義詞詞向量相似度對比

BERT模型對于每個子詞都有12層長度為768的向量,經過實驗發現倒數第一層和倒數第二層的詞向量具有競爭力。為體現提出融合方法的有效性,以最大子詞向量和首尾子詞向量平均作為對比實驗。比較蒙古文同義詞“?????????”(中文:競賽)和“?????????”(中文:比賽)的詞向量相似度,如表4所示,兩詞所在的語境為:?? ??????????? ?????????? ???????????? ??????????????????????????????????????????(中文:搏克競賽規則是搏克比賽中所必須遵循的規定和法則)。第二、第三例子的語境為:美術(?????????)教育和身心健康(?????????)教育對于學生的創造能力培養和心理培養有多方面的關聯。

表4的結果表明,無論是哪種融合方法,BERT模型倒數第一層學到的蒙古文同義詞的相似度都高于倒數第二層,并且倒數第一層的全子詞向量平均和取最后子詞向量兩種融合方法得到的同義詞詞向量相似度也高于取最大子詞向量和首尾子詞向量平均兩種融合方法。

表4 BERT模型不同層不同融合方法得到的同義詞詞向量相似度比較Table 4 Similarity comparison of synonym word embedding obtained by different fusion methods at different layers in BERT model

為了驗證本文學出的詞向量對詞義的有效解釋性和動態性,與Word2Vec模型學出的蒙古文詞向量作了對比實驗,如表5所示。

表5的結果顯示,通過BERT模型學出的同義詞相似度平均比Word2Vec模型高,尤其在詞根詞綴都不同但詞義相同的詞對上有較大的提升,如“????”和“???”。烏云塔那[16]等通過語義、語法檢測蒙古文詞向量的質量,他們提出動詞“????????”和“????????”有相同的詞根“???”,都表示“走”的不同形態,故有相似的概念,從表5的結果可以看出,本文方法學出的蒙古文詞向量符合這個邏輯。比較同義詞“?????”和“????”時,BERT學出的蒙古文詞向量質量和Word2Vec模型的不分上下,而比較同義詞“?????”和“?????”時,BERT模 型 學 出 的 詞 向 量 相 似 度 比Word2Vec提升1.89%。“?????”是一個多義詞,Word2Vec將多種語義綜合表示成一種靜態的詞向量,沒有將每種語義都表示到極致,而BERT模型根據不同的上下文學出了動態的詞向量,根據不同的語義學出了不同的詞向量。此外,還能解決蒙古文因一些多音詞,一種形式對應多種拼寫、發音等錯寫造成的問題。如“????”的拼寫是“OLAN”,但往往輸入者會寫成“VLAN”,而BERT模型學出的兩種拼寫的距離非常接近。

表5 不同模型學出的同義詞詞向量相似度對比Table 5 Comparison of embedding similarity of synonyms learned from different models

3.3.3 詞向量K-means聚類分析

通過詞頻統計選top100內的詞進行K-means聚類分析,如圖3、圖4所示,圖4中關鍵詞匯的對應中文如表6、表7所示。可以看出,BERT模型學出的詞向量相比Word2Vec有明顯的聚類效果,特別是在同領域的關鍵詞上如教育學領域詞“???? ???”“????????”“?????????”和文學領域詞“?????”“??????”“??? ?”等。圖4左側偏教育學領域詞、右側偏文學領域詞。

圖3 Word2Vec詞向量K-means聚類Fig.3 Word2Vec word embedding K-means clustering

圖4 BERT詞向量K-means聚類Fig.4 BERT word embedding K-means clustering

表6 圖4左側聚類對應文字翻譯Table 6 Fig.4 text translation corresponding to left clustering

表7 圖4右側聚類對應文字翻譯Table 7 Fig.4 text translation corresponding to right clustering

3.3.4 嵌入式主題詞挖掘

將訓練出的蒙古文詞向量應用到嵌入式主題模型中,在嵌入式主題模型的超參數設置中根據以往的經驗以及語料的規模大小,主題個數K取10、20、30、50、80,當K取50時困惑度為最低。如表8所示,主體個數K為50時,選取的部分主題,并列出每個主題高相似度的八個主題詞。從表中可以看出,每個主題下的主題詞有著語義上的密切聯系。

表8 主題-主題詞Table 8 Topic-topic words

4 結束語

本文針對現有的蒙古文詞向量學習模型是靜態的、無法解決詞匯聚義等問題,提出利用BERT-CRF模型學習上下文敏感的動態詞向量。首先,將拉丁蒙古文輸入到BERT模型得到子詞級的向量,然后通過CRF解碼得到最優序列標記,最后通過子詞融合的方式得到蒙古文單詞向量。實驗證明,僅用15萬蒙古文句子二次訓練BERT模型得到的蒙古文單詞,在向量空間中同義詞、多義詞的距離相比Word2Vec模型學出的詞向量更加接近。通過K-means聚類發現學出的蒙古文單詞有明顯的詞義聚類效果,在主題詞挖掘任務中獲取的主題詞有密切的關聯。在下一步的工作中繼續擴大語料規模學出更高質量的蒙古文詞向量,并從單語的自然語言處理任務遷移到跨語言的自然語言處理任務中,如在跨語言主題詞抽取、跨語言信息檢索等。

主站蜘蛛池模板: 无码中字出轨中文人妻中文中| 亚洲无码91视频| 国产亚洲精品在天天在线麻豆| 欧美69视频在线| 欧美日韩另类国产| 91亚洲国产视频| 国产激情国语对白普通话| 日韩小视频在线观看| 国产情侣一区| 五月天综合网亚洲综合天堂网| 久久青草精品一区二区三区| V一区无码内射国产| 日韩小视频在线播放| 国产网站免费观看| 成人无码一区二区三区视频在线观看 | 国产无码精品在线| 超碰精品无码一区二区| 亚洲综合在线最大成人| 国产免费看久久久| 亚洲aⅴ天堂| 天天做天天爱天天爽综合区| 免费中文字幕一级毛片| 国内精品久久人妻无码大片高| 成AV人片一区二区三区久久| av在线5g无码天天| 青青青国产免费线在| 国产精品原创不卡在线| 伊人成人在线| h网站在线播放| 国产精品所毛片视频| 久久综合色播五月男人的天堂| 又爽又黄又无遮挡网站| 日本成人精品视频| 久久黄色小视频| 欧美不卡视频在线观看| 精品无码日韩国产不卡av| 欧美a级在线| 亚洲精品大秀视频| 国产欧美日韩18| 老司国产精品视频| 91色综合综合热五月激情| 国产成人无码播放| 一级毛片高清| 98精品全国免费观看视频| 午夜色综合| 精品福利视频导航| 国产国产人在线成免费视频狼人色| 久青草免费在线视频| 日本亚洲成高清一区二区三区| 国产视频你懂得| 制服丝袜亚洲| 亚洲最新在线| 色网站在线免费观看| 亚洲日韩精品欧美中文字幕| 亚洲无码视频一区二区三区 | 青草视频在线观看国产| 无套av在线| 亚洲国产综合精品中文第一| 免费又黄又爽又猛大片午夜| 在线色国产| 黄网站欧美内射| 国产欧美成人不卡视频| 毛片免费在线视频| 日本免费新一区视频| 国产亚洲视频播放9000| 狠狠干综合| 亚洲永久免费网站| 精品视频免费在线| 日韩AV手机在线观看蜜芽| 动漫精品啪啪一区二区三区 | AV网站中文| 精品三级在线| 久久久久久国产精品mv| 国产鲁鲁视频在线观看| 欧美一区日韩一区中文字幕页| 国产不卡在线看| 国产九九精品视频| 三级国产在线观看| 欧美性色综合网| 欧美全免费aaaaaa特黄在线| 亚洲精品天堂在线观看| 国产毛片片精品天天看视频|