999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于相關詞向量的彝文分詞模型研究

2023-04-13 11:39:54汪文濤
現代計算機 2023年3期
關鍵詞:特征模型

汪文濤

(西南民族大學電子信息學院,成都 610041)

0 引言

彝文自動分詞是使用統計學習、機器學習或深度學習的方法標注數據訓練模型,達到自動將彝文的句子切分成多個詞組成的序列。彝文分詞可以將彝文文本切分成自然語言處理的基本分析單位,盡管在其他下游任務中可以用字作為基本分析單位,但每個詞之間隱含的特征關系能夠幫助模型更好地收斂,為進一步開展彝文相關的自然語言應用,例如機器翻譯、文本分類、閱讀理解、情感分析等打下堅實基礎。

彝文和中文類似,沒有天然的分割符號,對中文分詞的研究也能給彝文分詞帶來啟發和理論基礎。早在上世紀80 年代就提出了基于詞表的分詞方法,其中劉源[1]介紹了正向最大匹配法,逆向最大匹配法等使用詞表來分詞的方法。Xue[2]使用最大熵算法,利用四位標注集進行分詞。Peng 等[3]構建線性鏈條件隨機場實現中文分詞。深度學習相關的模型能夠從數據中學習到深層次的特征關系,在數據集足夠的情況下在自然語言處理中也有更好的表現。Zheng等[4]首次將神經網絡應用于中文分詞中,并用感知機算法加速訓練過程。Chen 等[5-6]人提出了GRNN(gated recursive neural network)模型,并且首次將其應用在中文分詞上,測試性能與之前的傳統機器學習方法相同。Yao 等[7]提出了雙向LSTM 模型應用于中文分詞,進一步提高了分詞準確率。而彝文分詞研究也是沿著中文分詞的研究方向發展,主要是基于詞典的機械分詞方法,利用最大、最小匹配法[8]來實現分詞,或者是基于機器學習(隱馬爾可夫[9]或條件隨機場[10])方法來實現機器分詞。

本文主要在前人的研究基礎上將深度學習方法應用于彝文分詞上,使用BILSTM-CRF模型訓練,并且鑒于彝語資源較少無法充分提取特征的情況,充分利用詞典在原模型的基礎上加入相關詞向量特征,提高模型性能。

1 相關工作

1.1 LSTM網絡

長短期記憶(long short-term memory, LSTM)是在循環神經網絡(recurrent neural network,RNN)的基礎上對神經單元結構做出調整,而保留整個序列模型的框架。由于其神經元結構的特殊性能夠篩選出過去和未來時刻的有效信息,但由于LSTM 神經單元結構更加復雜并且仍然是序列模型,其訓練時間會變得更長。LSTM 的總體結果與RNN 類似,當前時刻的網絡與上一時刻的網絡之間是有關系的,如圖1 所示,y是LSTM的隱層輸出,x為LSTM的輸入,即每個字或詞。

圖1 LSTM結構

LSTM與RNN的區別是每一個神經網絡的單元結構不一樣,如圖2所示,它由三個不同的門和一個記憶細胞決定。其中記憶細胞具備選擇性記憶的功能,可以選擇記憶重要的信息,過濾掉噪聲信息,減輕記憶負擔。首先通過遺忘門f(t),它決定上一時刻狀態輸出ct-1中保留信息的多少;輸入門控制當前輸入的新信息更新到當前狀態中,充當過濾無效信息,保留有效信息的角色;輸出門則是確定神經單元中哪些部分可以輸出。通過一個LSTM 神經單元后既能考慮到之前的信息又能與當前的輸入信息結合,達到解決序列信息的長距離提取問題。

圖2 LSTM神經單元結構

LSTM單元工作流程的公式如下:

其中:σ表示sigmoid 激活函數;tanh 也是激活函數的一種;xt和ht分別表示當前時刻的輸入向量和輸出的隱藏層向量;W和b分別表示權重矩陣和偏置向量,下標表示它們對應的類別,例如Whi和Wxi表示輸入門中上一時刻隱藏層向量和當前時刻輸入向量的權重矩陣,bi則表示輸入門的偏置向量,?表示哈達瑪乘積,即矩陣對應元素相乘。ft,it,ot,ct分別表示當前時刻遺忘門、輸入門、輸出門和細胞狀態更新的輸出。

1.2 條件隨機場

LSTM 只能提取出輸入句子與輸出之間的特征關系,無法提取上一時刻輸出和當前時刻輸出之間的特征關系,而條件隨機場(CRF)正好能解決該問題,它是一類適合預測任務的判別模型,不僅能夠提取輸入的特征信息,而且在考慮之前時刻標簽的情況下對當前時刻結果進行預測。CRF結構如圖3所示,以分詞為例,當一個字對應的標簽為B時,那么下一個詞的標簽不太可能還為B,這一規律在CRF 中能夠得到體現。

圖3 CRF結構

給定觀察序列X,預測標簽序列的條件概率P(y|x)可以表示為

其中:W(x)為規范化因子,保證條件概率分布和為1;tk(yi-1,yi,x,i)為狀態轉移函數,表示上一時刻的標簽轉移到當前時刻對應標簽的概率;sl(yi,x,i)為特征轉移函數,表示序列中當前時刻的輸入轉移到對應標簽的概率。

1.3 BILSTM-CRF

BILSTM 是雙向LSTM,結構如圖4所示,前向傳播能夠獲取之前時刻的序列信息,而反向傳播能夠獲取未來時刻的序列信息,最后將兩個方向的輸出做拼接或對應元素求和就可以得到整個網絡的輸出。

圖4 BILSTM結構

BILSTM-CRF[11]模型就是將BILSTM 的隱藏層和CRF 模型結合在一起。該模型利用BILSTM很好地提取上下文的特征,再經由CRF 模型考慮標簽之間的關系。由1.2 小節可知,CRF 預測輸出是由狀態轉移函數和特征轉移函數決定,因此在BILSTM-CRF 模型中就用BILSTM 的隱層輸出來充當狀態函數,并且引入狀態轉移矩陣Aij和特征轉移矩陣Pij,其中Aij表示時序上從第i個狀態轉移到第j個狀態的概率,由BILSTM 的隱層輸出再接一個線性層得到;Pij是輸入轉移矩陣,是隨機初始化的。在給定輸入序列X的條件下,標注序列的預測輸出為

2 基于相關詞向量的BILSTM-CRF模型

BILSTM-CRF 能夠很好地考慮到字與標簽、標簽與標簽之間的關系,但是在低資源少數民族語言的分詞中很難構建出大規模分好詞的數據集,數據集的規模較小意味著模型沒辦法提取到足夠的特征,即沒有收斂。而彝文在不斷的發展和傳播中也構建出了許多彝漢對照大詞典,因此能夠收集到較大規模的彝漢對照詞表。在BILSTM-CRF訓練中加入每個字所在的相關詞向量能夠提高在句子中這個字所提取的特征關注。

相關詞向量是由輸入序列和詞典統計得到,如圖5 所示,對于輸入序列X=(x1,x2,…,xn),統計X在詞表中包含的所有詞,構建一個大小為M×N的矩陣Z,M為包含的詞數,N為序列長度,每一行由0 和1 構成,該詞在原序列中所在位置設為1,其余設為0。

圖5 相關詞向量

模型結構如圖6 所示,X為輸入序列,P為詞向量矩陣,相關詞矩陣Z通過transformer 后,每個相關詞的輸出向量與其包含字所對應的BILSTM 的輸出相加后作為CRF 模塊的輸入Pij,計算過程見式(9),其中xi為BILSTM 輸出矩陣的行向量,pk表示相關詞向量,然后再結合狀態轉移矩陣Aij通過CRF進行訓練。

圖6 加入詞向量的BISLTM-CRF

模型選好后還需要選擇合適的損失函數,BILSTM-CRF是由CRF模塊得到預測結果,因此在改進模型中仍然使用CRF 的損失函數,計算過程如式(10)所示,PRealPath是真實的句子標簽序列分數,Ptotal表示該序列所有可能結果的分數總和,訓練的目標就是要最小化損失函數。

3 實驗及結論

3.1 數據集獲取

由于目前互聯網上沒有彝文分詞的相關文本資源,本文數據是在網上查找彝文相關文獻,將彝文句子保存在電腦中,并由彝族同學人工標注,數據內容包括句子編號及分好詞的彝文,分好詞的彝文用空格隔開以便后續處理,共計標注了4005 條分好詞的數據用于訓練,表1 為標注彝文展示。

表1 標注彝文文本

3.2 數據處理

對原始數據進行處理首先需要去除數據中的無效字符、中文字符以及標點符號,然后再進行標注,如表1所示,標注時通過空格將句子分隔成多個詞組成的序列,因此可以將每個詞都提取出來,根據每個詞的長度將其標注為不同的符號,標注規則如表2所示。

表2 標注規則

3.3 實驗環境、數據集及評價指標

本次實驗所用模型全部使用GeForce RTX 2080Ti顯卡訓練,訓練時間縮短至3 個小時左右,實驗數據的80%為訓練集,20%為測試集,模型分別采用BILSTM-CRF 和基于詞向量的BILSTM-CRF 進行對比實驗,比較指標主要是精確度、召回率和F1值。

3.4 實驗設計及結果分析

實驗中模型的字嵌入維度設為256,BILSTM隱層維度設為512,dropout 設為0.2,epoch 設置為50,學習率設為0.0001,batch_size 設為20。表3為不同模型的預測結果對比,可以看出加入相關詞向量后的模型分詞效果得到明顯提升,可見對每個字所屬的詞向量特征進行訓練可以增加一些詞出現的概率。

表3 不同模型預測結果對比

4 結語

彝文分詞是一個需要不斷發展的方向,近年來對少數民族語言的研究越來越多,但在彝文方面的卻很少。本文將深度學習方法應用到彝文分詞上,構造了BILSTM-CRF模型,在此基礎上提出了基于相關詞向量的BILSTM-CRF 模型,實驗證明改進后的模型是有效的。本研究為彝文的后續研究做出了貢獻,為機器翻譯、自動摘要、文章理解等自然語言處理的應用研究有一定推動作用,未來隨著彝文數據量的增加,可以使用更深層次的網絡進一步提高模型性能。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 丰满少妇αⅴ无码区| 国产成人亚洲毛片| 成人午夜免费观看| 91福利免费视频| 欧美亚洲国产精品久久蜜芽| 特级毛片免费视频| 亚洲最大综合网| 动漫精品啪啪一区二区三区| 亚洲动漫h| 欧美一级高清免费a| 奇米影视狠狠精品7777| 亚洲欧美国产高清va在线播放| 日韩精品欧美国产在线| 97视频精品全国免费观看| 亚洲热线99精品视频| 亚洲成综合人影院在院播放| 久久精品人妻中文系列| 国产成人欧美| 国产理论最新国产精品视频| 毛片免费高清免费| 精品一区二区三区水蜜桃| 国产一级做美女做受视频| 日韩国产一区二区三区无码| 精品欧美一区二区三区久久久| 人人91人人澡人人妻人人爽| 一级成人欧美一区在线观看| 天堂岛国av无码免费无禁网站| 亚洲日本在线免费观看| a级免费视频| 成人亚洲天堂| 九九这里只有精品视频| 欧美日韩精品在线播放| 国产精品亚洲五月天高清| 国产99精品视频| a在线观看免费| 亚洲无码高清免费视频亚洲| 中文字幕久久亚洲一区| 日韩第九页| 精品视频在线一区| 91精品免费高清在线| 少妇极品熟妇人妻专区视频| 在线免费无码视频| av性天堂网| 国产资源免费观看| 美女被狂躁www在线观看| 国产男女免费完整版视频| 国产精品免费p区| 亚洲精品中文字幕无乱码| 亚洲综合天堂网| 国产jizzjizz视频| 国产综合在线观看视频| 好紧好深好大乳无码中文字幕| 国产色婷婷视频在线观看| 欧美成人精品在线| 中文字幕久久精品波多野结| 欧美一级在线| 亚洲欧美日韩精品专区| 久久免费观看视频| 男女男精品视频| 亚洲精品福利网站| 1769国产精品视频免费观看| a天堂视频在线| 免费久久一级欧美特大黄| 亚洲成a人在线观看| 欧美啪啪视频免码| 青青草原国产一区二区| 久久精品aⅴ无码中文字幕| 精品亚洲国产成人AV| 久久性妇女精品免费| 亚洲综合九九| 欧美精品1区2区| 国产精品无码制服丝袜| 国产男人天堂| 国产精品天干天干在线观看| 真实国产乱子伦视频 | 一级一毛片a级毛片| 午夜色综合| 亚洲人成网址| 伊人久久大香线蕉aⅴ色| 日本高清有码人妻| 久久香蕉国产线| 中国美女**毛片录像在线|