999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的相似語言短文本的語種識別方法

2020-03-11 12:51:00張琳琳楊雅婷陳沾衡潘一榮
計算機應用與軟件 2020年2期
關鍵詞:文本語言模型

張琳琳 楊雅婷 陳沾衡 潘一榮 李 毓

1(中國科學院新疆理化技術研究所 新疆 烏魯木齊 830011)2(中國科學院大學 北京 100049)3(新疆理化技術研究所新疆民族語音語言信息處理實驗室 新疆 烏魯木齊 830011)

0 引 言

隨著移動互聯網的普及和社交媒體的興起,跨國家的語言交流日益頻繁,導致多語言特別是相似語言共現的現象在網絡社交語境中頻繁出現。語種識別特別是相似語言的識別需求也愈加迫切。語種識別作為機器翻譯、跨語言檢索等眾多自然語言處理領域的基礎環節一直是研究熱點,學術界普遍將語種識別視為一種“基于某些特征進行文本分類”的特殊文本分類(text categorization)問題[1]。Cavnar等[2]提出了N-Gram詞頻排序的語種識別方法,基于該理論,Frank[3]設計了使用廣泛的語種識別工具Textcat,能對74種語言進行識別。Campbell等[5]采用支持向量機(Support Vector Machine,SVM)進一步提升語種識別的效果。

隨著語種識別的細分,針對短文本的識別也有很多。Vantanen等[6]利用N-Gram模型結合樸素貝葉斯分類器的方法對5至21個字符的短文本進行識別。Tromp等[7]同時采用文本中的詞本身的信息和詞與詞之間的信息,構造了一種基于N-Gram的圖結構模型來進行語種識別,有效提高短文本的識別效率。Lui等[8]獲取文本的N-Gram特征,以多項式樸素貝葉斯分類器構造了語種識別工具Langid。郝洺等[9]通過修改特征詞和共同詞的權重對基于N-Gram頻率的短文本語種識別方法進行了改進。

近年來,隨著神經網絡的重新興起,深度學習也開始應用在語種識別上,尤其在語音的語種識別方面已取得不錯效果。在文本處理方面,尤其對短文本分類已經有基于詞級和基于字符級的神經網絡文本分類的研究基礎。如Zhang等[10]利用基于字符的卷積神經網絡(Convolutional Neural Network,CNN)對短文本的識別已經達到不錯的效果。

由于社交媒體的興起,Carter等[11]結合用戶信息等對推特信息進行語種識別。在社交媒體中,常出現相似語言共現的現象,相似語言的語種識別也成為研究熱點。在VarDial 2016會議發布的區別相似語言(Discriminating between Similar Languages,DSL)的任務中,Malmasi等[12]用SVM和邏輯回歸等傳統機器學習方法在參與隊伍取得第一。Cianflone等[13]則用了基于N-Gram和神經網絡的兩種識別方法。之后,Marcelo等[14]在DSL2017上用基于詞的CNN模型實現相似語言的識別,Belinkov等[15]用基于字符的CNN模型在DSL2016上實現了整體83.0%的正確率。

文獻[16]研究表明,雖然語種識別整體研究成熟,但文本長度越短,語料越小,語種識別難度越大。同時,語言相似度越高,識別難度也越大。

本文提出了一種針對相似語言短文本的語種識別方法,以字符為輸入,構建包含CNN和長短期記憶(Long Short-Term Memory,LSTM)的神經網絡模型。此模型能同時獲取詞中的字符組合信息和詞與詞之間的信息,并且采用字符級輸入能解決大部分未登錄詞的問題。該方法在維吾爾語和哈薩克語、波斯語和達里語等相似語言上取得不錯的效果。

1 相關工作

1994年Cavnar等[2]提出的基于N-Gram語言模型的語種識別方法在400字以上長文本語料上能達到99.8%的準確率。但在社交媒體中更多的是150字以內的短文本,論壇、移動社交應用中的口語文本很多是在20詞以內,有效提高短文本的語種識別效果成為關注的焦點。同時,由于地域文化因素,往往地域相近地區所使用的語言也很相似,如在新疆地區維吾爾族和哈薩克族公共居住,所使用的維吾爾語和哈薩克語很相似,所以有識別相似語言的需求。

1.1 N-Gram語種識別模型

N-Gram是指一段給定的文本中包含N個最小分割單元的連續序列[17]。最小分割單元是根據具體應用需要而自定義的基本對,在語種識別時一般是字符、字或詞(針對漢語、日語等語言時一般是字,英語等語言一般是詞)等。

N-Gram就是N-1階馬爾可夫語言模型的表示。假設在一段隨機變量序列S1,S2,…,Sm中,如果序列中任何一個隨機變量Si發生的概率只與它前面的N-1個變量Si-1,Si-2,…,Si-n+1有關,即:

P(Si|S1,S2,…,Si-n+1)=P(Si|Si-1,Si-2,…,Si-n+1)

(1)

在語種識別中,需要統計每個N-Gram頻率作為詞頻。N-Gram模型把語料中連續的長度為N的字符或詞序列看作一個計算單元,其中第N個位置出現某個字符或詞的概率只與前面N-1個位置上的字符或詞有關。

基于N-Gram的語種識別方法的主要思想是Zipf定律[18]:在人類語言中,一個字或詞出現的次數與頻率表中它的排序成反比。

當以字符作為最小切割單元時,能夠獲得字符間組合信息,但無法獲得詞與詞之間的信息。反之在Cianflone等采用的N-Gram模型中[13],以詞作為最小切割單元,雖然可以獲得詞與詞之間的信息,但無法獲取詞中字符間的信息。N-Gram模型往往不能很好兼顧詞本身的信息和詞與詞之間的信息。同時,像在法語、維吾爾語中很多詞只是詞綴不同但詞根相同,如果是選擇詞作為分割單元,就無法識別這些相似的詞,從而會出現未登錄詞的問題。

1.2 神經網絡模型

語種識別發展一直受到文本分類研究的影響。近年神經網絡廣泛應用到文本分類。Kim等[19]用CNN網絡實現了對句子文本的有效分類。Zhang等[20]利用基于字符的CNN模型對不同文本進行分類,表明在不同數據集上基于字符的CNN網絡可以實現不錯的效果。Kim等[21]構建的基于字符的神經網絡語言模型很好地結合了字符信息和詞之間的信息。

同時在相似語言的識別中,研究人員嘗試了基于字符和基于詞級別的CNN神經網絡。Cianflone等[13]在DSL2016任務中應用基于字符的CNN結合雙向長短期記憶網絡可以達到87.5%的正確率。

但單純基于字符或基于詞級別的神經網絡在文本語種識別中一般不便于同時兼顧文本中詞本身的信息和詞與詞之間的信息。

2 模型設計

本文將文獻[12]構建的神經網絡語言模型進行改進并用于語種識別的分類模型。同樣以字符作為輸入,通過CNN、LSTM以及一個全連接層實現語種分類。CNN在字符級上對模型進行訓練后,可以獲得每個單詞的詞向量,該向量包含詞本身的信息。LSTM以上層的詞向量作為輸入,處理后能獲取詞與詞之間的信息。構建的模型如圖1所示。相較于傳統的模型,本模型的優勢在于一個神經網絡中兼顧了字符級和詞級的信息。

圖1 模型結構圖

2.1 字符級卷積神經網絡

與文獻[21]構建的基于字符的神經網絡語言模型一樣以字符向量作為輸入。首先,對文本中包含的所有字符進行字符向量封裝,生成一個字符向量表。字符表是一個以總字符數為列數的矩陣,每一列對應字符向量ci,維度是d。在輸入時,以每個詞中的字符向量輸入卷積神經網絡。假設單詞w是由n個字符[c1,c2,…,cn]組成,則詞w是一個n×d的矩陣。

在卷積層中,包含一組可學習的濾波器(filter)或內核(kernels),參數初始值可隨機設置。假設一個內核的寬度是k,個數是f,則內核是一個d×k的矩陣。按照CNN原理,詞w經過內核k卷積后,會生成一個f×(n-k+1)的矩陣,矩陣中位置為(fi,j)的點是由第i個內核與詞w中列向量[cj,cj+1,…,cj+k-1]對應位置數乘之和加上一個偏差bi得到。卷積完后再經過池化層,本模型中采用最大池化。對這個f×(n-k+1)的矩陣的每一行取最大值,就變成一個長度為f的向量。由于有不同寬度的內核,每個寬度f取值不同,得到的向量長度不同。最后將這些不同內核的向量拼接成一個向量。如圖1所示,第一組內核的寬度k取2,個數f取3,經過卷積和池化得到一個長度為3的向量。最后拼接得到一個長度為11的向量。

經過CNN每個詞都會得到一個向量。在文本分類領域,CNN展現了不錯的性能。由于語種識別很大程度上受到文本分類的影響,所以模型采用了CNN。本模型中每個詞以n×d矩陣為輸入,由于CNN局部感知的特性,能很好地提取詞本身的信息。內核在矩陣上滑動進行卷積的過程可以模擬成基于字符生成一個N-Gram單元,內核寬度k,類似于取k-Gram。所以本模型能很好地提取詞本身的信息。

2.2 循環神經網絡

循環神經網絡(Recurrent Neural Network,RNN)相比于CNN,它在處理序列問題方面有很好的優勢。比如基于時間序列:一段連續的語音序列,一段連續的文字序列等。由于RNN采用時序反向傳播算法,如果訓練文本的長度較長或者時序t較小,會出現長期依賴問題。而LSTM通過引入門控單元和線性連接,能解決RNN中出現的梯度消失問題。鑒于此,本模型在構建時選用了LSTM替代循環神經網絡。LSTM在時序t的輸入是Xt,ht-1是前計算單元的隱藏層的輸出,ct-1是前計算單元的歷史信息,輸出是ht和ct,而it、ft和ot分別對應t時的輸入門、遺忘門和輸出門,gt是實際加載當前單元的信息,ct是在t時更新后的信息。計算過程如下:

it=σ(WiXt+Uiht-1+bi)

(2)

ft=σ(WfXt+Ufht-1+bf)

(3)

ot=σ(WoXt+Uoht-1+bo)

(4)

gt=tanh(WgXt+Ught-1+bg)

(5)

ct=ft×ct-1+it×gt

(6)

ct=ot×tanh(ct)

(7)

式中:W、U是神經網絡的權重系數;b是偏移系數;σ和tanh都是神經元激活函數。在實驗時可以根據效果調整LSTM層數,如果是雙層LSTM,那么第二層的輸入it就是第一層的輸出ot。

模型中,前面CNN的輸出作為LSTM的輸入,由于每個詞經過CNN后都有一個對應的向量(可看作經過CNN可以生成對應詞的詞向量)。故LSTM實際上是以詞作為輸入,能很好地獲取句子中詞與詞之間的信息。

2.3 全連接層(分類模型)

在本模型中,考慮到語種識別相當于一種特殊的分類問題,所以LSTM層后接了一個全連接層。LSTM每個神經元的輸出將作為全連接層的輸入,全連接層可以把通過CNN和LSTM提取到的信息綜合起來。全連接層在神經網絡中相當于一個分類器,對之前的卷積層、池化層、激活函數、循環神經網絡的結果進行總結,再次進行類似于模板匹配的工作,抽象出神經元個數的特征存在的概率大小,得到各個特征,最終得到最后一層的神經元個數的特征。當然也可以認為是對于之前的卷積層和池化層,循環神經網絡之后得到的特征進行加權和。在神經網絡中加入全連接層,可以使得網絡的容錯性增加,同時加入全連接層帶來了計算量的增加,所以全連接層的輸出值被傳遞給下一層,最后采用邏輯回歸(softmax regression)進行分類:

(8)

式中:yi是上層的輸出;j是總的語種識別類別中任意一個類。

在本模型中類別由相似語言的語種個數決定。由于數據集選取的都是區分兩種相似語言,所以本模型在實驗中要解決的問題是二分類問題。

3 實驗設計和分析

3.1 實驗平臺

為了驗證該模型在相似語言短文本的語種識別效果,使用了兩個數據集對相應模型進行了對比實驗。第一個數據集是相似語言維吾爾語和哈薩克語語料,基線是N-Gram模型;第二個數據集是DSLCC v4.0中的兩組相似語言,基線是CNN文本分類模型。

3.2 維吾爾語和哈薩克語語料

本模型主要針對的是相似語言短文本的語種識別應用,所以要選擇相似語言的語料。相似度越高,識別難度越大,而且訓練語料越大效果越好,所以最好選擇活躍的相似語言。在新疆地區,維吾爾族和哈薩克族等少數民族聚居,在日常生活中經常發生兩種語言共現的情況。維吾爾語和哈薩克語都屬于阿爾泰語系,共用很多字符和詞,相似度高,且使用頻繁方便大量獲取。在新疆地區和同屬于阿爾泰語系的一帶一路沿線地區,實現基于維語和哈語的語種識別具有很大的現實意義。所以本文選取維語和哈語作為一組對照試驗語料。

通過網站爬取實驗語料,主要選擇兩種語料:新聞語料和論壇語料。新聞語料是規范文本,論壇語料則更接近口語文本。經過爬蟲在兩種語料中分別獲取了相對均衡的維語數據和哈語數據。其中,文本中的一個句子表示一個樣本。

爬取文本后,考慮到可能出現亂碼和錯誤的沒有含義的字符,統一對語料進行預處理,刪除了句子長度小于7個字符的樣本。

由于文本越短,識別準確率越低。在模型LSTM層實際是以句子中的詞作為輸入,LSTM長度也是以樣本中最長句子數為長度。本模型主要針對的是短文本,所以在語料預處理時刪除了長度大于20個詞的句子。考慮到文本長度的影響,對語料每個句子中的詞數做了統計,如圖2和圖3所示。

圖3 論壇語料句子詞數的箱型圖

圖2是新聞語料的句子詞數的箱型圖,可以看出新聞語料中75%的句子的詞數都不大于16,一半句子的詞數都不大于14。圖3是論壇語料的句子詞數的箱型圖,可以看出論壇語料中75%的句子的詞數都不大于12,一半句子的詞數都不大于8。整體上,新聞語料的句子長度大于論壇語料。從表1的實驗結果也可以看出句子較長的新聞語料識別準確率更高。

表1 在維吾爾語和哈薩克語語料上的實驗結果

語料預處理時,會將標點、數字這些無效的字符用空格字符代替。并且每個詞的開始結尾部分添加“#”字符向量標明字母開始結束位置。同理,每個句子的結尾添加“#”的詞向量標明句子結束。LSTM為定長,句子詞數不足時用空格詞向量補齊。

作為對比實驗,表1中的N-Gram模型是根據Langid原理,字符級的基于N-Gram語言模型和多項式貝葉斯分類器實現的語種識別模型。一般N-Gram語言模型中的N越大,結果越好,但訓練時間越長,系統消耗也越大,綜合效果與效率,在新聞語料中當N=7時準確率已經沒有明顯提升,在論壇語料中當N=5時準確率已經沒有明顯提升。為了保證準確率,選取較大的N時,N-Gram模型將比神經網絡模型消耗更多(包括計算空間和時間),且如果出現字符數小于N的未登錄詞時,傳統的N-Gram可能無法識別,但神經網絡模型卻不會有未登錄詞問題(類似N-Gram語言模型的平滑問題)。

從表1中可以看出,在維語和哈語的識別上,對新聞語料和論壇語料,本文模型相對于傳統的N-Gram模型準確率都有提高。且本文模型結構簡單,對語料無論句子長短都有效果,可用于短文本語種識別。

3.3 DSLCC v4.0語料

DSL2017是相似語言和方言自然語言處理會議(Proceedings of the Fourth Workshop on NLP for Similar Languages,Varieties and Dialects,VarDial 2017)公布的比賽任務,針對不同任務均提供了語料。DSL2017的語料包含6組相似語言或方言。提供的語料是新聞文本的小節選。DSLCC v4.0是DSL2017的語料。

鑒于本文模型主要是對相似語言的識別,所以沒有選取方言,選了印度尼西亞和馬來西亞語(Indonesian,Malay)、波斯和達里語(Persian,Dari)這兩組相似語言。由于這6組語言語料混合,所以需要通過標記挑選出實驗需要的兩組語料。

從DSLCC v4.0挑選出的兩組相似語言因為都是新聞語料,是規范文本,所有沒有刪除7字符以下可能的亂碼樣本,且這些語料都是短小的新聞節選。從圖4和圖5中也可以看出,句子詞數都不超過20,符合短文本的要求,故不需要刪除長樣本,其他處理和維哈語料相同。

圖4 印度尼西亞和馬來西亞語料詞數箱型圖

圖5 波斯語和達里語語料詞數箱型圖

對比實驗時,表2中的CNN模型是以Kim(2014)對句子分類的卷積神經網絡文本網絡[21]為原型的簡單復現模型。實驗結果表明:針對印度尼西亞和馬來西亞語(Indonesian,Malay)、波斯和達里語(Persian,Dari)這兩組相似語言,且語料較小時,相比于CNN模型,本文模型能得到更高的準確率。因此,本文模型在相似語言短文本的小語料上仍然有效。

表2 DSL語料上的實驗結果

3.4 實驗結果分析

不同語言在兩個數據集上的實驗結果表明:相比傳統的N-Gram語種識別方法和神經網絡方法,本文提出的方法對相似語言短文本的語種識別性能更好。由于本模型的最小粒度是字符,比基于詞級別的語種識別方法能更好地識別未登錄詞,而且模型對語料有一定依賴性,在大規模語料上效果更好。另外,LSTM采用定長的神經元處理句子,如果語料中樣本句子詞數很小,則利用空格補齊,在一定程度上會影響實驗性能。

4 結 語

本文針對相似語言短文本,提出了一種基于神經網絡的字符級語種識別方法。首先,利用CNN提取字符組合的特征信息,可以更好地處理未登錄詞,并生成每個詞的特征向量。然后,將生成的詞向量輸入到LSTM網絡中,即可獲得詞與詞之間的信息。最后,在兩組語料上進行實驗,結果表明本文方法可提升相似語言短文本的識別準確率。但由于神經網絡往往需要大規模語料保證效果,因此語料較大時訓練時間較長。下一步將考慮加入語言語法信息,從而進一步優化完善模型。

猜你喜歡
文本語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 尤物成AV人片在线观看| 国产免费一级精品视频| 免费黄色国产视频| 一区二区三区在线不卡免费| 亚洲永久视频| 日韩小视频网站hq| 免费无码一区二区| 欧美日韩国产在线人| 色欲不卡无码一区二区| 久久久国产精品免费视频| 亚洲看片网| www.99在线观看| 超碰色了色| AV不卡无码免费一区二区三区| 免费女人18毛片a级毛片视频| 国产打屁股免费区网站| 国产成人你懂的在线观看| 99在线小视频| 波多野结衣视频网站| 国产成人无码AV在线播放动漫| 国产在线97| 成人精品区| 国产微拍一区| 国产在线视频自拍| 亚洲伊人电影| 91久久偷偷做嫩草影院电| 丁香六月激情综合| 日韩人妻无码制服丝袜视频| 免费A∨中文乱码专区| a级毛片免费播放| 日韩精品一区二区三区大桥未久 | 国产91蝌蚪窝| 青青久视频| 亚洲国产综合精品一区| 欧美一区国产| 日本三级精品| 久久久波多野结衣av一区二区| 国外欧美一区另类中文字幕| 国产对白刺激真实精品91| 人妻丰满熟妇AV无码区| 日韩经典精品无码一区二区| 特级aaaaaaaaa毛片免费视频 | 丁香婷婷在线视频| 精品免费在线视频| 一级毛片不卡片免费观看| 激情乱人伦| 国产成人亚洲精品无码电影| 国产成人91精品| 国产精品三级av及在线观看| 九色免费视频| 欧美福利在线播放| 国产极品嫩模在线观看91| 国产黄色免费看| 中文字幕色站| 九九九九热精品视频| 日韩精品一区二区三区视频免费看| 一本大道东京热无码av| 国产一级无码不卡视频| 欧美特黄一级大黄录像| 久久午夜夜伦鲁鲁片无码免费| 久久精品这里只有精99品| 手机在线看片不卡中文字幕| 三上悠亚精品二区在线观看| 免费一级无码在线网站| 2018日日摸夜夜添狠狠躁| 国产视频只有无码精品| www精品久久| 人妻中文久热无码丝袜| 亚洲视频欧美不卡| 亚洲精品日产精品乱码不卡| 男女精品视频| 18禁色诱爆乳网站| 伊人久久综在合线亚洲91| 国产精品亚洲天堂| 国产无码精品在线播放| 无码精品国产VA在线观看DVD| 亚洲天堂久久| 久久国产乱子伦视频无卡顿| 国产亚洲精品va在线| 99在线观看免费视频| 99精品福利视频| 日韩人妻少妇一区二区|