999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的朝鮮語詞性標注方法

2018-11-16 07:57:48金國哲崔榮一
中文信息學報 2018年10期
關鍵詞:方法模型

金國哲,崔榮一

(延邊大學 計算機科學與技術學院,吉林 延吉 133002)

0 引言

詞性標注是指為句子中的每個單詞標注一個正確詞性的過程。詞性標注是自然語言處理中的一項基本任務,是文本分類、機器翻譯等其他自然語言處理任務的基礎,同時在語音識別、信息檢索等領域起著重要的作用。目前,英漢等語種詞性標注研究比較成熟,而朝鮮語詞性標注則較為落后,需要結合朝鮮語的語言特性,做深入研究。

圖1 朝鮮語句子中的語節和形態素

表1 朝鮮語字母表

本文的主要工作有:

(1) 提出基于字母嵌入和seq2seq模型的朝鮮語形態素原形恢復方法。

(2) 基于LSTM-CRF[2]的朝鮮語音節單位詞性標注方法及形態素為單位的標注合并。

下文內容安排如下: 第1節介紹朝鮮語詞性標注相關的研究,第2節詳細描述朝鮮語詞性標注過程中的形態素原形恢復方法及基于LSTM-CRF的以音節為單位的詞性標注方法,第3節是實驗過程及實驗結果分析,第4節是結束語。

1 相關研究

常用的詞性標注方法有: 隱馬爾科夫模型、最大熵模型、條件隨機場模型等,而隨著近年來深度學習的流行,基于LSTM-CRF的模型在詞性標注任務中取得了良好的效果。朝鮮語詞性標注過程中同樣可以借鑒和使用這些模型。

朝鮮語詞性標注的研究分為兩類: 第一類直接應用形態素分析器再結合統計模型完成詞性標注,第二類則在詞性標注過程中間接完成形態素分析。

朝鮮語屬于黏著語,形態素之間的組合變化較多,若直接以語節為單位進行詞性標注,則容易引起數據不足的問題。采用第一類方法的學者認為,利用形態素分析器預先做好形態素分析有助于解決數據不足問題[3]。這些方法大都是基于概率的模型,例如,隱馬爾科夫模型[4]或最大熵模型[5]等。另外也有學者對上述兩種模型進行了改進,例如,Lee S等人[6]提出融合朝鮮語的多種語言特征,同時放寬隱馬爾科夫假設,以此解決訓練數據不足的問題。

反觀第二類方法,通常在詞性標注過程中,間接完成形態素分析。Han等人[7]提出將朝鮮語詞性標注任務分成三個階段: 語節為單位的形態素原形恢復;語節為單位的復合型詞性標注;利用規則從語節為單位的復合型詞性標注中獲取形態素詞性標注。其中第一步和第三步均采用詞典完成轉換工作。Shim等人[8-9]的方法同樣采用復合型詞性標注,但因為采用了更小的音節為單位的復合型標注,因此相比于Han的方法,復合型標注集較小,一定程度上解決了訓練數據不足的問題。Na等人[10]同樣采用了分三步進行詞性標注的方法: 利用CRF模型將語節分解成形態素,同樣利用CRF進行形態素單位的詞性標注,通過形態素原形恢復詞典獲得最終結果。本文提出的方法屬于第二類,同時借鑒了Shim等人提出的音節單位詞性標注方法。

2 朝鮮語詞性標注

2.1 朝鮮語詞性標注流程

首先將朝鮮語句子以語節為單位輸入到形態素原形轉換模塊(該模塊是利用同一個語料庫提前訓練好的模型),通過該模塊將句子中的每個語節轉換成對應的形態素原形,如圖2中的第1步所示。之后將第1步的結果句以音節為單位輸入到訓練好的LSTM-CRF模型中。由于LSTM-CRF模型訓練過程中針對無分寫的句子進行訓練,因此LSTM-CRF的輸出實際上包含兩類標注,其中一類是分寫標注,另一類是詞性標注。圖2中第2步的實際輸出如表2所示。

本文采用了標注集合{B,I}作為分寫標注,其中B表示一個語節的首音節,I代表語節中除首音節外的其他音節。

圖2 本文采用的朝鮮語詞性標注流程

音節分寫標注BIBIBIIII詞性標注dmdmncpovbvbepefsf

第3步將每個語節中(根據分寫標注B、I判定語節邊界)詞性標注相同的相鄰音節進行合并,輸出最終的詞性標注結果。

2.2 形態素原形轉換方法

通過“分析世宗21世紀語料庫”(人工標注過詞性)中的1 000萬條語節,我們發現了以下幾條規律。

(1) 將近19%的朝鮮語形態素在詞性標注過程中發生了變形(由句子中的寫法轉化成形態素原形)。

(2) 轉為原形的形態素長度大部分比實際寫法增加了1~3個音節單位。

基于以上分析,本文提出朝鮮語音節嵌入融入seq2seq模型的形態素原形轉換方法,如圖3所示。

圖3 形態素原形轉換模型

下一步通過音節查詢表Ls和字母查詢表LJ,將音節s和s對應的三個字母Jf、Jy、Js轉化成對應的音節嵌入向量和字母嵌入向量,計算過程如式(1)~式(4)所示。

其中音節嵌入es為d維實數向量,字母嵌入eJf,eJy,eJs均為k維實數向量。下一步通過向量拼接操作將向量es,eJf,eJy,eJs拼接成(公式中用;表示)長向量e,作為seq2seq中編碼器和解碼器Cell的輸入向量,計算如式(5)所示。

e=es;eJf;eJy;eJs,e∈d+3k

(5)

為了保持字母嵌入向量的位置信息,未采用向量加或取向量平均,取而代之的是拼接操作。用S=s1,s2,…,sm表示輸入序列(一個朝鮮語語節的音節序列),用Y=y1,y2,…,yn表示該語節的形態素原形序列。模型通過上述輸入向量的生成方法把S中的每個音節轉化成向量表示e1,e2,…,em,作為編碼器LSTM的輸入。每一個LSTM Cell的計算如式(6)所示。

ht=f(et,ht-1), ?t=1,…,m

(6)

其中f表示一個LSTM Cell的映射函數,通過當前輸入et和Cell的前一個狀態ht-1,輸出Cell的當前狀態ht。模型將最后一個狀態hm作為編碼器對輸入音節序列的編碼向量,傳遞給解碼器。

解碼過程在訓練和預測階段有所不同。訓練階段將正確的形態素原形序列右移一個單位,左側填充特殊符號(表示解碼過程的開始),以此序列作為解碼器的輸入。反觀預測階段,由于形態素原形序列需要從模型中通過預測獲取,因此將解碼器上一個Cell的輸出結果作為當前Cell的輸入。

訓練階段解碼過程如式(7)、式(8)所示。

(9)

2.3 基于LSTM-CRF的朝鮮語詞性標注方法

通過訓練好的形態素原形轉換模型,把原始朝鮮語句子轉化成形態素原形表示的句子,我們用X=〈x1,x2,…,xn〉表示這樣的一個朝鮮語句子,其中xi為代表第i個音節的索引值,Y=〈y1,y2,…,yn〉為一個句子的分寫—詞性標注序列。模型首先把X輸入到音節查詢表,通過查詢將每個音節xi轉化成固定長度的低維實數向量。訓練過程中將音節查詢表當作可訓練參數,進行動態更新。我們用LT(X)表示經過向量化的輸入句。

模型的最后一層通過CRF預測全局最優的分寫—詞性標注序列,計算如式(10)、式(11)所示。

基于LSTM-CRF的朝鮮語詞性及分寫標注模型如圖4所示。

3 實驗

3.1 實驗數據集

本文采用了“世宗21世紀詞性標注語料庫”,其中包括原始句文件和對應的詞性標注句文件,共計803 043條句對。

圖4 基于LSTM-CRF的朝鮮語詞性及分寫標注模型

針對形態素原形轉換模型的預處理:

(1) 利用原始語料庫的句子分寫信息,將86萬個句子拆分成1 000萬個左右的語節,用于形態素原形轉換模型。同時在標準的詞性標注句中加入分寫標注,用于訓練LSTM-CRF模型。

(2) 生成字典:按照字符頻率從高到低進行排序,取前6 000個字符作為字典,未出現在字典中的字符用代替。

(3) 索引化:根據字典將第一步中的字符序列轉化成對應字符的整型數字序列。另外,本文中涉及的RNN結構均采用dynamic RNN,因此訓練數據按照序列長度進行排序,生成各個batch后,再以batch為單位打亂batch間的順序。

(4) 將預處理的數據按照9∶1的比例分成訓練集和測試集。

實驗中采用的數據集結構如表3所示。

表3 數據集結構

3.2 實驗設置

實驗中采用了tensorflow1.2框架,并用NVIDIA的1070GPU進行了加速。

具體的模型參數配置如下:

(1) 形態素原形轉換模型:編碼器和解碼器均采用了4層LSTM疊加的縱向結構和動態RNN橫向結構,LSTM Cell的大小為256,batch size設置為128,學習率為0.001,采用了Adam優化算法,經過5個epoch的訓練最終得到朝鮮語形態素原形轉換器。

(2) 訓練LSTM-CRF模型:模型中雙向LSTM網絡的輸入是大小為(128×None×128)的張量,其中第一維代表batch size,第二維None(每個batch的長度都不同)表示LSTM網絡的步長(一個batch內序列長度均等于batch內最長序列的長度),第三維表示音節向量的大小。LSTM網絡的輸出部分將生成(128×None×256)的張量,其中256是前向和后向兩個LSTM的Cell拼接而成的向量大小。最后通過全連接及softmax函數得到(128×None×90)的張量,其中Wout大小為256×90,bout大小則是90。其中數字90的解釋如下:語料庫中的詞性標注集合共有45種,這些詞性集合與分寫標注集合(B,I兩種)組合形成90種輸出標注集合。

3.3 實驗結果及分析

首先,實驗中復現了Shim等人提出的基于音節的形態素原形恢復詞典的方法,并與本文提出的基于seq2seq的方法進行了對比實驗。另外,為了驗證朝鮮語字母向量的有效性,實現了兩種seq2seq模型:音節嵌入+seq2seq,音節嵌入+字母嵌入+seq2seq。表4中Psyllable為以音節為單位的原形恢復準確率,Peojeol為以語節為單位的形態素原形恢復準確率。

表4 形態素原形恢復準確率

從實驗結果中可以看到,相比于基于詞典的形態素原形方法,基于seq2seq模型方法將音節單位準確率提高了2~3個百分點,將語節單位準確率提高了3~4個百分點。同時,由于取得了較高的形態素恢復準確率,最大限度地降低了本階段誤差傳遞到詞性標注階段,進而影響詞性標注準確率的風險。

其次,在相同的“世宗21世紀詞性標注語料庫”條件下,實驗中復現了相關研究中的幾種典型的朝鮮語詞性標注方法,分別是Lee等人提出的基于隱馬爾科夫模型的方法、Han等人2004年提出的形態素原形詞典結合統計模型(利用馬爾科夫假設)的方法、Shim等人2013年提出的以音節為單位的CRF模型,本文提出的基于seq2seq模型的形態素原形轉換+基于LSTM-CRF的詞性標注方法。表5給出了各個模型的實驗結果。

表5 實驗結果

可以看到,本文提出的方法在音節級準確率、形態素級準確率、形態素級召回率以及F1值均高于其他現有的方法,其中F1值相比于現有最好的音節單位的CRF模型提高了1.72個百分點。與音節單位的CRF模型相比本文提出的方法在音節標注準確率上較為接近。然而本文中提出的基于seq2seq的形態素轉換方法提供了較高的形態素原形恢復準確率,因此在形態素級的詞性標注任務中由于形態素本身的原形錯誤導致的詞性標注錯誤極少,這也幫助我們提高了詞性標注準確率。

4 結束語

本文提出了一種新的朝鮮語詞性標注方法。該方法將朝鮮語詞性標注過程分為三步: 第一步利用seq2seq模型將朝鮮語形態素以語節為單位轉化成原形;第二步利用LSTM-CRF模型以句子為單位進行音節級詞性標注;第三步根據音節級分寫及詞性標注進行合并,得到最終的形態素級的詞性標注結果。相比于現有最好的音節單位的CRF模型,本文提出的方法將F1值提高了1.72個百分點。未來工作中我們希望嘗試最近較為流行的端到端的訓練模型,并進一步挖掘朝鮮語本身的語言特征,用于提高朝鮮語詞性標注的準確性。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 狠狠色丁香婷婷| 国产日产欧美精品| 欧美激情第一区| 国产精品久久久久无码网站| 91啦中文字幕| 亚洲丝袜中文字幕| 2021无码专区人妻系列日韩| 日韩欧美在线观看| 8090成人午夜精品| 五月婷婷激情四射| 五月婷婷中文字幕| 亚洲精品视频网| 中文字幕乱码中文乱码51精品| 亚洲中文精品人人永久免费| 亚洲青涩在线| 美女免费黄网站| 亚洲一级毛片在线播放| 性喷潮久久久久久久久| 99re在线免费视频| 伊人天堂网| 日日碰狠狠添天天爽| 亚洲精品无码不卡在线播放| 亚洲欧美日韩中文字幕一区二区三区| 91视频区| yy6080理论大片一级久久| 浮力影院国产第一页| 国产经典在线观看一区| www.精品国产| 一级爆乳无码av| 伊人AV天堂| 亚卅精品无码久久毛片乌克兰| 国产精品网曝门免费视频| 超清无码熟妇人妻AV在线绿巨人| 98超碰在线观看| 日本国产在线| 蜜臀AVWWW国产天堂| 久久成人免费| 免费国产福利| 免费在线看黄网址| 国产精品对白刺激| 福利国产微拍广场一区视频在线 | 亚洲精品爱草草视频在线| 国产欧美视频综合二区| 国产成人超碰无码| 亚洲中文字幕97久久精品少妇| 激情综合激情| 日本午夜三级| 成人av专区精品无码国产| 久久毛片网| 国产嫖妓91东北老熟女久久一| 91青青视频| www.99精品视频在线播放| 伊在人亞洲香蕉精品區| 国内嫩模私拍精品视频| 日韩欧美国产三级| 亚洲精品福利视频| 精品国产中文一级毛片在线看| 国产精品刺激对白在线| 亚洲精品无码不卡在线播放| 成人日韩精品| 一区二区三区国产精品视频| 99热这里只有精品国产99| 欧美h在线观看| 国产办公室秘书无码精品| 国产性猛交XXXX免费看| 亚洲天堂网2014| 欧美激情网址| 69综合网| 国产激爽爽爽大片在线观看| 亚洲欧美日韩动漫| 国产午夜无码专区喷水| 日韩最新中文字幕| 日韩色图在线观看| 欧洲极品无码一区二区三区| 亚洲性视频网站| 又大又硬又爽免费视频| 正在播放久久| 国产无码制服丝袜| 国产精品无码AV中文| 午夜毛片免费观看视频 | 国产精品手机视频| 国国产a国产片免费麻豆|