999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于結合詞典的CNN-BiGRU-CRF網絡中文分詞研究

2021-08-20 10:28:40郭振鵬張起貴
電子設計工程 2021年16期
關鍵詞:方法模型

郭振鵬,張起貴

(太原理工大學信息與計算機學院,山西晉中 030600)

中文是一種復雜的語言,中文文本中沒有自然可識別的分隔符,詞語間的劃分較為模糊,由此學者們掀起了中文分詞的研究熱潮。例如,文獻[1]提出了一種利用膨脹卷積神經網絡DCNN(Dilated Convolutional Neural Network)進行中文分詞的方法,解決了模型計算速度慢、輸入特征不豐富等問題。文獻[2]提出使用長短時記憶神經網絡(Long Short-Term Memory,LSTM)學習中文分詞的字符表示,使用CRF(Conditional Random Field)聯合解碼標簽的方法。文獻[3]提出了一種改進雙向LSTM-CRF 網絡的分詞方法,解決了原分詞模型在編碼過程的記憶壓縮問題。文獻[4]提出了改進卷積神經網絡CNN(Convolutional Neural Networks)的中文分詞模型,克服了過于依賴人工處理特征的缺點,簡化了模型結構,提高了分詞準確率。文獻[5]提出一種基于樣本遷移學習的中文分詞方法,增強了分詞模型的領域自適應能力。然而這些基于神經網絡的方法通常依賴于大量的標記句來訓練模型,對于訓練數據中稀缺或缺失的單詞,這些方法很難正確地分割出包含該單詞的句子。幸運的是,這些詞中有許多在現有的中文詞典中得到了很好的定義。因此,中文字典有可能提高基于神經網絡的中文分詞方法的性能,減少對標記數據[6]的依賴。

1 相關理論

1.1 字嵌入

在對文本進行處理時,字嵌入是較為關鍵的一步,通常采用將詞或字表示為分布式向量。如果采用One-hot 編碼,即將在該詞對應位置上記為數字1,其他位置上記為數字0,這會導致生成的詞向量過于稀疏,浪費不必要的內存,并且字詞的語義和句法信息也不能體現出來;隨后Google 提出一種高效率的詞向量訓練工具——Word2vec[7],它可以將句子中詞映射為低維度的實數向量,常常應用于神經網絡來進行分詞任務,常見的模型有CBOW (Continuous Bag-of-Words)和Skip-Gram。與CBOW 模型相比較,Skip-Gram 模型更適合處理大型語料庫。

1.2 GRU單元

GRU(Gated Recurrent Unit)單元[8]是LSTM 單元的一個變體,它改變了LSTM 的內部結構,將遺忘門和輸入門合并到更新門中,輸出門成為重置門,同時合并了細胞狀態與輸出狀態,使其拓撲結構更加簡單,具有內部計算復雜度較低、訓練時間短等優點,緩解了訓練誤差的梯度衰減和發散問題。GRU 單元的內部結構如圖1 所示。

圖1 GRU 單元的內部結構

在t時刻GRU 單元按以下方式更新:

其中,zt為t時刻的更新門,它決定著單元記憶當前信息和遺忘歷史信息的程度[9],表示當前時刻的候選激活值,ht-1表示前一隱藏節點的激活值,rt為t時刻的重置門,它決定是否放棄先前的ht-1。若重置門rt≈0,則表示模型可以舍去一部分與未來無關的信息,ht表示在t時刻的隱藏節點的激活值。

2 基于CNN-BiGRU-CRF的中文分詞模型

文中的CNN-BiGRU-CRF 模型由主要CNN、BiGRU 網絡和CRF 層組成,模型如圖2 所示。

圖2 CNN-BiGRU-CRF模型圖

2.1 CNN層

該文利用CNN 提取局部短語特征,其模型由以下幾部分組成。

1)輸入層。把嵌入層的輸出矩陣當作輸入,句子的第i個詞向量為xi∈Rk×d,其中k和d分別表示文本句子的長度及詞向量的維度。

2)卷積層。通過設置濾波器的大小提取輸入文本的局部特征,即對輸入層的矩陣C∈Rk×d進行卷積運算操作,卷積之后的特征可表示為:

其中,ci表示為第i個局部特征值。m是卷積核的尺寸大小,b和w分別為卷積核的偏置和權重,xi:i+m-1表示從第i個詞到第i+m-1 個詞組成的句子向量,?表示激活函數。

3)池化層。對卷積層操作后的句子局部特征進行采樣,可以得到局部值的最優解Hi,池化方法有兩種方法,一種是平均池化,另一種是最大池化。

4)全連接層和輸出層。將池化層后的向量Hi通過全連接層連接成特征矩陣T=[H1,H2,…,Hn],該特征向量經過最后輸出層得到對應類別的概率序列。

2.2 BiGRU(Bidirectional GRU)網絡層

當對文本中的一些句子進行分詞時,如“天晴了”、“天氣真好”、“天天都要加班”等,對于單向的GRU 網絡,只能將上述的例句,切分為一樣的結果,為了避免此缺點并獲得正確的分割結果,因此利用BiGRU 網絡[10]來捕獲未來和過去的文本信息,即使用一個GRU 神經網絡來計算過去的信息,并同時使用另一個相同且方向相反的GRU 來計算未來的信息[11]。BiGRU 網絡結構如圖3 所示。

圖3 BiGRU 網絡結構圖

在雙向GRU 網絡中,設前向GRU(表示未來信息的網絡)的隱藏狀態為,后向GRU(表示過去信息的網絡)的隱藏狀態為,BiGRU 輸出的隱藏狀態為ht。具體的計算公式如下;

其中,wt、ut分別表示前向、后向隱層狀態的權值矩陣;xt為t時刻的GRU 輸入;bt為偏置向量。

2.3 CRF層

條件隨機域(CRF)[12]是近年來自然語言處理領域中比較流行的算法之一,是一種條件概率模型,可用于求解序列概率最大化的條件。

設BiRGU 神經網絡層處理后的序列為M={M1,M2,M3,M4,…,Mn},其中Mi為第i個輸入字符向量。設標簽序列為Y={Y1,Y2,Y3,…,Yn}。其中Y(M)為M的可能標記序列集,定義的CRF模型[13]條件概率P(Y|M)為:

其中,N為訓練的標記句數,Yi為第i個句子的真實標簽序列。

3 融合字典信息的方法

3.1 偽標記數據生成

將字典信息融合到神經網絡模型訓練的一種方法是基于偽標記數據的生成。更具體地說,給定一本中文字典,里面有一串中文單詞,隨機抽取其中的K個詞,用它們組成一個偽句子。例如,假設有3 個詞“流行”、“目前”和“深度學習”被取樣,然后可以生成一個偽句子“很火最近人工智能”,由于這些單詞的綁定表已經知道,因此可以自動推斷生成的偽語句的標記序列。例如,在BMES 標簽方案下,上述偽語句的標簽序列為“B/E/B/E/B/M/M/E”。然后重復此過程,直到生成Np個偽標記句子,把這些偽標記的句子添加到標記的數據集中,增強了網絡模型的訓練。

由于偽標記的句子可能與人工標注的句子具有不同的信息量,分別對這兩種訓練數據的損失賦予不同的權重,最終損失函數表示為:

3.2 多任務學習

基于多任務學習將字典信息合并到神經網絡分詞模型訓練中,在原基礎上增加了一項新任務,即詞的分類,這意味著分類序列的中文字符是否可以是一個中文詞語。例如,一個字符序列“深度學習”可以被歸類為是一個正確的詞,而“深度學昕”會被歸類為一種錯誤類型組合,即不是一個正確的詞。這些陽性樣本是從一本中文字典中獲得的,陰性樣本是通過從詞典中隨機抽取一個詞來獲得的,然后這個詞中的每個字符將被以一個概率為p的字符重新隨機放置。多次重復此步驟,直到獲得預定數目的陰性樣本,采用一種神經方法來進行單詞分類任務,它的架構與神經網絡CNN-CRF 架構[14]類似,只是將CRF 層替換為max-pooling 層和sigmoid 層來進行二元分類。單詞分類任務的丟失函數表示為:

其中,Nw為分類訓練樣本的數目,Si為第i個樣本的預測得分,yi為詞的分類標簽值(其中yi為1 代表正確,yi為-1 代表錯誤)。

在多任務學習的驅動下,提出了一個統一的框架來聯合訓練中文分詞與詞分類的多任務模型,如圖4所示。

圖4 基于多任務學習的模型圖

在上述的框架中,神經網絡分詞模型和詞分類模型具有相同的嵌入層和CNN 層。這樣,這兩個層次可以通過與詞分類任務的聯合訓練,更好地捕捉漢語詞典中的詞信息,從而提高漢語詞典的性能。在模型訓練中,分別為這兩個任務的損失設定不同的權重,最終的損失函數為:

其中,系數λ2取值范圍為(0,1)。

3.3 方法的融合

上述介紹了兩種將字典信息引入神經網絡訓練的方法,一種方法是基于偽標記數據生成,另一種方法是基于多任務學習。這兩種方法利用詞典信息的方式不同,可以結合起來更好地利用詞典知識。最終的損失函數為:

4 實 驗

4.1 實驗環境及實驗數據

該文實驗的硬件平臺:Intel(R)core(TM)i5-4210 CPU@2.4GHz,CPU卡為NVIDIA GeForce GTX 1080ti;內存為8G,操作系統為Ubantu 14.04;軟件參數為Python3.6,使用Tensorflow 1.12 和Kears 2.2.4 構建神經網絡分詞模型。

該文實驗采用數據集分別是MSRA corpus 和PKU corpus,通常在MSRA 和PKU 中隨機選取90%作為訓練集,10%作為測試集。為了公正地評估模型的分詞性能,實驗采用了SIGHAN 規定的標準評估指標,其評價指標有準確率P,召回率R以及F1值。

4.2 實驗超參數設置

在CNN-BiGRU-CRF 模型中,字符嵌入是利用Word2vec 在搜狗新聞語料庫上預先訓練獲得的,實驗中使用字典是中文搜狗字典,字嵌入向量維度設為200,最大句子長度設為40,在CNN層使用了600個過濾器,內核大小為3,采用Adam 優化算法作為神經網路的訓練算法,初始的學習率設為0.01,隱藏層節點數設為128 個單元,dropout 率設為0.3,將每個實驗重復5 次,并輸出平均結果。

4.3 實驗結果與分析

實驗一結果如表1 所示,與Bi-LSTM-CRF 模型進行對比,Bi-GRU-CRF 神經網絡模型在MSRA 和PKU 語料庫中的平均迭代時間分別減少了12.6%、14.6%。與CNN-BiLSTM-CRF 模型相比,CNNBiGRU-CRF 模型在MSRA 和PKU 語料庫中的平均迭代時間分別減少了11.6%,12.4%,由此可以表明,GRU 模型在訓練時間方面明顯優于LSTM 模型,故采用GRU 來代替LSTM 不僅可降低訓練模型的復雜度,而且可以進一步提高分詞算法的效率。

表1 模型訓練的平均時間(單位:s/epoch)

實驗二分別以LSTM-CRF、CNN-CRF、CNNBiGRU-CRF 網絡模型在數據集MSRA 和PKU 上進行實驗。實驗結果分別如表2 和表3 所示,在上述的3 種分詞模型對漢語分詞任務的準確率都達到了90%以上,其中LSTM-CRF 和CNN-CRF 模型的分詞效果相對較差,與CNN-BiGRU-CRF 模型相比,在MSRA 和PKU 兩個數據集中,后者模型的F1 值比LSTM-CRF 模型的F1 值分別高2.4%、4.1%,比CNNCRF 模型的F1 值分別高1.6%、2.8%,說明雙向的神經網絡模型能夠克服單向網絡在關聯上下文信息方面的局限性,進而實現更加精準的分詞。

表2 模型在MSRA數據集上的分詞性能

表3 模型在PKU數據集上的分詞性能

實驗三將字典信息有效地加入到CNN-BiGRUCRF 神經模型中,從而達到更好的分詞效果,將該文提出的方法與最近其他的先進分詞方法在MSRA 和PKU 數據集上的P,R,F1 等性能上進行了比較,其結果如表4 所示。其中Method I 和Method II 分別是采用偽標記數據生成方法和多任務學習方法將字典信息加入到CNN-BiGRU-CRF 神經模型中,Method I+Method II 是將兩種方法融合將字典信息加入其神經網絡中;由表4 可以看出,該文提出的Method I+Method II 方法在MSRA 和PKU 數據集上的整體性能優于其他先進分詞方法,在MSRA 數據集上的P,R和F1 的值分別達到了97.8%,97.2%,97.5%;在PKU 數據集上的P,R和F1 的值分別達到了97.6%,97.3%,97.4%;其整體分詞性能優于未利用字典信息的CNN-BiGRU-CRF 模型,與文獻[1]提出模型相比較,其F1 值在MSRA 和PKU 數據集上分別提高了1.14%、1.35%,并且Method I+Method II 方法的F1 值高于單獨使用Method I 和Method II 方法的F1 值,說明將偽標記數據生成方法和多任務學習方法進行融合可以更有效地利用詞典的信息,可以進一步提高分詞的準確率。

表4 與最近其他先進分詞方法在MSRA和PKU數據集上的分詞性能比較

實驗四隨機取MSRA 10%的訓練數據和PKU 25%的訓練數據,來驗證偽句子數量和人工標記句子數量對實驗的影響。如圖5 所示,這兩個比率的趨勢是相同的,隨著偽句子數量的增加,F1 值先提高后降低。這是因為當生成的偽句子數量很少的時候,字典信息并沒有得到充分的利用,隨著偽數據數量的增加,該方法可以更好地利用字典知識。當偽標記數據過多時,模型會過度放大偽標記數據信息,而忽略了人工標記生成的數據,從而導致性能下降,因此適度大小的偽標記數據是最好的。

圖5 偽標記數據大小對實驗的影響

在多任務學習方法中,隨機生成中文序列作為單詞分類任務的樣本,分詞任務的性能可能會受到隨機生成樣本數量的影響。圖6 顯示了多任務學習方法的性能隨所構造的詞分類樣本數量與字典大小之比的變化。當分類樣本個數較小時,分類性能隨樣本個數的增加而提高,而當樣本數量過大時,性能會變差,原因類似于偽標記數據方法,隨著分類樣本個數的增加,該方法逐漸將字典知識融入到分詞模型中,而當分類樣本過多時,模型可能會過分強調分類任務而忽略分詞任務。因此,適當數量的單詞分類樣本最適合該方法。

圖6 詞分類樣本大小對實驗的影響

5 結束語

該文提出了一種結合字典信息的CNN-BiGRUCRF 網絡的分詞模型,利用字典信息的一種方法是基于偽標注的數據生成,從中文字典中隨機抽取詞來構成偽標記句子;另一種是基于多任務學習,在這種方法中引入了另一項任務,即中文詞類分類,根據漢字是否能構成一個詞,對漢字序列進行分類),并通過共享神經網絡的參數與CNN-BiGRU-CRF 網絡模型共同訓練該任務。實驗結果表明,使用GRU 代替了傳統LSTM,可降低了模型復雜程度,提高分詞模型訓練的效率,使用將偽標記數據生成和多任務學習方法進行融合可以更好利用字典信息,克服了需要大量帶標記的句子進行模型訓練,并提高了模型分詞的準確率。雖然偽標記數據的生成方法是有效的,但是生成偽標記數據的方法非常簡單,可能會給分詞模型帶來一些噪聲,因此需要探索更精確的方式來構造偽數據,以便在特征中更高效地利用字典信息。

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 九色免费视频| 亚洲欧洲自拍拍偷午夜色| hezyo加勒比一区二区三区| 亚洲色大成网站www国产| 伊人激情综合| 亚洲三级电影在线播放| 国产黄色视频综合| 99这里只有精品免费视频| 香蕉网久久| www.av男人.com| 国产精品久久久久久久久kt| 精品国产欧美精品v| 国产精品太粉嫩高中在线观看| 一级毛片在线播放免费| 国产精品爽爽va在线无码观看| 丰满人妻被猛烈进入无码| 日韩AV手机在线观看蜜芽| 尤物特级无码毛片免费| 无码精品一区二区久久久| 欧美一区中文字幕| 找国产毛片看| 欧洲av毛片| 一级一级一片免费| 午夜综合网| 精品人妻AV区| 国产乱人伦精品一区二区| 亚洲女同欧美在线| 国产69精品久久久久孕妇大杂乱 | 国产精品冒白浆免费视频| 色综合手机在线| a免费毛片在线播放| 亚洲成人免费看| 国产在线视频自拍| 男女男精品视频| 日韩精品一区二区三区视频免费看| 成年片色大黄全免费网站久久| 71pao成人国产永久免费视频| 国产在线观看第二页| 婷婷综合缴情亚洲五月伊| 日韩视频免费| 国产在线一二三区| 成人永久免费A∨一级在线播放| 国产综合精品日本亚洲777| 99视频在线精品免费观看6| 一级福利视频| 欧亚日韩Av| 中文天堂在线视频| 无遮挡国产高潮视频免费观看| 中文字幕va| 日韩欧美中文在线| 国产精品刺激对白在线| 久久婷婷国产综合尤物精品| 456亚洲人成高清在线| 在线观看亚洲国产| 五月综合色婷婷| 国产精品综合色区在线观看| 久久国产av麻豆| 国产精品永久免费嫩草研究院| 漂亮人妻被中出中文字幕久久| 国产乱人伦精品一区二区| 亚洲视频a| 高清无码一本到东京热| 在线欧美一区| 成人午夜视频网站| 亚洲福利一区二区三区| 国产成人91精品| 日韩a级片视频| 久久天天躁狠狠躁夜夜躁| 色综合中文| 亚洲欧洲一区二区三区| 国产成人三级| 亚洲一级色| 中文字幕佐山爱一区二区免费| 婷婷亚洲最大| 91无码国产视频| 国产成人在线小视频| 久久午夜影院| 国产天天色| 国产精品免费电影| 高清视频一区| 国产一区自拍视频| 欧美激情视频一区二区三区免费|