999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BI_LSTM_CRF神經網絡的序列標注中文分詞方法

2019-01-10 01:48:14姚茂建李晗靜呂會華姚登峰
現代電子技術 2019年1期
關鍵詞:方法模型

姚茂建 李晗靜 呂會華 姚登峰

關鍵詞: 自然語言處理; 中文分詞; 神經網絡; 雙向長短時記憶條件隨機場; 字嵌入; 序列標注

中圖分類號: TN711?34; TP391.1 ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)01?0095?05

Abstract: The mainstream Chinese word segmentation method based on supervised learning algorithm requires a lot of corpora labeled manually, and the extracted local feature has sparse problem. Therefore, a bidirectional long short?term memory conditional random field (BI_LSTM_CRF) model is proposed, which can automatically learn the text features, and model the text context dependent information. The tag information before and after sentence character is considered in CRF layer, and the text information is deduced. The word segmentation model has achieved perfect word segmentation results on datasets of MSRA, PKU and CTB 6.0, and the experiment for the model is carried out with news data, MicroBlog data, automobile forum data and restaurant review data. The experimental results show that the BI_LSTM_CRF model has high word segmentation performance in testing set, and strong generalization ability in cross?domain data testing.

Keywords: natural language processing; Chinese word segmentation; neural network; bidirectional long short?term memory random field; word embedding; sequence labeling

0 ?引 ?言

中文分詞是中文自然語言處理必需的過程,是進一步進行詞性標注、機器翻譯、信息檢索的基礎。分詞效果直接影響著中文自然語言任務結果的好壞,所以中文分詞具有重要意義。然而中文是一種復雜的語言,存在一詞多意、未登錄詞、語句歧義現象,只有結合上下文信息才能有效地進行分詞。近些年,中文分詞研究取得了持續發展。中文分詞常用的方法可以分為以下幾大類:基于規則和字典的方法、基于統計的方法、基于神經網絡的方法。

基于規則和字典的方法主要思想是建立一個充分大的詞典,按照一定的算法策略將待分詞的字符序列與詞典中收錄的詞條進行匹配,若在詞典中存在,則匹配成功,完成分詞[1]。但其對詞典依賴性很強,對歧義和未登錄詞識別效果不佳等問題?;诮y計的方法是基于訓練語料庫來學習任意字符相鄰出現的概率,得到分詞模型,通過計算字符序列切分最大概率作為分詞結果[2]。該方法需要人工定義和提取特征,其性能也受到訓練語料、特征設定的影響,存在特征過多、模型復雜、容易過擬合的問題。隨著深度學習的快速發展,近年來神經網絡算法被廣泛用于自然語言處理任務中。由于神經網絡可以從原始數據中自主學習特征,不僅替代了人工提取特征的工作量,同時也避免了人為特征設定的局限性。

為了提高中文分詞的性能,應用BI_LSTM_CRF神經網絡處理中文分詞任務,使用BI_LSTM_CRF網絡構造更具表征的字符信息,本文系統性地比較了4字詞位標注與6字詞位標注方法在測試集上的測試結果,實驗結果表明采用6字詞位標注的方法能更好地表征詞語中的詞位信息,并且性能更加優越。使用6字詞位標注方法的神經網絡分詞模型分別在新聞數據、微博數據、汽車論壇數據、餐飲點評數據進行了測試,實驗結果顯示,BI_LSTM_CRF神經網絡分詞模型在跨領域數據測試上也有很好的泛化能力。

1 ?神經網絡模型在自然語言處理領域中的應用

長短時記憶(Long Short?term Memory,LSTM)網絡是遞歸神經網絡(Recurrent Neural Network,RNN)的一種變種,在很多任務上表現的比RNN更好,可以學習長期依賴信息。1997年,Schuster等人在LSTM網絡模型基礎上提出了雙向長短時記憶(Bidirectional Recurrent Neural Networks,BI_RNN)模型,由于是雙向輸入,在記憶長時信息方面比LSTM更具有優勢。以上述神經網絡為基礎的模型在處理與時間相關的序列任務中取得了很大的成功,通常模型都能對長短時依賴信息進行表達。

文獻[3]對神經網絡建立概率語言模型,該方法對n?gram模型有顯著的改進,并且利用了較長的上下文信息。文獻[4]使用神經網絡結構處理中文自然語言任務,描述了一種感知器訓練神經網絡的替代算法,以加速整個訓練過程。文獻[5]將LSTM網絡模型應用于中文分詞中,以解決上下文長距離依賴關系,并取得了不錯的分詞效果。2016年,Yao等人提出采用BI_LSTM網絡模型處理中文分詞,該模型將過去和未來上下文中文信息都考慮進去,中文分詞效果得到了提高。2017年,李雪蓮等針對LSTM神經網絡模型復雜、訓練時間長等問題,提出基于GRU(Gate Recurrent Unit)模型,使得模型訓練更加簡化并且取得了與LSTM模型相當的分詞效果。

4 ?結 ?論

本文主要研究了BI_LSTM_CRF神經網絡來實現中文分詞,實驗中不僅使用MSRA,PKU,CTB 6.0數據集做了測試,比較了4詞位標注與6詞位標注模型的表現性能,實驗結果顯示6詞位標注模型表現出了更好的分詞性能。同時,采用6詞位標注的模型對新聞數據、微博數據、汽車論壇數據、餐飲點評數據不同領域進行了測試,結果表明6詞位標注的模型在跨領域中文分詞也具有良好的性能,說明模型具有很好的泛化能力。

注:本文通訊作者為李晗靜。

參考文獻

[1] WU A. Word segmentation in sentence analysis [C]// Procee?dings of 1998 International Conference on Chinese Information Processing. Beijing: Chinese Information Society, 1998: 1?10.

[2] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2001: 282?289.

[3] BENGIO Y, VINCENT P, JANVIN C. A neural probabilistic language model [J]. Journal of machine learning research, 2003, 3(6): 1137?1155.

[4] ZHENG X, CHEN H, XU T. Deep learning for Chinese word segmentation and POS tagging [C]// 2013 Conference on Empirical Methods in Natural Language Processing. Seattle: Association for Computational Linguistics, 2013: 647?657.

[5] CHEN X, QIU X, ZHU C, et al. Long short?term memory neural networks for Chinese word segmentation [C]// 2015 Confe?rence on Empirical Methods in Natural Language Processing. [S.l.: s.n.], 2015: 1197?1206.

[6] GRAVES A. Long short?term memory [M]// Anon. Supervised sequence labelling with recurrent neural networks. Berlin: Springer, 2012: 37?45.

[7] ZHAO H, HUANG C N, LI M, et al. An improved Chinese word segmentation system with conditional random field [C]// Proceedings of the Fifth Sighan Workshop on Chinese Language Processing. [S.l.: s.n.], 2006: 162?165.

[8] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2013?09?07]. http://www.surdeanu.info/mihai/teaching/ista555?spring15/readings/mikolov2013.pdf.

[9] LAI S, LIU K, HE S, et al. How to generate a good word embedding [J]. IEEE intelligent systems, 2016, 31(6): 5?14.

[10] YAO Y, HUANG Z. Bi?directional LSTM recurrent neural network for Chinese word segmentation [C]// 2016 International Conference on Neural Information Processing. Berlin: Springer, 2016: 345?353.

[11] STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions [C]// Proceedings of 2017 Conference on Empirical Methods in Natural Language Processing. [S.l.: s.n.], 2017: 2664?2669.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 日本精品αv中文字幕| 婷婷六月天激情| 国产地址二永久伊甸园| 日韩欧美国产精品| 国产极品美女在线| 99视频免费观看| 欧美一区二区啪啪| 国产精品区视频中文字幕| 啊嗯不日本网站| 亚洲国产精品一区二区第一页免 | 亚洲无线国产观看| 色哟哟精品无码网站在线播放视频| 亚洲国产一区在线观看| 亚洲三级视频在线观看| 91av成人日本不卡三区| 国产香蕉国产精品偷在线观看| 国产一级特黄aa级特黄裸毛片 | 99热这里只有精品免费| jizz在线观看| 99久久精品国产自免费| 国模视频一区二区| 欧美一级高清片久久99| 2020最新国产精品视频| 中文天堂在线视频| 国产网站在线看| 99免费视频观看| 精品剧情v国产在线观看| 黄色三级毛片网站| 国内精自线i品一区202| 国产在线第二页| 国产乱人伦精品一区二区| 国产在线精彩视频二区| 国产91无码福利在线| 欧美区一区二区三| 青青青国产精品国产精品美女| 欧美激情第一区| 蝴蝶伊人久久中文娱乐网| 国产精品视频猛进猛出| 狠狠色丁婷婷综合久久| 精品一区二区三区水蜜桃| 久久久久久高潮白浆| 91av成人日本不卡三区| 国产高潮流白浆视频| 久久网综合| 亚洲swag精品自拍一区| 无码又爽又刺激的高潮视频| 22sihu国产精品视频影视资讯| 精品午夜国产福利观看| 国产成人久视频免费| 一本久道热中字伊人| 日韩性网站| 尤物精品视频一区二区三区| 国产毛片高清一级国语| 91www在线观看| 午夜老司机永久免费看片| 久久综合色视频| 97视频精品全国免费观看 | 色综合天天娱乐综合网| 免费a级毛片视频| 欧美一级大片在线观看| 国产成人精品综合| 亚洲精选无码久久久| 国产噜噜在线视频观看| 5555国产在线观看| 国产精品大尺度尺度视频| 国产精品自在在线午夜| 欧美午夜理伦三级在线观看| 日本人又色又爽的视频| 亚洲AV一二三区无码AV蜜桃| 国产精品亚洲五月天高清| 久久网欧美| 国产精品播放| 亚洲成a人在线观看| 国产综合精品日本亚洲777| 国产黄色爱视频| 天天综合网色| 国产精品第一区| 国产精品无码久久久久久| 国产成+人+综合+亚洲欧美| 欧美一级专区免费大片| 制服无码网站| 无码专区国产精品一区|