999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于統計方法從文本中抽取分詞詞典

2020-04-14 04:54:29黃超
電腦知識與技術 2020年4期

摘要:常見的機器翻譯方法有兩種,一種是已經發展得比較完善的統計機器翻譯,另一種是出現不久的神經機器翻譯。這兩種翻譯方式首先都需要將文本劃分成詞或短語,對于一些語種,如中文,詞并不是明顯分開的,必須要分詞。分詞的時候,需要使用詞典,通常詞典是人工生成人工添加。本文提出了一種方式,可以從復數文本中自動提取分詞詞典。

關鍵詞:機器翻譯;分詞;詞典

中圖分類號:TP393

文獻標識碼:A

文章編號:1009-3044(2020)04-0213-02

收稿日期:2019-10-15

基金項目:本文工作得到國家重點研發計劃(2017YFB0802300)資助作者簡介:黃超,男,碩士研究生,主要研究方向為信息安全。

Extracting Word Segmentation Dictionary from Text Based on Statistical Method

HUANG Chao

(School of Electronics and Information Engineering,Tongji University,Shanghai 201804,China)

Abstract:There are two common methods of machine translation,one is the statistical machine translation that has been developed relatively well,and the other is the neural machine translation that appears soon.First of all,both of these translation methods need to segment the text into words or phrases.For some languages,such as Chinese,the words are not clearly segmented so the text must be segmented into words first.W hen segmenting text into words,it is necessary to use a dictionary that is usually generated and added manually.This paper proposes a way to automatically extract word segmentation dictionary from plural text.

Key words:machine translation;word segmentation;dictionary

隨著互聯網的發展,機器翻譯在各行各業中都變得越來越重要。人們在生產生活中往往會查找一些外文的資料,這時就需要機器翻譯來幫助人們翻譯外文資料。為了提高翻譯的準確度和流暢度,國內外各個研究機構都對機器翻譯進行過非常深入的研究。現在,機器翻譯方法主要有兩種,一種是統計機器翻譯,這種翻譯方式是基于統計模型,將一個短語翻譯成另一種語言中含義最為接近的短語[1]。另一種就是神經機器翻譯,這是一種出現不久的翻譯方法,基于神經網絡[2-4]。相比于統計機器翻譯,神經機器翻譯可以更多地考慮語法和語義對翻譯影響,從而獲得更好的翻譯準確度。

以上兩種翻譯方法,首先都要將文本劃分成單詞或短語,才能進行接下來的翻譯步驟。對于一些語種,,如英文,其單詞是自然劃分的。而對于另一些語種,如中文,其單詞不是自然劃分的,所以在翻譯之前需要進行分詞。現在已經有比較成熟的中文分詞工具,如結巴分詞。這些分詞工具都需要根據詞庫對文本進行劃分,而現在的詞庫都是人為生成人為添加的。

本文將介紹一種基于統計方法的從復數文本中抽取分詞詞典的方法,并驗證該方法的可行性。由于現階段沒有標準可以評價一個詞典優異性,所以本文的實驗結果更多地依據經驗。

1 詞典抽取

1.1 數據預處理

中文和英文不同,在很多字符集中,英文的ASCII碼是-致的,而中文的ASCII碼往往是不一致的,所以首先要統一字符集。在本文中,使用GBK作為統一的字符集。中文有簡體和繁體,同一個字的簡體和繁體的ASCII碼是不一樣的,所以,在預處理時,本文將所有的中文都轉換成簡體。

1.2 數據統計

本文提出的方法,是統計一個字之后接下來的字的個數。在統計時,需要將無效的字符除去。無效的字符有這幾類。一是ASCI碼大于0的字符,在GBK編碼中,所有中文字符的ASCII碼都小于0。二是中文標點符號,在GBK編碼中,中文標點符號字符的ASCII碼也小于0,但是這不是有效的字符,必須除去。三是以GBK編碼表示的數字和希臘字母等,去除的原因和中文標點相同。在去除上述字符的同時,也將其作為一個句子的分割。

1.3 提取詞典

在做完統計之后,就可以進行詞典的提取。統計的結果中,一個字之后會有很多不同的字,而且這些字出現的次數也不相同。這里有一個經驗思路,即如果一個字A和另一個字B組成一個有意義詞,那么A后面跟著的字中B出現的次數就很高,反之次數就低。所以只需要找出次數多的字即可。

2 實驗

2.1 實驗設置

本文只針對中文,所以數據是中文數據,其來源是wiki百科。從wiki百科獲得的原始數據都是utf-8編碼,并且繁簡混合,所以對其做預處理操作。做完預處理后,進行效果驗證。

2.2 效果驗證

本文使用MySQL數據庫存儲統計結果。MySQL數據庫提供了非常豐富的數據處理函數,例如可以根據字進行分組,可以求一組數的最大值,可以對數據進行排序,這些有助于詞典抽取。

下表是“臺”字之后的字及其次數,由于數量較多,所以選擇了其中部分數據。

從表格中可以看出,“灣”和“北”出現的次數遠遠超過其他的字,說明“臺灣”和“臺北”是兩個有意義的詞。

下表是“町”字之后的字及其出現次數。

從表中可以看出,“町”字后的字出現的次數都比較少,而且分布非常均勻,可以判斷“町”無法和其他字組成一個有意義

的詞。

3 總結和展望

本文提出一個基于統計方法的從復數文本中提取字典的方法。這個方法是一個全新的方法,也具有一定的可行性,不過其結果并不理想,還需要進行更深入的研究。

本文從wiki百科中獲得的數據其實并不多,這也影響了實驗的效果。同時由于沒有一個標準來評價詞典的效果,所以最后的評價更多地需要通過經驗,這也是一個不足。

接下來需要修改模型,進行更多的實驗。而且不能只考慮兩個字的詞,還需要考慮三個字、四個字的詞。通過更加深入的研究,以期能獲得更理想的結果。

參考文獻:

[1]Koehn P,Och F J,Marcu D.Statistical phrase-based translation[C]/Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguisticson Human Language Technology一NAACL '03,May 27-June 1,2003.Edmonton,Canada.Morristown,NJ,USA:Association for Computational Linguistics,2003:48-54.

[2]Cho K,Van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[J].arXiv preprint arXiv:1406.1078,2014.

[3]Gehring J,Auli M,Grangier D,et al.Convolutional sequence to sequence learning[J].arXiv preprint arXiv:1705.03122,2017.

[4]Sutskever I,Vinyals 0,le Q.Sequence to sequence learning

with neural networks[J].Advances in Neural Information Processing Systems,2014:3104-3112.

[通聯編輯:唐一東]

主站蜘蛛池模板: 在线看片国产| 亚洲品质国产精品无码| 日韩在线播放中文字幕| a免费毛片在线播放| 久久综合亚洲鲁鲁九月天| 97无码免费人妻超级碰碰碰| 免费观看成人久久网免费观看| 成人免费午夜视频| 色精品视频| 国产在线视频自拍| 久久久久人妻一区精品色奶水| 人妻中文字幕无码久久一区| 亚洲天堂首页| 色悠久久综合| 亚洲日韩精品无码专区| 无码区日韩专区免费系列| 无码免费的亚洲视频| 996免费视频国产在线播放| 手机在线国产精品| 91精品网站| 天天综合网色中文字幕| av在线手机播放| 片在线无码观看| 国产亚洲男人的天堂在线观看 | 国产在线麻豆波多野结衣| 国产成人一区| 一级成人a毛片免费播放| 免费观看男人免费桶女人视频| 一本综合久久| 国产女人爽到高潮的免费视频 | 99在线免费播放| 国产精品污视频| 三级国产在线观看| 香蕉在线视频网站| 又爽又大又黄a级毛片在线视频| 啪啪啪亚洲无码| 欧美日本一区二区三区免费| 国产一级毛片网站| 全部免费特黄特色大片视频| 亚洲系列无码专区偷窥无码| 麻豆精品在线| 亚洲va视频| 性色在线视频精品| 国产精品大尺度尺度视频| 国产精品hd在线播放| 亚洲人成网站色7799在线播放| 亚洲日韩高清无码| 午夜欧美理论2019理论| 亚洲国产精品无码AV| 亚洲av无码成人专区| 老司机精品久久| h网址在线观看| 亚洲成人高清无码| 日本免费高清一区| 精品视频一区在线观看| 亚洲精品大秀视频| av一区二区人妻无码| 亚洲a级在线观看| 日韩第一页在线| 欧美一区中文字幕| 青青青视频免费一区二区| 国产91视频观看| 超清无码熟妇人妻AV在线绿巨人| 久久久久青草大香线综合精品| 国产国产人在线成免费视频狼人色| 精品国产黑色丝袜高跟鞋| 欧美五月婷婷| 伊人久久大香线蕉影院| 亚洲精品国产精品乱码不卞| 亚洲第一成年人网站| 亚洲欧洲自拍拍偷午夜色| 欧美翘臀一区二区三区| 中文字幕欧美成人免费| 拍国产真实乱人偷精品| 尤物视频一区| 91九色国产porny| 欧美三級片黃色三級片黃色1| 亚洲侵犯无码网址在线观看| 香蕉视频国产精品人| 丰满人妻中出白浆| 亚洲精品不卡午夜精品| 亚洲精品第一页不卡|