999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文詞性標注:單步標注還是同步標注?基于詞還是基于字?

2013-09-03 06:32:24魏小雨張?zhí)煊?/span>
關(guān)鍵詞:同步

魏小雨 張?zhí)煊?/p>

【摘 要】中文詞性標注給中文語句中的每一個字分配一個POS標簽。但是,由于中文詞語在句子中不能被精確切分,所以若想進行中文詞性標注,需要詞語切分作為前提條件。我們可以在分詞之后進行詞性標注,或者將詞性標注與分詞進行組合,兩者同時進行。此外,我們可以選擇在基于詞的基礎(chǔ)上進行詞性標注,利用上下文語意,或者基于字符的基礎(chǔ)。本文提出一種利用最大熵值框架方法針對中文詞性標注等架構(gòu)處理和特征表示的深入研究。我們發(fā)現(xiàn)分詞與標注同步進行的基于字符的方法是最好的,基于字符單步(once-at-a-time)進行的標注方法是值得商榷和完善的,在精確度上略差于同步(all-at-once)進行方法,但是它的運行時間更短些。

【關(guān)鍵詞】詞性標注;分詞;單步;同步

【中圖分類號】G623.31【文獻標識碼】A【文章編號】1672-5158(2013)07-0354-02

1.引言

大多數(shù)基于語料庫語言處理的研究,主要集中在對英文的處理。理論上,我們應(yīng)該只能使用基于語料庫的端口,因為語言的機器學(xué)習(xí)技術(shù)在很大的程度上獨立于語言。但是,實際上,不同語言的特性帶來了復(fù)雜性。尤其是中文,詞語在一條語句中不能被準確的劃分。因此在我們進行標注和解析等工作之前需要先進行分詞,因為中文詞性標注是對每一個詞進行標注,并且一條語句的解析樹是詞。

進行中文部分詞語標注時,會遇到以下問題:

(1) 我們應(yīng)該嚴格按照先分詞后標注的方法進行標注還是分詞與標注同時進行?

(2) 我們應(yīng)該基于上下文(基于詞)進行標注,還是基于字符進行標注?

本文提出一種利用最大熵值框架方法針對詞性標注等問題的深入研究。我們分析了不同方法的運行結(jié)果,試圖找尋最優(yōu)化的方法。

2.分詞

作為我們調(diào)查研究的第一步,我們創(chuàng)建一種不進行詞性標注的中文分詞。由于在使用單步方法時,分詞中的錯誤將傳遞到詞語標注階段,為了我們研究的準確性,我們使用最先進的分詞技術(shù)。我們的分詞類似于采用最大熵值分詞法(Xue and Shen, 2003)。它根據(jù)上下文得來的特性對每個詞進行分類。每個詞被分配一個由4個邊界值組成的標簽:“b”表示一個詞的開始,“m”表示一個詞的中間的字,“e”表示一個詞的結(jié)尾,“e”表示該表示的詞是單個字的詞。

2.1 分詞特點

我們提出了另外三種能夠提高分詞精確度的功能(如下模板(d)-(f))。在我們的分詞中去掉了默認功能(Xue and Shen, 2003),因為在我們的分詞中默認功能不能夠提高我們的精確度。

以下的功能模板在我們的分詞中被使用,W指代詞,C指代字。(a)-(c)指的是含有5個字的內(nèi)容。 0C表示當前字符, nC表示當前字符的前后n位置上的字符。

英文與中文的語言差別直接影響到英文詞性標注方法在中文環(huán)境下的運行結(jié)果,得到是無效的結(jié)果。中文里個別字符編碼信息有助于詞性標注。使用基于字符方法的中文詞性標注優(yōu)于使用基于詞方法的中文詞性標注。我們的研究還表明,與之前提出的同步基于字符方法相比,單步基于字符方法達到了相當良好的詞性標注精確度,并且可以大大縮減運行時間。

參考文獻

[1] H.Jing,R.Florian, X. Luo, T. Zhang, and A.Ittycheriah. 2003. HowtogetaChineseName(Entity):segmentation and combination issues.In Proc. of EMNLP

[2] O.Y.Kwong and B. K. Tsou. 2003. Categorial fluidity in Chinese and its implications for part-of-speech tagging. In Proc. of EACL

[3] X.Luo. 2003. A maximum entropy Chinese characterbased parser. In Proc. of EMNLP

[4] A.Ratnaparkhi. 1996. A maximum entropy model for part-of-speech tagging. In Proc. of EMNLP

[5] R. Sproat, C. Shih, W. Gale, and N. Chang. 1996. A stochastic finite-state wordsegmentation algorithm for Chinese. Computational Linguistics, 22(3):377-404

[6] R.Sproat and T.Emerson. 2003. The first international Chinese word segmentation bakeoff. In Proc. of SIGHAN Workshop.

[7] W.J.Teahan,Y.Wen,R.McNab, and I. H. Witten. 2000. A compression-based algorithm for Chinese word segmentation Computational Linguistics,26(3):375-393

[8] F.Xia, M. Palmer,N.Xue, M. E. Okurowski, J. Kovarik, F-D Chiou,S.Huang,T.Kroch,and M. Marcus. 2000. Developing guidelines and ensuring consistency for Chinese text annotation. In Proc. of LREC

猜你喜歡
同步
素質(zhì)教育理念下藝術(shù)教育改革的思路
政府職能的轉(zhuǎn)變與中國經(jīng)濟結(jié)構(gòu)調(diào)整的同步
商情(2016年42期)2016-12-23 14:26:58
公共藝術(shù)與城市設(shè)計的協(xié)調(diào)與同步
有源應(yīng)答器DBPL解碼算法研究及FPGA實現(xiàn)
一種新型雙軌同步焊接的焊接裝置
讓思維訓(xùn)練與口才訓(xùn)練同時進行
汽車空調(diào)產(chǎn)品的協(xié)同開發(fā)探討
“四化”同步發(fā)展的實證檢驗及實現(xiàn)路徑研究
時間統(tǒng)一系統(tǒng)秒同步故障遠程預(yù)警系統(tǒng)設(shè)計
基于CAZAC序列的MIMOOFDM定時同步算法
主站蜘蛛池模板: 国产凹凸视频在线观看| 高清不卡一区二区三区香蕉| 国产精品成人AⅤ在线一二三四| 久久综合伊人77777| 国产综合日韩另类一区二区| 真人免费一级毛片一区二区| 91精品国产91久久久久久三级| 亚洲色图综合在线| 日本精品视频| 久久超级碰| 成人午夜亚洲影视在线观看| 日韩免费毛片视频| 亚洲精品欧美日韩在线| 老司机精品一区在线视频| 成人午夜天| 成人国产精品视频频| 五月婷婷综合网| 波多野结衣亚洲一区| 狠狠色婷婷丁香综合久久韩国| 精品无码人妻一区二区| 在线观看国产精品一区| h视频在线播放| 欧美一级片在线| 日本午夜影院| 五月婷婷中文字幕| 欧美日韩亚洲综合在线观看| 3p叠罗汉国产精品久久| 亚洲国产无码有码| 国产高清无码第一十页在线观看| 992tv国产人成在线观看| 亚洲综合亚洲国产尤物| 一区二区三区在线不卡免费| 国产一区二区三区在线无码| 久久这里只有精品23| 黄片一区二区三区| 91口爆吞精国产对白第三集| 91精品伊人久久大香线蕉| 亚洲 成人国产| 热热久久狠狠偷偷色男同| 97综合久久| 国产福利影院在线观看| 国产精品福利在线观看无码卡| 欧美日韩另类在线| 国产精品jizz在线观看软件| 国产H片无码不卡在线视频| 国产综合无码一区二区色蜜蜜| 看国产毛片| 精品视频在线观看你懂的一区| 国产91丝袜| 国产在线91在线电影| 国产av无码日韩av无码网站| 欧美日韩在线国产| 国产在线专区| 人妻无码中文字幕第一区| 国产一区二区免费播放| 亚洲综合色婷婷中文字幕| 亚洲欧美一区在线| 国产免费人成视频网| 欧美日本一区二区三区免费| 国产精品入口麻豆| 国产香蕉国产精品偷在线观看| 欧美精品亚洲精品日韩专区| 国产免费久久精品99re不卡| A级全黄试看30分钟小视频| 亚洲欧美一区二区三区蜜芽| 国产精品思思热在线| 免费一级α片在线观看| 四虎AV麻豆| 国产大片喷水在线在线视频| 亚洲欧美精品在线| av一区二区无码在线| 国产成人调教在线视频| 婷婷综合亚洲| 18禁色诱爆乳网站| 天天综合网色| 精品国产中文一级毛片在线看| 亚洲妓女综合网995久久| 国产成+人+综合+亚洲欧美| 亚洲欧美日韩中文字幕在线一区| 99久久精品免费视频| 亚洲精品va| 国内精自线i品一区202|