999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢盲翻譯中的分詞連寫處理算法研究

2014-07-23 01:37:36陳優(yōu)陽
關(guān)鍵詞:規(guī)則設(shè)計

陳優(yōu)陽

(北京理工大學(xué)計算機(jī)學(xué)院 北京 100081)

0 引言

2000年《東京宣言》中提出了信息無障礙的理念。信息無障礙[1]是指利用不斷發(fā)展的信息科學(xué)技術(shù),使得所有人都能無障礙地獲取信息資源。其核心內(nèi)容是利用科學(xué)技術(shù)手段消除某些生理功能退化或喪失的人群在信息獲取、接受過程中的障礙。因為盲人存在最嚴(yán)重的信息獲取問題,所以推進(jìn)盲人信息無障礙尤其最為迫切和重要。

解決盲人信息無障礙問題的一個重要方法就是利用先進(jìn)的計算機(jī)應(yīng)用技術(shù),制造出適合盲人使用的計算機(jī)硬件設(shè)備和軟件系統(tǒng)。軟件系統(tǒng)中非常重要的一個系統(tǒng)是漢盲翻譯系統(tǒng),漢盲翻譯系統(tǒng)將數(shù)字化的中文信息翻譯成數(shù)字化的盲文,然后通過特殊的顯示或印刷設(shè)備把信息以盲文形式呈現(xiàn)出來。

本文旨在研究如何設(shè)計一個高效,易于擴(kuò)展和維護(hù)的盲文分詞連寫實現(xiàn)方案。首先設(shè)計了一個基于SC文法[4]的規(guī)則表示形式,并且根據(jù)盲文分詞連寫需要設(shè)計了一個連寫規(guī)則庫。然后根據(jù)語料和基于字典樹的匹配算法設(shè)計了一個連寫語料統(tǒng)計庫,它用來連寫那些無法表示為規(guī)則的連寫知識。最后,本文提出的方案實現(xiàn)了快速、準(zhǔn)確的分詞連寫需求,并且連寫規(guī)則庫和連寫語料統(tǒng)計庫是易于擴(kuò)展和維護(hù)的。

1 問題描述

我們形式化地定義了分詞連寫處理問題。提出了基于 SC文法的規(guī)則表示和連寫語料統(tǒng)計庫的解決方案。其中,連寫語料統(tǒng)計庫用來處理需要連寫卻無法用規(guī)則形式化表示的知識。分詞連寫處理模塊的輸入是分詞模塊的輸出結(jié)果,設(shè)為...,其中表示具有詞性ti的詞wi。連寫處理模塊的輸出的形式與輸入形式一致,輸出結(jié)果是進(jìn)行了連寫處理后的結(jié)果。為了方便描述,我們把稱為一個句塊。該句塊結(jié)構(gòu)體包含4個成員變量,分別表示語法詞性,詞內(nèi)容,詞對應(yīng)的拼音,詞的語義屬性。在連寫處理模塊中,為了幫助盲人理解,會把某些相連的多個句塊合并為一個句塊。

2 解決方案描述

2.1 形式化規(guī)則庫的設(shè)計

針對可以用形式化規(guī)則表示的連寫知識需求,本文設(shè)計了一個基于 SC文法的,可擴(kuò)展性好的,表示效率高的,人性化的規(guī)則表示語言。

第一部分是規(guī)則句塊部分。我們使用“Si{}”(i=1,2,3……)表示規(guī)則中的句塊,Si表示句塊的索引,即該句塊處于規(guī)則中的位置。{}表示句塊的屬性字典,它使得規(guī)則表示系統(tǒng)易于理解和擴(kuò)展。其中,屬性字典由多個屬性與屬性值組成,屬性可取值為詞性,內(nèi)容和字?jǐn)?shù)。一個屬性可以對應(yīng)多個屬性值,這樣我們可以在一條規(guī)則里面表示多個連寫要求,多個屬性值用“/”分割,分詞后的句塊只要滿足該屬性中的一個屬性值,就匹配成功,這樣使得我們的規(guī)則表示效率高,也容易擴(kuò)展。

第二部分是條件部分。其中條件部分是由條件名字和條件句塊組成。有些分詞利用規(guī)則進(jìn)行連寫需要設(shè)定一定的條件,最常見的條件是規(guī)則中某兩句塊的內(nèi)容必須相同。如果一個規(guī)則的條件部分不為空,分詞的結(jié)果除了必須匹配上規(guī)則的句塊之外,還需要滿足條件部分中定義的條件才可以進(jìn)行連寫,條件部分使得我們的規(guī)則表示靈活多變,能適應(yīng)各種需求。

第三部分是連寫模式部分。因為有的規(guī)則涉及到多個句塊,但是最后連寫的時候并不是把所有的句塊都連寫,所以需要連寫模式部分來指定需要連寫的句塊,使用規(guī)則句塊部分中的句塊索引”Si”即可表示需要連寫的句塊。例如規(guī)則“名詞后接兩個方位詞,則兩個方位詞連寫”。我們用S1表示名詞,S2和S3表示兩個方位詞,則連寫模式就是”S2,S3”,表示只需將S2,S3連寫。這種設(shè)計方式可滿足規(guī)則連寫的普適性。

規(guī)則的三個部分用”|”分隔,下面給出一個具體的規(guī)則表示的例子。在本文的第二部分提到的連寫規(guī)則“單音節(jié)動詞重疊式連寫”,其對應(yīng)的規(guī)則表示內(nèi)容如下“S1{label:verb,length:1} S2{label:verb,length:1}|prefix_content_equal(S1,S2)|S1,S2”。

2.2 連寫語料統(tǒng)計庫的設(shè)計

分詞連寫規(guī)則可以解決大部分分詞連寫的需求,然而有一部分詞需要連寫卻無法用形式化的規(guī)則進(jìn)行表示。為了解決這個問題,本文設(shè)計了一個基于高效的字符查找數(shù)據(jù)結(jié)構(gòu)Trie的連寫語料統(tǒng)計庫。連寫語料統(tǒng)計庫中的每一條記錄為需要連寫的字詞,出現(xiàn)在連寫統(tǒng)計庫中的詞如果被分詞器分開,我們要能識別出各種切開的情況并且還原那個詞。以“愛鳥周”為例,分詞器的分詞結(jié)果有可能為”愛 鳥周”、“愛鳥 周”“愛 鳥 周”,“愛鳥周”,當(dāng)分詞結(jié)果為前面3種情況時,都需要將分詞結(jié)果重新連寫為“愛鳥周”。由此可見,隨著詞的長度增加,需要考慮的的情況呈指數(shù)型增長,因此我們需要一個高效的句塊查找數(shù)據(jù)結(jié)構(gòu),Trie是一個非常合適的選擇。

Trie[4],又稱前綴樹或字典樹,我們結(jié)合統(tǒng)計庫中句塊匹配給出一個小型Trie樹實例,如圖一。圖中的空心節(jié)點是字典樹的根節(jié)點。邊上的字表示句塊的內(nèi)容,白色節(jié)點表示樹中的內(nèi)部節(jié)點,藍(lán)色實心節(jié)點表示統(tǒng)計庫中的詞。由于其復(fù)雜度與詞表的個數(shù)無關(guān),所以能極大的加快查找速度,即使增加了許多統(tǒng)計庫后也是如此。引入字典樹提高了整個系統(tǒng)的可擴(kuò)展性,是本論文的一大亮點。

圖1 字典樹在統(tǒng)計庫上的應(yīng)用實例

3 實驗和結(jié)果分析

根據(jù)《中國盲文》[5]對盲文分詞連寫的要求,我們設(shè)計了130條連寫規(guī)則。根據(jù)中國盲文出版社的專家知識和實際語料,設(shè)計了一個連寫統(tǒng)計庫。我們對2000條句子進(jìn)行了連寫處理,連寫處理的結(jié)果由中國盲文出版社的專家進(jìn)行鑒定。根據(jù)實驗結(jié)果,我們的解決方案連寫處理的準(zhǔn)確率達(dá)到91%。連寫錯誤是由于分詞及詞性標(biāo)注的錯誤引起的。影響準(zhǔn)確率的根本因素是中文分詞和詞性標(biāo)注這個模塊。首先中文分詞的準(zhǔn)確率沒有達(dá)到百分百的精度,所以它肯定會對連寫算法造成負(fù)面影響。其次,對一個詞進(jìn)行詞性標(biāo)注時會有歧義,因為漢語詞的兼類現(xiàn)象比較頻繁。

4 結(jié)論和未來工作

根據(jù)我們設(shè)計的分詞連寫規(guī)則庫和連寫語料統(tǒng)計庫,很好的解決了漢盲翻譯轉(zhuǎn)換中存在的分詞連寫問題,實現(xiàn)了漢盲翻譯高效和準(zhǔn)確地轉(zhuǎn)換。由于所設(shè)計的連寫規(guī)則庫和語料統(tǒng)計庫是可擴(kuò)充的,那么接下來,我們可以更深入的了解盲人對于分詞連寫的需求,然后設(shè)計更多的連寫規(guī)則添加到連寫規(guī)則庫中,更好的讓盲人理解和得到信息。

[1]何川,國內(nèi)信息無障礙的現(xiàn)狀及展望.現(xiàn)代電信科技,2007.37(3):p.4-8.

[2]黃河燕,陳肇雄,黃靜,基于多知識分析的漢盲轉(zhuǎn)換算法,in 語言計算與基于內(nèi)容的文本處理.2003:哈爾濱.p.607-613.

[3]陳肇雄,高慶獅,SC 文法功能體系.計算機(jī)學(xué)報,1992.11:p.801-808.

[4]Knuth,D.E.,The art of computer programming,volume 3:sorting and searching.1973,Addison-Wesley Reading,Mass.

[5]滕偉民等.中國盲文.1996:華廈出版社.

猜你喜歡
規(guī)則設(shè)計
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
何為設(shè)計的守護(hù)之道?
《豐收的喜悅展示設(shè)計》
流行色(2020年1期)2020-04-28 11:16:38
規(guī)則的正確打開方式
幸福(2018年33期)2018-12-05 05:22:42
瞞天過海——仿生設(shè)計萌到家
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
設(shè)計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設(shè)計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
TPP反腐敗規(guī)則對我國的啟示
主站蜘蛛池模板: 91精品人妻一区二区| 色综合久久88色综合天天提莫 | 久久免费精品琪琪| 日本精品αv中文字幕| 大陆精大陆国产国语精品1024| 在线免费看黄的网站| a网站在线观看| 色九九视频| 国产精品福利尤物youwu| 国产91小视频在线观看| 国产无遮挡猛进猛出免费软件| 2021国产在线视频| 欧美日韩在线亚洲国产人| 在线观看国产黄色| 亚洲第一成年免费网站| 亚洲另类色| 亚洲精品视频在线观看视频| 日韩av电影一区二区三区四区 | 在线国产91| 精品久久香蕉国产线看观看gif | 成AV人片一区二区三区久久| 亚洲综合色婷婷中文字幕| 91色国产在线| 中文字幕欧美日韩高清| 久久窝窝国产精品午夜看片| 日韩无码视频播放| 沈阳少妇高潮在线| 2020极品精品国产| 久久香蕉国产线看精品| 亚洲无码高清一区| 亚洲国产精品美女| 久草网视频在线| 亚亚洲乱码一二三四区| 99久久无色码中文字幕| 亚洲一区二区三区香蕉| 91九色国产在线| 99草精品视频| 国产精品尤物在线| 黑人巨大精品欧美一区二区区| 一级毛片在线播放免费| 国产拍揄自揄精品视频网站| 日本高清在线看免费观看| 欧美精品成人一区二区视频一| 日韩欧美国产精品| 中国成人在线视频| 免费又爽又刺激高潮网址| 少妇精品久久久一区二区三区| 国产小视频a在线观看| 四虎永久免费地址在线网站| 99久久精品视香蕉蕉| 国产激情在线视频| 精品免费在线视频| 国产女人在线视频| 亚洲va欧美va国产综合下载| 自慰网址在线观看| 欧美成人精品一区二区| 色男人的天堂久久综合| 久久久久亚洲av成人网人人软件| 亚洲精品波多野结衣| 五月激情综合网| 久久精品一品道久久精品| 国产成人永久免费视频| 国产成人免费观看在线视频| 伊人精品视频免费在线| 99青青青精品视频在线| 伊人久久大线影院首页| 玩两个丰满老熟女久久网| 毛片免费高清免费| www亚洲天堂| 一区二区自拍| 欧美在线一二区| 国产成人高清精品免费5388| 丁香婷婷久久| 亚洲国产成人精品青青草原| 免费人欧美成又黄又爽的视频 | 国产精品自在在线午夜区app| 免费一级无码在线网站 | 高清无码手机在线观看| 日韩在线第三页| 久久这里只有精品23| 免费观看国产小粉嫩喷水| 最新亚洲人成无码网站欣赏网|