999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢藏機器翻譯的特點與手寫漢字切分分析研究*

2014-09-13 12:35:15楊憲澤陳毅紅
計算機工程與科學 2014年8期

楊憲澤,陳毅紅

(西南民族大學計算機科學與技術學院,四川 成都 610041)

漢藏機器翻譯的特點與手寫漢字切分分析研究*

楊憲澤,陳毅紅

(西南民族大學計算機科學與技術學院,四川 成都 610041)

漢藏機器翻譯的研究是一項有益而復雜的課題。本文的工作主要有兩項, 一是分析了漢藏機器翻譯中藏語句子特點,給出了一些漢藏翻譯句型的舉例;二是闡述了在漢藏機器翻譯研究中一項前期的輔助工作,即設計了手寫漢字切分方法和算法。

漢藏機器翻譯;手寫漢字切分;算法

1 引言

在研究漢藏英機器翻譯的課題中, 除了以前探討解決的問題外[1,2],在漢藏機器翻譯中將面臨兩個新的問題:一是漢藏雙語的詞法、句法、語法和語義非常靈活[3],研究必須考慮、分析漢藏語言共有的特點;二是希望能自動處理大量漢字手寫資料。因此,手寫資料的字符切分是自動處理的前提,然后才可能組成單詞,最后才可能進行詞或句子的漢藏機器翻譯。

本文第2節分析了漢藏機器翻譯中藏語的句子特點、句法特點,給出了漢藏翻譯句型對照舉例;第3節探討了漢字手寫資料切分;第4節對本文的工作進行了小結。

2 漢藏翻譯的特點分析和句型對照舉例

2.1 藏語句子特點分析

(1)在人稱名詞后加專有助詞,可以表示復數;但如果名詞后帶有數詞或表示數量的形容詞時,不再加專有數詞。

(2)主語為自稱時有專用詞,為他稱時又有專用詞。

(3)在動詞后面加上附加成分可以名詞化。

(4)對于人和事物加以推斷的說明,表達的方法是在動詞后加附加成分。

(5)否定是專有的形式。

(6)動詞有特陳、泛陳、判斷、擬測、推斷、命令、否定形式:特陳式陳述的情況容易被人們弄清楚,泛陳式只做泛泛的陳述。

(7)動詞的時態,特陳式有現行時、將行時、即行時、未行將行時、已行時、方過時六種時間時態;泛陳式只有現行時和即行時兩種。

(8)大部分形容詞有普通、較高和最高三個級別:普通級用形容詞原有的形式表示;較高級主要在形容詞后加一特有的附加成分表示,形容詞原帶有的附加成分要去掉;最高級也是去掉形容詞原有的附加成分,加另一特有的附加成分。

2.2 藏語句法特點分析

(1)藏語是主語在前,謂語在后,但賓語一般都在主語和謂語的中間。

(2)一個句子里可以同時有兩個賓語——直接賓語和間接賓語,通常次序是間接賓語在前,直接賓語在后。

(3)有時為了強調賓語,可以把它提到主語的前面,不管是直接賓語還是間接賓語。

(4)直接賓語也可以提到間接賓語前面。

(5)形容詞、數詞等作定語,都在中心詞后面。

(6)狀語一般都在中心詞的前面。

2.3 漢藏翻譯句型對照舉例

(1)(漢語)我們有五個人——(藏語)我們人五有;

(2)(漢語)工廠里有很多工人——(藏語)工廠工人多的有;

(3)(漢語)別的人們——(藏語)人們別的;

(4)(漢語)我是西藏人——(藏語)我西藏人是;

(5)(漢語)他的姐姐是我的姨母——(藏語)他的姐姐我的姨母是;

(6)(漢語)你不好——(藏語)你好不是;

(7)(漢語)那些工人有經驗——(藏語)工人那些經驗有;

(8)(漢語)我已洗完,可以走了——(藏語)我洗完去可以;

(9)(漢語)今晚可能演新電影——(藏語)今晚電影新的一演;

(10)(漢語)他不做工作——(藏語)他工作做 (否定);

(11)(漢語)昨天您叫我的時候,我就要來了——(藏語)昨天您我叫去時我來。

3 手寫漢字文檔切分研究

3.1 問題與解決思路

手寫的漢字文檔字符必須切分才能夠自動處理,按有關規則進行單詞組合,最后才可能進行詞或句子的漢藏機器翻譯。漢字手寫的文檔有非常大的隨意性,不同的人有不同的手寫習慣,這不可能象漢字印刷體那樣有規律可循。手寫漢字寫大寫小、字與字間的距離也有隨意性,字與字間有時還會寫得粘連。此外,如果與數字和英文字母相比,漢字顯得太復雜,這使得漢字切分技術復雜。本文的工作對手寫漢字文檔的字符切分采用連通域方法[4,5]。

3.2 切分處理闡述

一篇手寫的漢字文檔字符的切分就是對每個漢字字符確定邊界,下一步是識別單個漢字。不同的人手寫的不同的漢字文檔,經分析有以下主要特征出現:(1)比較規范:每一個漢字都是獨立的;(2)有些漢字寫得粘連;(3)有些漢字寫得重疊:這是沒有辦法用垂直分割線的方法進行分割的一種情況;(4)有些漢字寫得部分交疊在一起:實際上是兩個漢字共享某一部分像素區域的情況。當然,還有一些其它特征,因為不常見,不再贅述。

本文論述的切分技術首先考慮一篇手寫的漢字文檔字符寫得粘連和交疊的情況,因為這是造成漢字切分錯誤的主要部分,而后采用識別技術分析切分結果。主要技術內容包含有:

3.2.1 上下合并連通域

上下合并連通域考慮連通域的水平重疊率,每一個連通域為漢字字符的偏旁、字根、單字及粘連字符等組成,采用從左邊到右邊的方式尋找相鄰的連通域,還要計算這兩個連通域自身的寬度和它們的重疊區域。

水平重疊率Y表示如下:

其中,H1為第一個連通域的寬度,H2為第二個連通域的寬度,H12是兩個連通域的重合區域的寬度。

合并算法:

步驟1計算水平重疊率Y;

步驟2若Y大于給定閾值,合并這兩個連通域,重計合并后連通域矩形并置為第一個連通域,將緊接的連通域作為第二個連通域,重復步驟1,處理完轉步驟4;

步驟3若Y小于給定閾值,處理緊接著的兩個相鄰的連通域,重復步驟1、步驟2;

步驟4所有連通域處理完,轉主程序。

3.2.2 切分粘連字符

通過上述處理,連通域進行了上下合并,原來的漢字字符串現在成了一系列互不連通的分割塊,稱它們為連通部件。但是,在這些連通部件中,還是有少量的粘連漢字字符,而兩個粘連漢字很可能就被當成一個漢字了。 因此,對少量的粘連漢字字符還要處理,方法是:漢字具有方塊特征,字寬應該在規定的范圍內,兩個粘連漢字的字寬一般情況下要大一些,這就是找出所有粘連漢字的入手點。當然,由于不同人的手寫習慣,寫出來的漢字寬度是不同的,不可能設置出某個值作為恒定值,這就要對形成的一系列互不連通的分割塊計算寬度,換算出單一漢字約束寬度Hc。例如,若某一連通部件的寬度大于Hc的2倍,就判別這一連通部件是粘連字符,作切分再處理。此外,必須考慮大小不斷變化的分割塊,要多次重新換算單一漢字的約束寬度,直到所有的粘連漢字字符被處理完。

上述技術中,上下合并的連通部件考慮了:偏旁、字根、單一漢字及粘連漢字字符。計算漢字字符的約束寬度方式是,先計算所有連通部件寬度,構成寬度集,最后進行升序排序得到集合H。

把H分成四個連續子集:

其中,1≤i

求其方差:

現在計算所有Us中的最小值Umin, 最后計算Umin對應下h3的平均值,就計算出了單一漢字的約束寬度Kd。

Kd=mn(h3)

作了這一系列的技術準備,切分粘連漢字就比較容易了:按照漢字約束寬度,可以確定哪些連通域部件是粘連漢字字符。當然,要注意寬度較大是多個粘連漢字字符的情況。

實施中,設判斷值F, 既要考慮Kd≤F≤4/3Kd的連通部件,也要考慮F≤2/3Kd的情況,對每一個要切分的連通部件判斷清楚是否存在切分路徑。 如果存在粘連漢字的切分路徑,則對該粘連漢字進行切分;如果沒有粘連漢字的切分路徑,應該是這一連通域為單一漢字、字根或者偏旁,不切分程序返回。

3.2.3 字符的左右合并字符

作上述技術處理后,粘連漢字字符已經切分完畢,下面將按照約束寬度Kd左右合并連通部件。若1/2Kd≤F≤3/2Kd, 對F≤1/2Kd的連通域必須合并;對3/2Kd≤F 的連通域直接作單一漢字,不合并;若為其它情況,還要再次分析處理。

這一步處理如下,讀入全部連通部件,從左至右依次計算其寬度得到集合:

依據漢字字符寬度,設置閾值左右合并,這一算法描述如下:

步驟1取FKd=1/2Kd;EKd=3/2Kd。

步驟2計算漢字字符串的第一個連通部件寬度。

步驟3如果其寬度小于FKd,轉步驟4;如果EKd≤ Kd≤ FKd,轉步驟5;如果Kd ≥EKd,轉步驟6。

步驟4該連通部件和下一個連通部件合并為一個新的連通部件,計算新的,如果所有連通部件搜索完畢,轉步驟7;否則轉步驟3。

步驟5記錄這個連通部件,該連通部件和下一個連通部件合并為一個新的連通部件,計算新的Kd,如果所有連通部件搜索完畢,轉步驟7;否則轉步驟3。

步驟6記錄這個連通部件,計算下一個Kd,如果所有連通部件搜索完畢,轉步驟7;否則轉步驟3。

步驟7結束返回主程序。

3.3 實驗結果

本文的工作是方法的綜合應用,當然也對我們設計的手寫漢字切分方法和算法應用后的結果進行了分析(可以稱為實驗結果)。分析結果說明,根據對不同的多種手寫的相對工整的文獻圖像進行處理,我們設計的切分算法能夠基本滿足手寫漢字識別對切分的需求。算法的局限性表現在:雖然可以不受字體、字形等因素的影響, 但對粘連現象的出現比例感覺有些敏感,原因是切分過程中使用了平均字寬, 盡管我們在算法中已對此進行了一定的處理, 但當粘連漢字個數比例大于處理的漢字總數10%時, 算法的切分性能將明顯下降,這也是我們正在努力解決的問題。

4 結束語

漢藏機器翻譯的研究對于促進漢藏科技文化交流、提升教育文化事業發展有著深遠的意義。同時,古老而優秀的藏語言文化應該跟隨信息時代而發展,解決目前漢藏機器翻譯資料非常匱乏的狀況。因此,第2節漢藏翻譯的特點分析和句型對照舉例規范列舉了漢藏機器翻譯面臨的基本問題,應該有一定的參考價值。

雖然本文第3節的工作是漢藏英機器翻譯一項前期的輔助工作,即采用連通域方法對手寫漢字進行切分,但它是有益的工作。因為對于多個手寫漢字、數字和英文字母混合字符的切分,以及手寫體字符與印刷體字符的混合情況切分,其成果對多種文本的分類、識別、翻譯和理解至關重要,在銀行、海關、稅務及政務處理等方面有著廣泛的應用前景。

[1]YangXian-ze,XiaoMing.Analysisandresearchofahybridmachinetranslationmethods[J].ComputerEngineering&Science, 2012,34(2):168-171.(inChinese)

[2]YangXian-ze.Researchonthemorphologytreatmentofmachinetranslation[J].ComputerEngineering&Science, 2009,31(5):156-158.(inChinese)

[3]HuShu-jin.Tibetangrammarinbrief[M].Kunming:YunanNationalPublishingHouse, 1994.(inChinese)

[4]SrihariSN,YangXuan-shen,GregoryRB.OflineChinesehandwritingrecognition:Anassessmentofcurrenttechnology[J].FrontiersofComputerScienceinChina,2007,1(2):

137-155.

[5]ZhaoSY,ChiZR,ShiPF,etal.Two-stagesegmentationofunconstrainedhandwrittenChinesecharacter[J].PatternRecognition,2003, 36(1):145-156.

附中文參考文獻:

[1] 楊憲澤,肖明.一種混合式機器翻譯方法的分析研究[J]. 計算機工程與科學,2012,34(2):168-171.

[2] 楊憲澤.機器翻譯的詞處理研究[J]. 計算機工程與科學,2009,31(5):156-158.

[3] 胡書津.簡明藏文文法[M].昆明:云南民族出版社,1994.

YANGXian-ze,born in 1954,professor,his research interests include natural language processing, and machine translation.

陳毅紅(1972-),男,四川成都人,博士生,研究方向為智能系統工程、RFID和物聯網。E-mail:cyhswpi@126.com

CHENYi-hong,born in 1972,PhD candidate,his research interests include intelligent systems engineering, RFID, and IoT.

AnalysisandresearchofChinese-TibetanmachinetranslationfeaturesandhandwrittenChinesecharacterssegmentation

YANG Xian-ze,CHEN Yi-hong

(School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,China)

Studying the Chinese-Tibetan machine translation is a beneficial but complicated topic. The paper includes two main parts: 1) The features of the Tibetan sentences in the Chinese-Tibetan machine translation are analyzed, and some sentence pattern examples are given. 2) A previous assist work of the Chinese-Tibetan machine translation research is explained, i.e. a handwritten Chinese characters segmentation algorithm is designed.

Chinese-Tibetan machine translation;handwritten Chinese segmentation;algorithm

1007-130X(2014)08-1595-04

2012-08-24;

:2013-04-12

中央高校科研平臺項目(11NPT02);四川國際旅行公司合作項目 (25724101)

TP391.2

:A

10.3969/j.issn.1007-130X.2014.08.030

楊憲澤(1954-),男,四川成都人,教授,研究方向為自然語言處理和機器翻譯。E-mail:yangxianze@swun.cn

通信地址:610041 四川省成都市西南民族大學計算機科學與技術學院

Address:School of Computer Science and Technology,Southwest University for Nationalities,Chengdu 610041,Sichuan,P.R.China

主站蜘蛛池模板: 中文字幕1区2区| 国产中文在线亚洲精品官网| 国产视频久久久久| 综合天天色| 日韩精品无码免费一区二区三区| 国产91蝌蚪窝| 国产乱人伦AV在线A| 一级福利视频| 免费国产不卡午夜福在线观看| 日本精品αv中文字幕| 91国内在线观看| 亚洲免费毛片| 蜜芽一区二区国产精品| 日本亚洲欧美在线| 亚洲欧美一区二区三区图片| 99精品高清在线播放| 久久久久无码精品| 中文字幕免费视频| 伊人久久青草青青综合| 中文字幕有乳无码| 色播五月婷婷| 91精品小视频| 无码一区二区三区视频在线播放| 九色视频一区| 亚洲伦理一区二区| 乱人伦99久久| 538国产视频| 国产麻豆精品在线观看| 欧美精品亚洲二区| 超级碰免费视频91| 亚洲V日韩V无码一区二区| 色综合婷婷| 久久久黄色片| 视频一本大道香蕉久在线播放| 欧美成人精品在线| 中文字幕久久精品波多野结| 亚洲青涩在线| 日韩毛片免费观看| 亚洲色图欧美激情| 亚洲精品在线观看91| 欧美a在线视频| 国产成人资源| 欧美日韩另类国产| 手机在线免费不卡一区二| 2020国产免费久久精品99| 一本久道热中字伊人| 永久免费无码日韩视频| 日韩国产无码一区| 国产欧美日韩综合在线第一| 国产精品第一区| 日韩欧美综合在线制服| 国产凹凸视频在线观看| 免费观看欧美性一级| 国产日韩精品一区在线不卡| 国产精品第一区在线观看| 激情综合图区| 日韩无码白| 中文字幕人成乱码熟女免费| 黄色三级毛片网站| 精品成人一区二区三区电影 | 亚洲无码精品在线播放| 亚洲精品国产首次亮相| 日韩免费中文字幕| 新SSS无码手机在线观看| 亚洲国产中文精品va在线播放| 99无码熟妇丰满人妻啪啪| 国产成人精品免费视频大全五级| 国产精选自拍| 欧美全免费aaaaaa特黄在线| jizz亚洲高清在线观看| 欧美第一页在线| 成人精品视频一区二区在线 | 精品一区二区三区视频免费观看| 国产免费久久精品99re不卡| 不卡无码网| 亚洲一级无毛片无码在线免费视频| 欧美亚洲国产一区| 亚洲国产日韩一区| 亚洲精品不卡午夜精品| 国产在线啪| 日韩精品专区免费无码aⅴ| 亚洲天堂精品视频|