999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于字形拆分的彝文形碼輸入方案設(shè)計

2021-05-24 12:40:30胡淇研趙小兵
百色學(xué)院學(xué)報 2021年2期
關(guān)鍵詞:規(guī)范

胡淇研,趙小兵

(1.中央民族大學(xué),北京 100081;2.國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081)

彝族是我國歷史悠久的少數(shù)民族之一,其人口眾多,在我國少數(shù)民族人口中居第六位,主要分布在四川、云南、貴州和廣西一帶。彝族有自己的語言和文字,彝語屬于漢藏語系藏緬語族彝語支語言,分為6 大方言,5 個次方言和40 多個土語。彝文主要流傳于北部、東部、南部和東南部方言區(qū),西部方言區(qū)歷史上曾流傳過彝文,現(xiàn)已失傳。中部方言區(qū)尚未發(fā)現(xiàn)使用彝文的史料。[1](P29-36)不同歷史時期、不同地方的彝文稱謂不同,漢文史志稱彝文為“爨文、韙書、夷文、倮文、羅文、蝌蚪文、畢摩文、倮倮文”等,新中國成立后統(tǒng)稱為彝文。彝文可分為古彝文和涼山規(guī)范彝文(以下簡稱“規(guī)范彝文”),古彝文又稱老彝文或傳統(tǒng)彝文,是對1980 年國務(wù)院批準實行的規(guī)范彝文之前刻畫、手寫彝文的總稱。規(guī)范彝文是表音的音節(jié)文字,以彝語北部方言圣乍話為基礎(chǔ)方言,以喜德語音為標(biāo)準音,共有1165 個字符,包括819 個常用字符,345 個次高調(diào)字符和1 個替音符號“?”。[2]

一、彝文輸入法研究現(xiàn)狀

規(guī)范彝文當(dāng)前已完成編碼字符集構(gòu)建、字型、鍵盤及輸入法開發(fā)等工作,獲得了國家和國際編碼標(biāo)準,開發(fā)了比較成熟的輸入法,主要有沙氏彝文輸入法、阿才彝文輸入法、搜狗輸入法、Vista 系統(tǒng)自帶的輸入法及彝文手機輸入法等。沙氏彝文輸入法包括彝文簡拼、全拼及筆畫輸入碼。全拼碼以彝文注音符號為編碼方式,擊鍵次數(shù)多達5 鍵,無重碼;簡拼碼以讀音為主,用拼音或拼音代碼為輸入碼,最多4 鍵即可完成輸入;筆畫碼按彝文書寫順序拆分字符筆畫,并將其映射到鍵盤的英文字母或數(shù)字鍵上,以筆畫實現(xiàn)輸入。[3](P46-48)阿才及Vista 系統(tǒng)自帶的彝文輸入法采用全拼音碼編碼方式,實現(xiàn)中文、彝文、數(shù)字、符號自由混合輸入。搜狗彝文輸入法以全拼音碼輸入為主,可實現(xiàn)彝漢混輸。2016 年,民族語文翻譯局開發(fā)了運用到安卓和iOS 系統(tǒng)上的彝文手機輸入法,實現(xiàn)了彝文筆畫、簡拼、全拼輸入。

古彝文輸入法主要有楚雄彝文輸入法、石林彝文輸入法、古彝文正體字形碼輸入法、古彝文筆畫及自由拆分一對多形碼輸入法等。楚雄彝文輸入法是以彝文中部和東部方言區(qū)常用的9447 字符為基礎(chǔ)開發(fā)的字根形碼輸入法,對彝文字符進行字根拆分,按字符結(jié)構(gòu)編碼,以“形托”方式實現(xiàn)字根到鍵盤的映射,實現(xiàn)4 鍵輸入;石林彝文輸入法以《彝漢簡明詞典》東南部方言撒尼彝語常用字符為基礎(chǔ)設(shè)計的彝文字根式輸入法,以4 鍵實現(xiàn)輸入;古彝文正體字形碼輸入法以《彝文字典》《彝文字集》及經(jīng)典文獻中收錄的5363 個古彝文常用字符為基礎(chǔ)設(shè)計的形碼輸入法。[4]此外,西南民族大學(xué)民族文字信息處理研究所設(shè)計了彝文筆畫和拼音輸入法;王成平以《滇川黔桂彝文字典》中2676 個字符為藍本設(shè)計了古彝文筆畫輸入法;云南民族大學(xué)王嘉梅以四川彝文、云南規(guī)范彝文、貴州彝文及滇南彝文字集為基礎(chǔ),設(shè)計了彝文數(shù)字和自由編碼方案,實現(xiàn)了“云南規(guī)范彝文數(shù)字鍵筆畫自由拆分、滇南彝文自由拆分一對多形態(tài)編碼輸入法”。

目前,彝文輸入法研究取得了較大的成績,但由于彝文內(nèi)部情況復(fù)雜,仍存在規(guī)范彝文和古彝文外碼編碼標(biāo)準不統(tǒng)一、輸入規(guī)則不一致,輸入法不夠通用等問題。用戶輸入時需要反復(fù)學(xué)習(xí)各地彝文的輸入規(guī)則,多次安裝不同地區(qū)的彝文輸入法,增加了使用難度。鑒于此,筆者在前人研究的基礎(chǔ)上,以規(guī)范彝文為例,提出一種基于字形部件拆分的形碼編碼方案,希望能為彝文輸入法的研究提供一種參考方案。

二、輸入方案設(shè)計

彝文獨體字多,常采用字體結(jié)構(gòu)易位、增添筆畫等方法來造字,其構(gòu)字體系包括:筆畫、部首、筆順和書寫結(jié)構(gòu)。[5]彝文文字發(fā)展過程中呈現(xiàn)高度的線條化和抽象化發(fā)展趨勢,部首的表意功能較弱,主要作為字符構(gòu)字的主干筆畫或基礎(chǔ)構(gòu)件。[6]因此可依據(jù)直觀、易學(xué)、易操作的原則,對彝文進行構(gòu)形層面的部件拆分,整理出穩(wěn)定的構(gòu)字部件,并進行合理的分類編碼,設(shè)計適用于古彝文和規(guī)范彝文的一對多形碼輸入方案。

(一)部件拆分

彝文部件是由筆畫組成的具有組配彝文字形功能的構(gòu)造單位,是字符構(gòu)字的核心,介于整字和筆畫之間。筆畫則是字符書寫時不間斷地寫成的點和線,是字形結(jié)構(gòu)中的最小單位。[7]彝文部首一般是字符的主筆畫或突出筆畫,常作為字符構(gòu)字的穩(wěn)定部件。規(guī)范彝文分為26 個部首,包括54 個基本構(gòu)件。從規(guī)范彝文819 個常用字符部首統(tǒng)計發(fā)現(xiàn),?部字符最多,約占8.5%;?部次之,約占8%;∨,∩,?,?,?,△,?,?,?,?,?,?部字符較少。部首?,?,?,?,?,?,?,?,?,?,?,?,?,?能獨立成字,表示完整的意義,作為穩(wěn)定的構(gòu)字部件。

部件分類時以已有的彝文部首分類標(biāo)準為參考,兼顧字符構(gòu)造理據(jù),遵循字符構(gòu)形的整體性及輸入編碼的便捷性原則,對于可獨立成字且用于古彝文和規(guī)范彝文中構(gòu)字能力強的部首不拆分;構(gòu)字能力弱的部首進行拆分合并,如“?”部,規(guī)范彝文中有17 個字符,在古彝文中不做構(gòu)字部件,拆分為“?”和“─”;“?”部,規(guī)范彝文中有7 個字符,古彝文中有類似的部首“”,為方便編碼,拆分為“?”和“?”;部件“,,,,─”在古彝文作為字符構(gòu)件使用頻率高,構(gòu)字能力較強,視為獨立的構(gòu)字部件。依據(jù)該部件分類標(biāo)準,整理出穩(wěn)定的構(gòu)字部件,部件分類如表1 所示。

(二)編碼分類

根據(jù)各部件字符數(shù)量分布的多少及字符構(gòu)形特征,將規(guī)范彝文的基本構(gòu)字部件分為26 個大類并進行編碼。編碼分類時,主要依據(jù)部件與英文大小寫字母的形近性原則進行一對多編碼映射。如部件“?、?、?、?、?、?、?、∨、?”分別與大寫英文字母“I、L、C、W、N、X、S、V、U”外形相似,映射到相應(yīng)的英文字母上;“?、、、、?”與小寫英文字母m 外形相似,映射到M 鍵上。少數(shù)與英文字母外形不具有相似性的部件,可借用漢字筆形讀音映射方式,如部件“匚,?”視為框形,映射到K 鍵上;“、、、”視為漢字“撇、捺”的變形部件,映射到P 鍵上。

編碼時,不區(qū)分基本部件的朝向、大小和方向,將形變、形近及方向倒置類部件放在同一鍵位上。如“?、?、?、?”幾個部件可視為由同一個部件變形而來,放在Y 鍵上;部件“?、⌒、?”外形相似,朝向不同,放在C 鍵上;部件“─、、-”朝向一致,大小不同,映射到T 鍵上;部件“?、”不區(qū)分大小,映射到I 鍵上。后期可依據(jù)該分類標(biāo)準將古彝文的基本構(gòu)字部件依次歸入該編碼分類表中,從而實現(xiàn)古彝文和規(guī)范彝文編碼的統(tǒng)一分類。部件編碼分類映射表如下:

表1 部件編碼分類映射表

(三)編碼原則

彝文有上下、左右、左中右、上中下、半包圍、全包圍、交叉及單一結(jié)構(gòu)。規(guī)范彝文中上下結(jié)構(gòu)的字符居多,約為50%;左右結(jié)構(gòu)次之,約為24%;交叉結(jié)構(gòu)約為14%;單一結(jié)構(gòu)的字符數(shù)最少,約為1.2%。主要采用先主筆后副筆,先上后下,先左后右,先中間后兩邊,先外后內(nèi)的書寫順序。

字符編碼時依據(jù)字符的書寫筆順對字符進行全碼編碼,如字符“?”書寫順序為先豎后撇捺,編碼為IX;字符“?”書寫筆順是先外后內(nèi),編碼為BI。為簡化編碼,對于重復(fù)部件,采用“部件字母+重復(fù)次數(shù)”的方式編碼,如字符“?”編碼為I4。字符“?”編碼為BT4;因次高調(diào)符號“”與電腦鍵盤主鍵區(qū)數(shù)字符號鍵6 上的“^”外形相似,編碼時在規(guī)范字編碼之前加“^”表示,如字符“?”編碼為^S。

輸入法實現(xiàn)時,可不規(guī)定基本部件的鍵入順序,允許用戶自由組合輸入,實現(xiàn)一對多形碼編碼映射,由程序?qū)崿F(xiàn)自動匹配。如字符“?”的輸入編碼可為IC 和CI;“?”的輸入編碼可為“CIT,CTI,ICT,ITC,TCI,TIC”6 種;“?”的輸入編碼為“LZT,LTZ,ZTL,ZLT,TLZ,TZL”6 種。

三、性能與優(yōu)勢分析

國家標(biāo)準將編碼層次和軟件層次視為統(tǒng)一的鍵盤輸入系統(tǒng)進行性能考核。GB/T 19246-2003《信息技術(shù)通用鍵盤漢字輸入通用要求》提出了通用鍵盤漢字輸入系統(tǒng)的性能指標(biāo)包括兩個方面:編碼層次上要求形碼編碼輸入法應(yīng)該遵循漢字部件和筆畫規(guī)范,達到定性指標(biāo)(易學(xué)性);軟件層次上要求達到量化指標(biāo)(平均碼長、重碼字詞鍵選率)。[8]筆者從定性和定量指標(biāo)統(tǒng)計分析發(fā)現(xiàn),該方案字符部件拆分規(guī)則合理,編碼原則簡單易學(xué),輸入平均碼長適中,重碼率低,輸入效率較高。

(一)易學(xué)性

易學(xué)性,即“字符輸入系統(tǒng)的時間應(yīng)盡量短,并符合使用者的思維習(xí)慣”[9]。該方案主要依據(jù)彝文的構(gòu)形特點,對字符進行部件拆分。部件拆分時遵循已有的部首分類原則,拆分合理,歸類科學(xué),符合彝文字符部件規(guī)范,能有效減少彝文字符的構(gòu)字單位,便于編碼和學(xué)習(xí);此外,采用一對多部件編碼方式,不要求使用者熟悉彝文字符讀音,字符輸入時無須認讀,允許用戶按部件自由組合輸入,由程序?qū)崿F(xiàn)自動匹配,降低了使用者的記憶難度。普通用戶只需很少的學(xué)習(xí)時間,即可掌握規(guī)則并進行文字輸入,易學(xué)性較強。

(二)平均碼長

該方案對字符進行全碼編碼,平均碼長可作為輸入效率高低的參考指標(biāo)。《信息技術(shù)通用鍵盤漢字輸入通用要求》(GB/T 19246—2003)規(guī)定:漢語拼音或簡易筆畫編碼方式輸入漢字常見文本時,平均碼長應(yīng)<3.2;雙拼、部件編碼或以部件為主的編碼輸入,平均碼長應(yīng)<2.2。該方案平均碼長計算如下:

表2 字符編碼碼長分布表

從表2 可以看出,該方案平均編碼碼長約為3.1,碼長適中。碼長為3 鍵元和4 鍵元字符的分布率最高。因而字符輸入時,擊鍵次數(shù)較少,輸入速度較快。

(三)重碼分布

重碼率是衡量一個編碼方案中具有相同編碼的字符多少的指標(biāo),可用作衡量輸入法輸入效率的定量指標(biāo)。[10]測試發(fā)現(xiàn),該方案的重碼率相對較低,輸入效果較好。重碼分布表如下:

表3 字符重碼分布表

從表3 可以看出,該編碼方案下,規(guī)范彝文819 個常用字符中無重復(fù)編碼的字符數(shù)為554 個,占67.6%,即有554 個字符輸入時可實現(xiàn)與目標(biāo)字符的精確匹配;字符編碼最高重復(fù)次數(shù)不超過5 次,即字符輸入時均不需要翻頁查找即可實現(xiàn)與目標(biāo)字符的匹配。因而,該輸入方案對字符的精確匹性較好,重碼率較低,輸入較為快捷。

(四)優(yōu)勢

本文依據(jù)彝文字符構(gòu)形特征設(shè)計了一對多形碼輸入方案,字符輸入時,不受字符讀音的限制,允許用戶按部件自由組合輸入,編碼規(guī)則簡單易學(xué),能較好地遷移到古彝文及其他象形文字上使用,實用性強,適用范圍廣。

(1)實用性強。彝文內(nèi)部情況復(fù)雜,字符量大,異體字、生僻字多,字符存在方言區(qū)讀音和形體差異。采用字形編碼輸入,可不受字符讀音的限制,能遷移到古彝文及他少數(shù)民族象形文字上編碼使用;此外,采用一對多映射的編碼方式,不完全要求按字符書寫順序輸入字符,用戶可按部件自由組合輸入,降低了學(xué)習(xí)難度,即使不熟彝文的用戶也能快速掌握,實用性較強。

(2)適用性廣。古彝文是超方言的表意文字,字形獨特,其構(gòu)字部件大多與規(guī)范彝文相同或由其方位倒置或變形而來。字符書寫筆畫多樣,除有規(guī)范彝文中的點、橫、豎、撇、捺、折、圓、弧形、曲形、框形等基本筆形外,還有豐富的連體、繞形、波浪及重疊變形筆畫。字符構(gòu)字筆畫少則1 畫,多則10 畫以上。該方案按部件拆分方式對字符進行分類編碼,能保持彝文字形的全面性和系統(tǒng)性,避免了對字符進行過度拆分,有效地減少了字符的構(gòu)字單位,便于實現(xiàn)計算機字符的編碼和輸入。其次,依據(jù)形碼編碼方式輸入字符,不受彝文方言區(qū)讀音差異的影響,不僅適合規(guī)范彝文字集編碼,也能用于大字符集的古彝文編碼,適用范圍更廣。

四、結(jié) 語

彝文內(nèi)部情況復(fù)雜,但有共同的字符結(jié)構(gòu)、部首、筆畫、筆順及穩(wěn)定的部件構(gòu)字體系。本文依據(jù)彝文的字形特點,參考已有的部首分類標(biāo)準,遵循直觀、易學(xué)的原則,對規(guī)范彝文字符進行部件拆分。部件拆分時,考慮到彝文字符構(gòu)形的整體性及輸入編碼的便捷性,保留了規(guī)范彝文中的獨體字及構(gòu)字能力強的部首,拆分合并構(gòu)字能力弱的部首,拆分規(guī)則合理,符合彝文字符的構(gòu)字規(guī)律。在此基礎(chǔ)上,按形似性特征實現(xiàn)字符的一對多編碼映射,設(shè)計一對多部件形碼輸入方案。從已有的統(tǒng)計數(shù)據(jù)來看,該方案編碼規(guī)則簡單易學(xué),平均碼長適中,重碼率低,輸入效率高,適用范圍較廣,具有較好的實用性。此外,本文采用部件編碼輸入方式,便于實現(xiàn)計算機字符輸入,有助于推進古彝文和規(guī)范彝文編碼的統(tǒng)一,為古彝文信息化發(fā)展提供條件,符合當(dāng)前彝文信息化發(fā)展的要求。

猜你喜歡
規(guī)范
文稿規(guī)范
文稿規(guī)范
規(guī)范體檢,老而彌堅
來稿規(guī)范
來稿規(guī)范
從創(chuàng)新探索到立法規(guī)范
中國信息化(2022年4期)2022-05-06 21:24:05
來稿規(guī)范
PDCA法在除顫儀規(guī)范操作中的應(yīng)用
來稿規(guī)范
來稿規(guī)范
主站蜘蛛池模板: 日韩毛片视频| 一级福利视频| 久久先锋资源| 2020国产免费久久精品99| 国产永久免费视频m3u8| 狠狠色成人综合首页| 无码区日韩专区免费系列| 伊人大杳蕉中文无码| 永久毛片在线播| 久久国产精品麻豆系列| 伊伊人成亚洲综合人网7777| 国产91高清视频| 最新午夜男女福利片视频| 国产中文一区二区苍井空| 91网红精品在线观看| 精品国产电影久久九九| 有专无码视频| 自拍偷拍欧美日韩| 找国产毛片看| 67194亚洲无码| 国产一区二区三区精品欧美日韩| 91无码网站| 性激烈欧美三级在线播放| 国产精品内射视频| 一级片免费网站| 久久综合九九亚洲一区| 亚洲天堂视频网站| 中文字幕精品一区二区三区视频| 国产麻豆精品手机在线观看| 国产成人高清精品免费5388| 天天综合网亚洲网站| 亚洲国产欧美国产综合久久 | 9999在线视频| 无码 在线 在线| 韩国福利一区| 波多野结衣国产精品| 亚洲日韩Av中文字幕无码| 99久久精品美女高潮喷水| 国产成人盗摄精品| 九九这里只有精品视频| 国产精品第一区| a网站在线观看| 97青青青国产在线播放| 亚洲美女AV免费一区| 伊人久综合| 成人福利在线观看| 亚洲第一色视频| 91精品国产91久久久久久三级| 国产第一页屁屁影院| 视频国产精品丝袜第一页| 91精品人妻互换| 91国内外精品自在线播放| 欧美无专区| 亚洲人网站| 国产在线观看一区精品| 成年A级毛片| 精品亚洲欧美中文字幕在线看| 亚洲热线99精品视频| 免费在线看黄网址| 亚洲精品国产精品乱码不卞| 54pao国产成人免费视频| 中文字幕 日韩 欧美| 久久无码免费束人妻| 婷婷五月在线| 日韩成人高清无码| 成年人免费国产视频| 久久精品国产电影| 欧美一区二区三区欧美日韩亚洲| 黄色网页在线观看| 美女无遮挡拍拍拍免费视频| 亚洲国产欧美国产综合久久 | 91九色国产在线| 久久这里只有精品2| 亚洲色图欧美视频| 最新亚洲av女人的天堂| 久久亚洲日本不卡一区二区| 免费一级α片在线观看| 被公侵犯人妻少妇一区二区三区| 国产一区二区三区夜色| 国产95在线 | 午夜福利亚洲精品| 九九香蕉视频|