999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中醫(yī)古籍?dāng)?shù)字化生僻字的處理

2014-12-11 11:49:42高晶晶

摘要:中醫(yī)古籍?dāng)?shù)字化生僻字的處理是一項(xiàng)基本而又關(guān)鍵的技術(shù),目前普遍存在缺字的現(xiàn)象,給中醫(yī)古籍的閱讀和研究造成障礙。本文分別從字符集、字庫(kù)、輸入法等方面,分析了集內(nèi)字缺字產(chǎn)生的原因和解決方案,并探討了集外字的處理方法。

關(guān)鍵詞:中醫(yī)古籍;數(shù)字化;生僻字

doi: 10.3969/j.issn.2095-5707.2014.03.009

Investigation of Digitization of Rare Words Processing in Ancient Traditional Chinese Medicine Literature

Gao Jingjing

(Institute of Traditional Chinese Medicine of Zhejiang Province, Hangzhou Zhejiang 310007, China)

Abstract: Digitization of rare words processing in Ancient Traditional Chinese Medicine(TCM) literature is a basic and key technology. The prevailing phenomenon of missing words creates obstacles to reading and research of ancient TCM literature. The article analyzed the cause of missing words, offered solutions, and discussed processing methods of missing words out of the character set from the aspects of character set, font, and input methods.

Key words: ancient TCM literature; digitization; rare words

中醫(yī)古籍承載著祖國(guó)醫(yī)學(xué)數(shù)千年文明的綿延,是中醫(yī)學(xué)傳承、發(fā)展、創(chuàng)新的源頭活水。中醫(yī)古籍?dāng)?shù)字化,可以通過(guò)全文錄入與網(wǎng)絡(luò)共享,解決中醫(yī)古籍作為一種不可再生資源而存在的借閱困難、容易損傷的問(wèn)題,對(duì)比傳統(tǒng)的手工檢索,又極大地提升了查詢的效率,使中醫(yī)古籍得到了更廣泛和更有效的利用,近年來(lái)頗受重視,發(fā)展迅速。在數(shù)字化進(jìn)程中,對(duì)生僻字的處理直接影響到古籍閱讀的質(zhì)量和檢索的效果,目前存在的問(wèn)題主要是缺字現(xiàn)象。對(duì)于傳統(tǒng)的紙質(zhì)版發(fā)行與單機(jī)版的數(shù)字化,缺字可以通過(guò)自己造字或圖片替代的方案解決。但是對(duì)于全文網(wǎng)絡(luò)版數(shù)字化,使用自造字會(huì)在通用性上受到限制,而圖片替代則導(dǎo)致檢索困難,其解決方案需要進(jìn)一步的研究與探討。

1字符集與編碼

字符集是各種文字和符號(hào)的集合,如包含英文字母的ASCⅡ字符集、包含簡(jiǎn)體中文的GB2312字符集、包含繁體中文的BIG5字符集等。計(jì)算機(jī)要準(zhǔn)確地處理各種字符集文字,需要對(duì)字符進(jìn)行編碼,以識(shí)別和存儲(chǔ)各種文字。隨著中文信息處理技術(shù)需求的不斷發(fā)展,國(guó)家標(biāo)準(zhǔn)總局發(fā)布了一系列的“信息交換用漢字編碼字符集”。但由于各國(guó)文字都有自己的字符集編

基金項(xiàng)目:浙江省科技計(jì)劃項(xiàng)目(2011F10019)

作者簡(jiǎn)介:高晶晶,主治中醫(yī)師,研究方向:中醫(yī)古籍?dāng)?shù)字化整理。E-mail: gaojingjing1012@163.com

碼,不同編碼體系之間碼位重疊,相互引起沖突,在Web等多語(yǔ)言環(huán)境中就會(huì)造成無(wú)法使用或出現(xiàn)亂碼。

Unicode作為國(guó)際組織制定的可以容納世界上所有文字和符號(hào)的字符編碼方案,也稱統(tǒng)一碼、萬(wàn)國(guó)碼,實(shí)現(xiàn)了跨語(yǔ)言、跨平臺(tái)的文本轉(zhuǎn)換及處理。Windows、Linux等主要操作系統(tǒng)及.Net、Java等主流編程語(yǔ)言都提供對(duì)Unicode編碼的支持。目前,Unicode字符集包含了7萬(wàn)余漢字,并且仍在不斷地?cái)U(kuò)充中[1]。所以從理論上講,只要在字符集中存在的字符,就可以被顯示,而集外字符,則形成缺字現(xiàn)象。但事實(shí)上,很多中醫(yī)古籍?dāng)?shù)字化系統(tǒng)的集內(nèi)字亦存在大量缺失,一方面是因?yàn)椴捎孟鄬?duì)較小的字符集編碼存儲(chǔ)漢字,另一方面主要還是由于字庫(kù)與輸入的缺失造成的。

2字庫(kù)與顯示

字形是字符呈現(xiàn)的形狀,按照一定的編碼順序以矢量或點(diǎn)陣等方式存儲(chǔ)在字庫(kù)中,不同的字庫(kù)表現(xiàn)出不同的字體。以Windows操作系統(tǒng)為例,當(dāng)計(jì)算機(jī)需要顯示一個(gè)字符時(shí),首先識(shí)別該字符被存儲(chǔ)的數(shù)值代碼,然后將此代碼轉(zhuǎn)換為Unicode編碼,再根據(jù)此編碼到指定的字庫(kù)中尋找對(duì)應(yīng)的字形,最后將字形顯示在屏幕上。如果字庫(kù)中沒(méi)有該字符對(duì)應(yīng)編碼的字形,則以缺字的符號(hào)顯示。如常用的“宋體”、“楷體”、“黑體”等字庫(kù),其編碼范圍都在Unicode碼位的4E00~9FBF區(qū)2萬(wàn)余漢字內(nèi),因此對(duì)于20000~2A6DF等區(qū)域的漢字就不能進(jìn)行顯示,而“方正超大字符集字體”、“海峰超大字符集字體”等支持Unicode超大字符集的字庫(kù)就可以正確顯示7萬(wàn)多漢字。

應(yīng)用網(wǎng)絡(luò)版中醫(yī)古籍?dāng)?shù)字化系統(tǒng)的用戶,其計(jì)算機(jī)上不一定裝有支持超大字符集的字庫(kù),因此即便是服務(wù)器上的文件系統(tǒng)都使用Unicode字符集編碼存儲(chǔ),在用戶的計(jì)算機(jī)上仍然不能顯示相應(yīng)的字符而表現(xiàn)為缺字現(xiàn)象。這個(gè)問(wèn)題可以通過(guò)提供相應(yīng)字庫(kù)下載的方法得到解決。

3輸入方式的選擇

在確定字符集編碼存儲(chǔ)方式和選擇正確字庫(kù)后,仍然會(huì)有大量的缺字現(xiàn)象出現(xiàn)在各種古籍?dāng)?shù)字化項(xiàng)目中,主要原因在于輸入階段的不可控性。因?yàn)橹嗅t(yī)古籍的數(shù)字化進(jìn)程,是一個(gè)長(zhǎng)期、大型的多人協(xié)作項(xiàng)目,無(wú)論是通過(guò)人工打字,或是OCR軟件識(shí)別,都會(huì)存在錄入與校對(duì)人員素質(zhì)的參差不齊,使得一些不常見(jiàn)到、難以辨認(rèn)音義的生僻字被直接忽略,或是做上標(biāo)記等待后續(xù)處理。而通用的輸入法,如搜狗、百度、紫光等,并不支持4E00~9FBF區(qū)以外的漢字輸入,所以在古籍?dāng)?shù)字化處理過(guò)程中,就會(huì)出現(xiàn)很多所謂打不進(jìn)去的字。因此,當(dāng)碰到一個(gè)難以輸入的字符時(shí),可以換用一些支持Unicode超大字符集的輸入法,如逍遙筆、海峰五筆等,也可以使用一些在線工具,如漢典網(wǎng)、書(shū)同文巧筆等。雖然輸入方式的選擇本屬于細(xì)枝末節(jié),但這一環(huán)節(jié)對(duì)于古籍全文錄入的質(zhì)量控制,卻有著至關(guān)重要的影響,不可輕忽。

通過(guò)上述步驟,正確使用字符集、字庫(kù)和輸入方式后,中醫(yī)古籍?dāng)?shù)字化中常見(jiàn)的缺字現(xiàn)象,如“白”、“脹”、“痛”、“咀”、“蟲(chóng)”、“解”、“蟲(chóng)”等屬于Unicode字符集CJK統(tǒng)一表意符號(hào)擴(kuò)展A、擴(kuò)展B區(qū)的生僻字,都可以正確地輸入、顯示與檢索,大大減輕了數(shù)字化系統(tǒng)對(duì)缺字處理和管理的難度。

4集外字的處理

由于任何字符集與字庫(kù)的收字范圍都有一定的限度和時(shí)間性,故對(duì)于超出現(xiàn)有Unicode字符集的字符,需要有缺字處理方案,能夠既滿足現(xiàn)階段實(shí)際應(yīng)用,又可以隨著字符集的擴(kuò)充而自動(dòng)替換。遺憾的是,下列所述4種缺字處理方案,都有各自的不足,需要進(jìn)一步完善。

4.1使用私用區(qū)造字法

Unicode在基本面E000~F8FF私用區(qū)、輔助面F0000~FFFFD增補(bǔ)私用A區(qū)、100000~10FFFD增補(bǔ)私用B區(qū),設(shè)置了13萬(wàn)余碼位,用于集外字的造字編碼。這個(gè)方法在提供所造字字庫(kù)的情況下,能夠與文中其他字符無(wú)差別地顯示所造漢字,并支持檢索,因此很多商用古籍?dāng)?shù)字化項(xiàng)目都使用這種方法。但如果用戶同時(shí)使用多個(gè)數(shù)字化項(xiàng)目,并需要對(duì)這些項(xiàng)目的數(shù)據(jù)進(jìn)行利用整合,則會(huì)引起私用區(qū)編碼的沖突,產(chǎn)生張冠李戴的字形顯示,或?qū)ν蛔址貜?fù)編碼,造成混亂。在互聯(lián)網(wǎng)模式下,私用區(qū)造字法存在通用性上的不足。

4.2圖片替代法

使用插入集外字符的字形圖片,可以得到正確的顯示,也可以進(jìn)行數(shù)據(jù)整合,是一種較為簡(jiǎn)易快捷的方法。但存在難以檢索、字體格式與文中其他字符難以保持無(wú)差別顯示的不足,限制了此法的應(yīng)用。

4.3自然語(yǔ)言描述法

使用在規(guī)定標(biāo)記內(nèi)自然語(yǔ)言描述集外字符的方式,如{左足右行}、{上山左下弓右下殳}等,一般用于生僻字輸入的預(yù)處理階段,可以粗略地滿足輸入、顯示和檢索的需求。但這只是一種非正式、非常規(guī)的替代方案,畢竟在顯示上與原字符存在差距,而且自然語(yǔ)言在描述上有較大的隨意性,故檢索的不確定性也隨之增加。

4.4動(dòng)態(tài)組字法

Unicode在2FF0~2FFB區(qū)定義了12個(gè)表意文字描述符,使用這些標(biāo)準(zhǔn)化的描述符序列對(duì)漢字的構(gòu)造進(jìn)行說(shuō)明,解決了自然語(yǔ)言描述法的不規(guī)范性,并可利用動(dòng)態(tài)組字軟件輸出所描述字符的字形。動(dòng)態(tài)組字法[2]可以解決集外字的輸入、顯示與檢索,但需要額外的軟件支持,并且字形與原字符也存在一定的差距。

上述的幾種方案都存在著某些局限性,目前尚沒(méi)有一種很好的方案可以綜合解決集外字的缺字問(wèn)題,需要根據(jù)不同的應(yīng)用環(huán)境靈活選擇。

5研究支持功能

通過(guò)以上幾種方法,基本可以滿足以閱讀和一般檢索為主的中醫(yī)古籍?dāng)?shù)字化系統(tǒng)的需求。但由于生僻字的難讀、難懂,且存在大量的異體字、俗體字等字形變化,給研究者造成閱讀和理解的障礙,所以還需要一定的研究支持功能,完成對(duì)生僻字的音義注釋、異體俗體字間的相互轉(zhuǎn)換,做到可以索引并重復(fù)使用,避免重復(fù)注釋的繁瑣勞作和遺漏。這些功能可以通過(guò)字詞間的動(dòng)態(tài)映射表完成。

總之,中醫(yī)古籍?dāng)?shù)字化建設(shè)中,生僻字的處理是一項(xiàng)基本而又關(guān)鍵的技術(shù),需要前期輸入的改進(jìn)與后期研究功能的支持,需要進(jìn)行不斷的完善,使中醫(yī)古籍?dāng)?shù)字化規(guī)范化發(fā)展,使中醫(yī)古籍作為中醫(yī)藥知識(shí)寶庫(kù),更好地發(fā)揮指導(dǎo)臨床和新藥研發(fā)等社會(huì)效用。

參考文獻(xiàn)

[1]Unicode協(xié)會(huì).Unicode 5.0標(biāo)準(zhǔn)[M].孫偉峰,李德龍,譯.北京:清華大學(xué)出版社,2010:365-389.

[2]肖禹,王昭.動(dòng)態(tài)組字的發(fā)展及其在古籍?dāng)?shù)字化中的應(yīng)用[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2013,23(5):118-122.

(收稿日期:2014-02-28,編輯:魏民)

主站蜘蛛池模板: 亚洲三级影院| 欧美成人日韩| 国产在线精彩视频二区| 免费jjzz在在线播放国产| 欧美日本一区二区三区免费| 国产又大又粗又猛又爽的视频| 日本人妻一区二区三区不卡影院| 欧美视频在线观看第一页| 五月激情婷婷综合| 呦系列视频一区二区三区| 亚洲视屏在线观看| 国国产a国产片免费麻豆| 久久亚洲黄色视频| 一级看片免费视频| 国产视频资源在线观看| 免费国产在线精品一区| 91精品伊人久久大香线蕉| 欧美色综合网站| 视频在线观看一区二区| 国产午夜看片| 色香蕉影院| 日韩国产高清无码| 青青青视频免费一区二区| 午夜影院a级片| 天天做天天爱夜夜爽毛片毛片| 欧洲一区二区三区无码| 人妻无码中文字幕第一区| 一区二区三区毛片无码| 一级毛片在线播放免费观看| 国产尤物视频网址导航| 亚洲综合天堂网| 99九九成人免费视频精品| 久久中文字幕av不卡一区二区| 亚洲一级毛片免费观看| 91精品aⅴ无码中文字字幕蜜桃 | 四虎成人精品| 亚洲av无码人妻| 亚洲第一黄色网址| 999精品视频在线| 国产91精品久久| 色婷婷色丁香| 亚洲人成色在线观看| YW尤物AV无码国产在线观看| 午夜福利在线观看成人| 无码AV日韩一二三区| 亚洲无限乱码| 美女无遮挡免费网站| 国产女人18水真多毛片18精品| 99久久精品免费观看国产| 人妻丰满熟妇AV无码区| 中文字幕久久亚洲一区| 蜜臀AVWWW国产天堂| 成人第一页| 婷婷综合在线观看丁香| 国产精品99久久久| 亚洲国产精品不卡在线| 久久大香香蕉国产免费网站| 丁香五月婷婷激情基地| 首页亚洲国产丝袜长腿综合| 99热在线只有精品| 午夜不卡视频| 免费看a级毛片| 午夜欧美在线| 人妻精品全国免费视频| 亚洲网综合| 国产在线一二三区| 亚洲浓毛av| 美女啪啪无遮挡| 欧美啪啪精品| 国产美女无遮挡免费视频网站| 国产黄色爱视频| 国产青青操| 亚洲成人黄色网址| 亚洲精品国产成人7777| 动漫精品啪啪一区二区三区| 国产免费一级精品视频 | a级毛片免费看| 最新午夜男女福利片视频| 9966国产精品视频| 一级毛片基地| 无码福利视频| 在线99视频|