






DOI:10.16255/j.cnki.ldxbz.2025.01.012
[摘" 要]" 長期以來,盲文領域
主要采用傳統方法進行研究,存在效率低、覆蓋面窄、主觀性強、共享性差等問題。目前,我國已建成國際上首個千萬級規模的具備盲文觸覺(單方、整體)、對照(漢字—拼音)、語言學(聲調、分詞連寫)三維六層特征的精標注盲文語料庫,利用
這一語料庫對盲文進行量化研究,能夠促進對我國盲文發展全貌的把握和了解。從標調一致性、分詞一致性等方面對盲文進行全面的定量分析,指出現行盲文中存在的問題,為下一步《國家通用盲文方案》的修訂和盲文規范化建設提供建議和對策,
以提升盲文出版的規范化水平。
[關鍵詞]" 漢語盲文語料庫;國家通用盲文方案;盲文規范化
[中圖分類號]" H 126.2;G 761" [文獻標志碼]" A" [文章編號]" 1005-0310(2025)01-0078-08
[收稿日期]" 2024-06-20
[基金項目]" 國家社科基金重大項目“國家通用盲文分詞連寫規則與詞庫建設研究”(21amp;ZD292),北京市教育委員會科學研究計劃項目“基于盲文語料庫的漢語盲文分詞連寫研究”(SM202111417003)。
[作者簡介]" 鐘經華(1962—),男,山東昌樂人,北京聯合大學特殊教育學院資源中心主任、教授,主要研究方向為盲文;閻嘉(1981—),女,北京市人,北京聯合大學特殊教育學院資源中心實驗師,主要研究方向為盲文。
[通訊作者]" "耿楠(1981—),女,河南安陽人,北京聯合大學特殊教育學院資源中心講師,博士,主要研究方向為盲文、現代漢語詞匯。E-mail:gengnan52@163.com
A Study of Braille Standardization from the Perspective of Corpus
ZHONG" Jinghua, GENG" Nan, YAN" Jia
(Special Education College, Beijing Union University, Beijing 100075, China)
Abstract:" The field of Braille has long relied on traditional research methods, which suffer from low efficiency, narrow coverage, strong subjectivity, and poor shareability. At present, China has built the world
’s first large-scale Braille corpus with millions of entries, featuring,three dimensions and six layers of detailed annotation, including tactile discrimination of Braille(cell, whole), contrast (Chinese characters-pinyin) and linguistics (tone, word segmentation). Utilizing this corpus for quantitative research on Braille can promote a comprehensive understanding of the development of Chinese Braille." A thorough quantitative analysis of Braille is conducted in terms of tone marking consistency and word segmentation consistency, identifying the existing issues in current braille practices. Suggestions and strategies are provided for the revision of the “National General Braille Scheme” and
construction of
the standardization of Braille, aiming to enhance the level of standardization in Braille publishing.
Keywords: Chinese Braille corpus;National General Braille Scheme;Braille standardization
0" 引言
盲文是視力殘疾人使用的特殊文字,“十三五”以來,我國盲文規范化建設成效逐步顯現,盲文信息化水平得到顯著提升。在習近平總書記“全面建成小康社會,殘疾人一個也不能少”和“辦好特殊教育”的重要指示下,加大漢語盲文規范化以及國家通用盲文的推廣力度,補齊國家通用盲文理論研究和應用研究的短板,是國家語言文字事業發展的迫切需要,是圍繞特殊教育、回應新時代殘疾人語言文字實踐的需要。在語言學的大家庭中,盲文屬于小眾、專業性很強的學
科。長期以來,盲文基礎研究和基礎資源比較薄弱,目前仍主要采用傳統方法進行研究,存在效率低、覆蓋面窄、主觀性強、共享性差等不足。
1" 盲文觸覺品質概況
盲文是觸覺文字,觸覺品質是盲文研究的核心問題。不同盲文符號由于點的形狀、位置、個數的不同,其觸覺品質存在較大差異[1]。布萊爾六點制盲文符號是目前國際上各種語言盲文的通用形式,由6個圓點分三行兩列構成,呈長方形。通過點字板、點字打印機等在盲文紙上制作出不同組合的凸點,每一個方塊的點字是由六點組成,稱作“一方”。觸覺信息不涉及盲文字符的含義,盲文語料庫的觸覺品質研究功能可以跨語種通用,能夠對不同語言的盲文觸覺品質進行定量研究與評價。漢語盲文語料庫對盲文觸覺品質進行了標注,分為單方和整體兩類,如表2、表3所示。
通過對6 916 953方精標注盲文語料進行統計分析發現,盲文一方約
有2.84點,總字數為3 367 569(不含非音節字符),字均約為1.91方。以靜態方為單位,
完善、上層、下層、中空、單點、破方、單列、單行型符號的出現頻率分別為:27.98%、26.46%、15.98%、11.38%、9.18%、4.69%、2.83%、1.50%[2]。以動態連寫塊為單位,包含一方以上完善型符號塊占66.76%、方間互相參照形成的準完善塊占23.75%;上層塊占7.51%、下層塊占0.11%、中空型塊占1.21%;有破方風險的塊占0.48%,有假空方風險的塊占0.12%,密點塊占0.03%;連珠塊、單行塊、單列塊占0.01%。
2" 盲文標調概況
早期盲文語料以《毛澤東選集》為代表,其中標調率為6.40%,與現行盲文約有5%的標調率[3]接近。近期盲文語料的標調率為12.39%,大幅度上升的標調率主要集中在聲、韻母自成音節上[2]?,F行盲文并不是字字標調,而是一般不標調,需要時才標調,標調隨意性較強,因此在盲文語料中形成了一詞多形和一形多詞的不規范現象。
2.1" 一詞多形
一詞多形指同一個漢字書寫的詞語對應不同的盲文書寫形式。在單音節語料中,僅42個詞為一詞一形,其余都是一詞二形(包括標調與無調兩種情況)。
圖1的橫軸為示例漢字,標調率由低到高排列(45%~55%),豎軸為出現頻次。從圖1中可以看出“研、司、即、怨、維、咨、緣”等漢字標調率和非標調率均接近50%(±2%)。在雙音節語料中,甚至出現了一詞四形的例子(見表4)。
每個音節都有標調和不標調兩種形式,雙音節詞理論上最多會出現4種標調形式。表4列出了較高頻的一詞四形的例子,如,“因此”兩個音節都未標調的頻次為111次;首音節不標調,尾音節標調的頻次為181次;首音節標調,尾音節不標調的頻次為232次;兩個音節都標調的頻次為1 437次。語料庫中出現4種標調形式的詞共239個,共出現
20 370次。除此之外還有15 715個雙音節塊存在多形現象,共出現573 159次。在多音節語料中,有5 081個多音節塊
出現多形現象,共出現49 565次,其中“愛因斯坦”
詞有5種標調形式。
2.2" 一形多詞
一形多詞指同一個盲文書寫形式的詞語對應不同漢字的詞。漢語中絕大多數無調的單音節下轄不同聲調的漢字,其中有139個音節下轄4個聲調的字。最多的ji音節下轄81個字,在陰平、陽平、上聲、去聲中的分布分別為25個、20個、8個、28個。
由于現行盲文一般不標調,因而在現行盲文中沒有聲調的音節可以是任意聲調,一個盲文塊對應不同聲調的詞是常態。出現頻次較高的一形四詞的例子如表5所示。
經檢索發現,語料庫中共有1 889個雙音節盲文塊存在一形多詞的現象,最多的是 ,共出現775次,對應13個詞塊:幾叔(1次)、幾束(1次)、基數(1次)、奇數(1次)、寄書(1次)、技術(743次)、極熟(1次)、疾書(1次)、肌束(1次)、計數(7次)、記數(6次)、記述(10次)、集束(1次)。在三音節以上的盲文塊中,有725個盲文塊對應多個詞。
3" 盲文分詞連寫概況
盲文與漢字屬于同一套語言系統,但屬于漢語的兩套不同的文字系統。盲文是拼音文字,漢字是表意文字。漢字書寫時是不分詞的,漢語母語者有語感作為基礎,依靠表意的漢字一般是不會讀破漢語詞的。盲文的書寫單位是盲文塊,它是根據漢語口語的自然停頓而形成的單音節或多音節語塊。經檢索發現盲文語料庫中盲文塊的平均詞長為1.74字,字均空方率為0.58方[4]。
3.1" 單音節盲文塊
《中國盲文》國家標準中關于分詞連寫的基本規則中規定:要考慮音節長短適度,適當減少零散的單音節詞[5]。對語料庫進行統計發現:單音節盲文塊有684 905個,占35.45%。其中,連續20個及以上的單音節塊出現了5組,最多有22個單音節塊連續出現。
除專有名詞外,有2.36%的盲文塊為詞典詞的分寫塊,共32 835塊。被分寫的詞類頻次由高到低依次為:名詞、動詞、助詞、連詞、副詞、量詞、數詞、形容詞、介詞、代詞。14.57%的盲文塊為多個詞組成的連寫塊,
其中,普通連寫詞組出現196 731塊,其他連寫結構頻次由高到低依次為:了、不、著、的、地、過、性、主義、者、得、來、型、被、去、極了、把。
通過檢索發現,盲文在實際使用中存在大量單音節盲文塊,很多被詞典收錄的詞典詞在盲文中也被切分了,這與盡量減少零散的單音節詞的盲文分詞連寫規則相背離。
3.2" 雙音節盲文塊
表6中斜線前的數字表示分寫的頻次,斜線后的數字表示連寫的頻次。在語料庫中,助詞“的話”出現了259次,其中255次分寫、4次連寫。表示領屬關系的“的/話”出現318次,都分寫。某些詞在語料形成時可能不是詞典詞,但是盲文分詞連寫規則規定:5個以內并列的單音節連寫,單音節名詞與單音節方位詞連寫,因此,官兵、軍民、路上等詞雖然詞典未收錄,按照分詞連寫規則也應連寫。
3.3" 三音節盲文塊
由表7可知,三音節盲文塊的整體結構,其內部的緊密程度并不完全相同,有的近乎慣用語,詞化程度很高,有的已經被詞典收錄并賦予了詞性。如,非字面意義的“一口氣”作為副詞被收入詞典,但是在語料庫中有11次分寫、6次連寫;字面意義的“一口氣”,作為數量名詞結構,語料庫中出現了58次,全部分寫。有類似分寫現象的三音節盲文塊整體結構共有78個,其中1 331次分寫,620次連寫。
同一語義單元被拆分頻次較高的有:一席/話、一時/間
、突然/間等;也有跨語義單元的分詞連寫,在同一個語義單元內分寫,兩個不同語義單元之間連寫。例如:后三分/之/一處、雖然/說到/頭/來。
表7中的三音節盲文塊,有的符合數詞、量詞連寫再與名詞分寫的規定,有的符合方位詞與雙音節名詞分寫的規定,但是在《中國盲文》國家標準中,三音節整體結構連寫是上位規則。盲文分詞連寫在實際使用中有著不成文的約定,如:獨立成詞的,單獨分寫,哪怕是包含在成語或整體結構之中。上下位規則理順不清也是造成分詞使用混亂的原因之一。
3.4" 四音節及以上盲文塊
語料庫中成語的實際寫法多種多樣?!吨袊の摹穱覙藴手幸幎ǎ核难猿烧Z中,能獨立分寫時,應按詞分寫[5]。但在實際使用中,分寫出來的常常不是詞。如“一衣帶水”,其意義是“水面像一條衣帶那樣窄”,句法結構應為[3+1],即[一衣帶/水],但是人們常讀作[2+2]的形式,即[一衣/帶水] [6]。這樣分寫雖然符合2+2的韻律但是不符合語義,而且兩部分拆開都不是詞。再如“信/以為/真”中的“以為”在文言文中是兩個詞[7],這樣劃分既不符合韻律也不符合語義。除此之外,還有“平白/無故、如/雷貫耳、漠/不關心、默/不作/聲、默不/作聲”等都分出了許多非詞的結構。據統計,四字成語全連的占41.86%,二分的占36.30%,三分的占18.06%,四分的占3.78%。圖2中,短橫表示分寫,數字表示各分寫部分的字數。
圖2中橫坐標是四字成語分連的8種情況,縱坐標是出現的頻次。有的成語甚至出現4種寫法,表8列出了8個有4種寫法的成語。除此之外,還有51個成語有3種寫法,615個成語有兩種寫法,184個成語有唯一寫法(僅出現一次的不計)。
此外,語料庫中還出現了四字成語與其他附加成分連寫的情況,如:不三顧茅廬、久別重逢般、東張西望著、氣急敗壞過、全神貫注于、尋歡作樂相、一目了然了、惶惶不安起來、如夢初醒般地。有的成語內部分寫,其首尾又與其他成分連寫,如:不自尋/煩惱、曇花/一現般、月黑/風高夜、大/顯/身手了、焦躁/不安起來。
一現般、風高夜、不振得、身手了、還休著這些
拆分后的結構在語義和語法上都不合法規
。有的語義和語法上雖然合法,但是意義上有偏差?!按汗S般”是指像春筍的樣子,“雨后春筍般”是指迅速大量地涌現?!鞍恪痹臼桥c成語整體相結合,拆分后卻變成了只和“春筍”相結合。成語切分的問題包括成語內部的切分和與附加成分組合時的切分,目前的規則顯然還不能滿足實際使用的需求。
五音節及以上的盲文塊主要為熟語,熟語的切分主要涉及古代漢語語法與現代漢語韻律之間的矛盾,如“百思/不得/其/解”,切分出來的“百思”既不是規范的古代漢語成分,也不是規范的現代漢語成分。類似的還有“萬變/不離/其/宗”“天生/我材/必/有用”等。
3.5" 盲文假詞
假詞是指盲文連寫的詞塊與某個詞典詞同形的現象。它們表面看是詞,實際是詞組。假詞在盲文語料中較為隱蔽,是分詞連寫標注的陷阱,需根
據語境來標注。例如:“四周”既可以是一個數量結構,表示“4個星期”,又可以看作一個名詞,表示“周圍”的意思。類似的還有“一道、學會、馬上”等
假詞。
根據檢索結果可知,語料庫有313個假詞,共出現5 274次。其中,“不”連寫出的假詞最多,出現2 313次;動詞、數詞、副詞、形容詞構成的假詞較多,分別出現1 216次、854次、434次、248次;名詞、介詞、代詞等假詞出現得較少。
4" 建議與對策
4.1" 標調方面
自《國家通用盲文方案》推行以來,通用盲文讀音的混淆率降低到了0.87%,約為現行盲文混淆率的1/28,
這一成就徹底改變了現行盲文讀音混淆的
問題,從根本上實現了讀音準確的目標。目前,輕聲沒有專用的符號表示,未來需要設置專門的輕聲符號,才能完善通用盲文的聲調體系,嚴格遵循零標記原理,從源頭上消除輕聲與省寫混淆的問題。
4.2" 分詞連寫方面
盲文分詞連寫的問題較為突出,規則之間的一致性較低,語義邏輯被打破,零散的單音節大量存在。有些分法甚至
可能誤導讀者,造成語義歧義,成語切分問題尤為
嚴重。很多著名的語言學家就成語的切分問題發表過相關論述,如:趙元任認為,成語特殊的內部結構
應遵循文言文的語法而非現代的語法,在現代
漢語中不能拆開[8];周有光
認為,把成語按照文言文來分詞是初始的層級,混雜在現代文里,不便閱讀和理解;中間層級是把成語連成一個整體,跟上下文分清;最高層級是把成語連成一個整體,同時內部結構用短橫表明,連中有分、分而又連[9]?!稘h語拼音正詞法基本規則》指出成語通常作為一個語言單位使用,以四字文言語句為主[10]。結構上可以分為兩個雙音節的,中間加連接號表示,如“fengping-langjing(風平浪靜)”;結構上不能分為兩個雙音節的,全部連寫,例如“buyilehu(不亦樂乎)”。在盲文多連少分思想的指導下,針對盲文的實際情況,
本研究建議將四字成語連寫,以減少零散的單音節,
確保盲人的思維與手指摸讀同步。未來應對盲文中成語的寫法進行更深入的研究。
[參考文獻]
[1]" 肖陽梅,國家亮,呂明.基于盲文語料庫的國家通用盲文量化研究[J].中國特殊教育,2020(4):25-32.
[2]" 閻嘉,耿楠,鐘經華.漢語盲文語料庫建設探析[J].北京聯合大學學報,2023,37(5):51-55.
[3]" 黃乃.建設有中國特色的漢語盲文[M].北京:中國社會出版社,1999:151.
[4]" 鐘經華,耿楠,閻嘉,等.漢語盲文比較研究[J].中國特殊教育,2023(3):39-46.
[5]" 中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.中國盲文:GB/T 15720—2008[S].北京:中國標準出版社,2008.
[6] "洪爽.漢語的最小詞[M].北京:北京語言大學出版社,2015:39.
[7]" 鐘經華.堅持漢語盲文分詞連寫三項基本原則的重要意義[J].現代特殊教育,2022(11):65-67.
[8]" 趙元任.中國話的文法[M].北京:商務印書館,2011:225.
[9]" 周有光.正詞法的性質問題[J].文字改革,1984(1):5-12.
[10]" 中華人民共和國國家市場監督管理總局.漢語拼音正詞法基本規則:GB/T 16159—2012[S].北京:中國國家標準化管理委員會,2012.
(責任編輯" 柴" 智;責任校對" 齊蓉暉)