李蕓



摘 要 為了更好地配合辭書編修工作,作者開發了配例查重系統,對通行的現代漢語辭書進行了試查重;基于統計數據,定義了辭書的配例參配度、配例重合度、重合配例擴散度三項指標;其數據結果能為研究配例重合、統籌選擇配例提供便利;該項計算機應用技術可以從多方面提取辭書的配例信息,形成配例數據庫;既能對單部辭書進行自身配例查重,也能對多部辭書進行配例比對。文章介紹了該項配例系統在辭書編纂中的應用,探討了其中的難點問題,認為: 該系統仍需不斷改進完善;更加理想的配例查重軟件,需要計算機軟件開發者與辭書編修者更緊密的合作;應當盡快研究解決計算機辭書編修平臺的瓶頸障礙,把依賴人工干預的工作量降低到最小,以真正實現包括配例查重系統在內的辭書編修平臺的計算機化。
關鍵詞 配例查重 辭書編纂 程序研制
一、 引言
釋義在辭書中占主體地位,配例也起到非常重要的擴展作用,特別在詞匯使用方面提供具體而鮮活的應用實例。《〈現代漢語詞典〉編寫細則》(修訂稿)認為:“舉例的作用是補釋義之不足。”
在詞典的修訂過程中,發現一些配例重出的現象,即一個配例不僅在甲條作為配例,也在乙條做了配例。比如,《現代漢語詞典》(以下簡稱《現漢》)第6版中,重合的配例有: 披星戴月,分別在“戴”和“披”字條中做比喻配例;“崇洋媚外”,分別在【崇洋】和【媚外】中做配例;“險象環生”,分別在【險象】和【環生】中做配例;“春意盎然”,分別在【春意】和【盎然】中做配例;“海內存知己,天涯若比鄰”,分別在【比鄰】和【知己】中做配例。以上配例涵蓋了單字條目、單義項多字條目、多義項多字條目等情況。
戴 ……① 動 把東西放在頭、面、頸、胸、臂等處: ~帽子|~花|~眼鏡|~紅領巾◇披星~月|不共~天。……
披 ……① 動 覆蓋或搭在肩背上: ~甲|~著斗篷|~紅掛綠◇~星戴月。……
【崇洋】 ……動 崇拜外國: 盲目~|~媚外|~思想。
【媚外】 ……動 對外國奉承巴結: 崇洋~。
【險象】 ……名 危險的情形: ~環生。
【環生】 ……動 一個接一個地發生: 險象~。
【春意】 ……名 ① 春天的跡象或情景: ~盎然|樹梢發青,已經現出了幾分~。……
【盎然】 ……形 形容氣氛、趣味等洋溢的樣子: 春意~|趣味~。
【比鄰】 ……① 〈書〉名 近鄰;街坊: 海內存知己,天涯若~。……
【知己】 ……② 名 彼此相互了解而情誼深切的人: 海內存~,天涯若比鄰。
此項配例查重系統能窮盡式地檢查全書配例重合情況,為辭書配例的研究改進提供方便。
二、 配例查重系統的主要功能和樣例
為了全面了解配例重合的數量和分布情況,我們開發了配例查重系統,對幾本重要的辭書進行了試查重。查重結果的統計和分析見第三節。
配例查重系統的主要功能是: 可以在單部辭書內,查出所有重合的配例;可以查出辭書的兩個版本之間所有重合的配例;可以查出兩部不同辭書之間所有重合的配例。
(一) 單個條目中所有配例的提取
比如,《現漢》第6版條目“百”下有10個配例,利用配例提取軟件,按照釋義的順序,從左到右,依次從各個義項中提取配例,同時將“~”替換為字頭字。配例按照原條目中的出現先后進行排列,每個配例后附帶原條目內容。見表1。
? 對于多字條目,配例提取方法同單字條目,不同的只是將波浪線“~”替換為魚尾號“【】”內的詞目。因為對于程序來說,需要給它明確無誤的指令。比如,【爭鳴】的配例提取見表2。
? (二) 整部辭書所有配例的提取
可對一部詞典內的所有條目進行遍歷[1],依次提取每個條目的所有配例,輸出整部辭書的所有配例,形成一個文件,供進一步處理和分析使用。
(三) 單部辭書內重合配例的提取
在整部詞典的所有配例的基礎上,通過配例的排序,找到相鄰重合的配例并提取出來,按照條目音序排列。比如,重合配例“百家爭鳴”的提取,見表3。“百家爭鳴”,出現在“百”“家”“鳴”“【爭鳴】”四個條目中。
? (四) 兩部辭書之間重合配例的提取和比對
兩部辭書之間重合配例的提取,比單部辭書要復雜一些,需要編制兩部辭書配例(兩個列表)的比對程序,得出重合的列表,再編制匹配程序,分別從兩部辭書中匹配配例所在的原條目。比如兩部辭書(表4中的“辭書甲”和“辭書乙”是兩部辭書的化名)之間的其中兩個重合配例“人情來往少不得要花些錢”和“這幅畫少說值100萬”的樣例,見表4。
? (五) 配例數據的統計
可針對不同的目的,對提取的配例、重合配例等進行各種統計。統計和分析見第三節。
比如,單部辭書的配例數量、配例長度、位置(首、中、末)分布、重合次數、占比等。兩部辭書及多部辭書之間這些統計量的比較。
(六) 近似配例的提取
上文所說的重合配例是指組成配例的字符串完全相同。但也有近似相同的配例,有時需要考慮。比如,“知其然,不知其所以然”與“知其然而不知其所以然”,分別在“然”和【所以然】條目下做例,見表5。這兩個配例只有逗號“,”和“而”一字不同,屬于近似配例,我們的配例查重系統也能識別并提取出來。
? 此外,兩個字符串在字數上相同,只不過個別字詞換了位置,這種順序略有調換的近似配例我們同樣能識別并提取。比如,“紙屑拋撒一地”在【拋撒】下,“紙屑撒了一地”在“撒”條下,見表6。
? 此查重程序也能將“這幅畫少說值100萬”和“這幅畫少說值一百萬”作為近似配例查出來,同樣能識別這個例句的其他相近變體。
單部辭書內的近似配例能夠提取,同樣,兩部辭書之間的相似配例也能提取并比對。進而,進行多種統計量的計算。
(七) 辭書配例與辭書詞目的比對
可檢查單個配例或成組配例是否在本詞典中出條,甚至整部辭書的配例和詞目總表比對;列出哪些已出條,統計出數量和分布情況等。比如:
拜 ……① 動 行禮表示敬意: 回~|叩~|對著遺像~了三拜。② 見面行禮表示祝賀: ~年|~壽。③ 動 拜訪: 新搬來的那對夫婦~街坊來了。④ 用一定的禮節授予某種名位或官職: ~相|~將。⑤ 動 結成某種關系: ~師|~把子。⑥ 敬辭,用于人事往來: ~托|~領(收下贈品)|~讀。⑦ ……名 姓。
13個配例中,已出條的有8個: 【拜把子】、【拜讀】、【拜年】、【拜師】、【拜壽】、【拜托】、【回拜】、【叩拜】。未出條的5個當中有兩個是句例,另外3個“拜領”“拜將”“拜相”似需考慮是否應當出條的問題。
(八) 在編辭書的單個配例或成組配例檢查
綜合利用上述技術,建立起辭書的配例庫和重合配例庫,配例與詞目交叉關系數據庫,在本地電腦或網絡上提供檢索。把這些靜態的資源進一步進行多層次處理和標注,為動態修訂或新編辭書服務。在編辭書的編寫者在選配例證的過程中,可以檢查正在編寫的一個配例或一組配例是否使用過,在哪幾部辭書中已出現;相似配例有哪些,出現在哪幾部辭書中。這能夠給編寫者比較充分的避重參考,在很大程度上避免無意義的重合,提高配例的獨特性。
三、 配例查重結果數據統計和分析
限于篇幅,本節主要針對單部辭書的查重結果進行統計和分析,以《現漢》第6版和另外一部辭書(以下用“辭書A”化名)為例。
首先,通過配例提取程序,我們從《現漢》第6版提取到75431個配例。75431個配例的長度從2字到57字不等,其長度[2]分布如表7所示。
? 數據顯示,2字和4字的配例占比半數以上,其中4字占比最多,達到近三分之一。2字配例(15044個)全部屬于單字條目;3字配例(5150個)屬于單字條目(2648個)和雙字條目(2502個),基本各占一半;4字配例(25060個)分布在單字條目(5046個,占2014%)、雙字條目(19730個,占78.73%)、三字條目(97個,占0.39%)和四字格嵌套條目(187個,占0.75%)中。最長的配例57字,“墨子在歸途上,是走得較慢了,一則力乏,二則腳痛,三則干糧已經吃完,難免覺得肚子餓,四則事情已經辦妥,不像來時的匆忙”,屬于單字條目“則2”。
其次,通過查重系統,我們從《現漢》第6版提取到的75431個配例中,找到重合的配例(含重復例)有6760個。我們認為某個配例的第一次出現不算是重復,那么去掉重復(重合的例子為一組,從中選取首次出現的那個),去重后的配例是3264個。剩下的實際重復(再次出現)的配例應該是6760-3264=3496個。如果進行辭書配例的修訂工作,應該重點看這3496個重復的配例設置是否合理。
重合的配例(6760個)字長范圍從2字到19字不等,分布情況見表8。
? 與全書總配例的情況類似,重合配例的長度也多集中于2字和4字,占到近九成。
最長的重合配例是19字的“人不犯我,我不犯人;人若犯我,我必犯人”,出現在“犯”和“若1”兩個條目中。
考察2字重合配例,發現“做工”出現3次,“做”條目下有一個例子,“工1”條目下有兩個“做工”的例子,分屬于第2義項和第7義項。【做工】出了兩個條目,分1和2。這個形式上的重合例子,不算重合。
工1 ……② 名 工作;生產勞動: 做~|上~|加~|勤~儉學|省料又省~。……⑦ (~兒)技術和技術修養: 唱~|做~。……
? 從重合次數上做統計,重合達5次的有1個,達4次的有23個,達3次的有183個,達2次的有3057個,分別占比為: 0.08%、1.38%、8.24%、91.75%,見表9。例如,“對癥下藥”,重合五次,分布在“對、下、癥、【對癥】、【下藥】”五個條目中,且“對癥下藥”出條;“雄赳赳,氣昂昂”,重合四次,分布在“【昂昂】、【赳赳】、【氣昂昂】、【雄赳赳】”四個條目中;“白手起家”重合三次,分布在“起、【白手】、【起家】”三個條目中,且“白手起家”出條;“乘風破浪”,重合兩次,分布在“浪、【破浪】”兩個條目中,且“乘風破浪”出條。辭書A中還有重合6次的配例“心靈手巧”,分布在單字“心”“靈”“手”“巧”和雙字“【心靈】”“【手巧】”的6個條目中,且“心靈手巧”出條。
除了《現漢》第6版,我們還對辭書A也做了單部辭書內部配例的數量和分布情況統計。進而可以比較這兩部辭書的統計數據。
對于一部辭書來說,關于配例方面的度量,我們定義了三項指標,分別是: 配例參配度、配例重合度、重合配例擴散度。
1. 配例參配度,等于辭書全部配例數除以辭書總詞條數,即平均一條有幾個配例。表示一部辭書擁有的配例在數量上的參與程度。數值越大,表明配例越多。
該數值會隨著辭書的規模、目的、類型不同而有所不同[3]。一般來說,學習型詞典的配例比內向型詞典多,配例參配度數值就高。專科類、百科類辭書的配例比語文類辭書少,配例參配度就低。參配度的高低僅表示一部辭書表面配例數量的多少,不同辭書有不同的配例要求;具體到每一詞條,適不適合配例,配例多少,配什么類型的用例等都需要具體分析;同時要考慮用例的質量,做到數量和質量的辯證平衡。
比如,《現漢》第6版收錄詞條共69464條,從這些詞條中提取配例75431個。這部辭書的配例參配度是75431例除以69464條,等于1.0859個/條,即平均每條配置了1.0859個用例。
2. 配例重合度,是實際重復(再次出現)的配例數除以全部配例數,即平均一個配例重復了幾次。如果無重合配例,那么配例重合度為零。如果有2個重合配例,那么配例重合度是1除以總配例數。
比如,《現漢》第6版全部配例75431個,其中,重合配例6760個,第一次出現不算作重復例(3264個),其余的3496個配例算是重復配例,那么配例重合度為3496例除以75431例,等于4.635%。
3. 重合配例擴散度,是重合的配例總數除以去重后(首次出現)的配例數,即在重合的配例中,平均一個配例重合幾次。也就是說,一個重合的配例平均擴散到幾個詞條中去。
比如,《現漢》第6版重合配例6760個,其中,第一次出現不算作重復例(3264個),那么重合配例擴散度為6760例除以3264例,等于2.071。即平均一個重合的例子擴散到了2071個詞條中。這個數值越大,表明配例重合次數就越多。
有了這三項指標的計算公式,我們來看《現漢》第6版和辭書A之間的統計數據,見表10。
根據公式,《現漢》第6版的配例參配度是每條有1.086個配例,配例重合度是4635%,重合配例擴散度是每個重合配例擴散到2.071條。辭書A收條73359條,提取配例81769個,重合配例(含重復)8205個,去重后(首次出現)配例3913個,剩余(再次出現)重復配例4292個。根據公式,辭書A的配例參配度是每條有1.115個配例,配例重合度是5.249%,重合配例擴散度是每個重合配例擴散到2.097條。
? 在修訂配例的過程中,重點把那些重合次數多且比較長的配例優先去除,替換成更好的配例。這三項指標在《現漢》的歷次版本中也會有波動,第6版可以作為基準。如果辭書質量檢查需要制定一個量化的指標來評定某類辭書的質量,那么,配例重合度這個指標很有可能被選中。
四、 軟件研制過程中遇到的難點問題
第三節中每項精確到個位數的統計數字[4]的獲得,都有賴于準確無誤的辭書文本和靈活高效的軟件的共同作用。在查重系統的研制過程中,我們不可避免地遇到了一些問題。比如,大字符集問題,標點符號問題,排版格式和辭書體例問題等。這些問題,有些是可以通過我們開發者編制更多、更快捷有效的自動處理程序來解決,有些則是個人能力之外的,比如涉及字符編碼問題、跨系統操作引起的亂碼等問題。
(一) 大字符集
做語言信息處理工作首先遇到的是生僻字的編碼和顯示問題,尤其是辭書的信息處理,字符量大且字形繁難。涉及的問題包括: 專業排版系統與OFFICE辦公系統切換出現的亂碼問題;不同操作系統下的顯示問題;出版社自造字編碼不統一,出現兩字共一碼、一字有兩碼等情況;造字碼在不同版本的詞典中編碼不同的問題;常用字在排版系統中的編碼問題,可能涉及偏旁部首字形規范。后者比如,常用字“挺”用造字編碼“NB479”代替本字,帶女字旁的系列字“好”“媽”等也都設了造字碼代替本字。如果在單部辭書中提取后進行比對沒有問題,但是如果在兩部辭書之間進行比對,這些都會影響輸出結果的準確性。我們的解決方法是能替換成現有操作系統字符集內的字盡量替換,不能替換的以原編碼保留。
二十多年前,程榮(1997)就曾指出,“規范大字庫問題及編輯排版問題”是詞典工作的瓶頸,呼吁計算機界開發大字庫和數據庫編輯軟件。如今,二十多年過去了,困擾詞典編輯者的這兩個問題雖有改進,但是依然沒有得到完美的解決。
(二) 符號和排版格式
一個準確清楚的電子詞典底本非常重要。詞典文本中的標點符號、特殊符號、全半角符號、義項號、波浪號、配例分隔線等,這些都需要統一格式,往往要花費很多時間來處理。排版格式問題,比如辭書原文本中的頁眉、頁碼、圖表說明等,對后續的提取無用,也都需要做凈化預處理。如果是跨圖、跨欄、跨頁形成的折行(帶硬回車符的行),還需要把同屬于一個詞條的內容接合起來。在預處理的過程中,除了做上述處理,還需要人工校對文本的錯誤、去除無意義的空格(拼音中的空格有意義)等。計算機能夠在很大程度上實現自動化,但校對工作離不開人的參與。
(三) 詞典的體例
《現漢》有些帶括注內容的配例,用查重軟件能夠提取出來,但是在比對階段,軟件一般比對不出來,因為底層是按字符串比對的。如: 配例“神采奕奕”,出自【奕奕】條,配例“神采奕奕(精神飽滿的樣子)”,出自【神采】條,但“神采奕奕”不被軟件認為是重合配例。
配例分割線在《現漢》中使用單豎線“|”,比喻例前用菱形號“◇”標識,但在比喻例與其他例之間并沒有單豎線。查重軟件依據的是用“|”來分隔并逐個提取。這時,在軟件運行之前,需要在比喻例標記——菱形號——之前添加單豎線,以方便軟件統一提取。又如,詞條釋義中的引例或交待詞語出處的語句,用冒號加引號(“:”)給出,這跟軟件提取配例的規則在形式上相同,所以會造成提取“偽”配例的情況。這些“偽”例的清除需要后期人工干預。
計算機編程人員在軟件開發前,需要跟詞典編修者進行溝通,了解待處理辭書的體例,認真研讀詞典的文本,從中歸納出規則和例外,通過多輪“編程—測試—修改完善程序”后,才能得到精確的結果,滿足辭書編纂人員的需要。
(四) 軟件的研制
為了程序需要,有時需要添加一些符號,以形成統一的形式,方便程序按照一定的規則模式提取配例。比如,對《現漢》來說,從一個詞條內容中提取配例的規則為: 提取從“:”到“。”的一段,以單豎線“|”為分隔符號,逐個提取配例,再以字頭或詞目替換波浪線“~”;繼續查找符合規則的配例并提取,一直到最后一個字符。對整個辭書的文件,逐條循環上述操作,直至文件末尾。如上述提到的在比喻例標記“◇”前添加“|”。如果碰到詞條含有多個冒號時,那么提取出來的配例明顯多了字符,因為軟件默認的是第一個冒號和后續的句號之間的部分。比如,“指黑眼珠;睞: 看): 深受讀者青睞”,出自:“【青睞】……用正眼相看,指喜愛或重視(青: 指黑眼珠;睞: 看): 深受讀者~。”實際的配例應該是“深受讀者青睞”。但是,如果為了處理這種情況,程序需要加上額外的判定條件,就會影響軟件的執行效率。所以,目前這一版軟件沒有特別處理這種情況,以保持簡潔高效,待下一版更新時統一考慮。配例的多余字符,需要后續人工刪除。
需要后處理的還有四字格嵌套結構,比如,配例“一…不…定一…不…易(易: 改變)”,出自:“【一…不…】……: ~定~易(易: 改變)|~去~返|~蹶~振。……”用詞目替換波浪號“~”時,只是機械地逐個替換,替換后的結果不是正確的四字格“一定不易”,所以也需人工干預。
這些情況說明,雖然計算機自動化能解決大部分的問題,但是它的工作原理決定了在一些局部的細節問題上,仍需要人工來輔助處理解決。在如今的融媒體時代,應當盡快研究解決計算機辭書編修平臺的瓶頸障礙,把依賴人工干預的工作量降低到最小,以真正實現辭書編修平臺的計算機化。
五、 結語
我們開發的配例查重系統,能快速統計出單部辭書、兩部辭書或者同一品牌辭書不同版本之間完全重合或近似重合的配例有多少、有哪些,可以避免人工比對重合配例費時費力的單調勞動,有助于辭書編纂者盡快完成配例部分的編寫或審稿工作,節約寶貴的時間,提高編修的效率。利用配例查重系統,還可以考察一部辭書中哪些詞例、語例已經出條,哪些未出條,比例各為多少,這些數據都可以明確提取并統計出來,供編者參考。
本軟件還存在不足,理想中的查重軟件是: 能夠一條龍解決從輸入文本到輸出比對結果和分析,并進一步給出建議。目前的查重軟件分為若干模塊,相對比較獨立。兩種方式各有利弊。修改完善后的查重軟件應可分可合,操作靈活。我們正深度參與辭書編纂的各項工作實務,積極探索辭書編寫者無需學習編程知識就能在辦公軟件微軟OFFICE或WPS環境之下輕松處理的方法。
今后本軟件將通過多方面的試查實踐,不斷改進完善,進而提升為功能更加全面、靈活高效的配例查重軟件系統,積累更加豐富而精細的辭書配例數據庫,為辭書在配例上的編修進一步發揮計算機信息處理的功用。
附 注
[1]遍歷,計算機術語,是指沿著某條搜索路線,依次對樹中每個結點均做一次且僅做一次訪問。通俗來講,指按照一定的順序逐個訪問。
[2]配例長度,指配例含有字符的數量。在本文中,配例中的標點符號也算作字符,如逗號、菱形號、問號、感嘆號、書名號、括號、引號等。
[3]章何(1985)考察了幾部詞典的例句數量,《俄語常用詞詞典》平均每個義項的例句為7.2個,《俄語教學詞典》平均每個義項接近12個例句,《俄語詞的搭配教學詞典》平均每個義項不到2個例句,《現代俄羅斯文學語言詞典》平均每個詞目(不是詞義)只有3.2個例證,德語《杜登大辭典》平均每個詞目4個例證,提出詞典的例證設置應該有一個數量標準。
[4]由于多種原因,仍有可能存在小的誤差。
參考文獻
1. 程榮.詞典工作的科學化期待理想的計算機軟件.辭書研究,1997(5).
2. 程榮.字·詞·詞典.上海: 上海辭書出版社,2001.
3. 江藍生.《現代漢語詞典》第6版概述.辭書研究,2013(2).
4. 呂叔湘.《現代漢語詞典》編寫細則(修訂稿).∥中國社會科學院語言研究所詞典編輯室編.《現代漢語詞典》五十年.北京: 商務印書館,2005.
5. 章何.談教學詞典例句的數量.辭書研究,1985(2).
6. 中國社會科學院語言研究所詞典編輯室編.現代漢語詞典(第6版).北京: 商務印書館,2012.
(中國社會科學院語言研究所 北京 100732)
(責任編輯 馬 沙)