【摘要】學(xué)者們針對語素義之間的語義關(guān)系的研究,取得了突出的成就,但并沒有面向計(jì)算機(jī)。隨著信息技術(shù)的興起,給計(jì)算機(jī)制定一套理解和識別詞語的規(guī)則就成了一項(xiàng)新課題
【關(guān)鍵詞】語素義;語義關(guān)系;計(jì)算機(jī)
一、引言
1、研究綜述
關(guān)于構(gòu)詞法,早在1898年出版的《馬氏文通》就有涉及,而后胡以魯、呂叔湘等先生對語法構(gòu)詞進(jìn)行了研究。張志公、陸志韋、孫常敘等也對語法構(gòu)詞提出了自己的見解。在經(jīng)過諸家的研究以后,達(dá)成一個(gè)共識,語法構(gòu)詞分為:聯(lián)合、偏正、動賓等。上世紀(jì)80年代,學(xué)者們認(rèn)識到構(gòu)詞法不僅和語法有關(guān),還和語義有關(guān)。于是開始探討構(gòu)成詞的語素意義是如何結(jié)合成詞,語素義和詞義的具體關(guān)系問題等。
學(xué)者們針對語素義之間的語義關(guān)系的研究,取得了突出的成就,但并沒有面向計(jì)算機(jī)。隨著信息技術(shù)的興起,給計(jì)算機(jī)制定一套理解和識別詞語的規(guī)則就成了一項(xiàng)新課題了。在大規(guī)模語料庫的基礎(chǔ)上,根據(jù)義位與語素義之間的語義關(guān)系,來統(tǒng)計(jì)研究語義構(gòu)詞規(guī)則仍處于探索階段。目前面向計(jì)算機(jī)的構(gòu)詞研究已經(jīng)有了一些成果,主要是在語素資源建設(shè)及構(gòu)詞規(guī)律的統(tǒng)計(jì)方面,并沒有將語素構(gòu)詞方式的統(tǒng)計(jì)研究中所得到的統(tǒng)計(jì)規(guī)律在工程實(shí)踐中應(yīng)用。本文從義類的角度出發(fā),在廣泛吸收已有成果,深入分析總結(jié)新詞語語義構(gòu)詞規(guī)則,找出三音合成詞的語義組合規(guī)律。對其語義構(gòu)詞規(guī)則的探索,有助于語義構(gòu)詞法研究的深入和發(fā)展,豐富和完善漢語詞匯語義學(xué)理論。
2、語義構(gòu)詞規(guī)則研究的方法
(1)采用語料庫的方法。選取一定數(shù)量的三音節(jié)合成詞新詞語,利用“漢字義類信息庫”對構(gòu)成三音節(jié)合成詞新詞語的每個(gè)字進(jìn)行語義標(biāo)注,建成大型的《漢語語義構(gòu)詞數(shù)據(jù)庫》并進(jìn)行統(tǒng)計(jì)歸納。
(2)定量與定性相結(jié)合的方法。在大規(guī)模語料庫的基礎(chǔ)上,增加新的三音合成詞,這是量的準(zhǔn)備。在標(biāo)注《漢語語義構(gòu)詞數(shù)據(jù)庫》時(shí),前人歸納的規(guī)則,同樣適用于三音合成詞,對其的語義構(gòu)詞規(guī)則進(jìn)行定性分析。
(3)人際互助的方法。通過技術(shù)深入挖掘數(shù)據(jù),最終實(shí)現(xiàn)自動提取語義構(gòu)詞的規(guī)則。
二、新詞語語義構(gòu)詞數(shù)據(jù)庫的建構(gòu)與實(shí)現(xiàn)
1、新詞語數(shù)據(jù)庫收詞
本文以《現(xiàn)代漢語字典》、《新詞語大辭典》為基礎(chǔ),從1978年以來出現(xiàn)的新詞語中選取了7709個(gè)三音合成詞,用《漢字義類信息庫》對這些三音節(jié)詞的各個(gè)字進(jìn)行了義類標(biāo)記,并進(jìn)行人工校對。由于篇幅有限,本文只研究a+b+c=(a+b)+c類,共計(jì)3451個(gè)三音節(jié)合成詞。收詞原則為適用性原則、規(guī)范性原則、穩(wěn)定性原則。
2、數(shù)據(jù)庫中的義類體系標(biāo)記及標(biāo)注
(1)數(shù)據(jù)庫中的義類體系標(biāo)記
采用梅家駒《同義詞詞林》的義類標(biāo)注體系,分為12個(gè)大類,94個(gè)中類,1428個(gè)小類。如: A人:Aa泛稱、B物:Ba統(tǒng)稱、C時(shí)間與空間:Ca時(shí)間、D抽象事物:Da事情、E特征:Ea外形、F動作:Fa上肢動作、G心理活動:Ga心理狀態(tài)、H活動:Ha政治活動、I現(xiàn)象與狀態(tài):Ia自然現(xiàn)象、J關(guān)聯(lián):Ja聯(lián)系、K助語:Ka疏狀、L敬語。
(2)數(shù)據(jù)庫中的義類體系標(biāo)注
本文的標(biāo)注方式為:以梅家駒先生《同義詞詞林》的義類標(biāo)注體系為基礎(chǔ),對三音節(jié)合成詞新詞語進(jìn)行人工語義標(biāo)注。而后計(jì)算機(jī)以“漢字義類信息庫”為基礎(chǔ),根據(jù)九類規(guī)則對三音節(jié)合成詞新詞語的詞或語素進(jìn)行語義標(biāo)注。最后,由人工進(jìn)行輔助校對,通過ACCESS軟件進(jìn)行數(shù)據(jù)提取并得出相關(guān)數(shù)據(jù)。本文只研究類型一。
3.新詞語語義構(gòu)詞數(shù)據(jù)庫樣例
三、a+b+c=(a+b)+c類型語義構(gòu)詞規(guī)則研究
1、詞的義類情況
(1)義類為A類的詞語
詞的義類為A的詞語共389個(gè),占11.3﹪。構(gòu)成A類詞的方式有A+X[2]=A、B+X=A、C+X=A、D+X=A、E+X=A、F+X=A、G+X=A、H+X=A、I+X=A、J+X=A、K+X=A、L+X=A。其中,H+X=A為134個(gè),占34.4﹪。而H+X=A中存在四種類型。即H+A=A、H+B=A、H+D=A、H+K=A。其中,H+A=A為111個(gè),占82.8﹪。由此可見,H類 “活動”的雙音合成詞加上A類“人”的詞語,在義類為A的詞語中占優(yōu)勢,如:服務(wù)員。說明在構(gòu)成A類的三音合成詞時(shí)的構(gòu)詞傾向?yàn)椤盎顒印奔印叭恕薄?/p>
(2)義類為B類的詞語
詞的義類為B的詞語共計(jì)1128個(gè),占32.7﹪。構(gòu)成B類詞的方式有A+X=B、B+X= B、C+X= B、D+X= B、E+X= B、F+X= B、G+X= B、H+X= B、I+X= B、J+X= B、K+X= B、L+X= B。其中,B+X= B為294個(gè),占26﹪。而B+X=B中存在八種類型。即B+A=B、B+B=B、B+C=B、B+D=B、B+E=B、B+G=B、B+H=B、B+I=B。其中,B+B=B為237個(gè),占80.6﹪。通過分析可知, B+B=B,在其中占比最大,如:煤氣罐。由此看出,詞義為B 的三音合成詞的組成部分多為為B類。
(3)義類為C類的詞語
詞的義類為C的詞語共計(jì)241個(gè),占6.98﹪。構(gòu)成C類詞的方式有A+X=C、B+X=C、C+X=C、D+X=C、E+X=C、F+X=C、G+X=C、H+X=C、I+X=C、J+X=C、K+X=C、L+X=C。其中,D+X=C為63個(gè),占26.1﹪。而D+X=C中存在五種類型。即D+B=C、D+C=C、D+D=C、D+E=C、D+H=C。其中,D+C=C為41個(gè),占65.1﹪。以上數(shù)據(jù)表明,語義為C的三音合成詞多是由D“抽象事物”加C“時(shí)間與空間”組成的。如:英語角。
(4)義類為D類的詞語
詞的義類為D的詞語共計(jì)1455個(gè),占42.2﹪。構(gòu)成D類詞的方式有A+X=D、B+X=D、C+X=D、D+X=D、E+X=D、F+X=D、G+X=D、H+X=D、I+X=D、J+X=D、K+X=D、L+X=D。其中,D+X=D為417個(gè),占28.7﹪。而D+X=C中存在十種類型。即D+A=D、D+B=D、D+C=D、D+D=D、D+E=D、D+F=D、D+G=D、D+H=D、D+I=D、D+K=D。其中,D+D=D為367個(gè),占87.8﹪。如:心理戰(zhàn)、刑偵學(xué)、婦產(chǎn)科等。由此看出,構(gòu)詞D類語義的三音合成詞多由相同義類的雙音合成詞加語素構(gòu)成。如:心理戰(zhàn)。
(5)義類為E類的詞語
詞的義類為E的詞語共計(jì)23個(gè),占0.67﹪。構(gòu)成E類詞的方式有B+X=E、C+X=E、D+X=E、E+X=E、H+X=E、I+X=E、K+X=E。其中,D+X=E為11個(gè),占47.8﹪。而D+X=E中存在四種類型。即D+D=E、D+E=E、D+G=E、D+I=E。其中,D+G=E為6個(gè),占54.5﹪。D+G=E在詞義為E類的三音合成詞中的占比過半。這說明表“特征”的詞往往是有表“抽象事物” 詞和表“心理活動”的語素組成。如:科學(xué)美。
(6)義類為F類的詞語
詞的義類為F的詞語共計(jì)11個(gè),占0.32﹪。構(gòu)成F類詞的方式有A+X=F、B+X=F、C+X=F、D+X=F、E+X=F。其中,B+X=F為5個(gè),占45﹪。而B+X=F中存在一種類型。即B+F=F。B+F=F在詞義為E的三音合成詞中占比最大,如:日光浴。由此得出,表示“物”的詞語與表示“動作”的語素最易結(jié)合成表示成表示“動作”的三音合成詞。
(7)義類為G類的詞語
詞的義類為G的詞語共計(jì)4個(gè),占0.116﹪。構(gòu)成G類詞的方式有C+X=G、D+X=G、E+X=G。其中,E+X=G為2個(gè),占50﹪。而E+X=G中存在二種類型。即E+D=G如:窩囊氣、E+G=G 如:冰涼感。義類為G的三音合成詞數(shù)量較少。其組成形式有:E+D=G、E+G=G為、D+G=G、D+G=G。由此看出,在詞義為G的三音合成詞中,X+G=G的形式占比最大。說明三音合成詞的詞義與第二部分的語素聯(lián)系緊密。
(8)義類為H類的詞語
詞的義類為H的詞語共計(jì)84個(gè),占2.43﹪。構(gòu)成H類詞的方式有A+X=H、B+X=H、C+X=H、D+X=H、E+X=H、F+X=H、G+X=H、H+X=H、I+X=H、J+X=H、K+X=H。其中,H+X=H為27個(gè),占32.1﹪。而H+X=H中存在七種類型。即H+B=H、H+D=H、H+E=H、H+F=H、H+H=H、H+I=H、H+J=H。其中,H+H=H為11個(gè),占40.4﹪。以上數(shù)據(jù)表明,H+H=H類型在 “活動”類三音合成詞中占據(jù)優(yōu)勢。如:選拔賽。
(9)義類為I類的詞語
詞的義類為I的詞語共計(jì)115個(gè),占3.33﹪。構(gòu)成I詞的方式有A+X=I、B+X=I、C+X=I、D+X=I、E+X=I、F+X=I、H+X=I、I+X=I、K+X=I、L+X=I。其中,D+X=I為37個(gè),占32.2﹪。而D+X=I中存在四種類型。即D+A=I、D+B=I、D+D=I、D+I=I。其中,D+I=I為27個(gè),占73﹪。在詞義為I的三音合成詞中,D+I=I的形式占比最大。說明三音合成詞的詞義與第二部分的語素關(guān)系緊密。如:民族化。
2、構(gòu)詞規(guī)則特點(diǎn)
通過對具體規(guī)則的歸納、統(tǒng)計(jì),我們發(fā)現(xiàn)這一類型有以下特點(diǎn):每個(gè)義類的構(gòu)詞能力不同,第一部分出現(xiàn)義類的頻率不等式,括號里出現(xiàn)的是頻度:D(871)>H(805)>B(583)>E(313)>A(222)>I(220)>C(183)>J(73)>G(68)>F(65)>K(35)>L(0)我們可以看出有些義類的雙音合成詞出現(xiàn)的次數(shù)較多,而有些則較少。這說明義類的構(gòu)詞能力不同。因此,在這一類型中,前一部分的義類構(gòu)詞能力最強(qiáng)的是D 抽象事物,最弱的是L 敬語。第二部分的義類頻度分布為:D(1485)>B(1055)>A(341)>C(201)>H(140)>I(106)>E(45)>G(43)>F(17)>K(9)>J(8)>L(0) 可以看出有些義類的雙音合成詞出現(xiàn)的次數(shù)較多,而有些則較少。這說明義類的構(gòu)詞能力不同。因此,在這一類型中,第二部分的義類構(gòu)詞能力最強(qiáng)的是D抽象事物,最弱的是L 敬語。
四、結(jié)語
本文從語義構(gòu)詞規(guī)則的角度,將數(shù)據(jù)庫中的三音合成詞分為九類。并提取出a+b+c=(a+b)+c類進(jìn)行研究分析。通過分析構(gòu)成三音合成詞的前后兩個(gè)部分,總結(jié)出了語義構(gòu)詞的規(guī)則及其特點(diǎn)。由于筆者能力有限,文章對語料的研究只涉及到大類,中類和小類尚未涉及,所以統(tǒng)計(jì)的結(jié)果難免會有所疏漏。而本文根據(jù)詞義和語素義的關(guān)系進(jìn)行分類,難免要接觸具體的語素義和詞義,由于其語素義和詞義的復(fù)雜性,在統(tǒng)計(jì)義類和舉例時(shí)難免會存在主觀性。
注釋:
[1]本文所指的三音節(jié)合成詞新詞語為a+b+c=(a+b)+c類。如:民族化、友誼賽等。
[2]此處X代表13類大類中的任意義類。
【參考文獻(xiàn)】
[1]曹煒.現(xiàn)代漢語詞匯研究[M].北京:北京大學(xué)出版社,2004.
[2]陳明瑤.語料庫與詞匯學(xué)研究[J].寧波大學(xué)學(xué)報(bào),2000,13(1).
[3]戴昭銘.現(xiàn)代合成詞的內(nèi)部結(jié)構(gòu)與外部功能的關(guān)系[J].語文研究,1988(4).
[4]董秀芝.漢語的詞庫和詞法[M].北京:北京大學(xué)出版社,2004.