摘 要:計(jì)算機(jī)技術(shù)可以為中文信息處理提供支持。詞語模是漢語新詞語中的一種結(jié)構(gòu),本文試圖基于數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則和聚類分析這兩種方法,從理論上分析智能析取詞語模的可行性。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則 聚類 詞語模
1.引言
李宇明(1999)提出了詞語模理論,詞語模是指能批量產(chǎn)生新詞語的一種造詞模子,這種造詞模子使得新生成的詞語形成了一系列的詞語簇。通常由“模標(biāo)”和“模槽”兩個(gè)部分組成,“模標(biāo)”是詞語模中固定的部分,而“模槽”則是詞語模中不定的部分。現(xiàn)在發(fā)展的比較成熟的詞語模有“X族”、“被XX”、“曬XX”、“XX門”等等。根據(jù)模標(biāo)位置的不同,可以將詞語模分為三種:前綴式、中綴式、后綴式。上例中的“X族”屬于后綴式,“被XX”屬于前綴式,中綴式極少,發(fā)展的還不成熟。要研究詞語模,首先要獲取詞語模語料,如何從大型語料庫中獲取語料就成了智能析取的大難題。
數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則是指在一個(gè)數(shù)據(jù)庫中,每個(gè)事務(wù)都有與之相應(yīng)的唯一標(biāo)識(shí)符。關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)的過程大致是先在數(shù)據(jù)庫中確定高頻項(xiàng)目組,再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則。聚類分析方法可以將大量的數(shù)據(jù)分成不同的類,每一個(gè)類中的對(duì)象具有很大的相似性,不同的類中的對(duì)象有很大的差異性,聚類分析是一種探索性的分析,在分析過程中,可以從樣本數(shù)據(jù)出發(fā),對(duì)數(shù)據(jù)自動(dòng)進(jìn)行分類。目前,聚類分析方法已經(jīng)在語言研究中得到了廣泛的應(yīng)用,尤其在詞匯抽取等方面,聚類分析技術(shù)已經(jīng)很成熟。下面就基于這兩種數(shù)據(jù)挖掘方法,談一談智能析取詞語模的可行性。
2. 智能析取詞語模的可行性分析
現(xiàn)有的搜索技術(shù)已經(jīng)能夠完成從大型語料庫中檢索關(guān)鍵字位置的功能。智能析取詞語模是建立在基本檢索的基礎(chǔ)之上的。
第一步是初步確定所需語料。以上文提到的“X族”為例,在我們還不確定這是一個(gè)詞語模的時(shí)候,可在語料庫中檢索“族”,考慮到漢語音節(jié)特點(diǎn),我們可選擇“族”字前后共五個(gè)字作為第一次的統(tǒng)計(jì)語料,這五個(gè)字可分別定義為“AB族CD”,我們需要統(tǒng)計(jì)的數(shù)據(jù)就是AB族、B族、B族C、族C、族CD這五個(gè)成分。
第二步,利用數(shù)據(jù)挖掘技術(shù)分析擇取有用語料。根據(jù)關(guān)聯(lián)規(guī)則確定數(shù)據(jù)庫中的高頻項(xiàng)目組,可利用前后遍歷的方法來進(jìn)一步確定有用語料。假設(shè)在例1中“AB族CD”顯示的是:樂活族雜志,那么需要確定的五個(gè)成分就是:樂活族、活族、活族雜、族雜、族雜志。先選取“AB族”成分,向后遍歷,若其他例句中還有同樣的成分,則將該成分保留并記錄。 若其他例句中沒有再出現(xiàn)這種結(jié)構(gòu),則跳過,分析下個(gè)成分。同理對(duì)其他幾種成分進(jìn)行遍歷分析。直到語料庫中所有成分分析完畢。得到的記錄便是各個(gè)高頻詞的集合。
第三步,使用聚類計(jì)算方法,我們可以將每個(gè)語料中的五種數(shù)據(jù)與語料庫中的其他語料進(jìn)行比對(duì),將同樣的用法歸到一類,這樣就可以得出哪一種出現(xiàn)的概率較大。若某種構(gòu)式只是偶爾出現(xiàn),則說明這種用法是不常見的,甚至可能是不規(guī)范的。根據(jù)現(xiàn)有的語料,我們可以知道,“B族C”、“族C”、“族CD”這三種結(jié)構(gòu)是不成立的,而“AB族”、“B族”這兩種結(jié)構(gòu)出現(xiàn)的比較多。這時(shí),我們就可以初步判定,“族”可能構(gòu)成一個(gè)后綴式詞語模。
第四步,對(duì)智能分析的結(jié)果做人工分析。根據(jù)“例不十,則法不立”的原則,我們可以做出簡(jiǎn)單的規(guī)定,即一個(gè)成熟的詞語模至少能生成十個(gè)以上的新詞語。這時(shí)再對(duì)統(tǒng)計(jì)的結(jié)果進(jìn)行分析,就可以得出較為準(zhǔn)確的提取結(jié)果了。
3.可能存在的問題
上一節(jié)中的智能分析過程是我們的一個(gè)猜想,受客觀條件的限制,可能還無法實(shí)現(xiàn)。主要問題在于以下兩個(gè)方面:
一、語料庫的建設(shè)是一切分析的基礎(chǔ),新詞語活躍性較強(qiáng),很可能還沒有被廣泛運(yùn)用開來,就已經(jīng)消亡了。在規(guī)范的白話文作品中很難看到這些詞,而我們現(xiàn)有的現(xiàn)代漢語語料庫大多是基于規(guī)范的白話文著作等內(nèi)容建立的,因此,在這類語料庫中做智能分析,得到的語料并不精確。網(wǎng)絡(luò)語言詞匯可以說是新詞語的代表,而網(wǎng)絡(luò)語言涵蓋了即時(shí)口語、網(wǎng)絡(luò)日志、交互論貼等多方面的內(nèi)容。要建立一個(gè)完整的語料庫,需要投入大量的人力、物力和時(shí)間。因此,語料庫的建設(shè)是一個(gè)難點(diǎn),也是影響整個(gè)研究的重點(diǎn)問題。
二、受某些詞語語義等方面原因的影響,智能分析很難區(qū)分同素異義詞,也就影響了詞語模的確定。例如”拼X”,根據(jù)觀察,我們可以確定這是一個(gè)詞語模,熟知的詞有:拼爹,拼學(xué)歷,拼房,拼車,拼飯,拼牛奶。然而,這些例詞中實(shí)際上含有兩個(gè)詞語模“拼1X”和“拼2X”,“拼爹,拼學(xué)歷”屬于“拼1X”,這里的拼是比拼義,而“拼飯,拼牛奶”屬于“拼2X”,這里的拼是拼湊義,因此,這應(yīng)該算作兩個(gè)不同的詞語模。此外,“拼房,拼車”既可以認(rèn)定為“拼1X”又可以認(rèn)定為“拼2X”。由此可見,同一個(gè)“拼X”結(jié)構(gòu),在智能分析的時(shí)候很容易混淆,如何解決這類詞語的智能區(qū)分,也是智能析取詞語模的一個(gè)難點(diǎn)。
4.結(jié)語
詞匯是語言諸要素中發(fā)展最快的,研究詞匯問題也有助于社會(huì)問題的研究。詞語模已是漢語詞匯的一種常見構(gòu)式,短時(shí)間內(nèi)發(fā)展出一大批相似詞語決不是偶然現(xiàn)象,這個(gè)問題是值得人們注意并研究的。計(jì)算機(jī)技術(shù)在語言學(xué)研究中已有廣泛應(yīng)用。在詞語模研究中首先要解決的就是確定詞語模的問題,要從大型語料庫中智能析取詞語模,就必須要用到數(shù)據(jù)挖掘技術(shù)來輔助研究,本文只是從理論的層面淺析了數(shù)據(jù)挖掘技術(shù)應(yīng)用的可行性,很多操作方法和實(shí)施技術(shù)還未得到驗(yàn)證,還有待繼續(xù)研究。
參考文獻(xiàn):
[1]李宇明.詞語模[C].邢福義主編.漢語語法特點(diǎn)面面觀[M].北京:北京語言文化大學(xué)出版社.1999,146-157
[2]胥桂仙,許建潮,連遠(yuǎn)鋒,李昱翠.文本挖掘中的特征表示及聚類方法[J]. 吉林工學(xué)院學(xué)報(bào).2002.3。
作者簡(jiǎn)介:喻晗陽(1989-),女,江西南昌人,江西師范大學(xué)文學(xué)院2011級(jí)碩士研究生,研究方向:社會(huì)語言學(xué)。