數(shù)據(jù)挖掘技術(shù)在智能析取詞語模應(yīng)用中的可行性分析

2013-04-29 00:00:00喻晗陽

北方文學(xué)·下旬 2013年5期

摘要：計(jì)算機(jī)技術(shù)可以為中文信息處理提供支持。詞語模是漢語新詞語中的一種結(jié)構(gòu)，本文試圖基于數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則和聚類分析這兩種方法，從理論上分析智能析取詞語模的可行性。

關(guān)鍵詞：關(guān)聯(lián)規(guī)則聚類詞語模

1.引言

李宇明（1999）提出了詞語模理論，詞語模是指能批量產(chǎn)生新詞語的一種造詞模子，這種造詞模子使得新生成的詞語形成了一系列的詞語簇。通常由“模標(biāo)”和“模槽”兩個(gè)部分組成，“模標(biāo)”是詞語模中固定的部分，而“模槽”則是詞語模中不定的部分。現(xiàn)在發(fā)展的比較成熟的詞語模有“X族”、“被XX”、“曬XX”、“XX門”等等。根據(jù)模標(biāo)位置的不同，可以將詞語模分為三種：前綴式、中綴式、后綴式。上例中的“X族”屬于后綴式，“被XX”屬于前綴式，中綴式極少，發(fā)展的還不成熟。要研究詞語模，首先要獲取詞語模語料，如何從大型語料庫中獲取語料就成了智能析取的大難題。

數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則是指在一個(gè)數(shù)據(jù)庫中，每個(gè)事務(wù)都有與之相應(yīng)的唯一標(biāo)識(shí)符。關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)的過程大致是先在數(shù)據(jù)庫中確定高頻項(xiàng)目組，再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則。聚類分析方法可以將大量的數(shù)據(jù)分成不同的類，每一個(gè)類中的對(duì)象具有很大的相似性，不同的類中的對(duì)象有很大的差異性，聚類分析是一種探索性的分析，在分析過程中，可以從樣本數(shù)據(jù)出發(fā)，對(duì)數(shù)據(jù)自動(dòng)進(jìn)行分類。目前，聚類分析方法已經(jīng)在語言研究中得到了廣泛的應(yīng)用，尤其在詞匯抽取等方面，聚類分析技術(shù)已經(jīng)很成熟。下面就基于這兩種數(shù)據(jù)挖掘方法，談一談智能析取詞語模的可行性。

2. 智能析取詞語模的可行性分析

現(xiàn)有的搜索技術(shù)已經(jīng)能夠完成從大型語料庫中檢索關(guān)鍵字位置的功能。智能析取詞語模是建立在基本檢索的基礎(chǔ)之上的。

第一步是初步確定所需語料。以上文提到的“X族”為例，在我們還不確定這是一個(gè)詞語模的時(shí)候，可在語料庫中檢索“族”，考慮到漢語音節(jié)特點(diǎn)，我們可選擇“族”字前后共五個(gè)字作為第一次的統(tǒng)計(jì)語料，這五個(gè)字可分別定義為“AB族CD”，我們需要統(tǒng)計(jì)的數(shù)據(jù)就是AB族、B族、B族C、族C、族CD這五個(gè)成分。

第二步，利用數(shù)據(jù)挖掘技術(shù)分析擇取有用語料。根據(jù)關(guān)聯(lián)規(guī)則確定數(shù)據(jù)庫中的高頻項(xiàng)目組，可利用前后遍歷的方法來進(jìn)一步確定有用語料。假設(shè)在例1中“AB族CD”顯示的是：樂活族雜志，那么需要確定的五個(gè)成分就是：樂活族、活族、活族雜、族雜、族雜志。先選取“AB族”成分，向后遍歷，若其他例句中還有同樣的成分，則將該成分保留并記錄。若其他例句中沒有再出現(xiàn)這種結(jié)構(gòu)，則跳過，分析下個(gè)成分。同理對(duì)其他幾種成分進(jìn)行遍歷分析。直到語料庫中所有成分分析完畢。得到的記錄便是各個(gè)高頻詞的集合。

第三步，使用聚類計(jì)算方法，我們可以將每個(gè)語料中的五種數(shù)據(jù)與語料庫中的其他語料進(jìn)行比對(duì)，將同樣的用法歸到一類，這樣就可以得出哪一種出現(xiàn)的概率較大。若某種構(gòu)式只是偶爾出現(xiàn)，則說明這種用法是不常見的，甚至可能是不規(guī)范的。根據(jù)現(xiàn)有的語料，我們可以知道，“B族C”、“族C”、“族CD”這三種結(jié)構(gòu)是不成立的，而“AB族”、“B族”這兩種結(jié)構(gòu)出現(xiàn)的比較多。這時(shí)，我們就可以初步判定，“族”可能構(gòu)成一個(gè)后綴式詞語模。

第四步，對(duì)智能分析的結(jié)果做人工分析。根據(jù)“例不十，則法不立”的原則，我們可以做出簡(jiǎn)單的規(guī)定，即一個(gè)成熟的詞語模至少能生成十個(gè)以上的新詞語。這時(shí)再對(duì)統(tǒng)計(jì)的結(jié)果進(jìn)行分析，就可以得出較為準(zhǔn)確的提取結(jié)果了。

3.可能存在的問題

上一節(jié)中的智能分析過程是我們的一個(gè)猜想，受客觀條件的限制，可能還無法實(shí)現(xiàn)。主要問題在于以下兩個(gè)方面：

一、語料庫的建設(shè)是一切分析的基礎(chǔ)，新詞語活躍性較強(qiáng)，很可能還沒有被廣泛運(yùn)用開來，就已經(jīng)消亡了。在規(guī)范的白話文作品中很難看到這些詞，而我們現(xiàn)有的現(xiàn)代漢語語料庫大多是基于規(guī)范的白話文著作等內(nèi)容建立的，因此，在這類語料庫中做智能分析，得到的語料并不精確。網(wǎng)絡(luò)語言詞匯可以說是新詞語的代表，而網(wǎng)絡(luò)語言涵蓋了即時(shí)口語、網(wǎng)絡(luò)日志、交互論貼等多方面的內(nèi)容。要建立一個(gè)完整的語料庫，需要投入大量的人力、物力和時(shí)間。因此，語料庫的建設(shè)是一個(gè)難點(diǎn)，也是影響整個(gè)研究的重點(diǎn)問題。

二、受某些詞語語義等方面原因的影響，智能分析很難區(qū)分同素異義詞，也就影響了詞語模的確定。例如”拼X”，根據(jù)觀察，我們可以確定這是一個(gè)詞語模，熟知的詞有：拼爹，拼學(xué)歷，拼房，拼車，拼飯，拼牛奶。然而，這些例詞中實(shí)際上含有兩個(gè)詞語模“拼1X”和“拼2X”，“拼爹，拼學(xué)歷”屬于“拼1X”，這里的拼是比拼義，而“拼飯，拼牛奶”屬于“拼2X”，這里的拼是拼湊義，因此，這應(yīng)該算作兩個(gè)不同的詞語模。此外，“拼房，拼車”既可以認(rèn)定為“拼1X”又可以認(rèn)定為“拼2X”。由此可見，同一個(gè)“拼X”結(jié)構(gòu)，在智能分析的時(shí)候很容易混淆，如何解決這類詞語的智能區(qū)分，也是智能析取詞語模的一個(gè)難點(diǎn)。

4.結(jié)語

詞匯是語言諸要素中發(fā)展最快的，研究詞匯問題也有助于社會(huì)問題的研究。詞語模已是漢語詞匯的一種常見構(gòu)式，短時(shí)間內(nèi)發(fā)展出一大批相似詞語決不是偶然現(xiàn)象，這個(gè)問題是值得人們注意并研究的。計(jì)算機(jī)技術(shù)在語言學(xué)研究中已有廣泛應(yīng)用。在詞語模研究中首先要解決的就是確定詞語模的問題，要從大型語料庫中智能析取詞語模，就必須要用到數(shù)據(jù)挖掘技術(shù)來輔助研究，本文只是從理論的層面淺析了數(shù)據(jù)挖掘技術(shù)應(yīng)用的可行性，很多操作方法和實(shí)施技術(shù)還未得到驗(yàn)證，還有待繼續(xù)研究。

參考文獻(xiàn)：

[1]李宇明.詞語模[C].邢福義主編.漢語語法特點(diǎn)面面觀[M].北京：北京語言文化大學(xué)出版社.1999，146-157

[2]胥桂仙，許建潮，連遠(yuǎn)鋒，李昱翠.文本挖掘中的特征表示及聚類方法[J]. 吉林工學(xué)院學(xué)報(bào).2002.3。

作者簡(jiǎn)介：喻晗陽（1989-），女，江西南昌人，江西師范大學(xué)文學(xué)院2011級(jí)碩士研究生，研究方向：社會(huì)語言學(xué)。

北方文學(xué)·下旬2013年5期

北方文學(xué)·下旬的其它文章: 電影《刮痧》反映的中西方文化差異; 古代體衣類詞匯的文化解讀; 淺析大學(xué)生自主創(chuàng)業(yè); 園林：詩意的棲居之所; 芳林新葉催陳葉; 試論邏輯實(shí)證主義的科學(xué)觀