999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信息熵和詞頻分布變化的術(shù)語(yǔ)抽取研究

2015-04-25 08:23:58李麗雙王意文黃德根
中文信息學(xué)報(bào) 2015年1期
關(guān)鍵詞:規(guī)則方法

李麗雙,王意文,黃德根

(大連理工大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116023)

?

基于信息熵和詞頻分布變化的術(shù)語(yǔ)抽取研究

李麗雙,王意文,黃德根

(大連理工大學(xué) 計(jì)算機(jī)學(xué)院,遼寧 大連 116023)

在分別研究了基于信息熵和基于詞頻分布變化的術(shù)語(yǔ)抽取方法的情況下,該文提出了一種信息熵和詞頻分布變化相結(jié)合的術(shù)語(yǔ)抽取方法。信息熵體現(xiàn)了術(shù)語(yǔ)的完整性,詞頻分布變化體現(xiàn)了術(shù)語(yǔ)的領(lǐng)域相關(guān)性。通過(guò)應(yīng)用信息熵,即將信息熵結(jié)合到詞頻分布變化公式中進(jìn)行術(shù)語(yǔ)抽取,且應(yīng)用簡(jiǎn)單語(yǔ)言學(xué)規(guī)則過(guò)濾普通字符串。實(shí)驗(yàn)表明,在汽車領(lǐng)域的語(yǔ)料上,應(yīng)用該方法抽取出1 300個(gè)術(shù)語(yǔ),其正確率達(dá)到73.7%。結(jié)果表明該方法對(duì)低頻術(shù)語(yǔ)有更好的抽取效果,同時(shí)抽取出的術(shù)語(yǔ)結(jié)構(gòu)更完整。

術(shù)語(yǔ)抽取;信息熵;詞頻分布變化

1 引言

術(shù)語(yǔ)是表達(dá)特定學(xué)科領(lǐng)域的基本概念的語(yǔ)言單元,可以是詞或詞組。術(shù)語(yǔ)的定義并沒(méi)有統(tǒng)一標(biāo)準(zhǔn)化。馮志偉在《現(xiàn)代術(shù)語(yǔ)學(xué)引論》[1]中給出了術(shù)語(yǔ)的定義,即“通過(guò)語(yǔ)音或文字來(lái)表達(dá)或限定專業(yè)概念的約定性符號(hào),可以是詞也可以是詞組”。 梁愛(ài)林[2]指出“術(shù)語(yǔ)是指從事特定專業(yè)技術(shù)學(xué)科的人用字、詞語(yǔ)或者字母與數(shù)碼符號(hào)等來(lái)表示專業(yè)領(lǐng)域中的某一個(gè)概念”。馮志偉在《現(xiàn)代術(shù)語(yǔ)學(xué)引論》[1]中研究發(fā)現(xiàn)了術(shù)語(yǔ)的8大特征: 準(zhǔn)確性、單義性、系統(tǒng)性、語(yǔ)言的正確性、簡(jiǎn)明性、理?yè)?jù)性、穩(wěn)定性、能產(chǎn)性。《中國(guó)大百科全書(shū)》[3]總結(jié)了術(shù)語(yǔ)的4個(gè)特性: 專業(yè)性、科學(xué)性、單義性、系統(tǒng)性。

術(shù)語(yǔ)是在特定領(lǐng)域中使用的、相對(duì)固定的詞或短語(yǔ),是科學(xué)研究和知識(shí)交流的有力工具。術(shù)語(yǔ)具有相對(duì)完整的結(jié)構(gòu)和完整的領(lǐng)域意義。術(shù)語(yǔ)的自動(dòng)抽取有利于自然語(yǔ)言處理技術(shù)的發(fā)展,可以應(yīng)用于信息處理的多個(gè)方面,例如,信息檢索、機(jī)器翻譯、自動(dòng)索引、知識(shí)庫(kù)構(gòu)建和信息抽取等領(lǐng)域。由于采用監(jiān)督式的機(jī)器學(xué)習(xí)方法需要人工標(biāo)注大量語(yǔ)料,同時(shí)人工標(biāo)注語(yǔ)料很可能產(chǎn)生大量錯(cuò)誤和不一致性,所以,當(dāng)前術(shù)語(yǔ)的自動(dòng)抽取技術(shù)主要是基于統(tǒng)計(jì)學(xué)的方法,并結(jié)合語(yǔ)言學(xué)規(guī)則進(jìn)行過(guò)濾,即采用的是無(wú)監(jiān)督的方法。

目前,國(guó)內(nèi)外很多研究者都對(duì)術(shù)語(yǔ)的自動(dòng)抽取技術(shù)進(jìn)行了研究。主要有基于語(yǔ)言學(xué)規(guī)則的方法,基于統(tǒng)計(jì)學(xué)的方法以及統(tǒng)計(jì)學(xué)和規(guī)則相結(jié)合的方法。其中比較成熟的是統(tǒng)計(jì)學(xué)和規(guī)則相結(jié)合的方法。張峰[4]應(yīng)用互信息計(jì)算字符串的內(nèi)部結(jié)合強(qiáng)度,去除大量結(jié)構(gòu)不穩(wěn)定的候選短語(yǔ),接著主要應(yīng)用前綴和后綴信息進(jìn)一步過(guò)濾候選術(shù)語(yǔ),抽取出的術(shù)語(yǔ)的F值達(dá)到74.97%。梁穎紅[5]結(jié)合NC-value參數(shù)和互信息方法用于識(shí)別3個(gè)字以上的長(zhǎng)術(shù)語(yǔ),獲得了82.2%的F值。何婷婷和張勇[6]提出了一種基于質(zhì)子串分解的術(shù)語(yǔ)自動(dòng)抽取方法,分別處理簡(jiǎn)單術(shù)語(yǔ)和復(fù)雜術(shù)語(yǔ),使術(shù)語(yǔ)的抽取效果得到提高。游宏梁[7]利用統(tǒng)計(jì)指標(biāo)加權(quán)投票方法進(jìn)行術(shù)語(yǔ)自動(dòng)識(shí)別,表明加權(quán)投票方法比單一指標(biāo)的識(shí)別效果更好。劉桃[8]提出了一種基于信息熵的領(lǐng)域術(shù)語(yǔ)抽取方法,該方法考慮了術(shù)語(yǔ)的領(lǐng)域分布特征,并對(duì)語(yǔ)料的不平衡性進(jìn)行了正規(guī)化。潘渭[9]提出了使用分類方法進(jìn)行專業(yè)術(shù)語(yǔ)定義抽取的方法,該方法將基于實(shí)例距離分布信息的過(guò)采樣方法和隨機(jī)欠采樣方法結(jié)合,并使用BRF(Balanced Random Forest)方法來(lái)獲得C4.5決策樹(shù)的聚合分類結(jié)果,實(shí)驗(yàn)表明該方法取得的抽取效果優(yōu)于僅使用BRF的方法。基于統(tǒng)計(jì)的方法所需的領(lǐng)域知識(shí)較少,且能應(yīng)用于多個(gè)語(yǔ)種,具有很好的可移植性。但是,統(tǒng)計(jì)學(xué)方法需要大規(guī)模的語(yǔ)料,若語(yǔ)料規(guī)模過(guò)小則難以獲得有效的統(tǒng)計(jì)信息,很容易獲取到無(wú)效的術(shù)語(yǔ),且低頻術(shù)語(yǔ)通常被過(guò)濾掉。為了抽取出低頻術(shù)語(yǔ),周浪[10]提出了一種利用術(shù)語(yǔ)在語(yǔ)料中詞頻分布變化程度的統(tǒng)計(jì)信息來(lái)檢測(cè)術(shù)語(yǔ)的領(lǐng)域相關(guān)性的方法,同時(shí)結(jié)合機(jī)器學(xué)習(xí)的方法獲取語(yǔ)言知識(shí),該方法能有效地區(qū)分低頻術(shù)語(yǔ)和高頻普通詞。但是該方法應(yīng)用機(jī)器學(xué)習(xí)獲取語(yǔ)言知識(shí)的過(guò)程中需要大量的人工標(biāo)注或需要有現(xiàn)有術(shù)語(yǔ)可供學(xué)習(xí),且沒(méi)有考慮到術(shù)語(yǔ)的內(nèi)部結(jié)合強(qiáng)度。本文提出的方法主要是對(duì)周浪[10]的方法的改進(jìn),即在詞頻分布方法的基礎(chǔ)上結(jié)合信息熵方法,在度量術(shù)語(yǔ)的領(lǐng)域分布特性的同時(shí)度量術(shù)語(yǔ)的完整性;同時(shí)提出邊界判定算法用以進(jìn)一步判定術(shù)語(yǔ)完整性。通過(guò)以上改進(jìn)提高術(shù)語(yǔ)抽取效果。

2 術(shù)語(yǔ)抽取系統(tǒng)

本文實(shí)現(xiàn)的中文術(shù)語(yǔ)抽取系統(tǒng)基于語(yǔ)言學(xué)規(guī)則和統(tǒng)計(jì)信息相結(jié)合的方法。系統(tǒng)的流程圖如圖1所示。術(shù)語(yǔ)抽取系統(tǒng)主要由3部分組成: 文本切分、基于詞頻分布和信息熵的候選術(shù)語(yǔ)抽取、規(guī)則過(guò)濾。

圖1 系統(tǒng)結(jié)構(gòu)圖

文本切分: 使用Nihao分詞系統(tǒng)[11]對(duì)語(yǔ)料進(jìn)行分詞處理。該分詞系統(tǒng)使用基于字和詞的條件隨機(jī)場(chǎng)(CRFs)的聯(lián)合解碼模型,切分出的詞相對(duì)較短,有利于召回術(shù)語(yǔ)。分詞后,用停用詞表將文本切分成詞串。

統(tǒng)計(jì)學(xué)抽取候選術(shù)語(yǔ): 對(duì)每一個(gè)字符串,統(tǒng)計(jì)它出現(xiàn)的文檔頻率,在各個(gè)文檔中出現(xiàn)的頻率,計(jì)算頻率分布信息。結(jié)合字符串的信息熵,計(jì)算出字符串的術(shù)語(yǔ)領(lǐng)域相關(guān)程度和術(shù)語(yǔ)完整程度,從而得到候選術(shù)語(yǔ)。

規(guī)則過(guò)濾: 使用詞性規(guī)則,邊界結(jié)合強(qiáng)度和是否普通詞進(jìn)行規(guī)則過(guò)濾,進(jìn)一步提高術(shù)語(yǔ)的抽取結(jié)果。

下面將會(huì)對(duì)以上3部分進(jìn)行詳細(xì)描述,并將結(jié)果與基于詞頻分布的方法進(jìn)行對(duì)比,進(jìn)行結(jié)果分析。

3 文本切分

當(dāng)前沒(méi)有公開(kāi)和統(tǒng)一的用于術(shù)語(yǔ)抽取方法性能評(píng)測(cè)的語(yǔ)料,本文使用的語(yǔ)料來(lái)源于從“太平洋汽車網(wǎng)”上爬取的394篇網(wǎng)頁(yè)。為了得到純文本語(yǔ)料,我們對(duì)網(wǎng)頁(yè)進(jìn)行預(yù)處理,主要是去除html標(biāo)簽。我們發(fā)現(xiàn)有些網(wǎng)頁(yè)有相互引用,為了消除重復(fù)內(nèi)容對(duì)抽取效果的影響,我們進(jìn)行了簡(jiǎn)單的去重操作。經(jīng)過(guò)以上操作,得到大小為0.817M的汽車純文本語(yǔ)料,共402 815個(gè)字。

對(duì)汽車語(yǔ)料進(jìn)行分詞后,應(yīng)用經(jīng)過(guò)人工收集的停用詞,將語(yǔ)料中的每一個(gè)句子切分成相對(duì)較小的片段。其中,停用詞主要包含標(biāo)點(diǎn)符號(hào)、代詞、語(yǔ)氣詞、助詞、連詞等。這些停用詞一般沒(méi)有特殊的意義,經(jīng)常搭配別的詞構(gòu)成詞或短語(yǔ),且術(shù)語(yǔ)一般不會(huì)包含這些詞,可以用于切分句子。停用詞示例: “啊”、“它”、“以及”、“并且”、“咦”、“大多數(shù)”、“及時(shí)”、“幾乎”、“什么”、“我”、“我們”等。

由于汽車語(yǔ)料中存在英文字母以及英文汽車術(shù)語(yǔ),將英文字母統(tǒng)一轉(zhuǎn)換成半角,有利于術(shù)語(yǔ)的抽取。經(jīng)過(guò)觀察發(fā)現(xiàn),語(yǔ)料中存在大量的單位計(jì)量的短語(yǔ),如“50千瓦”、“2噸”、“4個(gè)”、“100kg”;同時(shí),語(yǔ)料中還有如“如圖1”、“圖a1”、“2010年”、“約為5.3”的短語(yǔ)。以上這些短語(yǔ)不可能是術(shù)語(yǔ),也不可能構(gòu)成術(shù)語(yǔ)的成分。我們用正則表達(dá)式將這些短語(yǔ)去除,將字符串進(jìn)一步分割,起到相當(dāng)于停用詞的作用。

4 基于統(tǒng)計(jì)量的候選術(shù)語(yǔ)抽取

基于統(tǒng)計(jì)量的方法需要統(tǒng)計(jì)每一個(gè)字符串的頻率信息,若采用一般的字符串比較,則系統(tǒng)的效率很低。本文中應(yīng)用Pat-tree[12]作為索引結(jié)構(gòu),對(duì)每一個(gè)網(wǎng)頁(yè)對(duì)應(yīng)的文檔建立Pat-tree,用于統(tǒng)計(jì)字符串的頻率信息。

采用基于詞的術(shù)語(yǔ)抽取,這不僅能減少所要統(tǒng)計(jì)的字符串的頻率信息,而且能初步過(guò)濾掉一些邊界不合理的字符串。例如,對(duì)于切分后的字符串“點(diǎn)火/線圈/固定”,只需將“點(diǎn)火”、“線圈”、“固定”、“點(diǎn)火線圈”、“線圈固定”、“點(diǎn)火線圈固定”作為候選術(shù)語(yǔ),計(jì)算相應(yīng)的統(tǒng)計(jì)量信息。假如以字為單位組合候選術(shù)語(yǔ),則會(huì)出現(xiàn)類似“點(diǎn)火線”和“火線圈”這樣一些結(jié)構(gòu)不完整的候選術(shù)語(yǔ),這不僅會(huì)使精確率下降,而且會(huì)降低效率。

4.1 詞頻分布變化的方法

由于術(shù)語(yǔ)具有領(lǐng)域相關(guān)性,一個(gè)術(shù)語(yǔ)在領(lǐng)域間分布不均勻,即一個(gè)術(shù)語(yǔ)在相關(guān)領(lǐng)域內(nèi)出現(xiàn)頻率較高,而在不相關(guān)領(lǐng)域內(nèi)很少出現(xiàn)或幾乎不出現(xiàn)。同時(shí),周浪[10]研究表明在同一個(gè)領(lǐng)域內(nèi)的不同場(chǎng)景下(文檔中),術(shù)語(yǔ)的詞頻信息分布也有很大差別。因?yàn)樵诓煌膱?chǎng)景中,討論的話題也不同,用到的術(shù)語(yǔ)自然也不同。例如,在汽車語(yǔ)料中術(shù)語(yǔ)“共軌式噴油系統(tǒng)”總共出現(xiàn)了5次,且只在兩個(gè)文檔中出現(xiàn),其中一個(gè)文檔中出現(xiàn)了4次。

術(shù)語(yǔ)頻率在各個(gè)文檔間的波動(dòng)變化可以區(qū)分術(shù)語(yǔ)和一般詞,而樣本方差是反映檢驗(yàn)樣本和總體分布的波動(dòng)程度的最直接的方法。方差的值越小,表明候選術(shù)語(yǔ)在文檔間的頻率變化越小,是術(shù)語(yǔ)的可能性也越小。周浪[10]提出的詞頻分布公式如式(1):

其中M為總的文檔數(shù)。

4.2 信息熵的方法

信息論中的信息熵表示單個(gè)隨機(jī)變量的不確定性。隨機(jī)變量越不確定,其熵值越大。當(dāng)信息熵用于術(shù)語(yǔ)抽取時(shí),主要用于計(jì)算字符串的邊界不確定性。字符串的邊界越不確定,信息熵越高,且越可能是一個(gè)完整的詞。

一般通過(guò)計(jì)算字符串的左信息熵和右信息熵來(lái)衡量字符串的左右邊界的不確定性。在汽車語(yǔ)料中,在“底板上只有一根引出線接在點(diǎn)火線圈上,點(diǎn)火線圈中心有磁性棒,高壓點(diǎn)火線擰緊在點(diǎn)火線圈的木螺釘上。”中,“點(diǎn)火線圈”出現(xiàn)了3次,它的左鄰接字有“在”和“,”,右鄰接字有“上”、“中”和“的”。在整個(gè)語(yǔ)料中,字符串“點(diǎn)火線圈”總共出現(xiàn)了30次,不同的左鄰接字有19個(gè),右鄰接字有21個(gè),可見(jiàn)“點(diǎn)火線圈”的左右搭配詞都很不固定,因此“點(diǎn)火線圈”很有可能是一個(gè)完整的詞,進(jìn)而可能是汽車術(shù)語(yǔ)。而在考察“點(diǎn)火線”是否完整詞時(shí),我們發(fā)現(xiàn)“點(diǎn)火線”在整個(gè)語(yǔ)料中出現(xiàn)了33次,其不同的左鄰接字有21個(gè),右鄰接字只有3個(gè),則“點(diǎn)火線”不適合作為一個(gè)完整的詞。

左右信息熵的公式[13]如式(4)、式(5)所示。

其中s是候選字符串,ls是s的左鄰接字l和s結(jié)合所構(gòu)成的字符串,p(ls|s)表示語(yǔ)料中出現(xiàn)s的情況下,s的左鄰接字是l的條件概率。sr是s和s的右鄰接字r結(jié)合構(gòu)成的字符串,p(sr|s)表示語(yǔ)料中出現(xiàn)s的前提下,s的右鄰接字為r的條件概率。LE(s)為字符串s的左信息熵,RE(s)為字符串s的右信息熵。LE(s)和RE(s)越大,說(shuō)明左右鄰接字越不固定,則s獨(dú)立成詞的可能性越大。為了綜合評(píng)價(jià)s獨(dú)立成詞的可能性,任禾[13]通過(guò)給左、右信息熵設(shè)定相同的閾值來(lái)過(guò)濾不能獨(dú)立成詞的候選詞。即如式(6)所示。

其中Emin為人工設(shè)定的閾值。

4.3 詞頻分布和信息熵相結(jié)合的方法

在基于信息熵的術(shù)語(yǔ)抽取方法中,分別為左、右信息熵設(shè)定閾值存在局限性。不僅在閾值調(diào)節(jié)時(shí)會(huì)比較繁瑣,而且也不能很好地處理字符串的左、右信息熵的不平衡。假如字符串的左信息熵較低,同時(shí)右信息熵較大,字符串仍有可能是候選術(shù)語(yǔ)。例如,術(shù)語(yǔ)“共軌系統(tǒng)”的左信息熵為2.09,右信息熵為3.45;術(shù)語(yǔ)“油壓”的左信息熵為3.53,右信息熵為2.23。在結(jié)合左、右信息熵的同時(shí),綜合考慮左右信息熵的不平衡性,將得到如下信息熵公式,如式(7)所示。

在基于詞頻分布的術(shù)語(yǔ)抽取方法中,詞頻分布只考慮了術(shù)語(yǔ)的領(lǐng)域相關(guān)性,而沒(méi)有考慮術(shù)語(yǔ)是否獨(dú)立成詞,因此很可能會(huì)抽取出一些結(jié)構(gòu)不完整的字符串,比如“手動(dòng)變速箱系統(tǒng)”,而語(yǔ)料中正確的術(shù)語(yǔ)應(yīng)該是“自手動(dòng)變速箱系統(tǒng)”。詞頻分布公式中引入了平均詞頻,但用信息熵代替平均詞頻能很好地對(duì)術(shù)語(yǔ)是否獨(dú)立成詞加以判斷,由此,得到式(8)。

5 規(guī)則過(guò)濾

本文使用的規(guī)則主要有詞性規(guī)則、普通詞過(guò)濾、邊界判定是否合理、是否在其他語(yǔ)料中出現(xiàn)次數(shù)較多等。只考慮詞頻大于2的候選術(shù)語(yǔ),且候選術(shù)語(yǔ)的長(zhǎng)度小于10。使用的詞性規(guī)則主要是術(shù)語(yǔ)詞性的組合方式。

所采用的規(guī)則說(shuō)明如下:

(1) 詞性規(guī)則主要有:

① 術(shù)語(yǔ)中不能包含嘆詞、代詞、處所詞、狀態(tài)詞;

② 術(shù)語(yǔ)不能以助詞、連詞、后綴開(kāi)頭;

③ 術(shù)語(yǔ)不能以前綴、方位詞、連詞、助詞結(jié)尾;

④ 術(shù)語(yǔ)中必須含有名詞、動(dòng)詞或量詞成分。這些詞性規(guī)則是在周浪[10]的詞性規(guī)則基礎(chǔ)上改進(jìn)的,以符合汽車術(shù)語(yǔ)的詞性規(guī)律。

(2) 由于絕大多數(shù)的普通詞都不是術(shù)語(yǔ),我們用分詞字典構(gòu)建了一個(gè)普通詞列表,用于過(guò)濾候選術(shù)語(yǔ)中的普通詞,例如“上課”、“下雨”、“春天”等。

(3) 雖然應(yīng)用了信息熵,但還是有些候選術(shù)語(yǔ)不能獨(dú)立成詞。通過(guò)進(jìn)一步的邊界判定進(jìn)行過(guò)濾,算法過(guò)程如圖2所示。

(a)語(yǔ)料經(jīng)過(guò)停用詞分割后的字符串集為A;(b)遍歷字符串集A,找出包含候選術(shù)語(yǔ)s的所有字符串B;(c)對(duì)B中每一個(gè)字符串分詞;(d)ld=0,rd=0,遍歷每一個(gè)分詞后的字符串a(chǎn)1a2a3…an,其中s=ai…aj,計(jì)算ai-1ai的互信息值MI(ai-1ai),計(jì)算aiai+1的互信息值MI(aiai+1)。若MI(ai-1ai)

(4) 應(yīng)用輔助的計(jì)算機(jī)語(yǔ)料,若候選術(shù)語(yǔ)在計(jì)算機(jī)語(yǔ)料中的詞頻超過(guò)在汽車語(yǔ)料中的詞頻的一半,則將候選術(shù)語(yǔ)過(guò)濾,當(dāng)然這是在同樣規(guī)模的語(yǔ)料的情況下。應(yīng)用計(jì)算機(jī)輔助語(yǔ)料是為了過(guò)濾汽車語(yǔ)料中的部分計(jì)算機(jī)術(shù)語(yǔ)。

6 實(shí)驗(yàn)結(jié)果與分析

為了得到正確率高的術(shù)語(yǔ),我們將規(guī)則過(guò)濾后的術(shù)語(yǔ)按其DV-entropy值從高到低排序。DV-entropy值越高,是術(shù)語(yǔ)的可能性也越高。由于本文使用的語(yǔ)料較小,只有0.817M,周浪[10]使用的語(yǔ)料大小為1.27M,他主要評(píng)價(jià)了前2 000個(gè)抽取出的術(shù)語(yǔ),為了與周浪[10]的方法比較,我們只評(píng)價(jià)前1 300個(gè)抽取出的術(shù)語(yǔ)。當(dāng)前,實(shí)驗(yàn)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)主要是正確率、召回率和F值。

(9)

在使用相同的語(yǔ)言學(xué)規(guī)則和語(yǔ)料的情況下,表1對(duì)比了詞頻分布變化和改進(jìn)的方法的術(shù)語(yǔ)抽取性能。在抽取相同的數(shù)量的術(shù)語(yǔ)的前提下,比較術(shù)語(yǔ)的正確率、召回率和F值。分別比較了抽取100,200,500,800,1 000,1 300個(gè)術(shù)語(yǔ)時(shí),兩種方法的結(jié)果。

表1 詞頻分布(DV-termhood)和本文方法(DV-entropy)的比較: 使用相同的語(yǔ)言學(xué)規(guī)則和語(yǔ)料

表1表明隨著抽取出的術(shù)語(yǔ)數(shù)量的增加,術(shù)語(yǔ)的正確率在降低,召回率在增加,F(xiàn)值也在增加。從總體上看,在抽取出相同數(shù)量的術(shù)語(yǔ)時(shí),DV-entropy方法的正確率、召回率和F值都要比DV-termhood高。由于抽取的術(shù)語(yǔ)相對(duì)于語(yǔ)料含有的術(shù)語(yǔ)量較少,DV-entropy和DV-termhood方法的召回率和F值區(qū)分不大,我們將進(jìn)一步分析正確率。由前100個(gè)抽取的術(shù)語(yǔ)的正確率遠(yuǎn)高于前1 300個(gè)的正確率,可以得出字符串的DV-entropy值越高,則字符串是術(shù)語(yǔ)的可能性越大。再者,從0.817M的語(yǔ)料中抽取出1 300個(gè)術(shù)語(yǔ),術(shù)語(yǔ)相對(duì)稀疏,由此可知DV-entropy方法對(duì)低頻術(shù)語(yǔ)具有較好的識(shí)別能力。由表1可以看出,改進(jìn)后的方法比基于詞頻分布的方法的正確率要高14%~20%。這是因?yàn)楦倪M(jìn)后的方法能很好地判斷抽取出的術(shù)語(yǔ)是否完整,同時(shí)又結(jié)合了術(shù)語(yǔ)的領(lǐng)域分布不平衡特征。周浪[10]的基于詞頻分布的方法會(huì)抽取出一些在少數(shù)文檔中出現(xiàn)頻率較高的字符串。例如,“公式下”只出現(xiàn)在一個(gè)文檔中,因而其DV值相對(duì)較高,從而引入錯(cuò)誤。信息熵可以度量字符串“公式下”的完整性,因此結(jié)合信息熵和詞頻分布變化的方法可以避免類似的錯(cuò)誤。

改進(jìn)后結(jié)果得到了提高,但也存在一些錯(cuò)誤,例如,

1) 對(duì)于文本中那些結(jié)構(gòu)完整,出現(xiàn)頻次高的字符串,其信息熵值一般會(huì)隨著頻次的增加而增加。雖然其詞頻分布變化較小,但最終的DV-entropy值會(huì)比較高。如“制動(dòng)時(shí)”的頻次為67,信息熵為13.8,其對(duì)應(yīng)的方差值為2.0,最終其DV-entropy值高達(dá)27.6,而所用的詞性規(guī)則不足以過(guò)濾它,因此會(huì)引入錯(cuò)誤。類似的識(shí)別的錯(cuò)誤串有“汽車設(shè)計(jì)”、“傳遞動(dòng)力”、“總質(zhì)量”等。

2) 原本屬于同一個(gè)文檔中的內(nèi)容,經(jīng)過(guò)分頁(yè)后,會(huì)存在于多個(gè)網(wǎng)頁(yè)中,而本文在處理的過(guò)程中,并沒(méi)有將這些網(wǎng)頁(yè)合并。這會(huì)使公式中詞頻分布變化部分降低方差值,從而降低DV-entropy值。因此,文檔分頁(yè)問(wèn)題會(huì)影響本文提出的方法的性能。在將來(lái)的工作中,將針對(duì)文檔分頁(yè)問(wèn)題進(jìn)行研究,以提高系統(tǒng)性能。

7 與其他方法比較

文獻(xiàn)[14]結(jié)合了互信息、信息熵和C-value的方法,在此基礎(chǔ)上使用語(yǔ)言學(xué)規(guī)則進(jìn)行過(guò)濾。文獻(xiàn)[14]中對(duì)長(zhǎng)度大于3的字符串使用互信息和C-value相結(jié)合的方法,對(duì)長(zhǎng)度小于等于3的使用信息熵和C-value相結(jié)合的方法。文獻(xiàn)[14]使用的語(yǔ)料和本文所使用的語(yǔ)料完全相同。該語(yǔ)料是從網(wǎng)上爬取的包含汽車術(shù)語(yǔ)的語(yǔ)料,經(jīng)過(guò)去除標(biāo)簽和重復(fù)頁(yè)面后,大小為0.817M,字?jǐn)?shù)約為40萬(wàn)字。表2對(duì)比了文獻(xiàn)[14]的方法和本文方法的術(shù)語(yǔ)抽取的結(jié)果,可以看出本文方法的F值比文獻(xiàn)[14]提高了26.5%。實(shí)驗(yàn)表明,本文所使用的DV-entropy方法和規(guī)則能有效地提高術(shù)語(yǔ)識(shí)別效果。簡(jiǎn)單統(tǒng)計(jì)學(xué)的方法不能很好地識(shí)別低頻術(shù)語(yǔ),原因在于汽車語(yǔ)料存在術(shù)語(yǔ)稀疏問(wèn)題,且簡(jiǎn)單統(tǒng)計(jì)學(xué)方法不能很好地判斷術(shù)語(yǔ)的完整性,例如“無(wú)觸點(diǎn)磁電機(jī)”的子串“觸點(diǎn)磁電機(jī)”和“無(wú)觸點(diǎn)磁電”會(huì)被識(shí)別為術(shù)語(yǔ)。本文采用的方法則對(duì)此進(jìn)行了有效的改進(jìn)。

在使用相同的語(yǔ)料和語(yǔ)言學(xué)規(guī)則的情況下,進(jìn)一步比較DV-entropy方法和基于詞頻分布變化(DV-termhood)的方法,表2中列出了基于詞頻分布變化的統(tǒng)計(jì)數(shù)據(jù)。由表中數(shù)據(jù)可知,DV-entropy方法的正確率和召回率都要比DV-termhood方法高,從而F值也比DV-termhood方法高4.38%。從總體上來(lái)說(shuō),DV-entropy和DV-termhood方法的F值都不高,原因在于所使用的語(yǔ)料中只出現(xiàn)一次的術(shù)語(yǔ)占所有術(shù)語(yǔ)的47.9%,即存在術(shù)語(yǔ)稀疏問(wèn)題。

表2 其他方法和本文方法比較

8 總結(jié)

詞頻分布變化表示術(shù)語(yǔ)的領(lǐng)域相關(guān)性,信息熵表示術(shù)語(yǔ)的完整性。本文改進(jìn)了基于詞頻分布變化的術(shù)語(yǔ)抽取方法,在詞頻分布變化中加入信息熵值,并結(jié)合一系列術(shù)語(yǔ)的語(yǔ)言學(xué)規(guī)則,構(gòu)建了一個(gè)術(shù)語(yǔ)抽取系統(tǒng)。該方法優(yōu)于當(dāng)前用于低頻術(shù)語(yǔ)識(shí)別的基于詞頻分布的方法,對(duì)低頻術(shù)語(yǔ)有較好的識(shí)別能力。為了排除非汽車術(shù)語(yǔ),在下一步工作中,將引入百科語(yǔ)料,同時(shí)避免降低系統(tǒng)效率。

[1] 馮志偉. 現(xiàn)代術(shù)語(yǔ)學(xué)引論[M]. 北京:語(yǔ)文出版社,1997:1-20.

[2] 梁愛(ài)林.論術(shù)語(yǔ)學(xué)概念理論的發(fā)展[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù).2003(4):4-10.

[3] 胡喬木等人.中國(guó)大百科全書(shū)[M].語(yǔ)言卷.術(shù)語(yǔ).北京:中國(guó)大百科全書(shū)出版社,2003.

[4] 張鋒,許云,侯艷,等.基于互信息的中文術(shù)語(yǔ)抽取系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2005,22(5): 72-73.

[5] 梁穎紅,張文靜,周德福.基于混合策略的高精度長(zhǎng)術(shù)語(yǔ)自動(dòng)抽取[J]. 中文信息學(xué)報(bào),2009,23(6):26-30.

[6] 何婷婷, 張勇.基于質(zhì)子串分解的中文術(shù)語(yǔ)自動(dòng)抽取[J].計(jì)算機(jī)工程,2006,32(23): 188-190.

[7] 游宏梁,張巍,沈鈞毅,等. 一種基于加權(quán)投票的術(shù)語(yǔ)自動(dòng)識(shí)別方法[J]. 中文信息學(xué)報(bào),2011,25(3): 9-16.

[8] 劉桃,劉秉權(quán),徐志明,等.領(lǐng)域術(shù)語(yǔ)自動(dòng)抽取及其在文本分類中的應(yīng)用[J].電子學(xué)報(bào),2007, 35(2): 328-332.

[9] 潘渭,顧宏斌. 采用改進(jìn)重采樣和BRF方法的定義抽取研究[J]. 中文信息學(xué)報(bào),2011,25(3): 30-37.

[10] 周浪,張亮,馮沖等.基于詞頻分布變化統(tǒng)計(jì)的術(shù)語(yǔ)抽取方法[J].計(jì)算機(jī)科學(xué),2009,36(5):177-180.

[11] Degen H, Deqin T, Yanyan L. HMM revises low marginal probability by CRF for Chinese word segmentation[C]//Proceedings of CIPS-SIGHAN Joint Conference on Chinese Processing, Beijing, 2010, 216-220.

[12] Gaston H G, Ricardo A B, Tim S. New indices for text: pat trees and pat arrays[C]//Information Retrieval Data Structures & Algorithms, 1992:66-82.

[13] 任禾,曾雋芳.一種基于信息熵的中文高頻詞抽取算法[J].中文信息學(xué)報(bào).2006,20(5): 40-43.

[14] 李丹. 特定領(lǐng)域中文術(shù)語(yǔ)抽取[D]. 2011.大連理工大學(xué)碩士學(xué)位論文.

Term Extraction Based on Information Entropy and Word Frequency Distribution Variety

LI Lishuang, WANG Yiwen, HUANG Degen

(School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116023, China)

A term extraction system based on information entropy and word frequency distribution variety is presented. Information entropy can measure the integrality of the terms while word frequency distribution variety can measure the domain relativity of terms. Incorporating with simple linguistic rules as an addition filter,the automatic term extraction system integrates information entropy into word frequency distribution variety formula. Preliminary experiment on the corpus of automotive domain indicates that the precision is 73.7% when 1,300 terms are extracted. The result shows that the proposed approach can effectively recognize the terms with lower frequency and the recognized terms are well of integrality.

term extraction; information entropy; word frequency distribution variety

李麗雙(1967—),副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言理解、信息抽取與機(jī)器翻譯。E?mail:lils@dlut.edu.cn王意文(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔⒊槿 ?mail:yeevanewong@gmail.com黃德根(1965—),教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言理解與機(jī)器翻譯。E?mail:huangdg@dlut.edu.cn

1003-0077(2015)01-0082-06

2012-08-09 定稿日期: 2013-03-11

國(guó)家自然科學(xué)基金(61173101, 61173100)

TP391

A

猜你喜歡
規(guī)則方法
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
學(xué)習(xí)方法
規(guī)則的正確打開(kāi)方式
幸福(2018年33期)2018-12-05 05:22:42
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
搜索新規(guī)則
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 亚洲av中文无码乱人伦在线r| 久久婷婷国产综合尤物精品| 97一区二区在线播放| 久久精品国产一区二区小说| 91www在线观看| 国产对白刺激真实精品91| 超碰色了色| 国产成人久久综合777777麻豆 | 高清不卡毛片| 国产欧美日韩精品综合在线| 亚洲无码精品在线播放| 亚洲天堂网视频| 中文字幕在线看| 国产精品无码AⅤ在线观看播放| 看你懂的巨臀中文字幕一区二区| 久久精品视频亚洲| 亚洲综合久久成人AV| 国产一级在线播放| 日韩精品免费一线在线观看 | 97视频精品全国在线观看| www.youjizz.com久久| 热久久国产| 黄色福利在线| 国产精品v欧美| 亚洲av中文无码乱人伦在线r| 欧美一区二区三区香蕉视| 亚洲av无码牛牛影视在线二区| 又猛又黄又爽无遮挡的视频网站| 欧美有码在线| 国产网站免费观看| 国产美女久久久久不卡| 免费在线色| 伊人91在线| 成人午夜网址| 在线免费无码视频| 国产一级片网址| 视频一区亚洲| 日韩精品亚洲一区中文字幕| 熟女成人国产精品视频| 国产粉嫩粉嫩的18在线播放91| 99精品热视频这里只有精品7| 伊人久久精品亚洲午夜| 欧美高清三区| 最新国产成人剧情在线播放| 欧美国产中文| 国产亚洲欧美日韩在线一区| 中文字幕精品一区二区三区视频 | 九九热免费在线视频| 国产精品毛片一区| 国产xx在线观看| 亚洲制服丝袜第一页| 狠狠亚洲婷婷综合色香| 久久国产精品麻豆系列| 国产H片无码不卡在线视频| 亚洲色欲色欲www网| 久久综合干| 毛片免费视频| 国产日韩丝袜一二三区| a色毛片免费视频| 亚洲女同欧美在线| 1024国产在线| 色哟哟色院91精品网站| 一本一道波多野结衣av黑人在线| 无码精品国产dvd在线观看9久 | 夜夜操天天摸| 国产91熟女高潮一区二区| 日韩无码视频网站| 日韩成人午夜| 亚洲视频免费在线看| 久久综合AV免费观看| 日韩精品资源| 午夜在线不卡| 在线观看91香蕉国产免费| 97国产精品视频人人做人人爱| 精品无码一区二区在线观看| 亚洲天堂精品视频| 2022国产无码在线| 手机在线免费毛片| 亚洲男人的天堂久久精品| 免费看美女自慰的网站| 成人国产免费| 露脸一二三区国语对白|