999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自然標(biāo)注信息和隱含主題模型的無監(jiān)督文本特征抽取

2015-06-09 23:45:58饒高琦于東荀恩東
中文信息學(xué)報(bào) 2015年6期
關(guān)鍵詞:特征信息

饒高琦,于東,荀恩東

(1. 北京語言大學(xué) 大數(shù)據(jù)與語言教育研究所,北京 100083; 2.中國語言政策與標(biāo)準(zhǔn)研究所,北京 100083)

?

基于自然標(biāo)注信息和隱含主題模型的無監(jiān)督文本特征抽取

饒高琦1,2,于東1,荀恩東1

(1. 北京語言大學(xué) 大數(shù)據(jù)與語言教育研究所,北京 100083; 2.中國語言政策與標(biāo)準(zhǔn)研究所,北京 100083)

術(shù)語和慣用短語可以體現(xiàn)文本特征。無監(jiān)督的抽取特征詞語對諸多自然語言處理工作起到支持作用。該文提出了“聚類-驗(yàn)證”過程,使用主題模型對文本中的字符進(jìn)行聚類,并采用自然標(biāo)注信息對提取出的字符串進(jìn)行驗(yàn)證和過濾,從而實(shí)現(xiàn)了從未分詞領(lǐng)域語料中無監(jiān)督獲得詞語表的方法。通過優(yōu)化和過濾,我們可以進(jìn)一步獲得了富含有術(shù)語信息和特征短語的高置信度特征詞表。在對計(jì)算機(jī)科學(xué)等六類不同領(lǐng)域語料的實(shí)驗(yàn)中,該方法抽取的特征詞表具有較好的文體區(qū)分度和領(lǐng)域區(qū)分度。

自然標(biāo)注信息;自然語塊;隱含主題模型;領(lǐng)域特征;文體特征

1 引言

文本特征可以從兩個方面得到體現(xiàn):領(lǐng)域性和文體性。前者通過術(shù)語的形式得到體現(xiàn),而后者往往以慣用短語的方式出現(xiàn)。本文統(tǒng)稱這兩者為特征詞語。對于自然語言處理而言,以詞和短語形式體現(xiàn)出的文本特征,可以對分詞、文本分類和自動文摘等諸多自然語言處理工作提供支持。

當(dāng)前刻畫文本特征的思想多來源于BOW(Bag of Words)模型或其變種,如帶有領(lǐng)域詞典的特征袋BOF模型[1],使用加入命名實(shí)體描寫的FLIC[2],帶有短語與N-gram描寫的STC[3]和利用詞間關(guān)系進(jìn)行描寫[4]等。它們大多在自建或通用測試集上達(dá)到了80%~95%的精確率。但是注意到現(xiàn)有的方法都以詞項(xiàng)為語義的承載單元,因而過分依賴于分詞和命名實(shí)體識別所提供的信息。中文分詞雖然在通用語料上取得了較大進(jìn)步,但在領(lǐng)域性較強(qiáng)的語料中,以術(shù)語為代表的未登錄詞依然是分詞F值失落的重要原因。并且領(lǐng)域語料的標(biāo)注語料十分稀少,訓(xùn)練十分困難。有些領(lǐng)域甚至連生語料也較難收集。基于以上困難,本文提出了一種無需分詞與命名實(shí)體信息的無監(jiān)督特征抽取方法,對面向領(lǐng)域語料的自然語言處理具有重要的價(jià)值。

自然標(biāo)注信息(Natural Annotation)來自于語料本身,本質(zhì)上是語言使用者提供的一種原始眾包標(biāo)注。在海量語料中對自然標(biāo)注信息進(jìn)行挖掘和獲取幾乎不需要標(biāo)注語料,也極少需要先驗(yàn)知識,但需要大量訓(xùn)練語料。我們注意到以LDA(Latent Dirichlet Allocation,隱含狄利克雷分布)模型為代表的主題模型具有較好的無監(jiān)督聚類功能,可以對詞語間的隱含語義關(guān)系進(jìn)行描述。我們利用這一特點(diǎn)對文本內(nèi)容進(jìn)行事先聚類,可以有效地克服自然標(biāo)注信息需要海量訓(xùn)練語料的缺陷,將自然標(biāo)注信息的使用大大“輕量化”,使特征詞語的整個抽取過程可以在較小規(guī)模語料上完成。所以本文將主題建模和自然標(biāo)注信息相結(jié)合,提出了“聚類-驗(yàn)證(Cluster-Verification)”方法,以較少的信息注入在小規(guī)模語料上獲取文本的領(lǐng)域特征和文體特征。不同于以往的研究,本文方法不需要分詞和命名實(shí)體信息。而且,其提取的特征并不拘泥于傳統(tǒng)意義上詞的范疇,而與閱讀直覺更加相符。

本文的組織結(jié)構(gòu)如下,第二節(jié)簡述本文的工作基礎(chǔ)即LDA模型和自然標(biāo)注信息;第三節(jié)介紹基于LDA和自然標(biāo)注信息的無監(jiān)督“聚類-驗(yàn)證”方法;第四節(jié)將描述在計(jì)算機(jī)領(lǐng)域語料和環(huán)境、金融等其余五類領(lǐng)域語料上的實(shí)驗(yàn)和結(jié)果;第五節(jié)中,本文討論特征詞表的領(lǐng)域區(qū)分度和文體區(qū)分度,并描述了實(shí)驗(yàn)中出現(xiàn)的一種術(shù)語“生長現(xiàn)象”,第六節(jié)是結(jié)論和未來的工作。

2 工作基礎(chǔ)

2.1 隱含主題模型

LDA模型最早由Blei、Ng和Jordan在2003年提出[5],用以發(fā)掘文本中的隱含主題。LDA模型是一種完全的生成模型,其假設(shè)一個文本集中存在以狄利克雷分布為先驗(yàn)的隱含主題分布,而對于任一主題也存在一個隱含的詞選擇分布。它的概率圖表示如圖1所示,M為文檔集中的文檔數(shù)目,N為文檔中的詞數(shù)。整個過程中的外顯參數(shù)為詞w和超參數(shù)α與β。其經(jīng)驗(yàn)性的選擇一般為α=50/T,β=0.01,T為主題個數(shù)。

圖1 隱含主題模型LDA的概率圖表示

2004年,Griffiths與Steyvers[6]開始采用吉布斯采樣(Gibbs Sampling)學(xué)習(xí)LDA模型。本文使用的工具也采用了該采樣方法。

2.2 自然標(biāo)注信息

自然標(biāo)注信息的概念來自互聯(lián)網(wǎng)應(yīng)用中的用戶生成信息(User Generated Content)。它作為一個概念最早由孫茂松在2011年提出[7],用以從海量互聯(lián)網(wǎng)數(shù)據(jù)中提取對自然語言處理可用的信息。其后饒高琦和黃志娥[8-9]將其發(fā)展,用于無監(jiān)督發(fā)掘語料庫中的詞匯信息。不少學(xué)者也在中文分詞和博客信息挖掘中使用自然標(biāo)注信息進(jìn)行嘗試[10-12]。近幾年,關(guān)于自然標(biāo)注信息的研究日益廣泛,逐漸擴(kuò)展到信息檢索[13]、社會計(jì)算[14]、情感分析[15]、信息抽取[16]。但總體而言,該領(lǐng)域的研究都需要較大的訓(xùn)練語料,并且方法仍處于起步階段。

人類語言中蘊(yùn)含有豐富的自然標(biāo)注信息,其中以標(biāo)點(diǎn)符號為代表的顯性自然標(biāo)注信息對詞邊界的探測具有重要意義。如式(1)所示,Pi為一處自然標(biāo)注(如標(biāo)點(diǎn)符號),如果其在中文里絕不與其他符號構(gòu)成詞,則其自身就形成了一處天然的詞邊界。

饒高琦[8]的工作發(fā)現(xiàn),大規(guī)模語料中僅通過顯性自然標(biāo)注信息(主要包括標(biāo)點(diǎn)符號、拉丁字母和阿拉伯?dāng)?shù)字)對字符串進(jìn)行切分就可以獲得《現(xiàn)代漢語詞典》中幾乎所有的詞項(xiàng)。僅使用1998年《人民日報(bào)》的語料進(jìn)行切分也可以獲得現(xiàn)漢87.84%的詞項(xiàng)。這樣出現(xiàn)在顯性自然標(biāo)注信息之間的漢字字符串被稱作“自然語塊”(Natural Chunk),其邊界是詞邊界的子集。

基于此,本文假設(shè)在領(lǐng)域語料中通過自然標(biāo)注信息對字符串的切分也可以無監(jiān)督的獲得具有領(lǐng)域性的詞語或語塊。本文使用了來自2002年《計(jì)算機(jī)學(xué)報(bào)》的文本220篇。將標(biāo)點(diǎn)符號、運(yùn)算符號、拉丁字母和阿拉伯?dāng)?shù)字視作標(biāo)記詞邊界的自然標(biāo)注信息,并替換為標(biāo)記‘SPACE’。這樣整個語料僅存留漢字字符和‘SPACE’標(biāo)記(替換后約217萬字)。將由此形成的自然語塊進(jìn)行統(tǒng)計(jì)可以獲得結(jié)果如表1所示。

表1 計(jì)算機(jī)科學(xué)語料上的自然語塊舉例

續(xù)表

自然語塊頻次語塊頻次自然語塊頻次一847因此485若458在630則481與449………………國家自然科學(xué)基金94計(jì)算機(jī)學(xué)報(bào)58中國科學(xué)院計(jì)算技術(shù)研究所38

由表1可注意到,由自然標(biāo)注信息標(biāo)識的詞邊界具有很高的正確率。饒和黃都報(bào)告了由顯示自然標(biāo)注信息而來的詞邊界識別在通用語料上具有較高正確率[8-9]。而在本文所使用的計(jì)算機(jī)科學(xué)領(lǐng)域語料中,顯示標(biāo)注信息和漢字字符結(jié)合成詞的現(xiàn)象同樣少見。少量例外現(xiàn)象多為如“χ2檢驗(yàn)”這樣處于半譯寫狀態(tài)的外來術(shù)語。

原始語料在加入標(biāo)點(diǎn)符號和拉丁字母的自然標(biāo)注信息后形成加工語料。但是從上表所示的現(xiàn)象中還可以注意到,該抽取結(jié)果并不能體現(xiàn)出其作為科技論文的文體特征。另一方面在領(lǐng)域特性上,語塊頻次也無法顯示其作為計(jì)算機(jī)語料的領(lǐng)域特性,排位最高的術(shù)語僅占到第80位。其他技術(shù)性術(shù)語排名更加靠后。其原因在于文本所具有的領(lǐng)域性并不完全由字詞的頻次體現(xiàn)。領(lǐng)域性的短語和詞匯往往隱藏在文本所述的眾多主題之中。因此有必要使用主題建模的方法對文本進(jìn)行加工。

3 “聚類-驗(yàn)證”方法

3.1 LDA聚類方法

本文假設(shè)如果一個字符串可以形成穩(wěn)定使用的詞或慣用短語,則其內(nèi)部成分(字或字組)出現(xiàn)的相對位置,上下文環(huán)境,甚至概率都趨于相近。又因?yàn)榉€(wěn)定使用的詞(或短語)的子串共同參與了該詞(或短語)的語義表達(dá),則它們也傾向于出現(xiàn)在同一個主題之中。基于統(tǒng)計(jì)方法的主題建模通常以詞簇來表現(xiàn)主題。在只存在字符邊界(沒有分詞信息)和顯性自然標(biāo)注信息的語料中,構(gòu)成一個詞(或短語)的字(或字組),也傾向于被LDA模型聚類別同一主題內(nèi),如圖2所示。

0號主題:型模化的簡細(xì)存原表簇角頂三們外量向二我1號主題:概的念格所而則更應(yīng)了及稱被本某名前當(dāng)優(yōu)2號主題:信息中據(jù)來獲確基的對相地是通部標(biāo)首目三3號主題:存儲問訪一之和方共享可為表沖完執(zhí)指比或圖2 無詞邊界語料上的LDA聚類結(jié)果舉例

形成上例的語料為《計(jì)算機(jī)學(xué)報(bào)》生語料,標(biāo)點(diǎn)符號為停用詞,處理單元是漢字,參數(shù)為α=0.23,β=0.01,迭代次數(shù)1 000。注意到,雖然LDA模型在生語料上體現(xiàn)出了較好的字聚類性能,但是構(gòu)成某詞語的漢字也可能構(gòu)成其他主題的其它詞語,因此一個詞的內(nèi)部構(gòu)件間的概率并非完全相等。加之LDA模型的隨機(jī)采樣方法,這些都決定了一個主題雖傾向于包含構(gòu)成一個詞的眾多子串,但其相對位置和詞內(nèi)原來的字序很少相同。對此,本文選取每個主題中出現(xiàn)概率最高的N個字,對其進(jìn)行N x N的兩兩匹配,形成每個主題的候選詞集S。又因?yàn)樽匀粯?biāo)注信息標(biāo)記詞邊界具有高正確率的特性。我們使用它對S中的成員進(jìn)行過濾和確認(rèn),經(jīng)過優(yōu)化打分(即自然標(biāo)注信息的驗(yàn)證過程)之后形成篩選詞表。

在生語料中,經(jīng)過一次主題成員的兩兩匹配,所獲得的候選詞顯然都是二字串。我們選取其中高置信度的成員,回標(biāo)原始語料,從而增加原始語料內(nèi)的詞邊界信息,以形成結(jié)構(gòu)更加豐富的“字-詞”混合語料。這一過程改變了LDA的聚類對象和概率空間,使得主題成員得到改變,從而再進(jìn)行下一輪迭代后,獲取更多特征詞語。

3.2 自然標(biāo)注信息驗(yàn)證過程

對LDA聚類產(chǎn)生的候選詞表S中的成員,我們可以使用其在原始語料中與自然標(biāo)注信息的相對位置來判斷其成為詞(或短語)的可能性。因?yàn)楸竟ぷ鞑捎昧孙@性的自然標(biāo)注信息如標(biāo)點(diǎn)符號和數(shù)字。它們直接表達(dá)了作者的切分意圖。在語料中,自然標(biāo)注信息被替換為‘SPACE’符號。兩個‘SPACE’標(biāo)記之間的字符串(自然語塊)Ci+1……Ci+n可以被認(rèn)為是一個獨(dú)立單元,其左右邊界為詞邊界。它未必是語言學(xué)上的詞,然而語塊Ci+1……Ci+n與語言學(xué)上的詞Word之間必然存在如下四種包含關(guān)系,如式(2)~式(5)所示。

即Word與自然語塊的兩個邊界同時鄰接(式(2),Word等于語塊本身),與自然語塊左邊界鄰接(如式(3)),與自然語塊右邊界鄰接(如式(4))和成為自然語塊的子串(如式(5))。

對于待驗(yàn)證的詞(或短語),其是否穩(wěn)定使用則可以用其在原始語料中出現(xiàn)四種蘊(yùn)含關(guān)系的頻次來衡量。因此使用式(6)來對候選詞集成員打分。

Score=λbfb+λs(fl+fr)+λnfn

(6)

Score為候選詞集成員成為一個穩(wěn)定使用詞的可能性打分,λb、λs、λn是四種蘊(yùn)含狀況所占有的權(quán)重。當(dāng)一個候選詞Word首尾與自然語塊一致,都是詞邊界的時候,其成為一個語言學(xué)上的詞的可能性最大。我們樸素地認(rèn)為左鄰接與右鄰接的權(quán)重相等,且略小于兩側(cè)鄰接的權(quán)重。考慮到使用語料的規(guī)模較小,有很多詞沒有機(jī)會出現(xiàn)在含有自然標(biāo)注信息的上下文中,因此其在單純漢字字符上下文中出現(xiàn)的頻率也應(yīng)被考慮。所以式(6)的參數(shù)有λb>λs>λn,且λb+2λs+λn=1的關(guān)系。

候選詞表成員經(jīng)過打分排序,形成重排過濾詞表S_f。本文利用該詞表,使用最大正向分詞方法,對語料進(jìn)行回標(biāo),使得原始語料的結(jié)構(gòu)得到改變,詞邊界更加豐富,進(jìn)而優(yōu)化下一輪迭代中的聚類結(jié)果。整個聚類-驗(yàn)證的迭代過程如圖3所示。

審計(jì)委員會特征與審計(jì)費(fèi)用相關(guān)性的實(shí)證研究 ……………………………………………………………………… 陳 丹(3/32)

圖3 聚類-驗(yàn)證方法的工作流程

4 實(shí)驗(yàn)

4.1 自然標(biāo)注信息的注入

本文選取了來自2002年《計(jì)算機(jī)學(xué)報(bào)》的文本220篇,漢字字符約217萬個。將標(biāo)點(diǎn)符號、運(yùn)算符號、拉丁字母和阿拉伯?dāng)?shù)字等顯性自然標(biāo)注信息替換為標(biāo)記‘SPACE’后(語料樣例見圖4),共形成自然語塊87 348個(舉例見表1)。

SPACE在處理器內(nèi)部有SPACE個開關(guān)控制這SPACE個端口之間的連接關(guān)系SPACE如圖SPACE所示SPACE這SPACE個端口之間共有SPACE種連接方式SPACE如圖SPACE所示SPACE處理器內(nèi)部的這些開關(guān)可以在算法的執(zhí)行過程中動態(tài)地置成開或關(guān)SPACE從而將整根總線分成一些相互獨(dú)立的子總線SPACE圖4 引入顯性自然標(biāo)注信息后的原始語料舉例

本文使用馬薩諸塞大學(xué)的開源工具M(jìn)allet實(shí)現(xiàn)LDA模型[17],并根據(jù)經(jīng)驗(yàn)選擇主題數(shù)目為220個,α=50/220,β=0.01,迭代次數(shù)1 000。第一輪主題訓(xùn)練結(jié)果的舉例見圖2。對每個主題我們選取出現(xiàn)概率最高的20個字進(jìn)行N x N組合,形成每個主題的候選詞集S。在自然標(biāo)注信息驗(yàn)證過程中,使用式(6)打分。并在參數(shù)約束條件下,根據(jù)經(jīng)驗(yàn)選取了λb=0.5, λs=0.2, λn=0.1。

第一次迭代共得到候選詞4 708個,得分最高的15個如表2所示。因?yàn)樵颊Z料沒有詞邊界,則聚類對象均為單字,故得到的候選詞都是二字詞。

表2 過濾重排詞表中打分前十五的詞語舉例

與表1相比,其對領(lǐng)域性的表達(dá)得到了較大增強(qiáng)。如果將單字詞的組合視作詞組,也判為抽取正確(因?yàn)槠洳⑽创蚱圃~邊界),得分最高的600個候選詞中正確率為92.7%。

并且注意到600個候選詞中44個錯例里有43個是和“的”字的組合,如“的對”、“的數(shù)”、“義的”等。出現(xiàn)這一現(xiàn)象的原因在于“的”字是現(xiàn)代漢語各類語料中出現(xiàn)頻率最高的漢字。雖然很少與顯性自然標(biāo)注信息鄰接出現(xiàn),但是其自身過高的頻率也拉高了它和自己鄰接漢字組成的候選詞的得分。可以觀察到,“的”字組合錯例中的另一個字都是計(jì)算機(jī)領(lǐng)域中高頻詞的首字或末字,如“的對(話、象)”和“的網(wǎng)(絡(luò)、關(guān)、口、端、卡)”等。

“的”、“著”、“也”、“是”與“和”等在自然標(biāo)注信息的研究中通常被稱作隱性自然標(biāo)注信息[8]。本文參考了饒?jiān)诖笠?guī)模通用語料中的統(tǒng)計(jì)結(jié)果,從選取詞邊界標(biāo)記置信度較高的隱性自然標(biāo)注信息11個*′是′,′和′,′的′,′也′,′著′,′與′,′個′,′在′,′之′,′有′,′為′,對候選詞集S進(jìn)行過濾,大大地提升了正確率(99.8%)。并且為了在語料回標(biāo)過程中減少交搭型歧義的出現(xiàn),我們將詞語長度加入打分公式以獲得更長的切分單元。修正后公式如式(7)所示。

Score′ =Length(Word)*Score

(7)

4.2 迭代實(shí)驗(yàn)

在處理器內(nèi)部有SPACE個開關(guān)控制這SPACE個端口之間的連接關(guān)系SPACE如圖SPACE所示SPACE這SPACE個端口之間共有SPACE種連接方式SPACE如圖SPACE所示SPACE處理器內(nèi)部的這些開關(guān)可以在算法的執(zhí)行過程中動態(tài)地置成開或關(guān)SPACE從而將整根總線分成一些相互獨(dú)立的子總線SPACE圖5 第二輪迭代后回標(biāo)形成的語料樣例

對重新注入過自然標(biāo)注信息的語料進(jìn)行新一輪的迭代。

隨著自然標(biāo)注信息的注入,原始語料的邊界信息更加豐富。抽取出的“總詞表”規(guī)模隨迭代次數(shù)明顯增長(圖6)。原始語料的字表規(guī)模為2 495個,即語料共使用漢字2 494種。在第20次迭代后詞表規(guī)模則達(dá)到5 376個。

圖6 重排過濾詞表的規(guī)模隨迭代次數(shù)的變化

通用詞語的領(lǐng)域性和文體性特征均不明顯。因此為了進(jìn)一步提高重排過濾詞表中術(shù)語和特征詞組所占的比例,降低通用詞語的排名,本文使用了1998年1月的《人民日報(bào)》所生成的詞表對重排過濾詞表進(jìn)行剪枝。在諸次迭代所產(chǎn)生的詞表中,剪枝率為5.2%~21.3%。

表3、表4和圖7—圖9分別為在計(jì)算機(jī)領(lǐng)域語料上迭代20次過程中,特征詞表、通用詞、術(shù)語、特征短語和抽取規(guī)模的變化。還可以看到詞表正確率(既抽取出的字符串是詞或詞組,下同)基本穩(wěn)定,術(shù)語和短語數(shù)量穩(wěn)步上升。術(shù)語比例在七次迭代前后收斂。表5為第九次迭代時抽取結(jié)果的舉例。可以看到抽取出的詞項(xiàng)由短語(如“本算法”、“我們采用”)和術(shù)語(如“數(shù)字音頻信號”、“軟件體系結(jié)構(gòu)”)構(gòu)成。在第五部分中我們將對短語和術(shù)語分別進(jìn)行分析。類似的,本文也在其他領(lǐng)域語料上進(jìn)行了相同的實(shí)驗(yàn)。表6為在環(huán)境科學(xué)、金融學(xué)、醫(yī)學(xué)和土木工程四個領(lǐng)域各選取期刊論文100篇,迭代九次后的結(jié)果。它們與在計(jì)算機(jī)科學(xué)語料上第九次迭代后的結(jié)果具有可比性。

表3 抽取詞數(shù)和通用詞比例

表4 特征詞表中術(shù)語比例和特征短語比例

圖7 短語數(shù)量隨迭代次數(shù)變化(橫軸為迭代輪數(shù),主縱軸為詞數(shù),副縱為短語正確率)

圖8 術(shù)語數(shù)量隨迭代次數(shù)變化(橫軸為迭代輪數(shù),主縱軸為詞數(shù),副縱為術(shù)語正確率)

圖9 特征詞表規(guī)模與正確率(橫軸為迭代輪數(shù),主縱軸為詞數(shù),副縱為詞語正確率)

表5 計(jì)算機(jī)學(xué)報(bào)語料下第九次迭代打分前二十詞舉例

表6 在非計(jì)算機(jī)領(lǐng)域語料上的迭代實(shí)驗(yàn)結(jié)果

5 實(shí)驗(yàn)分析和討論

5.1 領(lǐng)域區(qū)分度

通過觀察不同語料中特征詞表,我們驗(yàn)證了特征詞表和術(shù)語對領(lǐng)域性充分刻畫的性能。如表7所示,學(xué)科間的差異通過詞表重合率得到較好體現(xiàn)。如環(huán)境科學(xué)和醫(yī)學(xué)、計(jì)算機(jī)科學(xué)術(shù)語重合較多,和土木工程、金融重合很少,這符合一般直覺。這樣的差異是通過分詞詞表的比較無法獲得的。其中我們對語料分詞后,不同領(lǐng)域語料的最高頻1 000個詞(已去停用詞)形成的詞表之間的重合度遠(yuǎn)大于特征詞表(術(shù)語+慣用短語)和其中術(shù)語的重合度且差異不大。這表明了抽取出的特征詞表對不同領(lǐng)域文本具有很強(qiáng)的區(qū)分度。

表7 不同領(lǐng)域語料特征詞表中的術(shù)語重合度(每一個單元格中左欄為兩個領(lǐng)域分詞詞表中最高頻1000詞的重合比例,中欄為兩個領(lǐng)域所抽取特征詞語表的重合比例,右欄為兩個領(lǐng)域中所抽取術(shù)語的重合比例)

環(huán)境科學(xué)金融醫(yī)學(xué)土木工程計(jì)算機(jī)科學(xué)環(huán)境科學(xué)1.32.085.003.38.092.093.44.098.048.36.136.115金融.32.072.0051.28.043.005.44.084.01.34.091.001醫(yī)學(xué).38.085.073.28.047.0031.33.059.005.28.13.068土木工程.44.087.035.32.088.005.33.056.0031.46.13.066計(jì)算機(jī)科學(xué).36.093.064.34.074.004.28.06.048.46.101.051

5.2 特征短語與文體區(qū)分度

對過濾后的特征詞表進(jìn)行標(biāo)注和統(tǒng)計(jì)可以觀察到隨著迭代次數(shù)的增加,詞表規(guī)模、術(shù)語和通用詞的絕對數(shù)量都在增加,整體正確率基本穩(wěn)定(圖7—圖9)。比例和絕對數(shù)量增長最為明顯的是一類“特征短語”。文體特征可以由這類短語進(jìn)行刻畫。

本文將特征短語分為兩類:術(shù)語增生而形成的和表示習(xí)慣用法的。如“服務(wù)器上”、“滿足約束條件”和“基于斐波那契數(shù)列”這樣的短語包含有術(shù)語,屬于術(shù)語增生型,通常是術(shù)語和虛詞或動詞的組合。這是隨著迭代次數(shù)增加,已形成的術(shù)語和高共現(xiàn)詞語組合構(gòu)成的。在特征短語中,術(shù)語增生而得的短語比例相對較少,而且集中于一些極高頻術(shù)語的周圍,如“在算法”、“算法中”、“由算法”和“算法進(jìn)行”等,帶有較強(qiáng)的領(lǐng)域性。

“一種基于”、“我們提出了”、“下面給出”和“如圖”等則屬于慣用短語。 對20次迭代后產(chǎn)生的短語進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn)18.9%的短語為術(shù)語增生型,慣用短語占81.1%。在學(xué)術(shù)期刊語料中,發(fā)現(xiàn)后者普遍體現(xiàn)了學(xué)術(shù)、技術(shù)寫作的文體特點(diǎn)。由于上一部分實(shí)驗(yàn)中選取的五種語料均為科技論文,語體相同。本文以《圣經(jīng)》中記錄耶穌言行的馬太福音為語料進(jìn)行實(shí)驗(yàn)以進(jìn)行對比分析。結(jié)果發(fā)現(xiàn)與計(jì)算機(jī)科學(xué)語料短語的重合度僅為1.4%。圖10為兩者慣用短語的舉例。

《計(jì)算機(jī)學(xué)報(bào)》本文采用當(dāng)且僅當(dāng)實(shí)驗(yàn)表明我們給出了定義如下《馬太福音》我告訴你們所以你們要記著說不要怕他們回答說

圖10 馬太福音與計(jì)算機(jī)學(xué)報(bào)的特征短語舉例

注意到,特征短語與陳文亮[1]的工作中所提出的特征關(guān)聯(lián)詞有一定的相似性,但它的粒度超過復(fù)合詞,多為短語。例如本文方法提取的“本文采用”比“本文”和“采用”兩個詞更能體現(xiàn)科技論文的文體性。因而文本特征中文體風(fēng)格這一特點(diǎn)可以由特征短語體現(xiàn)。

5.3 復(fù)雜術(shù)語生長

在諸次迭代中,LDA聚類后形成的主題由“字簇”變?yōu)椤白?詞簇”,并逐漸向“詞簇”變化(圖11為第三次迭代中LDA聚類產(chǎn)生的簇)。類似的,在候選詞表與后續(xù)的過濾重排詞表中,詞語長度也在逐漸增長,呈現(xiàn)出一種生長態(tài)勢。如上一部分提到的第一次迭代中的錯例“務(wù)器”,在第二次迭代中就和“服”組合成為“服務(wù)器”。“網(wǎng)絡(luò)”是在第一次迭代中形成的二字術(shù)語。更長的術(shù)語“服務(wù)器網(wǎng)絡(luò)”則在第17次迭代中出現(xiàn)。

0號主題:的超頂點(diǎn)圖鄰中有最小量通分樹孔連矩陣含維次所相1號主題:區(qū)間值離散化概率屬性模型參數(shù)葉斯樣本學(xué)習(xí)貝數(shù)目合督處理數(shù)監(jiān)混2號主題:時間本次可新并復(fù)圖所重在及若將可以號結(jié)果多過3號主題:圖形相似尺寸幾何相似性特征識別圖中元素結(jié)構(gòu)約束對其性方法模式連接圖11 第三輪迭代中經(jīng)過LDA聚類后的主題舉例

又如“自組織隱馬爾可夫模型”這一復(fù)雜術(shù)語,它的生長過程如圖12所示,圖中數(shù)字為該字符串第一次出現(xiàn)時的迭代輪數(shù)。其中“自組織”和“模型”在語言學(xué)上都是該術(shù)語的子成分。而且它們很晚才發(fā)生組合。這是因?yàn)椤白越M織”和“模型”頻率很大,而且本身可以出現(xiàn)在大量的其他術(shù)語中,因而作為“自組織隱馬爾可夫模型”的組分不如其他組分(如“隱馬爾可夫”)的結(jié)合程度高。

圖12 “自組織隱馬爾可夫模型”的生長過程

6 結(jié)論與展望

本文提出了無監(jiān)督提取文本特征的“聚類-驗(yàn)證”方法:使用隱含主題模型在領(lǐng)域語料中進(jìn)行無監(jiān)督聚類,并采用隱性和顯性的自然標(biāo)注信息對提取出的候選字串進(jìn)行驗(yàn)證,從而獲得特征詞表。統(tǒng)計(jì)顯示該詞表具有較高的正確率。通過對原始語料進(jìn)行回標(biāo),我們改變主題模型的概率空間和字詞分布。迭代多次后可以獲得較好體現(xiàn)語料領(lǐng)域特征和文體特征的詞語表。實(shí)驗(yàn)從217萬字的計(jì)算機(jī)領(lǐng)域語料中獲得了可表征其領(lǐng)域特性和文體特征的詞語表,并在和環(huán)境、金融等語料上實(shí)驗(yàn)的比較中體現(xiàn)出了其領(lǐng)域性差異。我們還通過科技論文和《圣經(jīng)》語料對比的實(shí)驗(yàn)結(jié)果,驗(yàn)證了該方法對語體差異描寫的有效性。

本文方法使用主題模型對候選字符串進(jìn)行預(yù)聚類,有助于加速通過自然標(biāo)注信息發(fā)現(xiàn)詞語的過程。相較于以往自然標(biāo)注信息的使用方法,本方法所需訓(xùn)練語料少。全過程中待處理語料的信息注入僅限于顯性自然標(biāo)注信息(標(biāo)點(diǎn)符號、運(yùn)算符號、字母和數(shù)字)與11個隱性自然標(biāo)記,在過濾優(yōu)化過程中也僅使用了1998年1月人民日報(bào)詞表。

不同于以往的研究,該方法不需要分詞語料和命名實(shí)體信息。因而對缺乏資源的語種和語料處理具有較好的借鑒意義。然而本文只是無監(jiān)督聚類和自然標(biāo)注信息相結(jié)合的一次嘗試。從表3的錯例(如“出一”、“現(xiàn)了”)所代表的現(xiàn)象可以發(fā)現(xiàn),如果在實(shí)驗(yàn)過程中注入饒高琦[8]的隱性自然標(biāo)注信息將有助于效果的提升。

本文方法在主題模型本身的優(yōu)化、求優(yōu)打分的調(diào)參和自然標(biāo)注信息的靈活應(yīng)用等方面都有待未來更深入的研究。在詞語生長這一現(xiàn)象中,如何使用不同無監(jiān)督學(xué)習(xí)策略來控制和發(fā)掘詞語的組分和生長過程,將對更深入的研究構(gòu)詞,實(shí)現(xiàn)詞法自動分析帶來巨大幫助。

[1] 陳文亮, 朱靖波, 朱慕華, 姚天順. 基于領(lǐng)域詞典的文本特征表示[J]. 計(jì)算機(jī)研究與發(fā)展, 2006, 42(12):2154-2160.

[2] 趙世奇, 劉挺, 李生. 一種基于主題的文本聚類方法[J]. 中文信息學(xué)報(bào), 2007, 21(2):59-62.

[3] Zamir O and Etzioni O. Web Document Clustering: A Feasibility Demonstration [C]//Proceedings of the 21st International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 1998). Melbourne, Australia, 1998:46-54.

[4] 吳雙, 張文生, 徐海瑞. 基于詞間關(guān)系分析的文本特征選擇算法[J]. 計(jì)算機(jī)工程與科學(xué), 2012, 34(6):140-145.

[5] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [J]. Journal of Machine Learning Research, 2003, 3:993-1022.

[6] Griffiths T L, Steyvers M. Finding scientific topics [J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101 (Suppl 1):5228-5235.

[7] 孫茂松: 基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語言處理[J]. 中文信息學(xué)報(bào), 2011, 25(6):26-32.

[8] 饒高琦, 修馳, 荀恩東. 語料庫自然標(biāo)注信息與中文分詞應(yīng)用研究[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 49(1):140-146

[9] Huang Z E, Xun E D, Rao G Q, et al. Chinese Natural Chunk Research Based on Natural Annotations in Massive Scale Corpora [C]//Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data. Springer Berlin Heidelberg, 2013:13-24.

[10] Zhongguo Li, Maosong Sun. Punctuation as Implicit Annotations for Chinese Word Segmentation [J]. Computational Linguistics, 2009, 35(4):505-512.

[11] Si X, Liu Z, Sun M. Modeling Social Annotations via Latent Reason Identification [J]. Intelligent Systems IEEE, 2010, 25(6):42-49.

[12] 劉知遠(yuǎn), 司憲策, 鄭亞斌,等. 中文博客標(biāo)簽的若干統(tǒng)計(jì)性質(zhì)[C]//中國計(jì)算技術(shù)與語言問題研究——第七屆中文信息處理國際會議論文集. 2007.

[13] Jeremy, Ginsberg, Matthew H, Mohebbi, Rajan S, Patel, et al. Detecting Influenza Epidemics Using Search Engine Query Data [J]. Nature, 2008, 457(7232):1012-1014.

[14] Sepandar D. Kamvar and Jonathan Harris. We Feel Fine and Searching the Emotional Web [C]//Proceeding s of the Fourth ACM International Conference on Web Search and Data Mining (WSDM 2011). HongKong, China, 2011:117-126.

[15] Qu and Liu. Interactive Group Suggesting for Twitter [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL 2011), Portland, USA, 2011:519-523.

[16] Wu and Weld. Open Information Extraction using Wikipedia [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010). Uppsala, Sweden, 2010:118-127.

[17] McCallum, Andrew Kachites. MALLET: A Machine Learning for Language Toolkit [OL], http://mallet.cs.umass.edu. 2002.

Unsupervised Text Feature Extraction Based on Natural Annotation and Latent Topic Model

RAO Gaoqi1, 2, YU Dong1, XUN Endong1

(1. Beijing Language and Culture University, Institute of BigData and Language Education, Beijing 100083, China;2.Institute for Chinese Language Policies and Standards,Beijing 100083, China)

Text features are often shown by its terms and phrases. Their unsupervised extraction can support various natural language processing. We propose a “Cluster-Verification” method to gain the lexicon from raw corpus, by combining latent topic model and natural annotation. Topic modeling is used to cluster strings, while we filter and optimize its result by natural annotations in raw corpus. High accuracy is found in the lexicon we gained, as well as good performance on describing domains and writing styles of the texts. Experiments on 6 kinds of domain corpora showed its promising effect on classifying their domains or writing styles.

natural annotation; natural chunk; latent topic model; domain feature; stylistic features

饒高琦(1987—),博士研究生,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)、語言政策與語言規(guī)劃。E-mail:raogaoqi-fj@163.com于東(1982—),通信作者,講師,主要研究領(lǐng)域?yàn)橛?jì)算語言學(xué)。E-mail:yudong@blcu.edu.cn荀恩東(1967—),教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、計(jì)算機(jī)教育技術(shù)。E-mail:edxun@126.com

1003-0077(2015)06-0141-09

2015-07-10 定稿日期: 2015-09-03

國家自然科學(xué)基金(61300081,61170162);國家社科重大基金(12&ZD173);國家語委科研基金(YB125-42);北京語言大學(xué)研究生創(chuàng)新基金(14YCX074)

TP391

A

猜你喜歡
特征信息
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产00高中生在线播放| 在线观看无码av五月花| 日韩国产黄色网站| 无码视频国产精品一区二区| 99精品免费在线| 欧美自拍另类欧美综合图区| 欧美日韩精品在线播放| 天天干天天色综合网| 亚洲最新地址| 午夜视频www| 色综合久久综合网| 欧美不卡视频在线| 亚洲日本中文综合在线| 欧美久久网| 浮力影院国产第一页| 又猛又黄又爽无遮挡的视频网站| 欧美一级专区免费大片| 午夜综合网| 亚洲欧美日韩动漫| 92午夜福利影院一区二区三区| 欧美精品伊人久久| 视频一区亚洲| 亚洲无码视频一区二区三区| 无码精品国产dvd在线观看9久| 亚洲成年人片| 国产午夜无码片在线观看网站| 国产乱码精品一区二区三区中文| 制服丝袜亚洲| 国产精品久久久久婷婷五月| 免费aa毛片| 国产成人免费观看在线视频| 亚洲人成影视在线观看| 日韩少妇激情一区二区| 国产精选小视频在线观看| 国产精品自拍合集| 欧美不卡在线视频| 亚洲男人天堂2018| 青青草原国产一区二区| 亚洲激情99| 97成人在线视频| 麻豆a级片| 日本国产精品| 毛片一区二区在线看| 99精品高清在线播放| 亚洲精品大秀视频| 国产麻豆永久视频| 九九精品在线观看| 久久综合伊人77777| 国产成人艳妇AA视频在线| 亚洲乱码精品久久久久..| 免费在线看黄网址| 国产一级二级三级毛片| 亚洲一区二区三区麻豆| 三上悠亚一区二区| 久久精品亚洲热综合一区二区| 欧美精品三级在线| av尤物免费在线观看| 国产视频欧美| 在线看片免费人成视久网下载| 亚洲天堂视频网| 香蕉久久永久视频| 国产精品久久久久婷婷五月| 亚洲视频四区| lhav亚洲精品| 亚洲欧美精品一中文字幕| 久久福利片| 55夜色66夜色国产精品视频| 色综合天天操| 成人免费视频一区| 欧美视频免费一区二区三区| 国产精品一老牛影视频| 亚洲成A人V欧美综合| 五月婷婷丁香色| 69国产精品视频免费| 一级福利视频| 小说区 亚洲 自拍 另类| 免费看一级毛片波多结衣| 国产无码网站在线观看| 国产在线自在拍91精品黑人| 国产免费福利网站| 国产精品网址你懂的| 亚洲熟女中文字幕男人总站|