999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

漢語語義場網(wǎng)絡(luò)中的無標度分布現(xiàn)象

2015-04-21 08:43:40姬東鴻蕭國政
中文信息學報 2015年3期
關(guān)鍵詞:語義

楊 華,姬東鴻,蕭國政

(1. 貴州師范大學 數(shù)學與計算機科學學院,貴州 貴陽 550001;2. 武漢大學 文學院,湖北 武漢 430070;3. 武漢大學 計算機學院,湖北 武漢 430070)

?

漢語語義場網(wǎng)絡(luò)中的無標度分布現(xiàn)象

楊 華1,2,姬東鴻3,蕭國政2

(1. 貴州師范大學 數(shù)學與計算機科學學院,貴州 貴陽 550001;2. 武漢大學 文學院,湖北 武漢 430070;3. 武漢大學 計算機學院,湖北 武漢 430070)

語義場是詞語意義聯(lián)系在一起構(gòu)成的語義系統(tǒng)。一門語言的所有子語義場合在一起,就是該語言的語義場。探索用復(fù)雜網(wǎng)絡(luò)來表示漢語的語義場,基于聯(lián)想場的概念,該文提出用復(fù)雜網(wǎng)絡(luò)表示漢語的語義場。該網(wǎng)絡(luò)的節(jié)點度,節(jié)點權(quán)值與邊權(quán)值均服從無標度分布。展示結(jié)點度、結(jié)點權(quán)值、邊權(quán)值在一定范圍的內(nèi)容,觀察到一些在網(wǎng)絡(luò)視角才能發(fā)掘出的現(xiàn)象。該文將較特別的現(xiàn)象展示給語言學界的專家們,期望引起共鳴,得到對這些現(xiàn)象的更合理解釋。

語義場;復(fù)雜網(wǎng)絡(luò);無標度分布

1 引言

過去對語言的統(tǒng)計特性研究往往基于一階統(tǒng)計,比如Zipf定理;近年來,復(fù)雜網(wǎng)絡(luò)作為描述復(fù)雜系統(tǒng)的一種新穎范式,開始被用來描述語言這一復(fù)雜現(xiàn)象[1-3],學者們將語言表示為網(wǎng)絡(luò)進行研究,嘗試從網(wǎng)絡(luò)的角度去探索語言的性質(zhì)、認知過程、模擬人類語言的產(chǎn)生過程。觀察到了大量在一階統(tǒng)計上難以察覺的語言和認知心理的現(xiàn)象,并用于解釋語言的根源、認知過程等。

漢語是世界最重要的語言之一,其統(tǒng)計規(guī)律和性質(zhì)在語言學上具有重要的參考意義。目前該領(lǐng)域?qū)W者們對漢語網(wǎng)絡(luò)研究已有一些進展。這些網(wǎng)絡(luò)有基本詞法網(wǎng)絡(luò)[4-5],漢語詞同現(xiàn)網(wǎng)絡(luò)[6],漢語詞匯的語法依存句法網(wǎng)絡(luò)[7]等。實驗表明這些漢語網(wǎng)絡(luò)的拓撲結(jié)構(gòu)表現(xiàn)出復(fù)雜網(wǎng)絡(luò)的許多普適特性,如小世界特性等,并且與非漢語網(wǎng)絡(luò)的特性非常相似。這說明盡管各種語言有自己的詞法和句法,但具有內(nèi)在的、相對固定的規(guī)律。也說明網(wǎng)絡(luò)是挖掘這些規(guī)律的有力工具。

漢語語義場指的是漢語中的詞語意義聯(lián)系在一起構(gòu)成的語義系統(tǒng)。基于聯(lián)想語義場的思想,我們構(gòu)建漢語的(子)語義場網(wǎng)絡(luò),觀察到該網(wǎng)絡(luò)中的無標度分布,并觀察了網(wǎng)絡(luò)中結(jié)點和邊的內(nèi)容,展現(xiàn)了從網(wǎng)絡(luò)角度探測到的語言現(xiàn)象。

本文的組織結(jié)構(gòu)如下: 第2節(jié)概覽了目前普遍研究的語言網(wǎng)絡(luò);第3節(jié)介紹了聯(lián)想語義場的概念,并基于該概念介紹了語義場網(wǎng)絡(luò)的構(gòu)建方法;第4節(jié)描述了無標度分布及其相關(guān)概念;第5節(jié)展現(xiàn)了語義場網(wǎng)絡(luò)的無標度分布現(xiàn)象,其中對于節(jié)點權(quán)值、邊權(quán)值的分布的研究是較為獨特的,并觀察了某些特定范圍的詞語特征;第6節(jié)指出了未來的工作。

2 語言復(fù)雜網(wǎng)絡(luò)概覽

復(fù)雜網(wǎng)絡(luò)作為描述復(fù)雜系統(tǒng)的一種新范式,近年被用來描述語言這一復(fù)雜現(xiàn)象[1-2, 8]。很多文獻中將語言的復(fù)雜網(wǎng)絡(luò)稱為語義網(wǎng)絡(luò)(Semantic Network),這個概念不等同于“語義網(wǎng)(Semantic Web)”。

(1) 單詞同現(xiàn)(相鄰)網(wǎng)和單詞搭配網(wǎng)。文獻[8]從英國國家語料庫的句子集合構(gòu)造出兩種圖: 1)單詞同現(xiàn)網(wǎng): 頂點是語料庫中所有的單詞,一個句子當中的單詞之間的距離指的是兩個單詞之間的單詞個數(shù)加1,兩個單詞至少在一個句子里小于等于D(實驗中D取2)的距離里出現(xiàn)過,則它們之間有一條邊。2)單詞搭配網(wǎng): 類似單詞同現(xiàn)網(wǎng),但只保留了那些同現(xiàn)概率及互信息較高的同現(xiàn)詞對之間的邊。這兩個網(wǎng)絡(luò)都具有小世界和無標度等網(wǎng)絡(luò)特性。文獻[8-9]構(gòu)建和分析了各種搭配網(wǎng)。這些網(wǎng)絡(luò)被劃分為核心詞匯和比較周邊的社會方言(sociolects)或者與具體話題相關(guān)的術(shù)語[2]。

(2) 依存語法網(wǎng)。依存語法網(wǎng)的構(gòu)建方法[10]是: 以單詞為頂點,如果兩個單詞至少在一個句子里分別以modifier(源頂點)和head(目標頂點)的依存語法角色同現(xiàn)過,則用modifier指向head的有向邊將它們相連。文獻[10]從捷克語、德語和羅馬尼亞語的樹庫(tree bank)中的句子獲得語法依存網(wǎng)絡(luò),這些句子的單詞之間已根據(jù)它們的依存結(jié)構(gòu)進行標注。該依存語法網(wǎng)有小世界特性;結(jié)點入度,出度服從冪律分布。

(3) 詞典網(wǎng)絡(luò)——專家知識網(wǎng)。同義詞典可以定義詞義之間的關(guān)系(如同義,反義,同音異義,同形異義);概念詞典(如WordNet)能定義概念之間的聯(lián)系(如上下位關(guān)系)。基于這種含有專家知識的詞典網(wǎng)絡(luò)主要有: 同義詞典網(wǎng)和概念網(wǎng)。同義詞典網(wǎng)中,頂點表示詞典中的詞語,邊表示詞義的關(guān)系[11];例如,兩個詞語是同義詞,則用邊連接它們。詞典的來源主要有Roget’s同義詞典和Merrian-Webster同義詞典等[1, 12-14]。基于WordNet的網(wǎng)絡(luò)[12, 15]是一種概念網(wǎng),頂點是詞語(單詞或概念)。詞語之間通過各種關(guān)系相連而形成邊,比如同義關(guān)系,反義關(guān)系、上下位關(guān)系。這些網(wǎng)絡(luò)都表現(xiàn)出復(fù)雜網(wǎng)絡(luò)的普遍特征[16]。

(4) 詞匯聯(lián)想網(wǎng)絡(luò)。一個用來探索基于詞義關(guān)系的替代性的來源是基于詞匯聯(lián)想實驗,詞語被用來作為刺激(stimulus),讓參與人員聯(lián)想到意思或詞形相關(guān)的單詞(response)。詞匯聯(lián)想網(wǎng)(Association Graphs)[12]中,將實驗中用到的所有詞(stimulus 和response)作為頂點,用邊表示了從stimulus到response的聯(lián)想。

(5) 中文語言網(wǎng)絡(luò)的相關(guān)工作。漢語作為世界最重要的語言之一,其統(tǒng)計規(guī)律和性質(zhì)具有重要的參考意義。文獻[6]在大規(guī)模語料庫(北京大學《人民日報(1998年上半年)》1 300萬字左右的人工分詞語料庫和國家語委5 000萬字左右的人工分詞語料庫)上,基于不同規(guī)模和類型的語料子庫,構(gòu)建了漢語詞語同現(xiàn)網(wǎng)絡(luò),考察漢詞語同現(xiàn)網(wǎng)絡(luò)的特性。實驗結(jié)果表明漢詞語同現(xiàn)網(wǎng)絡(luò)具有小世界特性和無標度特性[6],該文還基于網(wǎng)絡(luò)的方法獲取了漢語的核心詞典。文獻[7]基于大規(guī)模句法標注樹庫[17],根據(jù)文獻[18]提出的漢語依存語法規(guī)則,建立了漢詞語匯的語法依存句法網(wǎng)絡(luò),實驗結(jié)果表明漢語依存語法網(wǎng)絡(luò)具有小世界效應(yīng)和無標度特性,并在層次性、居間中心性和混合模式等方面也體現(xiàn)了復(fù)雜網(wǎng)絡(luò)的普遍性質(zhì)。這些特性與捷克語、德語、羅馬尼亞語等極為相似,說明不同語言的網(wǎng)絡(luò)具有類似的特性,這種共性對人類語言本質(zhì)的研究具有一定的啟發(fā)意義[7]。有一類工作并不止步于網(wǎng)絡(luò)的統(tǒng)計特性,而是深入到網(wǎng)絡(luò)中的節(jié)點特性與詞語的語言特性之間的印證關(guān)系,甚至涉及了更名副其實的語義網(wǎng)絡(luò)研究。如文獻[19]給出了“虛詞是網(wǎng)絡(luò)中心節(jié)點的”的例證,為漢語虛詞的研究提供了新方法。文獻[20]考察了漢語語義角色(論元結(jié)構(gòu))網(wǎng)絡(luò),發(fā)現(xiàn)該網(wǎng)絡(luò)雖然也同樣具備小世界和無標度特征,但它與句法網(wǎng)絡(luò)在層級結(jié)構(gòu)和節(jié)點度相關(guān)性方面存在明顯不同。

3 語義場網(wǎng)絡(luò)

很多研究對以什么單位為網(wǎng)絡(luò)結(jié)點,如何定義結(jié)點之間的關(guān)系,研究的興趣何在,都未做出充分回答[2]。然而,盡管各種已研究的網(wǎng)絡(luò)從構(gòu)建上有區(qū)別,但都有一個共同點: 結(jié)點之間的關(guān)系都試圖表達詞語之間的語義關(guān)聯(lián)。

3.1 聯(lián)想場的概念

語義場是指義位形成的系統(tǒng)[21]。語義場的理論有多種: 詞匯場、句法場、聯(lián)想場等。聯(lián)想場理論認為: 包圍在已給詞周圍的能夠更細地規(guī)定這個詞的價值的體系。例如,“牛”這個詞的聯(lián)想場就可由下列單位構(gòu)成的: (1)公牛,母牛;(2)勞動,犁;(3)強壯,耐勞;等等。Ullmann把聯(lián)想場規(guī)定為圍繞一個詞的聯(lián)想網(wǎng)絡(luò),一切都是被聯(lián)想的網(wǎng)所包圍,依此和其他詞產(chǎn)生聯(lián)系[22-24]。

3.2 如何表達聯(lián)想

為什么給定激發(fā)詞“奧運會”,大多數(shù)人會聯(lián)想到“金牌”,“世界冠軍”等呢?筆者認為,這種心理過程構(gòu)建于人共有的背景知識,因而間接地構(gòu)建于被廣泛使用的媒體,包括報紙,電視,互聯(lián)網(wǎng)等。更具體來說,是因為這些詞語是文檔的關(guān)鍵詞且高頻率同現(xiàn)。詞語的同現(xiàn)是重要信息,常常同現(xiàn)的詞語放在一起時能表現(xiàn)它們自己的含義,例如,“劉翔”、“跑步”、“冠軍”三個詞語放在一起的時候,盡管沒有句法信息,我們?nèi)阅芘袛噙@里“劉翔”是著名運動員而非一般人,“跑步”是一種高水平的比賽,而不是普通的“奔跑”。表明這些詞放在一起的時候,即使沒有語法信息和精確的人工義素分析,我們也能比較準確地了解這些詞語的指稱意義。結(jié)合聯(lián)想場的概念,從概率的角度來看,同一義場中的義位有比較大的概率在同一窗口同現(xiàn)。反之,同現(xiàn)概率大的義位也傾向于處在同一個義場。那么,可以不二元性地判斷兩個詞語是否屬于同一義場,而是基于概率論進行判斷: 兩個詞語的同現(xiàn)程度越高,屬于同一義場的概率越大。這是一種廣義的義場,在自然語言處理中更加實用。如果能獲得兩個詞語同現(xiàn)的頻次(亦可轉(zhuǎn)換為概率),就估計了大部分人從一個詞聯(lián)想到另一個詞的可能性(容易程度)。

3.3 漢語語義場網(wǎng)絡(luò)的構(gòu)建方法與特征

語義場被定義為義位形成的系統(tǒng)[21],但如何來表示這個系統(tǒng)?基于上述廣義語義場的概念,我們嘗試用三種網(wǎng)絡(luò)來表示漢語的子場,根據(jù)語言復(fù)雜網(wǎng)絡(luò)研究領(lǐng)域中的分類,可稱為關(guān)鍵詞同現(xiàn)網(wǎng)絡(luò)(Key Term Concurrence Network,KTCN)。這里僅描述在文獻[25]中用于信息檢索任務(wù)中的查詢擴展技術(shù)時中表現(xiàn)最好的網(wǎng)絡(luò),記為KTCN-R,其生成過程如下: 以大型語料中所有文檔的所有關(guān)鍵詞為結(jié)點,如果兩個關(guān)鍵詞同時出現(xiàn)在至少一篇文檔的同一段落中,則認為它們可能屬于同一語義場,則在這對關(guān)鍵詞之間加邊。邊權(quán)值表達的是相應(yīng)的關(guān)鍵詞在語料庫中所有文檔的所有段落中同現(xiàn)的次數(shù)。

KTCN-R相對其他研究中的詞語同現(xiàn)網(wǎng)絡(luò)的較為獨特之處在于: 第一,一個詞語只有是某文檔的關(guān)鍵詞,才可能導(dǎo)致在網(wǎng)絡(luò)中產(chǎn)生新邊或在相應(yīng)的邊上增加權(quán)值;第二,每個關(guān)鍵詞必須在指定的窗口中與其他關(guān)鍵詞同現(xiàn),才可能被加入網(wǎng)絡(luò)。

KTCN-R中的邊和邊權(quán)值共同表達的“聯(lián)想”,其中權(quán)值近似了兩個詞語之間的聯(lián)想關(guān)系的強度。在KTCN-R中的節(jié)點是詞語,從計算機領(lǐng)域看來只是“字符串”,似乎并不接近語言學中的義位的定義,但是,由于詞語節(jié)點與其周邊的與它密切的詞語節(jié)點處在同一系統(tǒng)中,常能反應(yīng)出其自身的義位,我們強調(diào)它被網(wǎng)絡(luò)中周邊的節(jié)點保衛(wèi),而非孤立的元素。因此我們稱這些節(jié)點本身為相應(yīng)詞匯的義位,這是一種近似,也是我們稱KTCN為語義場網(wǎng)絡(luò)的理由。

就目的而言,KTCN-R與聯(lián)想網(wǎng)絡(luò)相同;從構(gòu)建上,KTCN-R屬于一種詞語同現(xiàn)網(wǎng)絡(luò);由于邊權(quán)值在某種程度上表達了詞語意義上的關(guān)聯(lián)程度,它又很像專家知識網(wǎng)絡(luò),但這種意義上的關(guān)聯(lián)來自于巨型語料。

4 無標度分布及相關(guān)概念

我們調(diào)查了KTCN-R的諸多統(tǒng)計特性,這里主要描述網(wǎng)絡(luò)中的無標度分布現(xiàn)象。這里先描述一些圖論和統(tǒng)計學中的名詞,以期能和語言學界專家共同探討。以三元組(N,E,W)來描述KTCN-R的規(guī)模,其中N,E,W分別被定義為網(wǎng)絡(luò)結(jié)點數(shù),網(wǎng)絡(luò)的邊數(shù),網(wǎng)絡(luò)中邊的權(quán)值總和。結(jié)點的度定義為該節(jié)點的鄰邊數(shù);對網(wǎng)絡(luò)的所有節(jié)點,可用頂點度的直方圖來表現(xiàn)其總體情況,這個直方圖就是網(wǎng)絡(luò)的頂點度分布。如果一個網(wǎng)絡(luò)的頂點度分布有相當高的異度分布(heterogeneous distributions)特征: 大部分結(jié)點的度數(shù)很低,而少數(shù)結(jié)點的度數(shù)很高,則稱這種分布為無標度分布。“無標度”的本質(zhì)含義是“無明顯特征”,而正態(tài)分布則具有絕大部分樣本分布在期望附近的明顯特征。結(jié)點的權(quán)值定義為其鄰邊上的權(quán)值之和,注意,KTCN-R中的結(jié)點權(quán)值并非相應(yīng)詞語在語料中的頻次,如前所述,并非語料中出現(xiàn)的詞語就一定會成為網(wǎng)絡(luò)結(jié)點。網(wǎng)絡(luò)的結(jié)點平均權(quán)值定義為所有結(jié)點的權(quán)值的平均值。結(jié)點平均權(quán)值分布的概念則類似于網(wǎng)絡(luò)的頂點度分布。如果一條邊上的權(quán)值足夠高,說明相應(yīng)的關(guān)鍵詞對同屬于同一個語義場的概率越大。反過來,如果一條邊上的權(quán)值太低,則可以認為邊上兩個結(jié)點的共現(xiàn)是一種偶然現(xiàn)象,而非因為屬于同一義場的比較必然的結(jié)果。因此,以邊權(quán)值分布反映這種屬于同一義場的概率的分布: 橫坐標為網(wǎng)絡(luò)中邊權(quán)值,縱坐標為在網(wǎng)絡(luò)中具備某一權(quán)值的邊的數(shù)目。具有邊權(quán)值的復(fù)雜網(wǎng)絡(luò)難以獲取,這也是文獻中很少看到帶權(quán)網(wǎng)絡(luò)的原因。

5 實驗結(jié)果

本文采用NTCIR-7中IR4QA的簡體中文語料構(gòu)建KTCN-R,該語料由新聞文章組成。分別來自新華社和聯(lián)合早報,總共545 162篇文檔。

KTCN-R的規(guī)模如表 1所示。這里順便列出了網(wǎng) 絡(luò) 邊 上 權(quán) 值的最大值MaxEdgeWeight。從預(yù)料中抽取出的關(guān)鍵詞總數(shù)為714 738,但是KTCN-R節(jié)點數(shù)小于714 738,原因是有一些關(guān)鍵詞沒有與其他關(guān)鍵詞同現(xiàn)過。KTCN-R中的結(jié)點數(shù)量遠遠超過了《漢語主題詞表》收錄的詞數(shù),這是因為,本文使用的關(guān)鍵詞抽詞工具抽取出的“詞”并不是語言學里嚴格意義的詞,更準確地,可以說是文檔的關(guān)鍵字符串,它有可能是語言學上嚴格意義的詞,也可能是詞的組合等,例如,“金牌獲得者”。KTCN-R的平均度,平均權(quán)及它們的標準差,如表 2所示。

表1 語義場網(wǎng)絡(luò)規(guī)模及邊的最大權(quán)值

表2 結(jié)點平均度

5.1 結(jié)點度分布

KTCN-R的結(jié)點共有3 808種度,結(jié)點度最小值是1,最大值是77 214;采取累加分布容易導(dǎo)致迷惑,這里分段描述KTCN-R的結(jié)點度分布。第一、二、三段分別是度數(shù)在(0,200],(201,500],(500,1 118)的分布,分別如圖 1、圖2、圖 3所示;第四段,即度數(shù)大于等于1 118的結(jié)點數(shù)均小于10。綜合以上四段數(shù)據(jù),KTCN的度分布是無標度分布。

圖2 KTCN-R中201到500度的結(jié)點數(shù)分布

圖3 KTCN-R中500到1 118度的結(jié)點數(shù)分布

下面觀察結(jié)點度數(shù)在一定范圍內(nèi)的詞語特征。本節(jié)數(shù)據(jù)均展示在文獻[25]的附錄中: 1)文獻[25]中附錄1列出了KTCN-R中200個度數(shù)最低的語詞(度數(shù)均為1)。這些語詞主要包含以下情形: 比較少見的詞、不準確的抽詞、有意義的并且意義比較具體的語詞組合(例如,“生意比去年”是由常見的“生意”、“比”、“去年”組成的);對于語詞組合的情形,雖然從語言學的角度基本不像詞,在我們基于KTCN-R的查詢擴展工作中起到不可忽略的連接作用。2)文獻[25]中附錄2列出了KTCN-R中度數(shù)最高的200個語詞和它們的度數(shù),這些語詞非常符合語言學角度的“詞”,抽“詞”結(jié)果相當準確,而且這些語詞基本不是停用詞。此外,這些語詞中,除了“新加坡”、“馬來西亞”、“委員會”,其余詞全部由兩個字組成。對于此現(xiàn)象,筆者尚不能解釋。3)文獻[25]中附錄3 列出了KTCN-R中度數(shù)為所有度數(shù)的中數(shù)左右的200個語詞,它們的度數(shù)均為13,這部分語詞雖然不像語言學中嚴格意義上的詞,但是意義卻相當完整,僅從這個語言學的“詞”之外的角度,抽詞錯誤相當少,而且相對附錄2,兩個字的情形很少。4)此外,最高度數(shù)的一半左右的200個語詞的數(shù)據(jù)與附錄2基本相同,因為在KTCN-R中,最大度數(shù)為77 214,其一半是38 607,度數(shù)大于38 607的語詞僅九個。

5.2 結(jié)點權(quán)值分布

KTCN-R的結(jié)點共有7 249種不同的權(quán),最小值是1,最大值是858 411,權(quán)值大于等于32 224的權(quán)值共629種,對應(yīng)結(jié)點個數(shù)均為1。圖4、圖5、圖6分別展示了權(quán)值在[1,315],[316,804],[805,1 957]三個區(qū)間的結(jié)點分布。剩余的數(shù)據(jù)點共5 305個,權(quán)值均小于10,平均值為1.412 63,標準差為0.845 73,中數(shù)為1,為1的數(shù)據(jù)共3 940個。綜上,KTCN-R的結(jié)點權(quán)服從無標度分布。

下面觀察結(jié)點權(quán)值在一定范圍內(nèi)的詞語特征: 1) 文獻[25]中附錄4列出了KTCN-R中權(quán)值最低的200個結(jié)點的詞語,它們的權(quán)值均為1,由于權(quán)值為1的結(jié)點度數(shù)必然為1(反之未必成立),而權(quán)值為1的結(jié)點和度數(shù)為1的結(jié)點都非常多,因此兩種情況應(yīng)該相似。造成附錄1和附錄4的差別的原因是實驗過程中使用了二叉排序樹,兩種情況結(jié)點被插入二叉樹的先后順序不同。所以它們表現(xiàn)出和度數(shù)最低的200個詞相同的特征: 很少見的詞、不準確的抽詞、和少量意義完整的詞語組合。2) 文獻[25]中附錄5列出了KTCN-R中結(jié)點權(quán)值大于1且最小的200個詞語(結(jié)點權(quán)值均為2)。顯然,它們與度或權(quán)為1的結(jié)點具有相同的特征。3) 文獻[25]中附錄6列出了KTCN-R中結(jié)點權(quán)值最高的200個結(jié)點的內(nèi)容及它們的權(quán)值。度數(shù)最高的200個結(jié)點(附錄2)和權(quán)值最高的200個結(jié)點之間的重復(fù)率為100%,即這兩組數(shù)據(jù)僅排序不同,因此它們的特征也相同。但KTCN-R中結(jié)點度與權(quán)的皮爾遜相關(guān)系數(shù)僅為0.565 346。4)文獻[25]中附錄7列出了結(jié)點權(quán)值在所有權(quán)值的中數(shù)左右的200個詞語,它們的權(quán)值均為22,這些詞語雖然不像詞,但是意思卻相當完整。5) 此外,最高權(quán)值的一半左右的200個詞語基本就是權(quán)值最大的那些詞語。因為KTCN-R中最大權(quán)值為858 411,其一半是429 205.5,權(quán)值大于的429 205.5詞只有五個(結(jié)點個數(shù)均為1)。

圖4 KTCN-R中權(quán)值在[1,315]的結(jié)點數(shù)分布

圖5 KTCN-R中權(quán)值在[315,804]的結(jié)點數(shù)分布

圖6 KTCN-R中權(quán)值在[805,1 957]的結(jié)點分布

5.3 邊權(quán)值分布

邊權(quán)為1,2,3,4,5的邊數(shù)分別是8 275 598,5 106 606,2 454 626,914 240,500 610。圖7、圖8、圖9、圖10分別描述了邊權(quán)值在[6,29],[30,246],[247,573],[574,820]的邊數(shù)分布。剩余的數(shù)據(jù),即權(quán)值為821到10 337的邊共有1 063種權(quán)值,對每個權(quán)值,對應(yīng)的邊數(shù)均小于10。最小值為1,最大值為8,均值為1.761 99,標準差為1.199 81,中數(shù)為1,1 063種權(quán)值中有642種權(quán)值的邊數(shù)為1。綜上,KTCN-R的邊權(quán)值服從無標度分布。

圖7 邊權(quán)值在[6,29]的邊數(shù)分布

圖8 KTCN-R中邊權(quán)值在[30,246]的邊數(shù)分布

圖9 KTCN-R中邊權(quán)值在[247,573]的邊數(shù)分布

圖10 KTCN-R中邊權(quán)值在[574,820]的邊數(shù)分布

下面考察一些權(quán)值在具體范圍的邊的內(nèi)容特征: 1)文獻[25]中附錄8列出了200條權(quán)值最小的邊的內(nèi)容,它們的權(quán)值均為1。特點是: 結(jié)點基本都是意義很完整的詞及組合,而不是那些很少見的詞語或者錯誤抽詞(這是度和權(quán)最小的200個結(jié)點的特征)。然而,從常識來看這些邊的結(jié)點語義關(guān)系非常弱,屬于同一義場的概率很小;2)文獻[25]中附錄9列出了KTCN-R中權(quán)值最大的200條邊的內(nèi)容。它們的特點是,結(jié)點與附錄8中列出的低權(quán)值邊的結(jié)點相似,抽詞很準確且很常見。但邊的特性卻與附錄8相反: 語義關(guān)系非常明顯,即屬于同一義場的概率較大;3)文獻[25]中附錄10列出了KTCN-R中邊權(quán)值在所有邊權(quán)值的中位數(shù)左右200條邊的內(nèi)容,它們的權(quán)值都是2,說明中數(shù)是2,接近眾數(shù)1。因此附錄10的與附錄8的特征接近。4)我們還考察了權(quán)值在10(邊數(shù)20 312)、50(邊數(shù)3 149)、100(邊數(shù)729),200(邊數(shù)205)、500(邊數(shù)43)的邊的內(nèi)容,對邊數(shù)少于200的權(quán)值,列出全部邊的內(nèi)容,對邊數(shù)超過200的權(quán)值,只列出200個。相應(yīng)實驗結(jié)果見文獻[25]中附錄11到附錄15,其中刪除了一些言論敏感的結(jié)果。從這些數(shù)據(jù)可以觀察出以下結(jié)論: 隨著權(quán)值的增加,邊上的兩個結(jié)點之間的語義相關(guān)程度越來越高。并且,在權(quán)值為10的情況,這種傾向就已經(jīng)非常明顯了。此外,權(quán)值越高,邊上的兩個結(jié)點越顯得緊密,但意思也比較寬泛,例如,“企業(yè)-500-美國”,但是在比較有意義的范圍,形成對比的是: 權(quán)值為10的一組,就顯得更加領(lǐng)域化,例如,“外商投資企業(yè)批準證書-10-申請”,而且相應(yīng)的結(jié)點字符串也比較長。但,無論邊權(quán)值為10還是500的邊的兩個結(jié)點的語義關(guān)系都比較明確。

6 未來的工作

基于本文的工作,有如下工作可以擴展: 1) 更精確地構(gòu)建網(wǎng)絡(luò),如改進關(guān)鍵詞的提取算法,使得文章的關(guān)鍵詞更加準確,使得節(jié)點更加準確,盡可能少地出現(xiàn)不符合人類直覺的“詞語”。以互信息為邊權(quán)值等,增加邊及權(quán)值的準確性。對這一工作的檢驗方法是利用該網(wǎng)絡(luò)作為基礎(chǔ)之一實現(xiàn)某些NLP任務(wù),考查性能的提升。例如,可用查詢擴展任務(wù)的性能提升程度檢驗互信息和頻率哪一個更能表達詞語的親密程度。2) 用于語料建設(shè)。跨文本的結(jié)構(gòu)特性可以提供關(guān)于“無人工干涉的語料”的知識。類似地,如果語料的網(wǎng)絡(luò)結(jié)構(gòu)遠遠偏離了文本網(wǎng)絡(luò)的原則,則可能有人工干擾。從語料庫語言學的角度,對語料的網(wǎng)絡(luò)分析可以研究語料特性,量化對語料的合理性限制,比如語料應(yīng)具備自然性限制(naturalness constraints,即無刻意的人工干預(yù)),文獻[2]及相關(guān)研究指出了從復(fù)雜網(wǎng)絡(luò)的角度對語料進行分析的重要性,例如,在語料作為認知學上詞匯記憶模型的數(shù)據(jù)時,小世界特性至少可以作為判斷語料需要滿足可靠性的必要條件。由于基于網(wǎng)絡(luò)的語料庫語言學研究剛剛起步,目前最主要的任務(wù)是探索大型文本網(wǎng)絡(luò)的結(jié)構(gòu),尋找出相關(guān)的規(guī)律,找出合適的結(jié)構(gòu)參數(shù)指標,評價語料的質(zhì)量,有益于語料的建設(shè)和處理[2]。 3) 類同文獻[6]的工作,尋找中文的核心詞匯;可以KTCN-R為基礎(chǔ),幫助中文詞匯表(比如漢語主題詞表)的建設(shè)與更新,在構(gòu)建詞表時,度數(shù)或者節(jié)點權(quán)值越大的節(jié)點,越早受到語言學家的審驗。4) 尋找語言的深層次特征。5) 語義場網(wǎng)絡(luò)的權(quán)值表達了詞語之間容易聯(lián)想到的強度,因而可用于認知及聯(lián)想研究,類似文獻[12]中構(gòu)建網(wǎng)絡(luò)時,減少參與網(wǎng)絡(luò)的構(gòu)建的人力工作。6) 用于自然語言處理的任務(wù),通過各種方法修訂該網(wǎng)絡(luò),并找到應(yīng)用。如文獻[25]中對KTCN-R的權(quán)值進行反轉(zhuǎn),用最短路徑表達詞語的語義親密程度,并用于信息檢索任務(wù);又如,基于KTCN構(gòu)建詞匯鏈,可能改善基于詞匯鏈技術(shù)的任務(wù)的性能。

[1] Ferrer I Cancho R. The structure of syntactic dependency networks: Insights from recent advances in network theory[J]. The Problems of Quantitative Linguistics,2005: 60-75.

[2] Mehler A. Large text networks as an object of corpus linguistic studies[J]. Corpus Linguistics.An International Handbook of the Science of Language and Society,2007: 328-382.

[3] Solé R V, Corominas Murtra B, Valverde S, et al. Language networks: Their structure, function, and evolution[J]. Complexity, 2010, 15(6): 20-26.

[4] 韋洛霞, 李勇, 李偉,等. 漢字網(wǎng)絡(luò)的3度分隔與小世界效應(yīng)[J]. 科學通報,2004, 49(024): 2615-2616.

[5] 韋洛霞, 李勇, 康世勇,等.漢語詞組網(wǎng)的組織結(jié)構(gòu)與無標度特性[J]. 科學通報,2005, 50(015): 1575-1579.

[6] 劉知遠, 孫茂松. 漢語詞同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無標度特性[J]. 中文信息學報,2007, 21(006): 52-58.

[7] 劉知遠, 鄭亞斌, 孫茂松. 漢語依存句法網(wǎng)絡(luò)的復(fù)雜網(wǎng)絡(luò)性質(zhì)[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學, 2008, 5(2): 37-45.

[8] Ferrer I Cancho R, Sole R V. The small world of human language[J]. Proceedings of the Royal Society B: Biological Sciences. 2001, 268(1482): 2261-2265.

[9] Dorogovtsev S N, Mendes J F. Language as an Evolving Word Web[J]. Proceedings: Biological Sciences. 2001, 268(1485): 2603-2606.

[10] Ferrer I Cancho R, Solé R V, K?hler R. Patterns in syntactic dependency networks[J]. Physical Review E, 2004, 69(5): 051915.

[11] Kinouchi O, Martinez A S, Lima G F, et al. Deterministic walks in random networks: An application to thesaurus graphs[J]. Physica A: Statistical Mechanics and its Applications. 2002, 315(3-4): 665-676.

[12] Steyvers M, Tenenbaum J B. The Large-Scale Structure of Semantic Networks: Statistical Analyses and a Model of Semantic Growth[J]. Cognitive Science. 2001, 29(1): 41-78.

[13] Albert R, Barabasi A L, Jeong H, et al. Statistical Mechanics of Complex Networks[J]. Nature Genetics. 2002, 31: 60-63.

[14] Newman M E. The structure and function of complex networks[J]. SIAM Review, Arxiv preprint cond-mat/0303516. 2003, 45: 167-256.

[15] Sigman M, Cecchi G A. Global organization of the Wordnet lexicon[J]. Proceedings of the National Academy of Sciences. 2002, 99(3): 1742-1747.

[16] Motter A E, de Moura A P S, Lai Y C, et al. Topology of the conceptual network of language[J]. Physical Review E, 2002, 65(6): 065102.

[17] 周強. 漢語句法樹庫標注體系[J]. 中文信息學報. 2004, 18(004): 1-8.

[18] 周明, 黃昌寧. 面向語料庫標注的漢語依存體系的探討[J]. 中文信息學報. 1994, 8(003): 35-52.

[19] 陳芯瑩, 劉海濤. 漢語句法網(wǎng)絡(luò)的中心節(jié)點研究[J]. 科學通報. 2011, 56(10): 735-740.

[20] 劉海濤. 漢語語義網(wǎng)絡(luò)的統(tǒng)計特性[J]. 科學通報. 2009(014): 2060-2064.

[21] 賈彥德. 漢語語義學[M]. 北京: 北京大學出版社, 1999. 147-208.

[22] 林紀誠. 英語語篇中詞匯銜接手段試探[J]. 外國語 (上海外國語學院學報), 1986, 5: 20-26.

[23] 夏日光. 語義聯(lián)想場與名形詞類轉(zhuǎn)變的英譯[J]. 西安外國語學院學報. 2004, 12(4): 84-86.

[24] 王悅. 俄語語義場劃分的原則與類型[J]. 經(jīng)濟研究導(dǎo)刊. 2012,14: 227-228.

[25] 楊華. 復(fù)雜網(wǎng)絡(luò)在自然語言處理中的應(yīng)用初探[M]. 南京: 南京大學出版社, 2012: 126-137.

Scale -Free Distribution Phenomenon in Chinese Semantic Field Network

YANG Hua1,2, JI Donghong3, XIAO Guozheng2

(1. School of Mathematics and Computer Scinece, Guizhou Normal University, Guiyang, Guizhou 550001,China; 2. College of Chinese Language and Literature, Wuhan University, Wuhan, Hubei 430070, China; 3. School of Computer, Wuhan University, Wuhan, Hubei 430070, China)

Semantic field is the semantic system composed of glosseme and the linkage among themselves. For a given language, all sub-semantic-field forms the whole semantic filed for that language. According to the conception of association semantic filed, we employ the complex network to represent Chinese semantic field. The scale-free distributions of node degree, node weight, and edge weight, are observed in this network. Some net-work unique language phenomena can be discovered by terms whose node degree, node weight, edge weight are in specific ranges. We demonstrate some specific phenomena detected, expecting further studies would provide reasonable explanations.

semantic field, complex network, scale-free distribution

楊華(1974—),博士后,教授,主要研究領(lǐng)域為自然語言處理。E?mail:yanghuastory@foxmail.com姬東鴻(1967—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理。E?mail:dhji@whu.edu.cn蕭國政(1949—),博士、教授、博士生導(dǎo)師,主要研究領(lǐng)域為漢語言文字學、理論語言學及自然語言處理。E?mail:gzxiao@whu.edu.cu

1003-0077(2015)03-0034-10

2013-04-08 定稿日期: 2013-07-31

國家自然科學基金(61070243)、國家社科基金(11&ZD189)、貴州省高層次人才科研項目(TZJF-2010年048號)、貴州省科教青年英才培養(yǎng)工程項目(“黔省專合字(2012)155號”)、貴州師范大學博士科研啟動基金項目(11904-05032110011)

TP391

A

猜你喜歡
語義
為什么字看久了就不認識了
語言與語義
“社會”一詞的語義流動與新陳代謝
“上”與“下”語義的不對稱性及其認知闡釋
“吃+NP”的語義生成機制研究
“V+了+NP1+NP2”中V的語義指向簡談
認知范疇模糊與語義模糊
“V+X+算+X”構(gòu)式的語義功能及語義網(wǎng)絡(luò)——兼及與“V+X+是+X”構(gòu)式的轉(zhuǎn)換
語言與翻譯(2014年2期)2014-07-12 15:49:25
“熊孩子”語義新探
語文知識(2014年2期)2014-02-28 21:59:18
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 亚洲经典在线中文字幕| 思思热精品在线8| 国产亚洲高清视频| 亚洲人成成无码网WWW| 欧美成人精品欧美一级乱黄| 国产成人综合网| 色天堂无毒不卡| 亚洲一区毛片| 99免费在线观看视频| 欧美第九页| 国产精品va免费视频| 国产精品福利在线观看无码卡| 日本精品一在线观看视频| 亚洲综合激情另类专区| 全免费a级毛片免费看不卡| 国产毛片不卡| 久久久久久尹人网香蕉| 国产小视频a在线观看| 亚洲欧美h| 久久香蕉国产线| 在线观看国产精品一区| 亚洲欧洲美色一区二区三区| 自拍偷拍欧美| 久久国产免费观看| 亚洲人成网7777777国产| 一本久道久久综合多人| 看你懂的巨臀中文字幕一区二区| 中国精品自拍| 国产高清无码第一十页在线观看| аv天堂最新中文在线| 日韩一级毛一欧美一国产| 久久这里只精品热免费99 | 中文字幕人妻无码系列第三区| 亚洲国产成人自拍| 一级福利视频| 亚洲男人的天堂久久精品| 亚洲开心婷婷中文字幕| 毛片网站在线看| 国产精品国产三级国产专业不| 72种姿势欧美久久久大黄蕉| 国产美女视频黄a视频全免费网站| 国产精欧美一区二区三区| 色哟哟国产精品一区二区| 日日拍夜夜操| 亚洲视频无码| 亚洲美女一区| 国产福利免费视频| 欧美精品啪啪| 国产自产视频一区二区三区| 久久精品国产国语对白| 国产成人综合欧美精品久久| 国产在线精品99一区不卡| 亚洲av无码片一区二区三区| 永久免费精品视频| 欧美激情第一区| 91人妻日韩人妻无码专区精品| 欧美精品亚洲二区| 香蕉精品在线| 97成人在线观看| 国产成人一区二区| 国产日韩av在线播放| 波多野结衣爽到高潮漏水大喷| 黄色网在线| 欧洲日本亚洲中文字幕| 国产尤物在线播放| 九九热这里只有国产精品| 国产在线观看第二页| 亚洲熟女中文字幕男人总站| 久久久成年黄色视频| 无码福利日韩神码福利片| 国产中文一区二区苍井空| 91小视频版在线观看www| 亚洲综合国产一区二区三区| 亚洲乱伦视频| 免费在线色| 欧美成人一级| 在线免费不卡视频| 麻豆国产原创视频在线播放| 国产九九精品视频| 亚洲成人网在线观看| 国产高清又黄又嫩的免费视频网站| 亚洲欧美日韩另类|