999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于復雜網絡的成語關系網絡拓撲性研究

2018-02-12 12:24:56肖瀟郭進利
軟件導刊 2018年12期
關鍵詞:互聯網

肖瀟 郭進利

摘要:作為漢語文化不可或缺的一部分,成語具有很高的研究價值。運用復雜網絡思想,選取第6版《新華成語詞典》總共8 013個成語,通過發現成語間的關鍵聯系,利用編輯算法構建互聯網空間下復雜網絡,并運用Matlab、Origin等軟件研究成語網絡的連接情況,實證分析研究該成語網絡的度分布、聚類系數、平均路徑長度、網絡小世界特性、香農熵等相關拓撲性質。研究發現,成語節點度越高,聚集系數越大,成語聯系關系越緊密,小世界特性越明顯。從細節出發研究成語網絡相互連接更深層的關系,對未來成語的發展及歸納整理有更加深遠的意義。

關鍵詞:復雜網絡;互聯網;拓撲性質;成語網絡

Study on the Topology of the Idiomatic Relationship Network Based on Complex Networks

XIAO Xiao,GUO Jin?li

(School of Management, University of Shanghai for Science and Technology, Shanghai 200093,China)

Abstract:As an indispensable part of Chinese culture, idioms have high research value. Using complex network ideas, we select a total of 8 013 idioms in the sixth edition of Xinhua Idioms Dictionary. By discovering the key links among idioms, constructing the complex networks in the Internet space by editing algorithms, and employing Matlab, Origin and other softwares to study the connection situation of idioms, we conduct the empirical analysis of the degree distribution of the idiom network, clustering coefficient, average path length, network small world characteristics, Shannon entropy and other related topological properties. The study found that the higher the degree of idiom node, the larger the aggregation coefficient, the closer the idiom relationship is, which indicates the property of the small world. Focusing on the details, we study the deeper relationship between idiom networks, which has more profound guiding significance for the development and synthesis of idioms in the future.

Key Words:complex networks;Internet;topological properties;idiomatic networks

0?引言

中華漢語言文學博大精深,成語是其重要組成部分。成語一詞最早出現在《文心雕龍》,被稱為“成辭”;到唐代才開始被稱為 “成語”,又稱“成言”;兩宋人士改稱為“全語”,民間文學偶用“成語”一詞;元、明、清時“成語”、“全語”并用。“成語”一詞的意義也有一個變化發展的過程。成語是經過長期使用、錘煉而形成的固定短語,是比詞的含義更豐富而語法功能又相當于詞的語言單位,且富有深刻的思想內涵,簡短精辟、易記易用,并常常附帶感情色彩。成語大都有一定的出處,多由4個字組成,但也有3個字或4個字以上的。成語的來源有5個方面:一是神話傳說,如夸父逐日和精衛填海;二是寓言故事,如刻舟求劍和狐假虎威;三是歷史故事,如負荊請罪和破釜沉舟;四是文人作品,如老驥伏櫪和青出于藍而勝于藍;五是外來文化,如功德無量和火中取栗。

近年來復雜網絡引起了學者濃厚興趣,被應用于系統科學、物理學及網絡輿情傳播研究等多個領域[1?2],從具體的高鐵網絡[3]、軌道交通網絡到抽象的生物鏈網絡、BP神經網絡,從現實生活中的人際關系和科學界的科學合作網絡到虛擬的萬維網絡等都被涵蓋其中。復雜網絡還呈現出不同的特性,比如無標度網絡具有網絡冪律分布特點,當網絡聚集系數比隨機網絡聚類系數高,并且最短路徑比同規模規網絡小,則該網絡被稱為小世界網絡[4?5],隨著復雜網絡理論的不斷完善,其與語言學的結合也產生了相當顯著的成果。意大利人Cancho[6]是世界首位用復雜網絡理論研究英語網絡的學者,他在2001年將單詞定義為網絡節點,將連接定義為單詞(節點)同現于一個短句而構成的有意義組合。其研究結果表明,英語單詞之間具有很高的搜索效率。2005年,李勇博士課題組[7]建立了第一個漢語詞匯網絡用于復雜網絡理論與應用研究,在該網絡中節點是中文詞語,節點之間的連接定義為漢字同現,即兩個詞語之間出現相同漢字則進行連接;2007年劉知遠和孫茂松[8]采用復雜網絡的方法構建了一個漢語詞同現網絡,研究了該網絡小世界效應和無標度特性;2008年又構建了一個漢語依存句法網絡,研究其復雜網絡性質。2011年王眾托院士等[9?10]探索了超網絡相關認知,胡泉等[11]提出基于復雜網絡理論的漢語復句關系詞搭配網絡,啟發了運用復雜網絡思想搭配成句的思想。李思騫[12]在2016年進行了基于復雜網絡抗毀性的信息提取研究,對漢語在復雜網絡中的應用進行了更加清晰的刻畫;徐德寬[13]于2016年第一次基于復雜網絡的視角分析《現代漢語詞典》與《國語辭典》,將以往基于感性認識和定性描述研究提升到精確、定量的層次,使元語言研究朝著科學化的方向邁進;吳六三等[14]從熵理論角度出發,提出了網絡最短路徑熵值和網絡最大流熵的網絡可靠性判據,眾多語言學家和計算機工共同研究了一系列語言網絡。綜上研究表明:語言也是人類復雜系統中的一種復雜網絡,盡管各種語言網絡的構造原理和構造方法有差別,但各種語言網絡都具有類似的統計特性。通過網絡理論與試驗分析,發現雖然漢語普遍被認為是較復雜的語言體系,但其形成的復雜網絡也和一樣,具有小世界特性及無標度特征。近年來,結合復雜網絡圍繞漢語語言結構、漢字構成等方面展開了一系列重要工作,從多方面對漢語語言進行詳細的分析研究,并取得了令人矚目的成果。

1?網絡研究基礎

1.1?網絡數據來源

本文數據來源于新華成語詞典,其中共收錄近8 000條數據,詞典中成語種類繁多,來源廣泛,包含四字成語、多字成語等,但四字成語占多數。

1.2?網絡構建方法

本文數據統計規則如下:找出成語網絡中連接度較高頻率的漢字,作為整個網絡的連接樞紐,起到至關重要的作用。通過簡單編程對8 013個成語進行分類統計,其中“一”、“不”、“無”等頻率較高,分別出現815、685、424次,是整個網絡最重要的節點。為便于分析,截取了前50個成語網絡圖,?如圖1所示,用G表示成語網絡的連通圖,V?1,V?2……V?n表示一個成語節點,M?1,M?2……M?n表示由成語連接而成的社團, E?1,E?2……E?n表示成語節點之間的連邊關系,即成語之間的連邊關系,指首字相同便可連邊,F?1,F?2……F?n為社團的連邊方式,即社團間有共同字的成語便可連接。具體步驟如下:

步驟1:本文規定當成語首字相同時,將該類成語進行連接并形成社團。例如首字為“一”的成語 V?1,V?2……V?m通過相同的“一”字連接并形成聚集團M?1, 同樣的首字相同成語連接形成聚集團M?2,M?3……M?n。

步驟2:將形成的聚集團進行連接。例如本文成語連接主要分為首字以“一”、“自”、“罪”、“九”字等幾個大的成語聚集團,再由于 “自成一家”、“自成一格”、“九死一生”、“九牛一毛”、“罪加一等”、“一心一意”均出現“一”字,因此圖1中“自”、“九”、“罪”字為首字的成語社團通過共同的“一”字為橋梁,進一步連接成網絡。圖1描述的是由首字為“自”、“罪”、“九”三類成語共50個成語形成的連接機制。取50個成語出現的3個孤立點僅是相對于圖1而言,它們雖是孤立的,但隨著成語節點的增加又會重新連接。運用上述連接方式連接整個網絡,網絡連通情況如圖2所示。除少數孤立節點外,緊密的成語網絡連接對研究語句中成語搭配使用有深遠意義。

2?數據收集與分析

2.1?首字頻率分布

首字頻率分布即成語按相同首字進行分類,觀察相同首字成語出現頻率及各類成語頻率分布情況。本文通過互聯網收集下載共8 013個成語,運用Matlab編輯算法從成語中挑選出所有高頻出現的字,并將成語按照首字進行由低到高的排列,成語中若出現高頻字則意味該成語有很高的聚集程度,即頻率越高,成語連接度越高,比如含有“一”字的成語出現815次,頻率為0.024 664,成語首個字含有“一”字的成語首先聚集,等待其它聚集團的加入,逐漸匯聚為大的網絡結構,該連接方式類似于無標度網絡特征持續增長并優先連接,可以很好地解釋成語之間的關聯程度,在語句中更多成語的搭配連用使語句更加精粹。很多成語來源于古代文學,成語網絡亦可用于探索了解成語古今變化,以便對未來發展規律進行深層次挖掘。

圖3為線性坐標下首字頻分布情況,線性坐標下表現為長尾分布,也被稱為無標度分布,大量的點聚集在長尾處,進一步證明該部分成語的匯聚程度高,常用性相對較大。圖4是雙對數坐標下首字頻分布情況,該圖表現出明顯的冪律特征,斜率?r?=-0.56,有大量的成語占據了低度位置。通過觀察發現,往往成語量較大的成語團也是日常生活中運用頻繁的成語。

字頻分布圖擬合后的冪律函數如式(1)。

2.2?節點重要性

無向社會網絡在刻畫網絡關鍵點時,常用“中心性”進行刻畫[15],最直接的度量是度中心性,即一個節點的度值越大意味著該節點越重要。一個節點度值最大為?N-1,對節點作歸一化處理,度值為k?i?的節點歸一化度中心性定義為:

歸一化處理:

比如網絡中成語“九牛一毛”的鄰居節點共1 124個,所有節點度的總和為2 212 506,所以該成語的?P(ki)=0.000 5,其度值反映了與網絡中某一個成語直接相接的成語節點數量,關鍵節點k值越大說明該成語節點連通度越高,在實際語言環境中空間上具有較好的聯系。圖5表示8 013個成語節點的度分布情況,橫坐標k表示兩個網絡總度,縱坐標C表示兩個網絡聚合系數。分析結果顯示,成語網絡總度分布擬合后系數r≈-0.82,大致遵循冪律分布,成語網絡度分布擬合曲線呈明顯下降趨勢,表明該網絡中不僅存在很多度雖小但聚合系數較高的節點,也存在很多度很高而聚合系數較低的節點,說明整個成語詞典連接緊密,網絡結構不容易破壞。

2.3?度分布

度分布指設節點度為k的節點(1,2,3……n)有m?k個,度總數為N個,度為k的概率分布為Q(k),則:

復雜網絡中度的分布刻畫了該復雜網絡成語節點的 “無標度”現象,利用式(4)可計算“成語網絡”中8 013個節點度分布概率,該概率值進一步刻畫了圖2是一種典型的“無標度成語網絡”。表2給出了圖2部分復句關系詞節點的度分布數據及其度分布概率值,圖6為部分節點的概率分布情況。圖中顯示少量的點高度匯聚,大量的點分布均勻,可理解為該網絡中節點度高的節點相互連接。

3?成語網絡基本拓撲性質

3.1?聚集系數

定義1?聚集系數設復雜網絡中任意一個節點i的度為k?i,即該節點有k?i個鄰居節點相連。如果節點i的k?i個鄰居節點之間兩兩互為鄰居,在k?i個節點之間最多可能有(K?i(k?i-1))/2條邊。則該節點i的聚集系數c?i被定義為k?i個節點之間實際存在的邊數E?i與總體可能存在的邊數(K?i(k?i-1))/2 之比,即:

顯然,c?i=[0,1],設整個網絡節點數為n,則整個網絡聚集系數C為所有節點聚集系數c?i(其中i=1,2,3……n)的平均值[9],即:

式(6)中0≤c≤1,當且僅當網絡中所有節點均為孤立節點時,c=0,此時整個網絡沒有任何連接邊;當且僅當整個網絡任何兩個節點都直接相連,則c=1,此時網絡稱為“全局耦合網絡”[16]。在成語關系網絡中,可利用聚集系數度量一個成語節點與之相連接的任意一個成語之間可能產生的連接關系和搭配關系。該成語網絡的平均聚類系數為0.793,說明成語連接網絡聚集程度很高,有利于使文章主旨表達更加清晰、明了。

3.2?平均度

平均度網絡中所有節點的度平均值被稱為網絡平均度,記為<k>[17]。

在現代漢語復句關系詞搭配網絡中,平均度<k>值反映復句關系詞之間的平均搭配能力。由式(8)得到8 013個成語節點的平均度<k>?=276.11,說明8 013個成語詞的總體鏈接能力非常強。從圖2中可觀察到1 000個連接成語的聚集程度非常高。平均度不僅與搭配能力有關,近年來有學者提出了一個平均度隨網絡大小線性增長,而其它網絡特征量保持不變或變化很小的網絡,并研究了平均度對其同步能力的影響。研究發現,當網絡增大時,該網絡平均距離基本保持不變,平均度線性增大,且對于同步穩定區域無界的動力學系統,網絡同步能力線性提高;而對于同步穩定區域有界的動力學系統,網絡同步能力基本保持不變[18?19]。

3.3?平均路徑長度

平均路徑長度:復雜網絡中,兩個節點i和j之間的距離d?ij,定義為該兩個節點之間最短路徑的邊數;網絡中任意兩個節點之間的距離最大值叫作網絡直徑,記作D,即:

實際上,?D?為網絡中任意兩個節點的最短路徑長度。網絡平均路徑長度[20]定義為任意兩個節點之間的平均值,即:

其中,?n?為整個網絡節點數目,即整個網絡所含頂點數。平均最短路徑可以反映整個網絡信息傳遞效率。最短路徑越小,說明任意兩點之間距離越短,信息傳遞越快,反之,則說明路程較長,信息傳遞較慢。因此,最短路徑較小的網絡往往具有較高的搜索效率。網絡中的平均路徑長度與平均聚類系數關系密切,通過將孤立節點剔除,計算網絡平均路徑長度為3.48,即大概3個成語間就會有一次連接,說明成語間關系傳遞相當迅速。

3.4?小世界效應

小世界效應[21]又被稱為六度空間理論或六度分割理論。小世界效應指出,社交網絡中的任何一個成員和任何一個陌生人之間間隔的人不會超過6個。

通常使用兩個特征衡量網絡: 特征路徑長度和聚合系數。對于規則網絡,任意兩個點(個體)之間的特征路徑長度大(通過多少個體聯系在一起),但聚合系數高(成語網絡中成語和鄰居的鄰居是鄰居的幾率較大)。對于隨機網絡,任意兩個點之間的特征路徑長度小,但聚合系數低。而在小世界網絡,點之間特征路徑長度小,接近隨機網絡,而聚合系數依舊相當高,接近規則網絡。根據定量分析可知,如果網絡平均聚類系數遠大于隨機網絡聚類系數,且平均路徑長度約等于隨機網絡平均路徑長度,則稱該成語網絡具有小世界特性。即:

其中成語網絡平均聚類系數為0.79,?C?r =0.034,c遠大于C?r ,d?r =3.06約等于d?,數據表明成語關系網絡具備小世界的特性,說明該成語網絡呈高度聚集,一旦移動社區中少量的成語便會造成整個成語網絡拓撲性質改變。

復雜網絡的小世界特性與網絡信息傳播有密切聯系。實際的社會、生態等網絡都是小世界網絡,信息傳遞速度快,并且少量改變幾個連接可引起網絡性能劇變,如對已存在的網絡進行調整,如蜂窩電話網,改動幾條線路即可顯著提高性能。

3.5?香農熵

一條信息的信息量大小與其不確定性有直接關系[22]。信息量的度量等于不確定性的多少,即不確定性越多則需要查閱的資料越多。“熵”的表達形式為:

復雜網絡對于漢語類問題的研究有很大幫助,同樣字節數量的書,包含的信息量可以相差巨大,就本文研究對象新華成語詞典而言,共約12 000個漢字,信息量較大,即理解該詞典難易程度相差很大。由式(11)計算出香農熵為7.707 9,有較高的香農熵說明成語網絡每一個成語都具有信息價值,沒有冗余。這與“漢語是最簡潔的語言,成語又是漢字的進一步提煉”的普遍認識一致。

4?結語

本文從復雜網絡的視角通過對8 013個節點成語進行研究,分析了字頻概率分布、累積度分布、度分布、度概率分布,以及基本拓撲性質如聚集系數、平均度、平均路徑長度、小世界效應、香農熵等。通過對成語網絡的分析發現無標度網絡特性,即成語網絡的度分布及累計度分布均服從冪律分布。具備小世界特性的網絡具有很高的聚集程度,成語間連接緊密,每個成語都有很強的搭配能力,信息無冗余。

成語網絡的小世界特性說明漢語和英語一樣,具有較高的信息查找率,成語網絡的無標度性為成語提供了更便捷的應用平臺,在大數據時代能促進成語信息的使用。

參考文獻:

[1]?NEWMAN M E J. The structure and function of complex networks. [J]. Siam Review, 2003,45(2):167?256.

[2]?平亮,宗利永.基于社會網絡中心性分析的微博信息傳播研究—以Sina微博為例[J].圖書情報知識,2010(6):92?97.

[3]?劉果.葉堃暉.基于復雜網絡的我國高鐵演化特征研究[J].交通運輸研究,2017,7(21)6?13.

[4]?張永,和凱.一種基于節點影響力的信息傳播概率算法[J/OL].計算機工程與應用,2018(10):126?134張永,和凱. 一種基于節點影響力的信息傳播概率算法[J/OL]. 計算機工程與應用:126?134.2017?09-14.http:∥cea.ceaj.org/CN/article/searchArticle.do#..

[5]?劉知遠,孫茂松.漢語詞同現網絡的小世界效應和無標度特性[J].中文信息學報,2007,21(6):52?58.

[6]?CANCHO R F I ,SOLR V . The small world of human language [J]. Proc Biol Sci, 2001,268(1482):2261?2265.

[7]?LI Y, WEI L ,NIU Y,et al. Structural organization and scale?free properties in Chinese phrase networks [J]. Chinese Science Bulletin,2005,50(13):1304?1308.

[8]?劉知遠,鄭亞斌,孫茂松.漢語依存句法網絡的復雜網絡性質[J].復雜系統與復雜性科學,2008,5(2):37?45.

[9]?王眾托.關于超網絡的一點思考[J].上海理工大學學報,2011,33(3):229?237.

[10]?索琪,郭進利,王福紅.電視節目競爭關系的超網絡分析[J].復雜系統與復雜性科學,2016,13(3):33?39.

[11]?胡泉,謝芳,李源,等.基于復雜網絡理論的漢語復句關系詞搭配網的統計特征研究[J].中文信息學報,2016,30(4):56?64.

[12]?李思騫.基于復雜網絡抗毀性的信息提取研究[D].邯鄲:河北工程大學,2016.

[13]?徐德寬,何保榮,邱立坤.基于復雜網絡視角的《現代漢語詞典》與《國語辭典》常用動詞釋義元語言研究[J].外國語文研究,2016,2(2):2?13.

[14]?吳六三,譚清美.基于網絡熵的應急物流網絡穩定性研究[J].當代財經,2012(7):60?68.

[15]?王小帆,李翔,陳關榮.網絡科學導論[M].北京:高等教育出版社,2012.

[16]?ZHANG R X,LI D Y,ZHEN J. Dynamic analysis of a delayed model for vector?borne diseases on bipartite networks[J] . Applied Mathematics and Computation, 2015,263(C):342?352.

[17]?ERDOS P,RENYI A.On the evolution of random graphs[J]. Transactions of the American Mathematical Soc, 2011,286(1):257?274.

[18]?ZHAO M, ZHOU T, WANG B H,et al.?Better synchronizability predicted by a new coupling method[J] . The European Physical Journal,2006,53(3):375?379.

[19]?王丹,郝彬彬.一類高聚類系數的加權無標度網絡及其同步能力分析[J].物理學報,2013,62(22):73?80.

[20]?劉業政,周云龍.無尺度網絡平均路徑長度的估計[J].系統工程理論與實踐,2014,34(6):1566?1571

[21]?DAI H,GAO S,YANG Y,et al. Letters: effects of“rich?gets?richer”rule on small?world networks[J]. Neurocomputing, 2010,73 (10?12) :2286?2289.

[22]?李愛國,汪保男.一種非線性新相關信息熵定義及其性質、應用[J].信息與控制,2011,40(3):401?407,412.

猜你喜歡
互聯網
互聯網+背景下數學試驗課程的探究式教學改革
科技視界(2016年21期)2016-10-17 18:47:55
基于“互聯網+”的京東自營物流配送效率分析
科技視界(2016年21期)2016-10-17 18:37:15
互聯網+醫療保健網的設計
科技視界(2016年21期)2016-10-17 17:07:28
試論網絡大環境下音樂作品的法律保護問題
商(2016年27期)2016-10-17 06:43:49
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
淺析互聯網時代維基百科的生產模式
今傳媒(2016年9期)2016-10-15 22:51:03
“互聯網+”環境之下的著作權保護
今傳媒(2016年9期)2016-10-15 22:15:57
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
從“數據新聞”看當前互聯網新聞信息傳播生態
今傳媒(2016年9期)2016-10-15 22:06:04
互聯網背景下大學生創新創業訓練項目的實施
考試周刊(2016年79期)2016-10-13 23:23:28
主站蜘蛛池模板: 操操操综合网| 精品国产网站| 亚洲av片在线免费观看| 视频一本大道香蕉久在线播放| 中文字幕精品一区二区三区视频| 亚洲三级视频在线观看| 色综合婷婷| 手机在线看片不卡中文字幕| 久久人人97超碰人人澡爱香蕉 | 亚洲午夜国产片在线观看| 99re精彩视频| 中文字幕亚洲综久久2021| 三上悠亚精品二区在线观看| 在线日韩一区二区| 国产97公开成人免费视频| 久久一本日韩精品中文字幕屁孩| 国产免费网址| 狠狠色成人综合首页| 又污又黄又无遮挡网站| 久久久久亚洲AV成人网站软件| 亚洲成人一区二区| 亚洲精品制服丝袜二区| 亚洲国内精品自在自线官| 色香蕉影院| 国产亚洲精品无码专| 福利国产在线| 浮力影院国产第一页| 欧美97色| 欧美日本中文| 亚洲中文字幕无码爆乳| 中文字幕在线一区二区在线| 亚洲综合第一区| 伊人查蕉在线观看国产精品| 午夜精品久久久久久久2023| 欧美一区福利| 欧美一级大片在线观看| 亚洲天堂网视频| 欧美在线天堂| 久久综合色视频| 亚洲中文在线视频| 四虎精品国产AV二区| 成人免费午夜视频| 国产一级视频久久| 天堂网国产| 国产一区二区在线视频观看| 国产成人一区在线播放| 狠狠亚洲五月天| 欧美性久久久久| 在线播放国产99re| 99久久精品免费看国产免费软件| 国产成人久久777777| 欧美激情,国产精品| 国产精品美女自慰喷水| 国产成人禁片在线观看| 丁香婷婷久久| 国产成a人片在线播放| 永久毛片在线播| 亚洲va在线∨a天堂va欧美va| 亚洲人人视频| 久久久久免费看成人影片| 国产精品亚洲天堂| 国产区福利小视频在线观看尤物| 亚洲一区二区黄色| 亚洲日韩欧美在线观看| 亚洲大学生视频在线播放| 伦精品一区二区三区视频| 高清色本在线www| 91麻豆精品视频| 国产十八禁在线观看免费| 在线欧美一区| 少妇极品熟妇人妻专区视频| 亚洲精品少妇熟女| 久久永久视频| 国产精品亚欧美一区二区| 免费精品一区二区h| 婷婷伊人五月| 久青草国产高清在线视频| 亚洲激情区| 欧美精品在线免费| 中文字幕天无码久久精品视频免费 | 精品国产99久久| 日韩AV无码免费一二三区|