摘要:信息熵是信息論中用于度量隨機變量的不確定性。自然語言信息熵的估計是自然語言信息處理中非常重要而且基本的問題。在試驗中,使用統計的方法對250多萬詞的維吾爾語語料庫文本進行統計,初步計算了維吾爾文的信息熵和多余度。所求得的信息熵和多余度分別為4.387比特和13%,相當接近了其它拼音文字的信息熵和多余度。
關鍵詞:維吾爾文;信息熵;多余度;語料庫;統計
中圖分類號:TP391.1 文獻標識碼:A文字編碼:1009-3044(2008)04-1014-02
Statistical Estimation for Entropy of Uyghur Script
SAMAT Mamtimin1,2
(1.Communication University of China, Beijing, 100024; 2.Xinjiang University, Urumqi 830046, China)
Abstract: In information theory, entropy is a measure of the uncertainty associated with a random variable. Estimating the entropy of natural language is a fundamentally important problem in natural language information processing. In the experiment, the entropy and redundancy of Uyghur script are estimated by statistic results of more than 2.5 million words in the Uyghur Corpus. The result shows that the entropy and redundancy of Uyghur script are 4.387bit and 13% respectively which very similar to that of other alphabetical languages.
Key words: Uyghur script; entropy; redundancy; corpus; statistics
1 引言
自然語言字符的熵(entropy)表示該語言每一個字符所包含平均信息量的大小,是語言符號不確定性程度的一種度量。從字符編碼的角度來看,語言符號的熵可以被認為是對該語言字符編碼所需的最小平均碼長。通過計算某種語言的字符熵可以找出該語言符號系統的信息量和多余度之間的關系,以便能用最小的成本和消耗來實現最高效率的數據儲存、管理和傳遞。因此,正確地估計信息熵的值對語言信息處理具有重要意義。利用熵的概念,可以從理論上研究信息的計量、傳遞、變換、存儲。此外,熵在控制論、概率論、數論、天體物理、生命科學等領域也都有一定的應用。
到目前為止,在國外很多學者研究不同語言的信息熵,計算出了這些語言的信息熵。各種語言字母的熵:法文3.98比特;西班牙文4.01比特;英文4.03比特;俄文4.35比特;德文4.10比特;羅馬尼亞文4.12比特。在國內最早馮志偉先生用了將近10年的時間,進行手工查頻,從小到大地逐步擴大統計的規模,建立了6個不同容量的漢字頻度表,最后根據這些不同的漢字頻度表,逐步地擴大漢字的容量,終于在70年代末期首次計算出了在不考慮上下文影響的前提下漢字信息熵的值是9.65比特,1995年,馮志偉又進一步測定了在充分考慮漢字上下文的影響時包含在一個漢字中的熵,這個熵叫做“極限熵”。他測得,漢字的極限熵平均為4.0462比特。黃萱菁等在4年的《人民日報》語料的基礎上,所求得的零階熵、一階熵、二階熵分別為9.62,6.18和4.89比特。劉源給出漢字熵的計算結果是9.71比特。孫帆等基于詞的語言模型估計方法比基于字的直接計算方法得到了漢字熵的更為精確的估計,其熵值為5.31比特。
由于維吾爾文的特殊性決定了至今未有人計算出維吾爾文的信息熵。近年來由于計算機可讀文本的大量出現,以及計算能力的不斷提高,使得在更大的語料規模上,更為精確地用統計方法計算維吾爾文的信息熵成為可能。本文將在大規模文本的基礎上,運用概率的估計方法來計算維吾爾文字符的信息熵和多余度。
2 基本概念
2.1 熵
熵(entropy)是1865年作為熱力學的一個重要概念引入的。信息理論中的熵是從不同的觀點引入的,兩者間雖有相同的數學形式,但它們并沒有什么直接的聯系。在信息論中,熵可用作某事件不確定度的量度。信息量越大,體系結構越規則,功能越完善,熵就越小。利用熵的概念,可以從理論上研究信息的計量、傳遞、變換、存儲。
熵的定義:如果一個隨機變量x共有n種取值,概率分別為P0, P1, P2,.....,Pn,則其熵為H(x) =f(P0, P1, P2......,Pn) =-∑Pnlog2Pn
2.2 信息熵
信息熵也簡稱為熵(entropy),是信息論中用于度量信息量的一個概念。一個系統越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵就越高。所以,信息熵也可以說是系統有序化程度的一個度量。信息熵的基本作用就是消除人們對事物的不確定性,變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
根據人們的實踐經驗,一個事件給予人們的信息量多少,與這一事件發生的概率(可能性)大小有關。一個小概率事件的發生,給予人們的信息量就很多。相反,一個大概率事件的出現,給人們的信息量就很少。20世紀40年代末,香農(C.E.Shannon)在著作《通信的數學理論》中提出,信息論中的熵是信息不確定性的度量單位。他用公式(1)來表示不確定性程度:
H=Log2P (1)
不確定性的值與概率P的對數值有關,其單位則由對數的底決定,當以2為底時,單位為比特(bit),兩個等概率的事件實驗結果的不確定性就是1比特。將其推廣,就可以用信息熵來表示一個各事件出現概率已知系統的不確定性。
H=∑-PiLog2Pi(2)
H為信息熵,Pi表示系統中事件i出現的概率,因此有:Pi<1且∑Pi=1。
語言的熵是數學方法和語言文字學的結合,語言的熵反映語言中每個字符的平均信息量。同樣,用公式(2)可以計算某種語言符號系統的信息量。但是,我們在測定這個熵值的時候,只是把文本看作不等概率獨立鏈的熵,測定時只需要考慮語言符號出現概率的不同,不必考慮語言符號出現概率之間的相互影響。因此,用這個公式求到的數值是靜態平均信息熵。根據信息論的基本原理,這個熵也可以叫做“零階熵”。
2.3 多余度(redundancy)
由上可知,有n個符號的文字,每個字符最大的信息量(最大熵)Hmax=Log2(n)(即-Log2 (1/n)),而有不相等概率時,其平均信息量(平均熵)H=-∑Pnlog2Pn總小于最大信息量Hmax。例如英文的最大信息量等于4.7,就要用5個二進制數碼來編碼和傳輸。但它的平均信息量近于4.03,表示實際上可用比4個多一點點的二進制位就可以了。說明這一部分熵是多余的,被浪費了。信息論研究這樣的多余度,多余度的計算公式:
R=(1-H/Hmax)×100﹪=(Hmax-H)/ Hmax×100﹪ (3)
從多余度的計算公式可知,多余度隨最大熵Hmax的增大而減小。而從最大熵的計算公式Hmax=㏒(n)可知,最大熵則隨字符個數的增加而增大。
3 維吾爾文和語料介紹
3.1 維吾爾文
維吾爾語(簡稱維語)屬于阿爾泰語系突厥語族,是維吾爾族所說的語言。維吾爾族在歷史上使用過突厥文、回鶻文、察合臺文。現在中國維吾爾族使用的維吾爾文是在晚期察合臺文基礎上形成的以阿拉伯字母為基礎的拼音文字,是從右向左書寫的文字。
現行維吾爾文有32個字母,其中有8個元音字母和24個輔音字母,每個字母按照出現的位置而具有單獨、前、中、后等幾種不同的形式。詞與詞之間用空格來分開寫。
3.2 語料介紹
本文所使用的語料來源于新疆大學在2003-2006年期間建立的現代維吾爾語語料庫。為了保證語料的平衡和代表性,我們按照一定的比例從語料庫中抽取了不同領域的2558810詞次規模的語料。這樣規模的語料基本包含了各種語體和體裁的文本,其中,文學類30%,學術類27%,新聞公文等30%,綜合類23%。
4 維吾爾文信息熵和多余度的計算
語言通常都是由一組符號的集合構成的信息源,如漢語、英語、日語、維吾爾語等。在書面語中,漢語采用的符號是漢字;日語采用的符號是漢字和拼音文字;英語和維吾爾語等采用拼音文字的符號集,也就是它們的字母表(還可以加上標點符號和空格)。而且這些字母在各種文本中的出現也有一定的規律性。我們對各個維吾爾文字母在上述語料中出現的頻率作了統計工作,統計結果如表1所示。
如果我們假定這些字母是獨立出現的,就可以利用計算信息熵的公式(2)計算出維吾爾文33個符號(32個字母和1個空格)攜帶的平均信息量。
根據表1的概率,代入計算信息熵的公式:H=∑-PiLog2P ,其中 i=1~33
得到 H=∑-PiLog2Pi≈4.387 (平均信息熵)
已知Hmax= Log233≈5.044,根據多余度公式:
R=(1-H/ Hmax)×100﹪, 得到R≈0.13×100﹪≈13% (多余度)
各民族的語言都有“多余度”,我們并不能因此就認為“多余度”是多余的。恰恰相反這種“多余度”是用語言傳遞信息時必不可少的。沒有多余度的語言實際上是無法理解的。
應該注意的是,我們在計算這個熵值的時候,僅只考慮到了字符在文本中出現概率的差異,而完全沒有考慮文本中漢字出現概率之間的相互影響。所以我們計算得到的是維吾爾文字母的靜態平均信息熵。事實上,語言符號的出現概率是相關的,是彼此相互影響的。在充分考慮上下文關系的情況下,達到的最小條件信息量,稱為極限熵。根據極限熵,我們可以進一步研究使傳輸更快的編碼,即不是對單個文字符號,而是對文字進行編碼,就可使平均碼長減小,逼近極限熵。
5 結論
綜上所述,本文在大規模語料的基礎上,采用統計的方法對維吾爾文的信息熵和多余度進行估計和計算,在250多萬詞的語料規模下,所求得的零階熵約4.387比特,多余度為13%。得到的值已經是相當接近了其它拼音文字的信息熵。可以看出,維吾爾文字信息量小,今后在處理維吾爾文時完全可以使維吾爾文信息管理和傳遞成本降低和效率提高,進一步說明了維吾爾文同樣是個高效率的文字方式。
當然,這里所求得的熵仍然只是維吾爾文信息熵的一個靜態平均值,結果也不很精確。我們希望將來有更巧妙的方法,以便算出更加精確的維吾爾文字母的平均信息熵和極限熵的值。
參考文獻:
[1] 孫帆, 孫茂松, 等. 基于統計的漢字極限熵估測[A]. 中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C]. 2006. 542-551.
[2] 馮志偉. 關于漢字的熵和極限熵致編輯部的一封信[J].中文信息學報,1998,12(1):63-64.
[3] 馮志偉. 漢字的熵[J]. 語文建設; 1984(04): 40-42.
[4] 馮志偉. 漢字的極限熵[J]. 中文信息,1996(2):53-56.
[5] 黃萱菁, 吳立德, 郭以昆, 劉秉偉, 等. 現代漢語熵的計算及語言模型中稀疏事件的概率估計[J]. 電子學報, 2000,(08):110-112.
[6] 那日松,淑琴. 蒙古文信息熵和拉丁轉寫研究[A].中國計算技術與語言問題研究——第七屆中文信息處理國際會議論文集[C], 2007:782-785.
[7] D. A. Huffman. A Method for the Construction of Minimum Redundancy Codes [A].Proc.of IRE[C]. 1952, 40(10):1098-1101.
[8] C. E. Shannon. A mathematical theory of communication [J].ACM SIGMOBILE Mobile Computing and Communications Review[C].2001, 5(1).
塞麥提·麥麥提敏(1980-),男(維吾爾族),新疆和田人,中國傳媒大學博士生,新疆大學講師,主要研究方向:計算語言學。