葉瑞松,李 泓,陳月明
(汕頭大學數學系,汕頭 廣東 515063)
在隨機數學的教學和研究中,隨機變量的函數的分布以及概率的計算是比較復雜的問題.大多數學生對這部分內容的學習常常費力而且學習效果不佳,這其中的客觀原因主要有兩個因素.一方面,兩個一維連續型隨機變量的函數的分布及其概率的計算過程常常涉及復雜的二重積分計算;另一方面,傳統教材上的演示例子大都脫離實際,與實際的工程問題相離甚遠,學生在學習過程未能感受其實在的應用背景和應用價值,學習上提不起興趣和動力.作者多年從事圖像信息安全領域的研究,常常碰到一些涉及隨機變量的函數問題,而文獻上對這些函數的理論研究欠缺,特別對連續型的數學問題沒有系統的理論指導.針對上述的研究和教學中碰到的問題,本文將對兩個一維隨機變量差的模函數作系統的探討,分別計算了連續型的概率密度函數和離散型的分布律.
雖然很多大學概率統計的教材上介紹了兩個隨機變量的和,積,商以及最大值、最小值這些函數的分布和概率計算,但是很多教材并未介紹兩個隨機變量的差這個函數,更未涉及到兩個隨機變量差的模函數.兩個隨機變量的差函數可以變成兩個隨機變量的和函數來處理,轉了個彎,最終還是可以得到相應的分布及概率[1-6].兩個隨機變量的差函數不是本文所要討論的函數,我們這里要研究兩個隨機變量差的模函數的分布和概率計算問題.這個模函數來源于信息科學中圖像信息安全研究中的加密算法的設計,有深刻的應用背景[7-9].本文對其做比較系統的研究,有助于對加密算法設計中加密系統的兩個隨機變量差的模函數運算的數學原理的理解和掌握.實際上,在工程應用中碰到的隨機變量問題均是離散型的,但是也有必要對其連續型的情況做理論上的探討,進一步提升學生的理論素養.論文從理論上得到了離散型和連續型兩種情況下的分布函數相關結果,介紹了這個函數在圖像處理領域的一個具體應用,并用實例驗證了相關的理論結果.
我們將對隨機變量X,Y的類型做些限制后,分別得到在不同場合的兩個隨機變量之差的模函數的分布.模函數mod(s,t)是一個二元函數,當兩個自變量均是整數時,模函數就是求余數.當兩個變量是一般的實數時,表示取模,返回余數,具體地講,就是將s寫成t與一個整數k的乘積和一個落在[0,t)之間的余數之和的形式s=kt+r,那么mod(s,t)的函數值就是 r.
我們先假設連續型隨機變量X,Y相互獨立,服從相同的均勻分布,X,Y~U(0,1).求Z=mod(X-Y,1)的概率密度函數.下面給出兩種證明方法.一種是直接從概率的概念出發來證明,這對理解概率的基本概念是很有好處的,特別適合教學.另一種是將隨機變量差看成隨機變量和來處理,再應用隨機變量和函數的有關結論,進行證明.后一種方法更具有數學理論的傳承和系統性意義.
定理1假設連續型隨機變量X,Y相互獨立,服從相同的均勻分布,X,Y~U(0,1).則 Z=mod(X-Y,1)服從均勻分布,即 Z~U[0,1).
證明1由于X,Y相互獨立,且服從相同的均勻分布U(0,1),其概率密度函數為

所以二維隨機變量(X,Y)的聯合概率密度函數為

而 Z=mod(X-Y,1)的取值在[0,1),假設 Z 的分布函數為 F(z),則
1)對任意的z≥1,F(z)=P(Z≤z}=1.
2)對任意的z≤0,F(z)=P(Z≤z}=0.
3)對任意的0≤z<1,由圖1知道

圖1 兩個連續型隨機變量差的模函數分布的計算示意圖

其中當0≤z<1時,分布函數的計算中涉及的區域Ω1,Ω2可以參看圖1.從計算所得知道 Z~U[0,1).
證明2 X,Y相互獨立,從而X,W=-Y也相互獨立,從而Z=mod(X-Y,1)可以看成Z=mod(X+W,1),此時W=-Y~U(-1,0),因此問題變成證明兩個相互獨立的隨機變量之和的模函數分布問題,這問題在文獻[9]的定理5已經解決,所以轉了個彎,也獲得了證明.
將隨機變量離散化,得到兩個隨機變量差的模函數的離散型問題,其結果可以用到數字圖像的加密領域中涉及兩幅圖像差的模函數.一般來講,加密過程設計兩個隨機變量和的模函數,可以得到很好的加密性能.應用服從均勻分布的密鑰流和服從一般分布的明文圖像作加法模運算操作,可以實現密文圖像具有均勻分布的分布性能[7,9].那么解密過程將涉及兩個隨機變量差的模函數.由于圖像數據可以看作隨機變量,其取值為m比特的整數數據,所以在應用中,選取模為2的冪次數2m,其中m為某一個正整數.一幅灰度數字圖像的亮度值可以用m比特的整數來表示,m比特的整數隨機變量總共可表示2m個不同的值{0,1,2,…,2m-1},也就是說,如果隨機變量X,Y表示m比特的圖像的亮度,其取值范圍就是{0,1,2,…,2m-1}.比如m=8比特的數字圖像,有28=256個不同灰度層次.
為了使得結論更具有一般性,我們可以假設灰度圖像具有L個灰度級,其灰度值取值為{0,1,2,…,L-1},則可以得到關于離散隨機變量的定理2,這是定理1的離散型版本.
定理2假設離散型隨機變量X,Y相互獨立,服從相同的均勻分布:

則 Z=mod(X-Y,L)的分布和 X,Y 的分布相同.
證 Z=mod(X-Y,L)的取值范圍為{0,1,2,…,L-1},所以要得到其分布律,只要計算0≤k≤L-1時,對應的概率P(Z=k}:

所以Z=mod(X-Y,L)服從和X相同的分布.
定理2得到兩個一維相互獨立的均勻分布隨機變量差的模函數的相關結論.在實際應用場合,均勻分布一般對應類似噪聲的信號、圖像信息.服從均勻分布的隨機變量所表示的圖像一般是一幅具有明確內容的明文圖像經過加密而得到的密文圖像.在應用中,很自然會碰到一個問題,就是一幅具有自然內容的明文圖像的加密問題,其中一種辦法就是改變圖像每個像素的亮度值,從而遮掩了自然圖像的內容.密碼學要求密文圖像要接近均勻分布,越逼近均勻分布,加密性能越好.在這種應用背景中,顯然明文圖像所對應的隨機變量不一定是均勻分布,所以有必要對兩個隨機變量之一不是均勻分布的差的模函數作理論上的探討.定理3中隨機變量X表示某一幅模擬圖像的連續型隨機變量,其灰度值的范圍已經歸一化到單位區間[0,1),所以其概率密度函數只是在[0,1)取值,而在[0,1)外的概率密度均為0.定理3同樣可以利用文獻[9]的定理5加以證明,但是為了有助于教學的深入淺出的目的,本文也列出定理3的證明,供參考.
定理3假設連續型隨機變量X,Y相互獨立,Y~U[0,1),X的概率密度函數為

則 Z=mod(X-Y,1)的分布也是 U[0,1).
證 Z的取值范圍為[0,1),設Z的分布函數為F(z),則
(i)對任意的z≥1,F(z)=P(Z≤z}=1.
(ii)對任意的z<0,F(z)=P(Z≤z}=0.
(iii)對任意的 0≤z<1,
F(z)=P(Z≤z}=P{mod(X-Y,1)≤z}=P{0≤X-Y≤z}+P{X-Y+1≤z,X≤Y}.由于(X,Y)的聯合概率密度函數為

和定理1一樣,計算當0≤z<1時的分布函數,可以參看圖1,但是這里的計算不能使用Ω1,Ω2的面積作為概率值,需要計算其累次積分.

所以和定理1結論一樣,Z~U[0,1).
同樣將定理3中的隨機變量離散化,應用到數字圖像處理的領域中,也有相應的離散型的定理4.
定理4假設離散型隨機變量X,Y相互獨立,Y服從離散均勻分布:

X的分布律為

則Z=mod(X-Y,L)的分布和Y的分布相同,也是離散均勻分布.
證 Z=mod(X-Y,L)的取值范圍為{0,1,2,…,L-1},當 0≤k≤L-1 時,

證明完畢.
本文作者在文獻[9]討論了一幅具有某種分布特性的明文圖像X和一幅服從均勻分布的密鑰流圖像Y進行加法模運算Z=mod(X+Y,L)后,將得到服從均勻分布的密文圖像Z.如果知道密文圖像Z和密鑰流圖像Y,如何唯一解密獲得明文圖像X?這就是解密過程,容易驗證,在模L意義下,其對應的減法模運算X=mod(Z-Y,L)可以實現可逆的解密.為什么兩個服從均勻分布的隨機變量Z,Y在做差后的模函數可以得到一個服從一般分布的隨機變量X?這個問題好像和定理2的結論有矛盾之處.原因在哪里?我們有必要對這個問題進行更深入的研究.出現矛盾的根源在于加密算法的密文圖像Z實際上已經和Y有關系了,Z,Y不再是相互獨立的均勻分布的隨機變量.所以解密中所用的逆運算,即差的模函數mod(Z-Y,L)已經不能滿足定理2的條件了,所以定理2的結論在解密中是不適用的.為了進一步探討這個問題,我們將不要求相互獨立這個條件,并得到下面的定理5.定理5回答了利用隨機變量和的模函數的加密運算和解密運算的可逆性問題.
定理5假設離散型隨機變量X,Y相互獨立,X,Y服從分布如定理4所述,隨機變量 Z=mod(X+Y,L),則通過減法模運算 X′=mod(Z-Y,L)得到隨機變量 X′具有與 X相同的分布.
證明 顯然,現在Z,Y不再是相互獨立的均勻分布,所以定理2的結論不適用.我們采用條件分布來證明結果.X′=mod(Z-Y,L)的取值范圍仍為{0,1,2,…,L-1},則



所以定理結論成立.
數學上,灰度數字圖像可以用一個整數值二維矩陣A來表示.如果灰度圖像是L=256個灰度級(即8比特)的灰度圖像,則A的元素的值屬于集合{0,1,…,255}.某個灰度圖像可以表達為一個隨機變量X生成的樣本,圖2(a)Lena圖像可以看成某個隨機變量的一個實現樣本,圖2(b)為其直方圖概率分布.如果Y是取值于{0,1,…,255}的離散均勻分布的隨機變量,則Y生成的一個二維矩陣樣本B將類似于一幅噪聲圖像,圖3(a)為一幅均勻分布的隨機變量生成的噪聲圖像,圖3(b)為其直方圖概率分布.兩幅圖像A,B之和的模函數C=mod(A+B,256),得到圖像矩陣C,如圖4(a)所示,圖4(b)為其對應的直方圖概率分布.這個結果的圖像實際上可以看成隱藏著明文圖像Lena的信息的密文圖像,其分布也是離散均勻分布[9].我們用圖4(a)的密文圖像矩陣和圖3(a)的密鑰圖像矩陣之差的模函數來實現解密,可以無失真地還原原始的明文圖像圖2(a):A0=mod(C-B,256).解密圖像及其直方圖概率分布如圖5所示.圖5(a)-(b)分別和圖2(a)-(b)對應,是完全一樣的,這從數值實驗上進一步驗證了定理5的理論結果.這個簡單的加密算法和解密算法很容易用matlab實現,代碼如下,供參考.



圖2 明文圖像Lena及其直方圖

圖3 密鑰圖像及其直方圖

圖4 密文圖像及其直方圖

圖5 解密得到的明文圖像及其直方圖
本文根據圖像信息安全領域中經常碰到的兩幅圖像信息之差的模運算的實際問題,探討了兩個一維的相互獨立的隨機變量X,Y之差的模函數Z=mod(X-Y,L)的分布及其概率計算,證明了相關的理論結果,并提供一個具體的應用例子.該函數的離散型情況具有很強的應用背景,對該函數的介紹以及相關理論的證明可以促進大學生進一步理解和掌握隨機變量的模函數的相關知識,也為工程研究人員提供理論指導.具體的信息安全的應用例子必將進一步提高理工科大學生學習概率統計的興趣和動力.本文結果可以說是體現數學與信息學交叉融合的一個很好的例子,體現了數學的應用價值.這也是一個概率統計的教學和研究相互結合的典型例子,其中的理論部分體現了數學的概率理論之美,數值實驗部分則體現了統計計算的實用典范.