馬淑蘭
(寧夏師范學院 數學與計算機科學學院,寧夏 固原 756000)
多元統計分析是統計學中內容十分豐富、應用性極強的一個重要分支,它在自然科學、社會科學和經濟學等各個領域中得到了越來越廣泛的應用,是一種非常重要和實用的多元數據處理方法.它的內容從一元統計推廣到多元統計,主要闡述了多元分布的基本概念及其統計推斷,也涉及了多元統計獨有的涉及降維方法包括:費希爾判別、主成分分析、因子分析、對應分析和典型分析[1-2].多元統計分析是指針對多元數據的統計分析方法,是同時考量多個變量,從多元數據集中獲取信息的統計方法.在當前大數據時代,信息技術推動了可視化教學發展,借助計算機軟件搜集可視化教學素材成為新的理工科教學理念的重要內容[3-4].R語言是新西蘭奧克蘭大學的Robert Gentleman 和Ross Ihaka及其他志愿者人員共同開發,主要用于統計分析、數據挖掘以及數據可視化,是一個用于統計計算和統計制圖的優秀工具[5].RStudio是一款R語言的綜合開發環境,使得R運行更加方便.本文以Fisher的鳶尾花數據集為研究對象[6],利用R語言對隨機向量數字特征相關內容進行數據可視化,幫助學習者理解和掌握數學期望、協方差矩陣、相關系數矩陣等概念及性質.
p×q隨機矩陣X=(xij)的數學期望定義為
特別地,當q=1時得隨機向量x=(x1,x2,…,xp)′的數學期望定義,即
E(x)=[E(x1),E(x2),…,E(xp)]′.
設x=(x1,x2,…,xp)′和y=(y1,y2,…,yq)′分別為p維和q維隨機向量,x和y的協方差矩陣定義為
可將其簡寫為
Cov(x,y)=E[x-E(x)][y-E(y)]′.
當x=y,Cov(x,x)稱為x的協方差矩陣,記作V(x).
設x=(x1,x2,…,xp)′和y=(y1,y2,…,yq)′分別為p維和q維隨機向量,x和y的相關矩陣定義為
當x=y,ρ(x,x)稱為x的相關矩陣,記作R=(ρij),其中ρij=ρ(xi,yj),ρii=1,即
鳶尾花數據集(Fisher′s iris flower data set)由英國統計學家Ronald Aylmer fisher(費希爾)于1936年整理得到的,為了量化不同種類的鳶尾花形態上的區別進行收集的,它包含了三類鳶尾花數據:山鳶尾(Setosa)、雜色鳶尾(Versicolour)、維吉尼亞鳶尾(Virginica)的花萼、花瓣的長度與寬度.這個數據集是一個非常典型的多元數據集,共有150個不同種類鳶尾花的觀測值,每一種鳶尾花的觀察數據均為50個.數據集中的行代表了很多朵鳶尾花的樣本,數據集中的每一列代表一個信息維度,共有五個信息維度即花萼的長(Sepal length),花萼的寬(Sepal width),花瓣的長(Petal length),花瓣的寬((Petal width ),鳶尾花的種類(Species).不同的鳶尾花在形態上有沒有什么不同呢?這個問題給了Fisher研究多元統計分析方法的動機,面對這樣一個數據集能做很多統計分析,比如變量之間的相關性分析,判別分析、回歸分析等.生活中這樣類似的數據集有很多,這也是利用該數據集做統計分析的原因.
在多元統計分析中,相比一元隨機變量數字特征的表達,多元數據的數字特征表達方式要復雜一些.在一元狀態下,數學期望、協方差、相關系數等都用一個數值可以表示,而多元情況則用隨機向量及矩陣表示.在R中調用colMeans函數對上述數據集中前四列變量求出數學期望,如表1所示

表1 三種鳶尾花前四個信息維度的數學期望
所求數學期望結果應記為(5.84,3.06,3.76,1.20).
在R中分別調用cov及cor函數即可得出前四列變量協方差矩陣及相關系數矩陣,如表2,表3所示.

表2 三種鳶尾花前四個信息維度的協方差陣
所求協方差矩陣結果應記為


表3 三種鳶尾花前四個信息維度的相關矩陣
以上是數字特征數值形式呈現,為了更好的解讀數字特征在數據分布及其數據間相互依存關系中所起的作用,仍然以鳶尾花數據集前四個信息維度為例,利用R繪圖功能以圖形方式展現數據分布如圖1所示,數據間兩兩相關程度如圖2所示.

圖1 三種鳶尾花前四個信息維度的分布直方圖與兩兩散點圖

圖2 包含相關系數的三種鳶尾花前四個信息的分布直方圖與兩兩散點圖
表1分別給出了鳶尾花數據集前四個變量數據的均值,即刻畫了前四個信息維度的中心位置為(5.84,3.06,3.76,1.20),結合圖1中的直方圖分布圖可以看出數據集里三種鳶尾花的花萼的長(Sepal length)、花萼的寬(Sepal width)、花瓣的長(Petal length)、花瓣的寬((Petal width )都分別向各自的中心位置集中.表2列出了鳶尾花數據集前四個變量數據的協方差矩陣數表,刻畫了前四個信息維度的兩兩線性關系,結合圖1中的二維散點圖可以了解到四個信息維度數據的分散程度,利用圖中的線性擬合曲線能看出花瓣的長(Petal length)、花瓣的寬((Petal width )線性關系最強.表3給出了鳶尾花數據集前四個變量數據的相關系數矩陣數表,這個數表理論上可以認為是協方差矩陣數表的標準化結果,將兩兩散點圖的信息用[-1,1]之間的數去刻畫,由于協方差矩陣的對稱性,圖2在圖1的基礎上把上三角的位置用相關系數填充,這樣增強了圖形的可視化效果,圖2中上三角位置中的數據越大意味著其對稱位置數據的線性相關性越強,譬如花瓣的長(Petal length)、花瓣的寬((Petal width )線性關系最強,相關系數為0.96.
本文以隨機向量數字特征理論為研究內容,以Fisher的鳶尾花數據集為研究對象,利用R語言強大的統計和繪圖功能,完成了相關數據的展示和可視化,整個分析結果一目了然.“數缺形時少直覺,形少數時難入微”,在互聯網和信息技術突飛猛進的背景下,數據的可視化充斥在生活的方方面面,利用理論知識和實用的計算機軟件,提煉數據隱含信息、挖掘其統計規律并對其發展規律進行預測分析將成為數據分析的關鍵內容.