【摘 要】多元數(shù)據(jù)可視化越來越受到應(yīng)用研究的重視,特別是多元數(shù)據(jù)的統(tǒng)計(jì)圖形的實(shí)現(xiàn)得到了很多人的研究,本文綜合介紹了常見的多元數(shù)據(jù)統(tǒng)計(jì)圖形(箱須圖、星相圖、臉譜圖、氣泡圖),并在R語言的環(huán)境下,給出了相應(yīng)的程序函數(shù)語言。
【關(guān)鍵詞】R語言;箱須圖;星相圖;臉譜圖;氣泡圖
數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。數(shù)據(jù)可視化與信息圖形、信息可視化、科學(xué)可視化以及統(tǒng)計(jì)圖形密切相關(guān),尤其統(tǒng)計(jì)圖形更為重要,統(tǒng)計(jì)圖形是對資料進(jìn)行探索性研究的重要工具,當(dāng)人們在運(yùn)用其他統(tǒng)計(jì)方法對所得資料進(jìn)行分析之前,往往習(xí)慣于把各資料在一張圖上畫出來,以直觀地反映資料的分布情況及各變量之間的相關(guān)關(guān)系。當(dāng)只有一個(gè)或兩個(gè)變量時(shí),可以使用通常的直角坐標(biāo)系在平面上作圖。當(dāng)有三維數(shù)據(jù)時(shí),雖然可以在三維坐標(biāo)系里作圖,但已很不方便。而當(dāng)數(shù)據(jù)大于三時(shí),用通常的方法已不能制圖。許多多元統(tǒng)計(jì)分析問題,數(shù)據(jù)的維度都大于三,所以自20世紀(jì)70年代以來,多元數(shù)據(jù)的圖示法一直是人們所關(guān)注的問題。
一、基于R語言的箱須圖
箱須圖(Box-whisker Plot)也稱箱線圖(Boxplot),于1977年由美國著名統(tǒng)計(jì)學(xué)家約翰·圖基(John Tukey)發(fā)明。它能顯示出一組數(shù)據(jù)的最大值、最小值、中位數(shù)、下四分位數(shù)及上四分位數(shù)。是一種用作顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖。因型狀如箱子而得名。在R軟件中,用boxplot()函數(shù)作箱線圖,具體函數(shù)參數(shù)如下:
Boxplot(x, ,range=1.5,width=NULL,varwidth=FALSE,notch= FALSE,outline=TRUE,Names,plot=TRUE,col=NULL,log=””,horizontal=FALSE,add=FALSE,at=NULL)
二、基于R語言的星相圖
星相圖是雷達(dá)圖的多元表示形式,它將每個(gè)變量的各個(gè)觀察單位的數(shù)值表示為一個(gè)圖形,n個(gè)觀察單位就有n個(gè)圖,每個(gè)圖的每個(gè)角表示每個(gè)變量,雷達(dá)圖用于同時(shí)對多個(gè)指標(biāo)的對比分析和對同一個(gè)指標(biāo)在不同時(shí)期的變化進(jìn)行分析。在R軟件中,用Stars()函數(shù)作星相圖,具體函數(shù)參數(shù)如下:
Stars(x,full=TRUE,draw.segments=FALSE,…),x為數(shù)值矩陣或數(shù)據(jù)框;full為圖形形狀:full=TRUE為圓形,full=FALSE為半圓;draw.segments為分支形狀:draw.segments=T為圓形,draw.segments=F為半圓。
三、基于R語言的臉譜圖
臉譜圖是用臉譜來表達(dá)多變量的樣品,由美國統(tǒng)計(jì)學(xué)家H.Chernoff于1970年首先提出,該方法是將觀測的個(gè)變量(指針)分別用臉的某一部位的形狀或大小來表示,一個(gè)樣品(觀測)可以畫成一張臉譜。他首先將該方法用于聚類分析,引起了各國統(tǒng)計(jì)學(xué)家的極大興趣,并對他的畫法作出了改進(jìn),一些統(tǒng)計(jì)軟件也收入了臉譜圖分析法,國內(nèi)也有很多研究工作者將該方法應(yīng)用于多元統(tǒng)計(jì)分析中。臉譜圖分析法的基本思想是由15—18個(gè)指針決定臉部特征,若實(shí)際資料變量更多將被忽略 ,若實(shí)際資料變量較少則臉部有些特征將被自動(dòng)固定。統(tǒng)計(jì)學(xué)曾給出了幾種不同的臉譜圖的畫法,而對于同一種臉譜圖的畫法,將變量次序重新排列,得到的臉譜的形狀也會(huì)有很大不同。按照切爾諾夫于1973年提出的畫法,采用15個(gè)指標(biāo),各指標(biāo)代表的面部特征為:1表示臉的范圍,2表示臉的形狀,3表示鼻子的長度,4表示嘴的位置,5表示笑容曲線,6表示嘴的寬度,7—11分別表示眼睛的位置,分開程度,角度,形狀和寬度,12表示瞳孔的位置,13—15分別表示眼眉的位置,角度及寬度。這樣,按照各變量的取值,根據(jù)一定的數(shù)學(xué)函數(shù)關(guān)系,就可以確定臉的輪廓、形狀及五官的部位、形狀,每一個(gè)樣本點(diǎn)都用一張臉譜來表示。而臉譜容易給人們留下較為深刻的印象,通過對臉譜的分析,就可以直觀地對原始資料進(jìn)行歸類或比較研究。在R軟件中,用aplpack包中的faces()函數(shù)作臉譜圖,具體函數(shù)參數(shù)如下:
faces(xy,which.row,fill=FALSE,nrow,ncol,scale = TRUE,byrow =FALSE,main,labels)
四、基于R語言的氣泡圖
氣泡圖是一個(gè)將點(diǎn)表示為氣泡(或圓圈)的散點(diǎn)圖,與XY散點(diǎn)圖類似,但可表現(xiàn)的數(shù)據(jù)信息量更多,最多可以表示五維(x位置、y位置、大小、顏色和時(shí)間),通過更改氣泡的大小和顏色,按時(shí)間變化將氣泡制成動(dòng)畫視覺效果,能使數(shù)據(jù)探索更加方便。在R軟件中,用symbols()函數(shù)作氣泡圖,具體函數(shù)參數(shù)如下:
Symbols(x,y=NULL,circles,squares,rectangles,stars,thermometers,boxplots,inches=TRUE,add=FALSE,fg=par(“col”),bg=NA,xlab=NULL,ylab=NULL,main=NULL,
xlim=NULL,ylim=NULL,...)
參 考 文 獻(xiàn)
[1]莊作欽.Boxplot——描述統(tǒng)計(jì)的一個(gè)簡便工具[J].統(tǒng)計(jì)教育.
2003(1)
[2]王斌會(huì).多元統(tǒng)計(jì)分析及R語言建模[M].廣州:暨南大學(xué)出版社,2010
基金項(xiàng)目:本文系2012年山東省統(tǒng)計(jì)科研重點(diǎn)研究課題(KT12117)。