李亞杰

[摘 要]圖表示法使資料的呈現方式更直觀、更形象,可以幫助研究者對資料進行探索性分析。對于學習統計學的大學生來說,從圖形來認識統計學,能極大增強學生的學習興趣。可以引導學生選擇現實數據進行探索性數據分析,通過統計圖形的直觀展示,進行案例教學。
[關鍵詞]統計圖形 探索性數據分析 教學
[中圖分類號] G642 [文獻標識碼] A [文章編號] 2095-3437(2015)03-0112-02
一、引言
1962年美國著名統計學家約翰·圖基提出探索性數據分析(Exploratory Data Analysis),是指對數據的認識可以通過作圖、制表等手段來探索結構和規律的方法,其研究成果被翻譯成中文版書籍《現代外國統計學優秀著作譯叢:探索性數據分析》。統計圖表示法使資料的呈現方式更直觀、更形象,借助這些工具可以使研究者對資料有較深的印象,同時利用這些作圖方法,可以幫助研究者對資料進行探索性分析,有助于進行更為專業的定量分析,形成合理結論。
統計圖形領域有大批卓有成就的研究者,他們為統計圖形的發展做出了很多貢獻。例如Edward Tufte (1992,2001),人稱“數據達芬奇”,是統計圖形和信息可視化領域的領軍人物,曾在耶魯大學里教授統計、信息設計、界面設計等課程。Chernoff(1973)提出著名的臉譜圖來表示多變量數據,Wainer and Thissen (1981)將其應用在公司財務分析方面。貝爾實驗室的Cleveland (1985,1993)等,以S語言為基礎,偏重于高維和動態的圖形展示,尤其是Cleveland在數據可視化和統計圖示方面提出了很多原創圖形。Friendly and Denis (2001)給出一份關于統計圖形的非常詳盡的歷史總結資料,其中整理、記載了自17世紀至今數百年歷史中較有影響力的統計圖形。
如今實際工作者已認識到統計圖形的直觀易懂優勢,餅圖、直方圖、折線圖、箱線圖等簡單的統計圖形使用比較普遍,但是由于實際問題的復雜性,在對統計圖形的使用上并不能隨心所欲,即使有創造新圖形的思路與想法,也受統計軟件所限。即使在學術界,統計圖形的價值也沒有被充分體現出來,例如我們來看這樣的事實,謝益輝曾在2008年做出統計圖形使用情況的調研,他以國內統計學方面的核心期刊《統計研究》在2006年12月至2007年11月期間(12個月)的所有論文作為調研對象,去除非學術研究論文后,挑選論文總數168篇,發現其中使用表格的為136篇論文(占比81.43%),使用統計圖形的論文63篇(占比37.72%),若將使用示意圖(非統計圖形)、條形圖和折線圖(簡單統計圖形)的論文除外,使用其他統計圖形的論文僅剩9篇。[1]這樣的情況讓我們深思,“圖形無用武之地”應該怎么辦?一方面要把現有的更多的有用的統計圖形介紹給不同層次的大眾,例如“從娃娃抓起”的統計學圖形教育,同時引導大眾集思廣益創造新圖形。另一方面在統計圖形的軟件實現上做簡單化推廣,例如充分發揚R軟件在制圖上的優勢,制作簡單易學的R軟件圖形使用手冊,推薦給大眾。
在中國統計教育學會的網址上列有“全國中小學生統計圖表設計邀請賽”的通知,“從娃娃抓起”的統計學圖形教育是比賽的初衷。該網站上面還列有“臺灣地區統計圖競賽情況介紹”等內容,根據臺灣輔仁大學謝邦昌教授提供的資訊,寶島臺灣組織統計圖表大賽跨越兩個世紀,早在1988年,臺灣地區統計學社負責人參訪日本的過程中,對日本組織統計圖表比賽情況進行了調研。返臺后,該社商有關行政部門同意并獲配合,從1989年起逐年組織此項賽事,到2009年共舉辦了20屆。
二、認識統計圖形
統計圖是結合統計指標與美術設計的創意表現,透過色彩分明的圖像及獨特的構思布局,令人第一眼就想要親近它,進而探尋它所傳達的訊息,因此毫無疑問地,統計圖是呈現統計結果最為通俗、易懂的方法。在實際應用中會接觸到大量的數據,若數據只以數字形式出現,會給人造成繁雜無序的印象,難以令人觀察到統計量間的關系和數據本身的統計性質。而圖示法恰恰具有形象具體、簡明生動、一目了然的特性,并可以表示多個現象間的對比關系及依存關系,可以揭露總體的性質,可以檢查計劃或進程的執行情況。
現有的統計圖形有餅圖、直方圖、條形圖、莖葉圖、箱線圖、散點圖、雷達圖、玫瑰圖、氣泡圖、QQ圖、臉譜圖、冰狀圖、譜系樹狀圖、矩陣圖、關聯圖、條件密度圖、等高圖、條件分割圖、一元函數曲線圖、Cleveland點圖、星狀圖、顏色等高圖、四瓣圖、顏色圖、馬賽克圖、散點圖矩陣、三維透視圖、因素效應圖、平滑散點圖、調和曲線圖、棘狀圖、帶狀圖、向日葵散點圖、符號圖、熱圖、交互效應圖、生存函數圖、分類與回歸樹圖、小提琴圖、地圖、平行坐標圖、二元箱線圖,等等。
例如下面的圖形就是根據某問題給出的臉譜圖,可從不同的臉形、微笑表情給出結論。臉譜圖被譽為“最浪漫的統計圖形”,該圖是1973年統計學家赫爾曼·切爾諾夫在美國統計協會雜志上發表的文章里給出,該文章的題目為《The Use of Faces to Repre-sent Points in k-Dimensional Space Graphically》,臉譜圖將多維數據附在臉部特征之上幫助研究者找出數據模型、類別和關系,這種方法現被稱為切爾諾夫臉譜圖(Chernoff Faces)。我們要認識到,現有的圖形也不是盡善盡美的,還需了解其適用性、優缺點,不斷改進。不同圖形的特點不一樣,例如散點圖繪制較為簡單,可以最直觀地讀取數據,但難以反映大于三個變量間的關系和數據本身的性質;輪廓圖部分克服了散點圖的缺點,但是數據龐大后會有些許混亂;雷達圖也是在少量數據參與分析時,結果顯示的才會比較清楚;臉譜圖作為較為新穎的統計圖,主要優點是將量化的數據形象人臉化,有一定的趣味性,但以喪失數字本體為代價,勢必難以反映統計細節。
在統計類課程、概率系列課程的教學中,可以引導學生從以下幾個方面進行統計圖形的研究。
(1)對現有的統計圖形做綜述,梳理出各種統計圖形的名稱、方法、優缺點等。為了把圖形提到“統計分析”“統計建模”的高度,就要“知其源”,即搞清楚現有統計圖形的來龍去脈,包括該圖形對數據的要求、相關統計量的計算、圖形的構造與組合機制、該圖形中的參數含義、不同圖形的類比和對比,掌握圖形基礎元素的軟件使用,即圖形中的點、線、邊、顏色、文本等的繪制,從而為“根據新問題創造新統計圖形”提供方便的解決方案。
(2)針對實際問題利用統計圖形做直觀解釋。或許有人會認為“圖形往往代表著簡單”,然而“直觀”與“簡單”是不同的概念,統計圖形的首要作用是直觀展示信息,列寧在《哲學筆記》中,把“直觀”作為人類認識活動的起點,一幅優秀的統計圖形背后也許隱藏著重要的信息和規律,這些信息和規律并不“簡單”。可以引導學生找出感興趣的社會熱點問題,用多個現有統計圖形展示問題;也可以讓學生自己自由發揮設計圖形,并對圖形反映的信息做出解釋,找到“看不見的手”——規律。
(3)培養學生進行探索性研究,引導學生給出一種新的統計圖形研究方法。如果對調研問題的情況幾乎一無所知,那么研究就要從探索性研究開始,可以充分發揮統計圖形的直觀展示作用。針對調研問題,在深入了解統計圖形的基礎元素、構造之后,可以尋找多種現有圖形的共性進行認識、提煉、抽象,從而給出更適合調研問題的新統計圖形,這樣反復認識和抽象的過程也是真正精通統計圖形的過程。
(4)選擇一種優秀的統計軟件為制圖工具(例如R、SPSS、SAS)是學習統計圖形的必經之路,選擇的主要準則:統計計算功能齊全,統計元素易于控制,圖形類型多種多樣。另外,可以進一步去了解繪制高質量圖形的圖形系統,例如base graphics(基礎圖形系統)、grid(網格圖形系統)、lattice(Deepayan Sarkar開發)、ggplot2(R中新穎的數據可視化包)等。
(5)對各種統計圖形從模型方法方面進行研究。在應用中要想合理使用模型,就要清楚模型的假設前提、計算原理、圖形展示、結果解釋等。常見的統計模型有線性回歸模型、方差分析模型、分類數據模型和列聯表、主成分分析和因子分析模型、聚類分析模型、判別分析模型、對應分析模型、多維標度分析模型、時間序列模型、混合效應模型、生存分析模型、非參數回歸模型、空間統計學模型、穩健回歸模型、廣義線性模型、數據挖掘和機器學習模型等[2],掌握適當的模型才能夠清楚區分統計圖形運用的條件和場合。
三、結束語
歷史上極富影響力的統計圖都融入了前人的智慧與藝術,最早的統計圖形是“地圖”,著名的南丁格爾“玫瑰圖”,Charles Joseph Minard的“拿破侖1812遠征圖”,這些圖形在當時具有重大社會價值。盡管不可能每幅統計圖形都能達到那樣的重大效果,但我們要認識到“統計圖形在揭示特殊現象或規律上的功能是數據本身不能替代的”。所以對現有統計圖形進行梳理,并開發出新的統計圖形處理龐雜的數據,從而獲得獨特而全面的信息與視角顯得意義重大。
統計圖形利用人的視覺系統,在傳遞信息上直觀、迅速、易懂,進行圖形分析需要具備一定的觀察力,可從觀察數據的分布狀況、異常點、線性或非線性關系等入手,“因地制宜”是處理數據的最佳方法,從而由圖形角度去洞察到數據反映的規律或揭示的異常現象。
[ 注 釋 ]
[1] 謝益輝.統計圖形和模擬視角下的模型理論解析[D].北京:中國人民大學統計學院,2010.
[2] 吳喜之.統計學:從數據到結論[M]北京:中國統計出版社,2004.
[責任編輯:覃侶冰]