
【摘要】數據的可視化作為一種最新的統(tǒng)計數據分析方法已經廣泛運用在各個領域中,大數據時代背景下作為非統(tǒng)計專業(yè)本科學生,掌握一門統(tǒng)計分析軟件是必要的。而利用統(tǒng)計軟件進行可視化分析又是一項極為重要的必備技能。文章以R語言為基礎,對近2020年國家政府工作報告進行可視化分析,以期激發(fā)學生對于統(tǒng)計數據分析的興趣。
【關鍵詞】R語言;可視化;政府工作報告;統(tǒng)計教學
1軟件介紹
R軟件本質上是一種語言,即R語言,它是在S語言的一個分支,早在上世紀80年代左右被人們所開發(fā)并使用,如今是統(tǒng)計領域使用極為廣泛的一種數據分析工具。它在數據探索、統(tǒng)計分析和統(tǒng)計作圖上面具有獨特的優(yōu)勢,屬于一種解釋型語言。R整體上是一套集數據處理、運算、制圖為一體的軟件系統(tǒng)。其對于數組的運算功能尤其強大,所以R又可以視為一種數學計算的環(huán)境。R不僅有完整連貫的分析工具包和豐富即時的制圖包,它的編程語言還十分簡便且強大,用戶可以對數據進行輸入輸出的雙向操縱、分支、循環(huán)以及自定義功能。R語言的主題思想就是給用戶提供集成化的統(tǒng)計工具,海量的數學計算、統(tǒng)計計算函數,用戶可以靈活機動進行數據分析,更甚者可以根據需求創(chuàng)造新的統(tǒng)計計算方法并與所有使用者共享。
R能夠被廣泛使用還得益于其使用上的免費和8個基礎模塊之外的CRAN板塊,CRAN已經收錄了超4000個各類包,可用于經濟計量、財經分析、人文科學研究以及人工智能等諸多領域。
2文本數據可視化分析工具——詞云
“詞云”這個概念由美國西北大學新聞學副教授、新媒體專業(yè)主任里奇·戈登(Rich Gordon)提出。“詞云”就是通過形成“關鍵詞云層”或“關鍵詞渲染”,對文本文件中出現(xiàn)頻率較高的“關鍵詞”的視覺上的突出。使用的R制作詞云主要包含:文本數據獲取、數據分詞處理、制圖三個部分。
3教學案例展示
第1步:文本數據獲取
將文本數據保存為txt格式存儲,采用scan( )函數進行文本數據的獲取,代碼如下:
f<-scan(‘C:\\\\Users\\\\Administrator.PC-20190315DIEF\\\\Desktop\\\\2020政府工作報告全文.txt,sep=‘\\n,what=‘,encoding=“GBK”)#讀取存儲于桌面的文件
第2步:數據分詞與統(tǒng)計詞頻
seg <- qseg[f] #使用qseg類型分詞,并把結果保存到對象seg中
seg <- seg[nchar(seg)>1]#去除字符長度小于2的詞語
seg <- table(seg)#統(tǒng)計詞頻
seg <- seg[!grepl(‘[0-9]+,names(seg))]#去除數字
seg <- seg[!grepl(‘a-zA-Z,names(seg))]#去除字母
length(seg)#查看處理完后剩余的詞數
seg <- sort(seg,decreasing=TRUE)[1∶200]#降序排序,并提取出現(xiàn)次數最多的前200個詞語
seg #查看200個詞頻最高的
第3步:制圖
通過data.frame( )函數將進行分詞和統(tǒng)計詞頻后的文本數據保存為新的系統(tǒng)文件,然后利用wordcloud2函數進行詞云制作,代碼如下:
data=data.frame(seg)
library(wordcloud2)
wordcloud2(data,size=1,minSize=0,gridSize=0,fontFamily=‘Segoe UI,fontWeight=‘bold,color=‘random-dark,backgroundColor=“white”,minRotation=-pi/4,maxRotation=pi/4,shuffle=TRUE,rotateRatio=0.4,shape=‘circle,ellipticity=0.65,widgetsize=NULL,figPath=NULL,hoverFunction=NULL)
主要參數講解:
data:需要繪制的文本數據;size:字體大小,默認為1;fontFamily:字體;color:字體顏色;backgroundColor:背景的顏色;;shape:繪制“云”的形狀。最終得到“詞云”如圖1。
4總結
統(tǒng)計學的理論基礎是數學,分析基礎是“數據”。如今“大數據”時代飛速發(fā)展,每秒鐘都在產生海量的數據,利用好這些數據是尤為重要的,通過一個簡單的文本數據可視化例子帶領學生脫離“死記硬背”統(tǒng)計學中的概念、公式的漩渦,提高學生的動手欲望,養(yǎng)成大膽嘗試,用于探索數據,讓數據“說話”的統(tǒng)計學學習理念。與此同時,熟練掌握一門統(tǒng)計分析軟件尤為重要。作為一名非統(tǒng)計專業(yè)的學生學習統(tǒng)計學最重要的一個目標就是:能夠將數據分析結果呈現(xiàn)出來,并且結合相關專業(yè)領域進行結果的解釋。
參考文獻:
[1]中國政府網.2020年政府工作報告全文[A/OL].http://china.findlaw.cn/fagui/p-1/39934.html.
[2]張杰.R語言數據可視化之美[M].北京:電子工業(yè)出版社,2019.
作者簡介:
楊杰(1991-),男,四川眉山人,碩士研究生,初級統(tǒng)計師,研究方向:應用統(tǒng)計分析。