廣西民族師范學(xué)院化學(xué)與生物工程學(xué)院 汪國(guó)海
隨著經(jīng)濟(jì)社會(huì)的快速發(fā)展,生物學(xué)實(shí)驗(yàn)數(shù)據(jù)的收集方法更趨向于綜合化和復(fù)雜化,致使獲得的實(shí)驗(yàn)數(shù)據(jù)信息呈現(xiàn)爆發(fā)式增長(zhǎng)并不斷積累,對(duì)深度挖掘?qū)嶒?yàn)數(shù)據(jù)的軟件和數(shù)據(jù)可視化的需求越來(lái)越高。將R 語(yǔ)言應(yīng)用于生物統(tǒng)計(jì)圖形的可視化中,既能滿(mǎn)足學(xué)生對(duì)數(shù)據(jù)可視化分析的需求,又能提高學(xué)生對(duì)實(shí)驗(yàn)數(shù)據(jù)動(dòng)態(tài)變化的理解和課程興趣。
生物統(tǒng)計(jì)學(xué)是一門(mén)理論知識(shí)豐富且實(shí)踐性很強(qiáng)的課程,其主要以概率論、線性代數(shù)為基礎(chǔ)推斷并解釋生物學(xué)現(xiàn)象,該課程的開(kāi)設(shè)有利于培養(yǎng)學(xué)生分析和解決實(shí)際生物學(xué)問(wèn)題的能力,為后期數(shù)據(jù)分析和科研能力的提升打下堅(jiān)實(shí)的基礎(chǔ)[1]。但由于生物統(tǒng)計(jì)學(xué)課程公式推導(dǎo)復(fù)雜,對(duì)學(xué)生的數(shù)學(xué)基礎(chǔ)要求高,易使學(xué)生缺少興趣[2];同時(shí)隨著大數(shù)據(jù)技術(shù)的快速發(fā)展,實(shí)驗(yàn)數(shù)據(jù)的類(lèi)型和收集方法更傾向于綜合化和復(fù)雜化,對(duì)數(shù)據(jù)挖掘的深度和圖形可視化的要求越來(lái)越高,需要不斷的引入新的數(shù)據(jù)分析軟件才能全面綜合的反映出實(shí)驗(yàn)數(shù)據(jù)的動(dòng)態(tài)變化。
R 語(yǔ)言是一個(gè)能兼容多種類(lèi)型的數(shù)據(jù)格式并具備交互式的數(shù)據(jù)分析能力的開(kāi)源軟件[3],尤其是強(qiáng)大的擴(kuò)展能力和豐富的功能選項(xiàng),使其能獨(dú)立完成不同類(lèi)型的生物統(tǒng)計(jì)數(shù)據(jù)分析和可視化過(guò)程,降低了不同軟件間的頻繁切換程度[4]。ggplot2 是R 語(yǔ)言中最為強(qiáng)大的作圖程序包,其核心理念是將繪圖與數(shù)據(jù)分離,數(shù)據(jù)相關(guān)的繪圖與數(shù)據(jù)無(wú)關(guān)的繪圖分離,是按圖層作圖,同時(shí)它保有命令式作圖的調(diào)整函數(shù),使其更具靈活性,繪制出來(lái)的圖形美觀,同時(shí)避免繁瑣細(xì)節(jié),從而使數(shù)據(jù)分析者更能將注意力集中于數(shù)據(jù)分析本身[5]。本文通過(guò)使用R 語(yǔ)言中的ggplot2 程序包實(shí)現(xiàn)生物統(tǒng)計(jì)學(xué)常見(jiàn)圖形的可視化過(guò)程,并附上相關(guān)的代碼以便為生物統(tǒng)計(jì)學(xué)的課程發(fā)展與改革提供參考。
條形圖由一組寬度相同,高度與頻數(shù)成比例的長(zhǎng)方形組成,表示研究對(duì)象數(shù)據(jù)的大小,如圖1 所示。

圖1 嚙齒動(dòng)物對(duì)不同微生境中種子的搬運(yùn)率Fig.1 .Seed transport rates of rodents in different microhabitats
代碼如下:

散點(diǎn)圖是指在回歸分析中將兩組數(shù)據(jù)構(gòu)成的多個(gè)坐標(biāo)點(diǎn)標(biāo)記在直角坐標(biāo)系中,可以用來(lái)描述2 個(gè)連續(xù)型變量間的關(guān)系即因變量與自變量的變化關(guān)系,并對(duì)數(shù)據(jù)點(diǎn)進(jìn)行擬合,如圖2 所示。

圖2 單性木蘭幼苗密度與巖石裸露率間的關(guān)系Fig.2 Relationship between seedling density and rock exposure
代碼如下:

小提琴圖用于展示多組數(shù)據(jù)的分布狀態(tài)及概率密度,因其形狀酷似小提琴而得名,是優(yōu)于箱線圖的一種統(tǒng)計(jì)圖形。它結(jié)合了箱線圖與密度圖的特征,是核密度圖以鏡像的方式在箱線圖上的疊加,圖中的白點(diǎn)代表中位數(shù),黑色的豎條狀為數(shù)據(jù)的下四分位點(diǎn)到上四分位點(diǎn),兩側(cè)的細(xì)黑線代表95%置信區(qū)間,外部曲線形狀為核密度估計(jì),如圖3 所示。

圖3 不同處理下種子續(xù)存變化Fig.3 Changes of seed survival under different treatments
代碼如下:


面積圖顯示每個(gè)數(shù)值所占大小隨類(lèi)別變化的趨勢(shì),可顯示部分與整體的關(guān)系。使用面積圖可以分析不同年份間果實(shí)數(shù)量的分布情況進(jìn)而了解植物的物候變化及其種群發(fā)展?jié)撃埽鐖D4 所示。

圖4 不同年份間植物果實(shí)數(shù)量變化Fig.4 Changes of fruit quantity in different years
代碼如下:

4.ggplot(cd,aes(x=Year,y=Sea))+geom_area(colou r="black",fill="blue",alpha=0.2)#繪制基礎(chǔ)圖形并設(shè)置相應(yīng)的參數(shù)
二維密度圖顯示了兩個(gè)數(shù)值變量之間的關(guān)系,一個(gè)在x 軸上表示,另一個(gè)在Y 軸上表示,與散點(diǎn)圖類(lèi)似,然后計(jì)算二維空間中特定區(qū)域內(nèi)的觀測(cè)數(shù),并用顏色梯度表示,如圖5 所示。

圖5 單性木蘭空間分布圖Fig.5 Spatial distribution of monosexual magnolias
代碼如下:


使用R 語(yǔ)言可對(duì)類(lèi)別型變量和連續(xù)型變量進(jìn)行深度分析的同時(shí)繪制出精美的圖形,一直是科研工作者追求的目標(biāo)。美觀且實(shí)用的可視化圖形含有大量的信息,在提高科研工作效率的同時(shí)還能不斷豐富作圖代碼。但在生物統(tǒng)計(jì)學(xué)課程中使用R 語(yǔ)言進(jìn)行教學(xué)時(shí),還需要考慮學(xué)生的前期基礎(chǔ)和個(gè)人的思維習(xí)慣,不斷因材施教提高學(xué)生對(duì)R 語(yǔ)言可視化圖形代碼的理解和實(shí)際應(yīng)用能力。
引用
[1] 童婷,劉春燕,謝文華,等.生物統(tǒng)計(jì)學(xué)混合教學(xué)模式的探索與實(shí)踐[J].科技文匯,2021,29:62-64.
[2] 關(guān)天霞,張有富,張芬琴.“生物統(tǒng)計(jì)學(xué)”課堂教學(xué)和考核體系改革的探索[J].教育教學(xué)論壇,2021(19):89-92.
[3] 張哲,張豪.淺談R語(yǔ)言在生物統(tǒng)計(jì)學(xué)教學(xué)中的應(yīng)用[J].教育教學(xué)論壇,2013(27): 54-55.
[4] 張智杰,牛青山.R語(yǔ)言在法庭科學(xué)DNA檢驗(yàn)中的應(yīng)用現(xiàn)狀[J].中國(guó)法醫(yī)學(xué)雜志,2021,36(6):637-637+645.
[5] 袁佳.R語(yǔ)言及ggplot2在環(huán)境空氣監(jiān)測(cè)數(shù)據(jù)可視化中的應(yīng)用[J].中國(guó)高新技術(shù)企業(yè),2015(16):88-91.
數(shù)字技術(shù)與應(yīng)用2023年1期