藍洋 何秀 朱誠勖 張玉娟
摘要:R語言具有強大的數據分析處理和可視化繪圖功能,可以在Window、Linux以及Mac系統上使用,并且根據其編寫新代碼或調整已有代碼可輕松實現科研中數據呈現與圖形繪制的要求.然而其代碼學習較為艱難、R-package使用復雜,所以未受到科研新手的青睞.基于生物科學相關領域的背景,整理匯集已出版的文獻、公共數據庫以及國家統計局中提供的數據,使用R語言、R編輯器RStudio并載入相關的R-package繪制出地圖、熱圖、關聯網絡圖、韋恩圖和柱形圖等高質量的圖片,并提供相應的腳本與說明,以方便生物科研人員直接更改使用.本研究對生物科研中合理、直觀地表述研究結果提供了良好的范例,并進行了詳細討論,且與其他繪圖軟件作了比較,以期R語言能夠成為生物科學領域科研工作者入門學習、研究應用中繪制圖片的首選工具.
關鍵詞:地圖;熱圖;關聯網絡圖;韋恩圖;柱形圖;R語言
中圖分類號:Q811.4 文獻標志碼:A DOI:10.3969/j.issn.1000-5641.2019.01.014
0引言
為了更加清晰且直觀地反映生物科學研究中的結果,論文中通常會將數據合理量化處理后繪制成圖像.R語言作為一種功能性編程語言兼具統計分析、數據處理和可視化繪圖三大功能.R語言與其他數據處理、分析與繪圖工具不同,其在具體操作時可以輕松地編寫新代碼或調整其他用戶的代碼,適應特定的科研問題以實現用戶的繪制要求,凸顯圖像繪制的科學性與新穎性.因此合理掌握并使用R語言在生物科學研究中進行繪圖,不僅是論文中科學規律揭示的可視化保證,更可以促進生物科學研究中的學術交流.圖形繪制一直是人類展示數據、解釋規律的重要手段.隨著近年來科學技術的迅猛發展,圖形繪制軟件被不斷開發出來,例如軟件OriginPro、SigmaPlot、Microsoft Excel和SPSS等均可繪制較為直觀的矢量圖.然而這些繪圖軟件大多被應用于柱形圖、折線圖和散點圖等簡單圖像的繪制,在熱圖、地圖等特異性、復雜性較高的圖像繪制上顯得捉襟見肘.自1992年Ross Ihaka和Robert Gentleman開發R語言以來.應用R語言繪圖已經出現在農業、生態學、植物學、癌癥研究、醫療、生理學和種群遺傳等眾多領域.在實際的R語言學習應用時,雖然已有部分系統介紹R語言繪圖的書籍,如An Introduction toR、R(programming language)和An Overview of the R Language等,但內容繁雜、艱深,不能夠快速專一地完成生物科學領域的繪圖.另一方面,在R語言應用生物科學研究繪圖的論文中,大多針對某一類圖像,如箱形圖、柱形圖等;部分集中在某一研究方面,如蘚類、橡膠林動態檢測、差異表達基因檢測和水文預測分析等,還沒有系統地介紹R語言應用于生物科技論文繪圖方面的文章.R語言之所以功能強大是因為具有數量眾多的外源R-package(R擴展包),截至2017年3月CRAN(comprehensive R ArchiveNetwork)包含R-package已超過10320個.不同功能的R-package有很多,即使是相同功能的R-package也需要不同的參數進行調用,這成為生物科學研究者繪制圖片的困難之處.本研究為R語言在生物科學論文中的繪圖提供了源代碼,并對源代碼進行了相應解釋,以方便生物領域科技工作者直接更改使用.本論文對生物科研中合理、直觀地表述數據結果展示了良好范例,具有一定的借鑒意義.
1材料與方法
1.1 R軟件的準備
R語言安裝程序包是從https://www.r-project.org/下載得到的,版本為R×64 3.0.1(R版本需要與R-package相匹配以方便操作).RStudio安裝程序包是從https://www.rstudio.com/下載得到.RStudio是一種R語言編輯器,可方便快捷地編寫R腳本.
1.2設置和查看路徑
設置路徑使R可以方便導入數據文件,同時R語言繪制形成的圖像也會保存在此文件夾下,因此設置的路徑要指向數據所在文件夾.設置路徑和查看當前路徑的代碼如下.
2結果
2.1地圖繪制應用農業生態環境
地圖是依據一定法則制圖并體現在載體上,并借以反映區域內的自然要素和社會經濟現象的普通特征的圖像.因地圖具有統一的數學基礎;按國家統一測量和編繪規定完成;幾何精度高且內容詳細這三大特征,從而通常將其用于描述研究對象在地理位置的分布狀況、時間或條件引起的在不同地區的改變等問題.在生物科學研究中的生態方面,常常需要反映某一地區和作物相關宏觀生態狀況,如某一地區的蔬菜種植面積、果樹分布狀況、外來入侵植物分布狀況、農業害蟲分布情況、災情分布及改善狀況和麥區冬春氣象干旱趨勢_40_等問題.本研究則以近10年西瓜單位面積平均產量的數據為基礎,繪制出反映西瓜在各省份的平均產量地圖.數據來自國家統計局.需要注意的是,繪制地圖時除了繪圖數據,還要下載一個地圖的shp文件并將文件放在繪圖路徑文件夾下.
2.2熱圖繪制應用遺傳育種
熱圖(heatmap)是通過使用顏色漸變來顯示數據矩陣的圖像,其可以直觀的顯示出矩陣中數值的差異.熱圖適用于研究實驗數據的質量控制和差異數據,還可以對數據和樣品進行聚類,觀測樣品質量.目前生物科學研究中的遺傳領域已經深入到分子水平,其大多基于基因組、轉錄組和蛋白質組等組學數據,繪制熱圖以初步體現不同樣品中數據的關聯性與差異性,從而便于下一步研究操作.基于基因組和蛋白質組數據,繪制熱圖分析其聚類的關聯度與差異情況,可以找到顯著性差異的基因或蛋白質;基于轉錄組的數據,用RNA_seq的數據繪制熱圖以分析表達量的情況,可以找到在某一時期或是某一條件下高表達、低表達或不表達的基因.本文繪圖數據來自應激反應基因表達時間的自然變化預測擬南芥的種內雜種的雜種優勢,將原始數據log10處理后繪圖.
2.3關聯圖繪制應用植物保護
關聯圖是把數據中各個對象根據一定的相關關系進行串聯繪制出的圖形.關聯圖可以清晰的反映個體與群體間,群體中個體和個體間存在的相關聯系,其適用于研究含有復雜關系的對象,用以反映出各個對象之間的關系.在生物科學研究中,常常需要研究物質之間的關系或是物質與環境之間的關系,如某些基因和蛋白質與抗性相關、某些基因或蛋白質對疾病發生至關重要、某些環境與植物生長狀況的關系等問題.在分析基因和蛋白質方面的數據時,會查看與該基因或蛋白質有關的基因或蛋白質,進而初步判斷該蛋白質的功能等.熱激蛋白質fHeat stressproteins,Hsp)是生物為了應對環境的突然變化,合成的一種特定的蛋白質,可使生物有效應對外來脅迫.本文選用玉米(zea mays)的HSPl8基因,在STRING(http://string-db.org)上查找玉米中與HSP18相互聯系的蛋白質,并導出數據,繪制出與HSP18存在關系的蛋白質關聯圖.
2.4韋恩圖繪制應用資源昆蟲
韋恩圖是以圖形表示集合的重要方式,其通過表示各集合間的交集和并集情況,可以清晰地反映數據集間的關系,以體現其共性基數或個性基數的情況.在生物科學研究中,無論是通過宏觀數據體現不同地區昆蟲的種類分布特點,還是在微觀視角下通過宏基因組研究人類的腸道微生物,抑或基于轉錄組水平分析家畜在不同處理下的生長繁殖情況,這些均需要以韋恩圖作為可視化對象反映數據之間的交集等情況.如資源昆蟲對不同環境的抗逆性不同,其表達的基因也有所差異.利用維恩圖描述該種昆蟲在不同時間或抗性環境中表達轉錄數據、差異表達的蛋白質數據信息,即可篩選出重要功能的基因或蛋白質.本文以黑腹果蠅幼蟲的低溫存活和貯存的生理基礎的數據為基礎繪制韋恩圖.
2.5柱形圖的繪制應用加工保鮮
柱形圖是通過柱子的高低直接反映不同樣品數據差異的圖形,其在科研中是最為常見、直觀反映數據的一類重要圖像.在生物科學研究中,常常用柱形圖來反映不同食品處理方式對食品感官、營養和生化指標等方面的差異狀況.在食品加工與保鮮方面,常會探究不同包裝方式和貯藏溫度對食品中基本指標造成的變化,如自由基含量、pH值、酸價和亞硝酸鹽等生化指標,形成的微生物數量和種類變化等生物指標.DPPH(2,2-二苯基-1-苦肼基自由基)是一種很穩定的以氮為中心的自由基,可以測定抗氧化物質含量高低[47-48],在食品的加工、保鮮方面有廣泛的應用.本文繪制累積直方圖的數據來自蘇木fCaesalpinia sappan L.)提取物對冷藏期間豬肉腸的理化性質的影響.提供兩種堆積圖形,一種傳統的堆積柱形圖(見圖5(a)),清晰明了地反映數據情況;一種“玫瑰花環”柱形圖(見圖5(b)),更為新穎、美觀地反映出數據情況,吸引讀者閱讀.
3討論
生物統計分析、繪圖軟件眾多,難以選擇.雖然有些軟件在某些方面較為出眾,但不夠廣泛,科研工作者難以花費大量精力學習大量軟件.這就需要一款有強大技術支撐的開源軟件,可以普遍地適用于各類數據,繪制出高質量的圖片.在眾多統計繪圖軟件之中,R已經成為了繪圖軟件的首選,其使用面廣,更可適用于生物科研領域的各類數據繪制圖像.
3.1R語言繪圖的功能實現
由上文使用R語言實現生物科研繪圖的過程來看,其清楚、便捷,能夠明確說明相關問題并實現功能.通過其實現的地圖繪制既是對生物科研基礎數據的準確、直觀描述,又能夠通過整體與部分的情況充分展示統一性與差異性,以方便生物科研人員與統計決策者更好地進行分析研究、制定政策.而繪制的熱圖既可以通過數據聚類找到數據之間的相關性,而且可以通過對差異性的清晰反映,以方便生物科研工作者迅速篩出重要基因進行進一步研究.關聯圖的繪制既可以反映了復雜的網絡關系,又展現了該網絡關系中各組分之間的重要程度,方便生物科研人員更好地分析數據,做出正確判斷.此外,維恩圖繪制方便了資源昆蟲中重要靶標基因的篩選,以完成基礎生物學研究.R實現的柱形圖繪制更是可以將食品的各類指標綜合處理,清晰展示.因而探究發現,R語言可以貼合生物科研的數據有效實現其繪圖功能.
3.2科研繪圖軟件比較
現代生物科研論文繪圖軟件主要有Excel、SPSS、OriginPro、SigmaPlot、Python等.Excel可謂是最常見的統計繪圖軟件,其優勢就是操作簡單、使用方便,并且科研工作者對Excel非常熟悉.但是Excel繪圖實現的圖形類型十分有限,無法繪制復雜圖形,且圖片的靈活性很低,僅可對顏色等進行略微調整,無法任意的改變.SPSS作為一款統計軟件,其統計功能非常強大,但是用于繪圖不盡人意.與Excel一樣,SPSS操作簡單,但出圖速度緩慢,圖片不夠清晰、美觀.而R出圖速度快,回車之后立即見圖,圖片的美觀程度是繪圖者決定的,圖片質量高,可以輸出tiff、png、jpeg和pdf等8種圖片格式.
SigmaPlot與OriginPro相似,二者均是為友好的用戶界面,可以輕松地從Excel中提取數據,操作簡單且繪圖功能強大.但是,兩者均為付費軟件,需要支付昂貴的使用費.Python和R一樣也是一門編程語言,但是Python與R最大的區別在于Python的數據統計分析是通過第三方package來實現的,且Python是并不是專化的數據統計與繪圖分析的語言,因此在數據處理、統計分析、繪圖方面略遜一籌.R的統計函數包羅萬象,無論是經典還是前沿的方法,都可以直接使用相應的package調用,相比Python在這方面貧乏不少.綜上所述,R應當成為生物科研中的首選.
3.3 R繪圖的優缺點
R語言為開源性軟件,其開源有兩層意義:首先R可以免費獲得,其在所有硬件和操作系統上安裝均沒有限制,適合各個領域各種專業背景的人使用;其次,任何人均可自由檢查或修改源代碼,以匹配各行各業的數據處理與圖像繪制需求.以上兩點致使R語言在科研工作的使用率已經越來越高,并逐漸成為科研人員必備技能之一.R為編程語言,其統計繪圖的靈活性也體現在此.科研工作者可以根據自己需求編寫腳本、R-package.即便是沒有任何編程功底,僅僅想使用也可以在CRAN上找到相對應的R-package.R的靈活性還體現在圖片中的任何屬性都可以任意修改,不僅僅是顏色、形狀,還可以對將數據分組,也就是說,R繪圖取決于科研工作者對圖形理解.
R功能強大,但是也有一些圖片難以繪制.R繪圖是以統計分析數據為基礎的,對于繪制結構式(如蛋白質結構圖)、示意圖(如磷脂雙分子示意圖)、圖片數據分析(如測量擬南芥照片中角果長度)、照片美化(如電泳圖添加文字或裁剪拼接)、質粒圖等這些不是基于數據的統計和分析繪制出的圖片,R也無能為力.只能運用photoshop、Illustrator、corelDraw和3dsMax等相關軟件進行繪制美化.
4結論
R作為一門現代統計繪圖的工具,不僅在統計方面有很強大的功能,而且繪圖方面具有極強的專業性.本文以生物科研的相關領域為切入點,使用R實現了不同圖像的繪制,既證實了R作為免費開源的軟件可完整實現生物科研的多樣化圖像繪制,又為圖像的繪制與R-package的調用提供了代碼范例.