郭 麗,江 暢,王 俊
(南京郵電大學 地理與生物信息學院,南京 210023)
醫學統計學是生物醫學工程專業人才培養的重要理論基礎課程。隨著數理統計學的發展,新概念和新方法不斷涌現,并已在生物學和醫學領域中得到廣泛應用。研究可知,這是一門理論性要求很強的學科,當前生物醫學研究問題日益復雜,變量強度關聯逐漸增加,高通量測序數據規模則越來越大,致使實現原有計算方法成為亟待解決的研究問題。而基于計算機語言的統計軟件正日漸趨于完善和成熟,即使得快速、高效解決這些統計學問題成為可能。
醫學統計學是在高等數學和概率論等課程的基礎上,在具有一定生物醫學背景下開設的專業基礎課程。其中包含了對核酸(DNA和RNA)、蛋白序列和結構信息,以及臨床治療信息的獲取、整理、存儲、分析和解釋等內容,用于闡述和揭示生物體在生理病理狀態下的分子機制和演化規律。本課程的開設,有助于培養學生對實驗設計和統計方法在生物醫學大數據中的熟練運用。同時也有助于培養學生分析問題和解決問題的技能,對學生以后從事相關科研和管理工作具有重要的能力提升作用。通過對生物醫學大數據的挖掘和篩選,可以為患者提供最優的診斷和治療方案,還能對未來的生活方式做出前瞻性指導。R語言是大數據研究者常用的編程語言,主要用于數據統計分析、結果可視化、數據深度挖掘等,現已廣泛應用于生物醫學工程和生物信息學等科研領域。R語言具有比Excel和Spass更強的數據分析和圖形可視化能力,是一種更適合在生物醫學工程專業本科教學中使用的統計學分析軟件。目前,將R語言應用在醫學統計學中的教學嘗試仍處于初始階段。因此,如何將R軟件融入醫學統計學教學,借助其突出的統計分析與可視化優勢、再和本專業學生所具有的基礎編程能力相結合,還需要更多的研究和探索。
統計學分析是傳統生物學、現代分子生物學和醫學研究中不可缺少的一部分,通過數據同質性和變異性的數量表現,經過觀察、對比、分析,將隱藏在生物問題中的規律性進行剖析并揭示各規律間的必然性,用于指導生物醫學科研中的理論和實踐。統計理論是建立在抽象的數學假設基礎上,運用統計學原理,根據數據特點,選用合理的統計學方法進行分析,最終得到結果可靠的科學結論。在實際醫學統計學教學過程中,仍存在一些普遍性問題。首先是在有限的課時要求下,僅用一學期的時間學習這門課,由于過多強調理論講解,容易忽視學生統計思維和數據分析處理能力的聯合培養。其次、在理論課學習過程中、且沒有使用軟件的前提下,老師對例題進行講解時,學生容易感到枯燥,手動計算錯誤率偏高,且費時。
通過調研分析醫學統計學學科特點顯示,基礎理論與實際應用聯系緊密,但前者的掌握多處于劣勢。只重視實踐而輕理論則易導致學生知其然而不知其所以然。如果將R語言引入到醫學統計學教學中,就可以有效地緩解這一點,能更直觀靈活地分析大數據,且重復性高、可操作性強,既可強化學生的統計思維,又能增強學生動手編程能力。教學實踐證明,將R語言應用到醫學統計學教學中,可以大大增加課堂教學的信息量,使學生能更加專注于生物醫學問題的分析和聯系,實現精確計算,并提高課堂教學效率。
R語言具有強大的數據統計和圖形展示功能,并且是開源免費下載、且會對版本進行定期更新,同時R語言還包括有眾多科研人員后續不斷研發的豐富軟件包資源。再者,R語言與Rstudio的聯合使用,使科研工作者對R語言的運用更是得心應手。最后,R語言具有強大的圖形處理能力,除了基礎作圖外,還可以通過ggplot2軟件包等進行圖層疊加和個性化設計繪圖,更好地將數據結果呈現出來。這些優勢使R語言在醫學統計學中的運用成為必然,而且將R語言運用到醫學統計學的教學實踐也是一個合適且值得推薦的方法。
根據生物醫學工程專業教學的特點,結合癌癥治療數據分析,設計以下教學案列。
由于醫學統計學的教學內容有許多抽象的概念,比如樣本統計分布、統計檢驗原理等。這些內容通過課堂講解往往難以使學生建立比較清晰的認知,致使教學效果欠佳。此時,則可以用R語言的數據模擬和圖形可視化來演示此過程。具體實現過程詳見如下:


分別設置不同的樣本抽樣次數(200、400、600、800、1000)來計算樣本的均值、中位數、標準差、方差并記錄,見表1。同時,生成不同抽取次數的樣本分布圖(見圖1),此外還計算了抽取1000次的樣本分布與理論抽樣分布之間的關系(見圖2)。

表1 不同次數抽樣結果比較(正態分布)Tab.1 Comparison of results of different sampling times(normal distribution)

圖1 不同次數抽樣分布比較(正態分布)Fig.1 Comparison of sampling distribution with different times(normal distribution)

圖2 從總樣本中隨機抽取1000次與理論值比較圖Fig.2 Comparison diagram of the values by random sampling 1000 times from the total samples and theoretical values
從這個教學案例中,能夠直觀地通過R語言分析和可視化過程,形象地將學生難于區分的標準誤和標準差概念進行展示。其次,又通過不同抽取樣本次數進行數據模擬比較。綜上所述,均能鍛煉學生對樣本進行描述性統計分析的能力。
配對樣本檢驗是檢驗來自同一總體抽取的成對樣本間差異是否為零。下面將以某種藥物臨床治療前后病人腫瘤尺寸大小數據分析為例進行示例說明配對樣本檢驗。若藥物對病人治療是有效的,就可以判斷得知多數病人接受藥物治療后,腫瘤尺寸將顯著縮小。具體實現過程詳見如下:
#讀取癌癥病人接受某臨床藥物治療前后腫瘤體積數據


#添加顯著性水平
通過R語言可視化,可以得到此種藥物在治療病人前后,2組間病人的腫瘤體積已明顯縮小(0.0011),說明藥物對腫瘤病人的治療是有效的,參見圖3。

圖3 配對樣本t檢驗顯示某種藥物治療后病人腫瘤體積顯著縮小Fig.3 Paired sample t-test shows that the tumor volume of the patients decreased significantly after drug treatment
通過教學案例2,使生物醫學工程專業的學生在生物醫藥數據背景下,進一步熟悉理解配對樣本檢驗的原理,從而加深了對樣本配對檢驗的概念理解和原理掌握。
在醫學統計學教學中,對課程中的核心概念進行R語言演示和可視化的過程,可以幫助學生理解抽象的概念和理論。在此過程中,注意只要求學生通過使用相關R語言程序進行參數調整實現統計分析,不要求學生過多掌握復雜編程和可視化,發揮R語言用于輔助教學的長足優勢。此外,在教學過程中,通常不要求學生對統計理論的推導進行掌握,更多的是對這些基本概念的理解和相關統計理論在生物醫學領域中的靈活運用,正確使用統計學方法,為科研和醫學研究服務。在醫學統計學教學過程中,R語言教學對生物醫學工程學生的培養,可使其具備扎實的生物醫學理論知識和靈活的分析技巧,從而可以為大醫療行業人才培養和輸送提供了解決方案。
將R語言與生物醫學工程專業的課程教學有機結合,通過具體項目實踐,有利于節省時間和精力,不僅充分提升了學習效果,還增加了學生的學習興趣。學生通過對統計軟件的熟練掌握和應用,能夠更好地培養統計思維和數據處理能力,進一步加深對生物統計學基礎原理和方法的掌握和理解,提升學生綜合技能素質與自主學習水平。R語言是編程語言工具,醫學統計學是應用基礎,R語言在醫學統計學中的教學實踐和探索還在繼續。根據生物醫學工程專業學生的學科特點,需要適時根據需求調整更新教學案例和方法,進一步完善R語言教學的方式方法,致力于把學生培養成為具有扎實統計理論和較強醫學項目分析能力的高素質人才。