

摘要:隨著大數(shù)據(jù)的迅速發(fā)展,醫(yī)學(xué)類專業(yè)的學(xué)科建設(shè)迫切需要培養(yǎng)學(xué)生對醫(yī)學(xué)領(lǐng)域涉及的大數(shù)據(jù)進(jìn)行收集、分析和處理的能力。在這一背景下,R語言作為一種簡單易上手的統(tǒng)計(jì)編程工具備受關(guān)注,被認(rèn)為是一種適合推廣給醫(yī)學(xué)類專業(yè)學(xué)生應(yīng)用的工具。因此,以醫(yī)學(xué)類專業(yè)的教學(xué)實(shí)踐為基礎(chǔ),深入探討基于R語言的統(tǒng)計(jì)分析在醫(yī)學(xué)類專業(yè)教學(xué)中的實(shí)際應(yīng)用。通過介紹基于R語言的教學(xué)方法及其在醫(yī)學(xué)統(tǒng)計(jì)分析中的實(shí)際應(yīng)用,旨在幫助學(xué)生建立起數(shù)據(jù)分析的基礎(chǔ),為其未來在醫(yī)學(xué)研究和實(shí)踐工作中的應(yīng)用打下堅(jiān)實(shí)的基礎(chǔ)。
關(guān)鍵詞:醫(yī)學(xué)類專業(yè)大數(shù)據(jù)統(tǒng)計(jì)分析R語言教學(xué)實(shí)踐
中圖分類號:G642.0
TeachingPracticeandExplorationofStatisticalAnalysisinMedicalSpecialtiesBasedonRLanguage
CHENYuyunOUYANGDong*WANGYaomingXIONGGangqiang
SchoolofBiomedicalEngineering,GuangdongMedicalUniversity,Zhanjiang,GuangdongProvince,524023China
Abstract:WiththerapiddevelopmentofBigData,thereisanurgentneedforthedisciplineconstructionofmedicalmajorstocultivatestudents'abilitytocollect,analyzeandprocessthebigdatainvolvedinthemedicalfield.Inthiscontext,Rlanguage,asasimpleandeasy-to-usestatisticalprogrammingtool,hasattractedmuchattentionandisasuitabletooltobepromotedtomedicalstudents.Therefore,basedontheteachingpracticeofmedicalmajors,thisarticledelvesintothepracticalapplicationofRlanguage-basedstatisticalanalysisinteaching.ByintroducingtheRlanguage-basedteachingmethodanditspracticalapplicationinstatisticalanalysis,itaimstohelpstudentsestablishthefoundationofdataanalysisandlayasolidfoundationfortheirfutureworkinmedicalresearchandpractice.
KeyWords:Medicalmajor;BigData;Statisticalanalysis;Rlanguage;Teachingpractice
隨著大數(shù)據(jù)時(shí)代的迅猛發(fā)展,各行各業(yè)迎來了新的機(jī)遇與挑戰(zhàn)。在醫(yī)學(xué)本科教學(xué)中,為了與時(shí)俱進(jìn),迫切需要一種簡單易上手的統(tǒng)計(jì)編程工具。由于統(tǒng)計(jì)數(shù)據(jù)其概念抽象、邏輯性強(qiáng)、公式復(fù)雜、運(yùn)算量大,學(xué)生普遍感到難以理解,影響了其應(yīng)用能力,增加了教學(xué)難度[1]。R語言以其易用性和強(qiáng)大功能而備受推崇[2],因此,在醫(yī)學(xué)專業(yè)中選擇采用R語言進(jìn)行教學(xué),能夠幫助學(xué)生更好地學(xué)習(xí)和應(yīng)用統(tǒng)計(jì)分析。
“信息技術(shù)基礎(chǔ)”是廣東醫(yī)科大學(xué)開設(shè)的一門針對預(yù)防醫(yī)學(xué)、藥學(xué)、衛(wèi)生檢驗(yàn)與檢疫、臨床醫(yī)學(xué)和醫(yī)學(xué)檢驗(yàn)技術(shù)等非計(jì)算機(jī)專業(yè)學(xué)生的公共基礎(chǔ)課,其中包含了R語言編程[3]。作為信息技術(shù)基礎(chǔ)課程的一部分,選擇了R語言作為統(tǒng)計(jì)分析的教學(xué)工具,以適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展需求。這一選擇不僅能夠幫助醫(yī)學(xué)生提升其科研能力、應(yīng)用循證醫(yī)學(xué)和制定預(yù)防策略,還能增強(qiáng)其職業(yè)競爭力。統(tǒng)計(jì)分析在醫(yī)學(xué)中具有重要作用,為醫(yī)學(xué)生和專業(yè)人士提供科學(xué)的診斷和治療支持,在科研、臨床決策和公共衛(wèi)生等方面發(fā)揮著關(guān)鍵作用[4]。
本文旨在探討在廣東醫(yī)科大學(xué)“信息技術(shù)基礎(chǔ)”課程中,基于R語言的統(tǒng)計(jì)分析在醫(yī)學(xué)類專業(yè)的教學(xué)實(shí)踐與探索。內(nèi)容包括對R語言特點(diǎn)及教學(xué)內(nèi)容進(jìn)行簡單介紹,對R語言在醫(yī)學(xué)統(tǒng)計(jì)應(yīng)用到的案例進(jìn)行分析,最后對R語言的實(shí)踐教學(xué)進(jìn)行總結(jié)與反思。
R語言由新西蘭奧克蘭大學(xué)的RossIhaka和RobertGentleman于1993年共同開發(fā)。作為一種在GNU協(xié)議下運(yùn)行的開源解釋型語言,R主要用于可視化、統(tǒng)計(jì)分析和數(shù)據(jù)處理[5]。
在當(dāng)前嚴(yán)格保護(hù)知識產(chǎn)權(quán)的環(huán)境下,使用商業(yè)軟件進(jìn)行統(tǒng)計(jì)學(xué)實(shí)驗(yàn)可能會帶來昂貴的費(fèi)用負(fù)擔(dān)。R語言的集成開發(fā)環(huán)境RStudio則是完全開源提供免費(fèi)使用,還能在MacOS、Windows和Linux等多個(gè)平臺上穩(wěn)定運(yùn)行,確保師生都能夠進(jìn)行實(shí)驗(yàn)設(shè)計(jì)并且做統(tǒng)計(jì)分析。此外,R語言的語法簡單易學(xué),用戶可以根據(jù)需求編寫函數(shù)擴(kuò)展其功能,并以附加程序包形式發(fā)布。到目前為止,R語言的程序包涵蓋了生物信息學(xué)、統(tǒng)計(jì)學(xué)、醫(yī)學(xué)統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域,滿足了各領(lǐng)域?qū)I(yè)人士的需求。
R語言在數(shù)據(jù)獲取、整理、可視化和量化分析方面功能全面。它可以從多種數(shù)據(jù)源導(dǎo)入數(shù)據(jù),并利用豐富的函數(shù)工具庫(如data.table、dplyr)進(jìn)行數(shù)據(jù)整理和分類。R語言還包括多種數(shù)據(jù)可視化工具,使用者可通過ggplot2等擴(kuò)展包實(shí)現(xiàn)復(fù)雜圖形的繪制。此外,R語言支持多種數(shù)據(jù)分析技術(shù),如線性和非線性回歸、時(shí)間序列分析、聚類分析和神經(jīng)網(wǎng)絡(luò)分析[6]。
隨著R語言的廣泛應(yīng)用,R語言用戶社區(qū)規(guī)模不斷擴(kuò)大,并提供了豐富的學(xué)習(xí)資源,如RDocumentation、stackoverflow、crossvalidated和R-bloggers等平臺,提供豐富的R語言注釋、分析和實(shí)例,極大地便利了學(xué)習(xí)者使用R語言解決實(shí)際問題。
基于這些優(yōu)勢,將R語言應(yīng)用于醫(yī)學(xué)本科生的教學(xué)實(shí)驗(yàn)中,可以幫助學(xué)生更有效地進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,克服以抽象概念和公式為主的教學(xué)局限。
1.2R語言的教學(xué)設(shè)計(jì)
在R語言的教學(xué)中,主要涵蓋了數(shù)據(jù)對象及其處理、文件操作、R程序設(shè)計(jì)、數(shù)據(jù)可視化與繪圖以及統(tǒng)計(jì)學(xué)有關(guān)應(yīng)用知識這幾個(gè)方面。
1.2.1數(shù)據(jù)對象及其處理
在醫(yī)學(xué)統(tǒng)計(jì)中,R語言提供了豐富的數(shù)據(jù)類型和數(shù)據(jù)對象,這些數(shù)據(jù)類型包括:數(shù)值型(integer)、邏輯型(logical)、整數(shù)型(integer)、字符型(character)和復(fù)數(shù)型(complex)。這5種數(shù)據(jù)類型構(gòu)成了7種數(shù)據(jù)對象。其中,這7種數(shù)據(jù)對象分別是向量(vector)、因子(factor)、數(shù)組(array)、矩陣(matrix)、數(shù)據(jù)框(frame.data)、時(shí)間序列(timeseries)和列表(list)。此外,R語言可以通過class、mode和typeof命令判斷數(shù)據(jù)類型,其中,typeof更為精細(xì),可區(qū)分?jǐn)?shù)值型為integer或double,但整數(shù)型需用大寫字母L標(biāo)志,is和as前綴用于數(shù)據(jù)類型判斷和轉(zhuǎn)換。
在教學(xué)中,著重介紹和實(shí)踐這7種數(shù)據(jù)對象,以確保學(xué)生建立扎實(shí)的基礎(chǔ)。隨后,我們深入探討數(shù)據(jù)處理的方法數(shù)據(jù)框作為一種常見的二維表格形式,在醫(yī)學(xué)統(tǒng)計(jì)中被廣泛應(yīng)用,用于展示各種醫(yī)學(xué)數(shù)據(jù)。我們著重介紹如何處理數(shù)據(jù)框中的數(shù)據(jù),包括處理特殊值(如Inf、NaN、NA、NULL等),以及常用于數(shù)據(jù)清洗、抽取和整合的函數(shù)操作。這些教學(xué)內(nèi)容將幫助學(xué)生更好地理解和應(yīng)用R語言進(jìn)行醫(yī)學(xué)數(shù)據(jù)分析,為他們未來的研究和實(shí)踐工作奠定堅(jiān)實(shí)基礎(chǔ)
1.2.2文件操作
在醫(yī)學(xué)領(lǐng)域,文件操作對于研究人員來說至關(guān)重要,因?yàn)樗麄冃枰幚砗头治龈鞣N類型的醫(yī)學(xué)數(shù)據(jù)以支持臨床決策和科學(xué)研究。例如:研究人員可能需要從臨床試驗(yàn)數(shù)據(jù)庫中讀取患者的病歷數(shù)據(jù)和治療結(jié)果,以評估藥物療效或疾病進(jìn)展情況。又如:在基因組學(xué)研究中,研究人員需要讀取基因測序數(shù)據(jù)文件,從中提取患者的基因型信息,并進(jìn)行遺傳關(guān)聯(lián)分析以研究疾病的遺傳基礎(chǔ)。此外,醫(yī)學(xué)影像數(shù)據(jù)如MRI和CT掃描圖像也是醫(yī)學(xué)研究中的重要數(shù)據(jù)來源,研究人員可能需要將這些圖像文件導(dǎo)入R中,進(jìn)行圖像處理和分析以輔助臨床診斷。
因此,教學(xué)中會重點(diǎn)介紹常用的文件讀取函數(shù)如read.csv和read.table,以及保存函數(shù)如write.csv和write.table。例如:學(xué)生將學(xué)習(xí)如何使用read.csv函數(shù)讀取患者的病歷數(shù)據(jù)文件,如何使用write.csv函數(shù)保存分析結(jié)果。此外,我們將演示如何處理更復(fù)雜的文件格式,如使用read.table讀取基因測序數(shù)據(jù),并將分析結(jié)果保存到文件中以便進(jìn)一步研究。通過這些實(shí)際案例的演示和練習(xí),學(xué)生將學(xué)會如何有效地導(dǎo)入和導(dǎo)出各種類型的醫(yī)學(xué)數(shù)據(jù),為進(jìn)一步的數(shù)據(jù)分析和研究工作打下堅(jiān)實(shí)基礎(chǔ)。
1.2.3R程序設(shè)計(jì)
在教學(xué)過程中,將繼續(xù)深入探討R語言中的其他重要內(nèi)容,如條件語句(如if-else和switch等語句)、循環(huán)結(jié)構(gòu)(如for循環(huán)和while循環(huán))以及函數(shù)的遞歸調(diào)用(function()結(jié)構(gòu)體語句)。例如:學(xué)生將學(xué)習(xí)如何使用不同條件語句來根據(jù)不同的情況執(zhí)行不同的操作,比如根據(jù)患者的檢測指標(biāo)判斷其健康狀態(tài);在循環(huán)結(jié)構(gòu)方面,學(xué)生將學(xué)會使用for循環(huán)來辨別患者的病歷數(shù)據(jù),或使用while循環(huán)實(shí)現(xiàn)特定條件下的重復(fù)操作,如持續(xù)監(jiān)測某項(xiàng)生理指標(biāo)直到達(dá)到安全范圍。此外,教師還將引導(dǎo)學(xué)生學(xué)習(xí)如何編寫和調(diào)用自定義函數(shù),以解決特定問題,例如:編寫一個(gè)函數(shù)來計(jì)算患者的身體質(zhì)量指數(shù)(BMI),或者一個(gè)遞歸函數(shù)來模擬疾病傳播模型。通過這些實(shí)際案例的講解和實(shí)踐,學(xué)生將逐步掌握R編程的基本原理和技巧,為進(jìn)一步的數(shù)據(jù)分析和醫(yī)學(xué)統(tǒng)計(jì)工作打下堅(jiān)實(shí)基礎(chǔ)。
1.2.4R語言數(shù)據(jù)可視化與繪圖
在醫(yī)學(xué)統(tǒng)計(jì)中,R語言的數(shù)據(jù)可視化和繪圖功能是不可或缺的工具。除了繪制基本的直方圖(hist)、條形圖(barplot)、餅圖(pie)和散點(diǎn)圖(plot)等之外,R還提供了更加豐富和高級的繪圖方式,如箱線圖(boxplot)、小提琴圖(vioplot)等。例如:醫(yī)學(xué)研究人員可以使用R語言繪制直方圖來展示患者的年齡分布情況,以了解研究人群的年齡特征;也可以使用條形圖來比較不同治療組之間的臨床指標(biāo)變化情況,從而評估不同治療方案的效果;此外,餅圖可以用于展示患者不同病因所占比例,可以幫助醫(yī)生更好地了解疾病的發(fā)病情況;而箱線圖則常用于展示不同組間數(shù)據(jù)的分布情況,如患者不同年齡段的血壓水平對比等。此外,小提琴圖作為一種更加直觀和豐富的分布圖形,常用于展示連續(xù)變量的分布情況,例如:不同性別患者的生物標(biāo)志物水平分布。通過這些繪圖方式,醫(yī)學(xué)研究人員可以直觀地呈現(xiàn)數(shù)據(jù)的特征和規(guī)律,從而為醫(yī)學(xué)統(tǒng)計(jì)分析提供有力的支持。
1.2.5統(tǒng)計(jì)學(xué)有關(guān)知識應(yīng)用
在醫(yī)學(xué)統(tǒng)計(jì)中,R語言作為一種強(qiáng)大的數(shù)據(jù)分析工具,常用于處理和分析醫(yī)學(xué)數(shù)據(jù)。首先,醫(yī)學(xué)研究人員需要了解隨機(jī)變量及其分布。R語言提供了多種概率分布函數(shù),如正態(tài)分布(dnorm)、卡方分布(dchisq)和t分布(dt),用于描述和分析不同類型的數(shù)據(jù)。其次,研究人員還需要掌握點(diǎn)估計(jì)和參數(shù)檢驗(yàn)的方法。R語言提供了豐富的統(tǒng)計(jì)函數(shù)和工具,如樣本均值(mean)、方差(var)、t檢驗(yàn)(t.test)、方差分析(anova)和卡方檢驗(yàn)(chisq.test),幫助醫(yī)學(xué)研究人員對數(shù)據(jù)進(jìn)行參數(shù)估計(jì)和假設(shè)檢驗(yàn),從而做出科學(xué)的統(tǒng)計(jì)推斷和決策。通過學(xué)習(xí)和應(yīng)用這些函數(shù),醫(yī)學(xué)研究人員可以更好地理解醫(yī)學(xué)數(shù)據(jù)并做出科學(xué)的決策。
2R語言在醫(yī)學(xué)統(tǒng)計(jì)中的教學(xué)案例分析
根據(jù)醫(yī)學(xué)專業(yè)涉及的數(shù)據(jù),結(jié)合R語言所學(xué)的知識,進(jìn)行了一系列統(tǒng)計(jì)案例分析。這些分析不僅涵蓋了數(shù)據(jù)收集和處理,還包括數(shù)據(jù)可視化和結(jié)果解讀,從而幫助學(xué)生更全面地理解和應(yīng)用統(tǒng)計(jì)方法。
在R語言的統(tǒng)計(jì)分析中,ISwR包提供了許多有用的數(shù)據(jù)集,其中之一是melanom數(shù)據(jù)集,表1為melamon數(shù)據(jù)集前10行的數(shù)據(jù)。該數(shù)據(jù)集包含了惡性黑色素瘤的生存數(shù)據(jù)。我們可以利用該數(shù)據(jù)集,針對黑色素瘤厚度、生存狀況和潰瘍這三列屬性數(shù)據(jù),使用boxplot函數(shù)來繪制箱線圖。
首先,進(jìn)行數(shù)據(jù)預(yù)處理,將潰瘍(ulc)列中的1替換為“yes”,2替換為“no”。接下來,繪制組間黑色素瘤厚度的箱線圖,分組標(biāo)準(zhǔn)為變量status和ulc。具體來說,status代表生存狀態(tài),其中1代表死于黑色素瘤,2代表存活,3代表死于其他原因;ulc代表潰瘍,其中yes代表有潰瘍,no代表沒有潰瘍。所繪制出的黑色素瘤厚度的組間對比圖見圖1。繪制箱線圖的R代碼如圖1所示,為了了解melamon數(shù)據(jù)集,我們列舉該數(shù)據(jù)集的前10行的數(shù)據(jù)如表1所示。最終,繪制出的組間黑色素瘤厚度的箱線如圖2所示。
通過這種方式,學(xué)生能夠直觀地比較不同生存狀態(tài)和潰瘍狀況下黑色素瘤厚度的分布情況,幫助學(xué)生理解并掌握如何進(jìn)行數(shù)據(jù)預(yù)處理和可視化分析。這個(gè)實(shí)際案例不僅強(qiáng)化了學(xué)生對統(tǒng)計(jì)分析的理解,還提升了他們在醫(yī)學(xué)數(shù)據(jù)分析中的實(shí)戰(zhàn)能力。
3R語言在醫(yī)學(xué)統(tǒng)計(jì)教學(xué)中的實(shí)踐思考
圍F69JEluuKVig9HeYEC4Fyw==繞R語言在廣東醫(yī)科大學(xué)的“信息技術(shù)基礎(chǔ)”這門課的教學(xué),我們設(shè)計(jì)了一個(gè)由30個(gè)學(xué)時(shí)的理論課和30個(gè)學(xué)時(shí)的實(shí)驗(yàn)課組成的完整教學(xué)體系。每周安排兩節(jié)理論課和兩節(jié)實(shí)驗(yàn)課,讓學(xué)生在理論學(xué)習(xí)的基礎(chǔ)上實(shí)踐編程,深化對R語言編程的理解。我們將廣東省計(jì)算機(jī)二級考試作為期末考核方式,學(xué)生通過后可獲得計(jì)算機(jī)二級等級證書,這種考核方式全面激發(fā)了學(xué)生的學(xué)習(xí)興趣,并為他們未來的職業(yè)發(fā)展提供了有力支持。
4結(jié)語
在醫(yī)學(xué)統(tǒng)計(jì)學(xué)中,R語言的應(yīng)用已經(jīng)成為一種不可或缺的工具。通過本文介紹的教學(xué)實(shí)踐和案例分析,可以看到R語言在醫(yī)學(xué)領(lǐng)域的廣泛應(yīng)用,以及它在培養(yǎng)學(xué)生數(shù)據(jù)分析能力和實(shí)踐操作技能方面的重要作用。隨著醫(yī)學(xué)數(shù)據(jù)的不斷增長和復(fù)雜性的提高,掌握R語言這樣的統(tǒng)計(jì)工具變得愈發(fā)關(guān)鍵。因此,我們應(yīng)該不斷探索和完善R語言在醫(yī)學(xué)教育中的應(yīng)用,以期為培養(yǎng)具有數(shù)據(jù)分析能力的醫(yī)學(xué)專業(yè)人才做出更大的貢獻(xiàn)。
參考文獻(xiàn)
[1]曹慧芬.大數(shù)據(jù)背景下R語言在醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)實(shí)驗(yàn)中的應(yīng)用[J].科教導(dǎo)刊,2021(25):149-151.
[2]閻潔,楊俊麗,王建文,等.R語言在醫(yī)學(xué)院校生物信息學(xué)實(shí)驗(yàn)教學(xué)中的應(yīng)用與探索[J].醫(yī)學(xué)信息學(xué)雜志,2020,41(1):87-89,86.
[3]王耀民,何文廣,丘文峰,等.信息技術(shù)基礎(chǔ)課程的混合式教學(xué)探索[J].福建電腦,2022,38(2):103-106.
[4]郭麗,江暢,王俊.基于R語言的醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)實(shí)踐和探索:以南京郵電大學(xué)生物醫(yī)學(xué)工程專業(yè)為例[J].智能計(jì)算機(jī)與應(yīng)用,2022,12(10):113-116.
[5]武止戈,陳宇琦,劉赟.基于R語言的“統(tǒng)計(jì)學(xué)方法”課程教學(xué)實(shí)驗(yàn)設(shè)計(jì)[J].科教文匯(上旬刊),2021(28):110-114.
[6]柯朝甫.醫(yī)學(xué)本科生R語言教學(xué)初探[J].教育現(xiàn)代化,2018(48):233-234,245.