楊 晟,尤東方,邵方
(南京醫(yī)科大學(xué) 公共衛(wèi)生學(xué)院,江蘇 南京 211166)
生物統(tǒng)計(jì)學(xué)作為一門應(yīng)用學(xué)科,對學(xué)生的培養(yǎng)重點(diǎn)在如何使用生物統(tǒng)計(jì)學(xué)方法和工具解決實(shí)際的生物醫(yī)學(xué)問題,尤其是在本科教育階段,生物醫(yī)學(xué)大數(shù)據(jù)分析已成為醫(yī)學(xué)研究與應(yīng)用的剛性需求。基于現(xiàn)代醫(yī)學(xué)大數(shù)據(jù)開展真實(shí)世界研究及數(shù)據(jù)挖掘所面臨的因果推斷、高維數(shù)據(jù)分析等剛性需求,都依賴于生物醫(yī)學(xué)大數(shù)據(jù)分析的理論和實(shí)操能力。因此,亟待解決生物統(tǒng)計(jì)專業(yè)生物醫(yī)學(xué)大數(shù)據(jù)分析能力的培養(yǎng)問題,以滿足實(shí)際工作需求。目前,生物統(tǒng)計(jì)學(xué)專業(yè)的教學(xué)主要集中在統(tǒng)計(jì)分析方法的理論基礎(chǔ)上,缺乏實(shí)踐經(jīng)驗(yàn)的培養(yǎng)。溝通能力和處理實(shí)際問題的相關(guān)經(jīng)驗(yàn),被很多用人單位看作是新員工的關(guān)鍵技能[1-3]。同時(shí),職業(yè)道德是生物醫(yī)學(xué)大數(shù)據(jù)分析能力培養(yǎng)的核心組成部分[1]。目前雖然一些課程采用大作業(yè)練習(xí)或項(xiàng)目學(xué)習(xí),為學(xué)生提供了有價(jià)值的入門訓(xùn)練,但這些課程練習(xí)和項(xiàng)目往往比較陳舊,和實(shí)際工作有一定的差別且持續(xù)時(shí)間較短[4]。我們認(rèn)為,培養(yǎng)實(shí)踐技能和解決實(shí)際問題的能力,需要足夠的時(shí)間和經(jīng)驗(yàn),這是培養(yǎng)方案應(yīng)該關(guān)注的重點(diǎn)。參考其他應(yīng)用學(xué)科,住院醫(yī)師模式的出現(xiàn)不僅使得醫(yī)學(xué)培訓(xùn)變得越來越標(biāo)準(zhǔn)化,還確保年輕醫(yī)生獲得了重要的實(shí)踐經(jīng)驗(yàn)。因此,對心理學(xué)和教育學(xué)學(xué)生的培養(yǎng)采用了類似的模式[1]。這說明住院醫(yī)師模式可以為以實(shí)踐經(jīng)驗(yàn)為中心的生物醫(yī)學(xué)大數(shù)據(jù)分析應(yīng)用能力的培養(yǎng)提供借鑒。基于以上論述,我們提出了以實(shí)踐經(jīng)驗(yàn)為中心的生物統(tǒng)計(jì)學(xué)專業(yè)生物醫(yī)學(xué)大數(shù)據(jù)分析能力的培養(yǎng)方案,借鑒醫(yī)學(xué)住院醫(yī)師的培養(yǎng)模式,以長期在實(shí)際應(yīng)用環(huán)境下的課題項(xiàng)目作為培養(yǎng)重點(diǎn)。專注于獲得真實(shí)世界實(shí)踐經(jīng)驗(yàn)的培養(yǎng)方案,將更好地確保學(xué)生就業(yè)時(shí)具有生物醫(yī)學(xué)大數(shù)據(jù)分析的全面技能。
醫(yī)學(xué)和心理學(xué)的教學(xué)已經(jīng)開始通過核心能力的視角來看待專業(yè)教育,為設(shè)計(jì)能滿足學(xué)生需求的培養(yǎng)方案提供了大體框架[1]。表1列出了在制訂培養(yǎng)方案時(shí),考慮的生物醫(yī)學(xué)大數(shù)據(jù)分析能力及所涉及的指標(biāo)體系。
表1為生物醫(yī)學(xué)大數(shù)據(jù)分析所必備的能力提供了一個(gè)參考框架。這些能力不僅相互依賴,而且在特定的項(xiàng)目過程中會(huì)重復(fù)使用。傳統(tǒng)的課程教學(xué)并不能全面、綜合地培養(yǎng)這些實(shí)踐能力。為了培養(yǎng)學(xué)生的生物醫(yī)學(xué)大數(shù)據(jù)分析能力,借鑒住院醫(yī)師的培養(yǎng)模式,我們認(rèn)為在實(shí)際應(yīng)用環(huán)境下的長期課題項(xiàng)目是一種很好的方式。生物醫(yī)學(xué)大數(shù)據(jù)分析課題項(xiàng)目的生命周期一般分為八個(gè)階段,包括問題識別、范圍確認(rèn)、數(shù)據(jù)獲取、初步探索、制訂計(jì)劃、分析建模、實(shí)際驗(yàn)證和實(shí)施維護(hù)。下面將對課題項(xiàng)目的各階段進(jìn)行詳細(xì)描述,展示相關(guān)能力的綜合應(yīng)用,并通過女性卵巢老化風(fēng)險(xiǎn)預(yù)測的現(xiàn)實(shí)例子來加以說明。

表1 生物醫(yī)學(xué)大數(shù)據(jù)分析能力及所涉及的指標(biāo)體系
課題項(xiàng)目啟動(dòng)時(shí),需要對問題的解決方案進(jìn)行探討。生物統(tǒng)計(jì)師既要就技術(shù)上的可行性發(fā)表意見,也要承擔(dān)道德責(zé)任,強(qiáng)調(diào)其中的局限性和風(fēng)險(xiǎn)性。同時(shí),需要了解數(shù)據(jù)隱私和共享的法律法規(guī),幫助決策者了解現(xiàn)有數(shù)據(jù)如何被使用,以及是否可收集其他數(shù)據(jù)。例如,婦產(chǎn)科的臨床醫(yī)生通過接診發(fā)現(xiàn),與女性卵巢老化相關(guān)的疾病越來越多,但目前的做法只是在病人來醫(yī)院就診后才進(jìn)行治療。醫(yī)生們希望在常規(guī)檢查中主動(dòng)識別可能有風(fēng)險(xiǎn)的女性,從而減少女性由卵巢老化導(dǎo)致的疾病。
課題項(xiàng)目開始進(jìn)行后,溝通和問題定義的能力對實(shí)際工作的范圍確認(rèn)是非常重要的。生物統(tǒng)計(jì)師需要評估哪些問題可以用現(xiàn)有數(shù)據(jù)來回答,并與干系人密切合作,了解他們的需求。此階段的道德問題包括考慮如何處理和保護(hù)敏感數(shù)據(jù)。例如,召開討論會(huì)議,包括臨床醫(yī)生和生物統(tǒng)計(jì)師,了解可用的數(shù)據(jù)及如何將其投入使用。由于需要處理與個(gè)人健康信息有關(guān)的數(shù)據(jù),決定將所有分析工作限制在醫(yī)院的安全服務(wù)器環(huán)境中并進(jìn)行脫敏處理。主要的干預(yù)措施被確定為基于回歸模型對女性卵巢老化程度進(jìn)行風(fēng)險(xiǎn)評估,對高風(fēng)險(xiǎn)女性進(jìn)行治療,減輕或減少其相關(guān)疾病。
在這一階段的工作中,生物統(tǒng)計(jì)師需要應(yīng)用處理和構(gòu)造原始數(shù)據(jù)的技能。例如,合作醫(yī)院提供了一個(gè)數(shù)據(jù)庫和服務(wù)器,用于分析個(gè)人層面的基礎(chǔ)數(shù)據(jù)及檢查報(bào)告。來自其他來源的數(shù)據(jù)被導(dǎo)入環(huán)境中,包括人口普查和公共數(shù)據(jù)庫中可獲取的相關(guān)數(shù)據(jù)。生物統(tǒng)計(jì)師與每個(gè)數(shù)據(jù)源的所有者緊密合作,以確保他們了解數(shù)據(jù)結(jié)構(gòu)和字段。
在這個(gè)分析的初始階段,主要通過匯總統(tǒng)計(jì)、可視化和初步建模來探索數(shù)據(jù)中的趨勢和關(guān)系。在大多數(shù)項(xiàng)目中,此階段還需要重新處理缺失數(shù)據(jù),以及識別標(biāo)簽、潛在變量特征和數(shù)據(jù)中潛在的偏差與不一致。例如,生物統(tǒng)計(jì)師結(jié)合使用描述性統(tǒng)計(jì)、變量相關(guān)和時(shí)間序列分析,了解數(shù)據(jù)中變量間的關(guān)系及其局限性。通過數(shù)據(jù)中的缺失值確定了提取、轉(zhuǎn)換、加載過程中的錯(cuò)誤,并通過新的數(shù)據(jù)提取過程進(jìn)行糾正。
在此階段,生物統(tǒng)計(jì)師需要有效地將初步結(jié)果傳達(dá)給干系人,并和干系人共同制訂分析計(jì)劃,為項(xiàng)目建立起技術(shù)路線。例如,根據(jù)初步探索數(shù)據(jù)得到的結(jié)果,生物統(tǒng)計(jì)師與臨床醫(yī)生合作,以臨床中卵巢老化的相關(guān)疾病涉及的變量特征為基礎(chǔ),確定檢查中應(yīng)涉及的項(xiàng)目,以及后續(xù)分析建模所需要的工具和流程。
該階段所使用的具體技能,將從數(shù)據(jù)描述轉(zhuǎn)向總結(jié)、預(yù)測和解釋。一般來說,這個(gè)階段涉及生成大量的模型、分析或結(jié)果,然后進(jìn)行分析得出有意義的結(jié)論。在建立預(yù)測模型時(shí),涉及模型選擇過程,平衡不同的性能和指標(biāo),以得出一個(gè)單一的模型,并將其投入實(shí)際應(yīng)用中。這一階段還可能涉及成果展示,這不僅要使用溝通表達(dá)和數(shù)據(jù)可視化技能,還需要總結(jié)大數(shù)據(jù)分析的結(jié)果并給出解釋和有意義的結(jié)論。例如,生物統(tǒng)計(jì)師基于訓(xùn)練集數(shù)據(jù),應(yīng)用回歸模型進(jìn)行建模。基于均方根誤差、赤池信息量準(zhǔn)則等指標(biāo),折中選擇泊松分布對數(shù)線性模型,并對涉及的變量特征進(jìn)行篩選降維,在驗(yàn)證集中進(jìn)行驗(yàn)證。
前一階段的成果是形成一套最終的分析結(jié)果或模型,準(zhǔn)備在現(xiàn)實(shí)中進(jìn)行試點(diǎn)或驗(yàn)證。例如,開發(fā)了一個(gè)為期一年的現(xiàn)場試驗(yàn),期間每月隨機(jī)對250名婦產(chǎn)科就診病人進(jìn)行相關(guān)檢查,以確定是否存在卵巢老化的問題,并對發(fā)現(xiàn)的相關(guān)疾病進(jìn)行治療。該試驗(yàn)證實(shí)了該模型在識別女性卵巢老化方面的性能。同時(shí),開發(fā)相關(guān)網(wǎng)頁工具可方便病患基于檢查結(jié)果實(shí)時(shí)進(jìn)行風(fēng)險(xiǎn)識別。
為了使大數(shù)據(jù)分析項(xiàng)目產(chǎn)生實(shí)際價(jià)值,應(yīng)推動(dòng)成果的落地實(shí)施。進(jìn)一步推廣成果,并持續(xù)進(jìn)行維護(hù)和改進(jìn)。例如,該模型的應(yīng)用使更多的女性關(guān)注卵巢老化問題,主動(dòng)進(jìn)行預(yù)防并減少相關(guān)疾病的惡化。醫(yī)院婦產(chǎn)科決定投入資源維護(hù),并定期更新和重新評估該模型。
單獨(dú)來看,課題項(xiàng)目的每個(gè)階段都會(huì)需要一系列不同的能力,突出了生物醫(yī)學(xué)大數(shù)據(jù)分析中全面的技能發(fā)展需要。目前許多大數(shù)據(jù)分析能力的培養(yǎng),都沒有達(dá)到培養(yǎng)勝任的、全面的分析師的目的。分析師應(yīng)當(dāng)有能力處理他們在實(shí)際工作中遇到的各種細(xì)微問題,而不是僅僅通過課堂教學(xué)的學(xué)習(xí),掌握分析方法或工具。實(shí)踐經(jīng)驗(yàn)的積累需要時(shí)間和正確的引導(dǎo),因此,長期的生物醫(yī)學(xué)大數(shù)據(jù)課題項(xiàng)目是合理有效的能力培養(yǎng)途徑。
借鑒住院醫(yī)師的培養(yǎng)模式,我們認(rèn)為以實(shí)踐經(jīng)驗(yàn)為中心的實(shí)際應(yīng)用環(huán)境下的長期大數(shù)據(jù)分析課題項(xiàng)目,是生物統(tǒng)計(jì)學(xué)專業(yè)生物醫(yī)學(xué)大數(shù)據(jù)分析能力的有效培養(yǎng)途徑。基于此,我們做出了初步探討,制定了具體的培養(yǎng)方案(見表2)。

表2 生物統(tǒng)計(jì)學(xué)專業(yè)生物醫(yī)學(xué)大數(shù)據(jù)分析能力培養(yǎng)方案
從以上培養(yǎng)方案可以看出,第一學(xué)年,主要進(jìn)行常規(guī)的課程教學(xué),涵蓋數(shù)學(xué)、計(jì)算機(jī)基礎(chǔ)和素質(zhì)培養(yǎng)。學(xué)生對高等數(shù)學(xué)、線性代數(shù)、計(jì)算機(jī)系統(tǒng)、數(shù)據(jù)庫、演講與口才、溝通技巧等有了初步的掌握,目的是使學(xué)生構(gòu)建相關(guān)理論基礎(chǔ)知識,并提升交流表達(dá)能力等“軟”能力。第二學(xué)年,學(xué)生除了學(xué)習(xí)專業(yè)的常規(guī)專業(yè)課程(包括統(tǒng)計(jì)學(xué)相關(guān)專業(yè)課程、計(jì)算機(jī)編程和數(shù)據(jù)庫課程)外,還應(yīng)開展生物醫(yī)學(xué)大數(shù)據(jù)分析案例系列講座。其目的是在常規(guī)課程之外,讓學(xué)生通過案例,直觀地對生物醫(yī)學(xué)大數(shù)據(jù)分析有所了解,明白整個(gè)分析流程及所需要掌握的工具和能力,為后續(xù)生物醫(yī)學(xué)大數(shù)據(jù)分析課題項(xiàng)目的開展做鋪墊。同時(shí),應(yīng)開展生物醫(yī)學(xué)大數(shù)據(jù)分析課題項(xiàng)目的銜接課程,針對后續(xù)項(xiàng)目的實(shí)施推進(jìn)做準(zhǔn)備,將已經(jīng)掌握的常規(guī)課程內(nèi)容有針對性地轉(zhuǎn)換為課題項(xiàng)目所需的工具和能力。銜接課程大致可以分為三個(gè)部分,分別針對項(xiàng)目前期工作、中期分析工具方法和后期成果展示進(jìn)行靈活講授,目的是讓學(xué)生為后期直接上手開展課題項(xiàng)目打下基礎(chǔ)。第三學(xué)年,課程應(yīng)加深相關(guān)模型、算法和軟件實(shí)現(xiàn)的教學(xué),同時(shí)開辦生物醫(yī)學(xué)大數(shù)據(jù)分析應(yīng)用前沿系列講座。通過這些講座使學(xué)生在提高接受水平的同時(shí),對當(dāng)前生物醫(yī)學(xué)大數(shù)據(jù)分析的前沿應(yīng)用有全面的認(rèn)知,為學(xué)生開展課題項(xiàng)目工作提供與時(shí)俱進(jìn)的指導(dǎo)。生物醫(yī)學(xué)大數(shù)據(jù)分析課題項(xiàng)目從第三學(xué)年開始進(jìn)行,學(xué)生需要與對口醫(yī)療機(jī)構(gòu)合作,利用所學(xué)知識進(jìn)行真實(shí)環(huán)境下的大數(shù)據(jù)分析課題研究工作。該課題項(xiàng)目持續(xù)時(shí)間約兩年,學(xué)生將在實(shí)際應(yīng)用環(huán)境下完整經(jīng)歷前文所述項(xiàng)目的八個(gè)階段,全面綜合地培養(yǎng)學(xué)生的各項(xiàng)能力,積累實(shí)踐經(jīng)驗(yàn)。課題項(xiàng)目工作可以根據(jù)實(shí)際情況,與第四學(xué)年的實(shí)習(xí)和畢業(yè)論文(設(shè)計(jì))進(jìn)行合并,避免重復(fù)。
為了更好地促進(jìn)生物醫(yī)學(xué)大數(shù)據(jù)分析能力的培養(yǎng),各高校應(yīng)加強(qiáng)交流,取長補(bǔ)短。鼓勵(lì)學(xué)生有針對性地積極參與國內(nèi)外各類大數(shù)據(jù)分析建模競賽中的與生物醫(yī)學(xué)相關(guān)的競賽任務(wù),比如Kaggle和百度舉辦的各類大數(shù)據(jù)分析建模大賽。這樣不僅可以開闊學(xué)生的視野,還可以橫向比較,加強(qiáng)自我認(rèn)識。
從優(yōu)秀的生物統(tǒng)計(jì)師需要掌握的能力指標(biāo)體系來看,目前的培養(yǎng)方案存在不足,無法有效滿足生物醫(yī)學(xué)大數(shù)據(jù)分析的實(shí)際工作需求,仍需要畢業(yè)生通過工作經(jīng)驗(yàn)來填補(bǔ)。基于此,我們提出了一個(gè)培養(yǎng)生物統(tǒng)計(jì)學(xué)專業(yè)學(xué)生生物醫(yī)學(xué)大數(shù)據(jù)分析能力的新方案,借鑒住院醫(yī)師的培養(yǎng)思路,將實(shí)踐經(jīng)驗(yàn)的積累作為培養(yǎng)重點(diǎn),通過實(shí)際應(yīng)用環(huán)境下的長期大數(shù)據(jù)分析課題項(xiàng)目來實(shí)現(xiàn)。希望該培養(yǎng)方案不僅能在生物醫(yī)學(xué)大數(shù)據(jù)分析能力培養(yǎng)探索道路上邁出新的一步,還能拋磚引玉,帶來其他形式的創(chuàng)新實(shí)踐,旨在培養(yǎng)學(xué)生通過生物醫(yī)學(xué)大數(shù)據(jù)分析能力的訓(xùn)練,獲得積極的實(shí)際影響。