張 佳,王曉楠,陶潤儀,王芝馀,溫小鵬, 王健生,付軍科,張廣健
(1.西安交通大學第一附屬醫院胸外科,陜西 西安 710061 2.西安醫學院護理學院,陜西 西安 710021)
大數據時代的到來催生了多個領域的發展,它能夠將方方面面的信息進行數據化,使人們的生活變得快捷方便。面對具有容量大(volume)、運算速度快(velocity)、多樣性(variety)以及真實性(veracity)等特征的大數據,研究生的教育迎來了巨大的挑戰及機遇。近年來,多位學者[1-3]指出大數據平臺的建設是完善研究生教育的重要途徑之一,且在多個學科領域已在探索及應用[4],而醫學研究生作為高層次、高素質、高水平的研究生,不僅要培養其高超的醫學技能及道德品行,更要根據時代的變化使其掌握更多學習知識的途徑及信息處理的能力。目前,國內外對于醫學研究生應用大數據的研究多為經驗性的總結及理論上的指導[5-8],實際性的推廣應用相對缺乏。本項目組通過近幾年的探索,將前期總結的經驗應用于外科學專業學位的研究生,追蹤并比較其研究生取得的成果,以對臨床研究生課題研究思路進行準確的把握,對研究生教育應用大數據進行深入的洞察,并為今后的大數據應用提供數據支撐[9]。
本研究以西安交通大學第一附屬醫院為研究地點,采用分層抽樣的方法在胸外科、乳腺外科、普外科、腫瘤外科、肝膽外科及血管外科各隨機抽取5名外科學專業研究生,共30名。將30名研究生隨機均分為兩組,一組為干預組,干預組進行經驗推廣,另一組為對照組。
2.1.1 鼓勵導師提高自身大數據挖掘能力
導師在研究生的學業方面承擔著非常重要的地位,研究生課題的選擇及成果產出均與導師的指導有著密不可分的關系。因此,在對研究生進行臨床課題研究思路與指導的同時,更要注重對導師提高自身挖掘大數據的鼓勵。 導師應該掌握大數據科研方法,積極尋找大數據與自身所研究課題的結合點,關注國內外大數據研究的最新動向。具體方式表現為:①鼓勵導師參加針對大數據方向的學術講座,學習大數據方面的研究動向及前沿知識。②積極學習進行大數據處理的處理思路并掌握涉及大數據研究的統計學工具,例如Pathon軟件、R包等。③使用大數據思維設計課題并能夠將自身課題與大數據領域相結合。
在汲取大數據知識的同時,導師應該充分地對知識進行篩選及分類,從而幫助學生快速有效地獲取對自己課題有幫助的大數據模型。例如,在龐雜的R包中,導師能夠篩選出符合自身需要且是便捷而可用的R包,經學習后,能夠為學生演示并進行講解。此外,導師可通過網上公共平臺進行大數據方向的信息吸納,提高自身接受大數據知識的能力,從而更好地指導學生。
2.1.2 提高研究生利用醫學數據庫的能力
充分利用數據進行決策是大數據時代研究生教育的優先行動計劃[10],也是我國大數據時代背景下進行研究生教育改革的必然路徑。醫學研究生常用的數據庫包括經典的PUBMED數據庫以及GEO,Oncomine,SEER,TCGA,Genecard以及Protein Atlas等數據庫。其中,基因表達數據庫(Gene Expression Omnibus, GEO)隸屬于NCBI,是目前最全面、最大的公共基因表達數據庫,包括有雜交膜(filter)、高密度寡核苷酸array(HAD)和SAGE等許多類型的基因表達數據。指導研究生利用未被充分利用基因芯片的數據進行分析,開展課題研究。Oncomine是TCGA、GEO、ArrayExpress等數據庫經過一系列程序轉化后而形成的腫瘤方面的生物學信息數據庫。通過對研究生挖掘數據庫能力的培養,開拓其臨床思維模式。SEER(Surveillance,Epidemiology and End Results)數據庫于1973年由美國國立癌癥研究所(National Cancer Institute,NCI)所建立。它收集了大量關于腫瘤循證醫學方面的數據,通過在線注冊并獲得其權限,臨床醫師及相關研究人員可根據需要進行生存率、死亡率、患病率以及建立腫瘤預測模型等相關研究。美國癌癥研究所 (National Cancer Institute, NCI) 及人類基因組研究所(National Human Genome Research Institute, NHGRI)聯合建立了TCGA數據庫,該數據庫涉及轉錄組學、蛋白質組學以及基因組學,表觀基因組學等方面的數據,存儲的數據量超過了2.5PB,為外科學專業的學者及研究生進行DNA甲基化、原始測序數據、CNV等腫瘤方面的研究提供了大量的數據支持。此外,我們還充分利用醫院數據庫及公司數據庫為研究生提高選擇平臺。研究生可在設計外科學臨床課題時,通過所在醫院電子病歷系統進行資料的檢索,根據研究目的對數據進行篩選并進行相應的分析,最終得出研究結果。另外,有好多公司也建立了臨床研究數據庫,其中LinkDoc(零氪科技)不僅收集了我院腫瘤科室及多數外科科室的臨床數據,也與全國多家醫院的腫瘤科室進行廣泛而深入的合作,研究生可利用這種平臺進行入住我院患者的外科學臨床研究,也可以通過授權進行多中心的胸外科臨床研究。
2.1.3 提高研究生處理數據的能力
在龐大的數據庫中快速篩選出有用的信號能夠節省研究生大量的時間,提高研究生科學研究的自信心。因此,提高研究生利用計算機進行數據處理的能力對其課題的進展至關重要。培訓小組在前期通過線上分享辦公軟件、分析數據軟件等教學視頻,使得研究生能夠學習使用EXCEL,SPSS,Treeview等軟件,同時,在每一次的培訓開始前,對研究生使用軟件的熟練程度進行評價,確保其能夠熟練地使用該類軟件。此外,督促研究生學會利用網上數據庫提供的在線分析功能快速準確地分析數據,并將數據結果進行展現。
項目組成員首先經過前期知識及技能培訓并通過提取數據及數據分析等實踐考核。其次,確定每次開展培訓班的主題及培訓員,培訓班開展的頻率維持在每月至少一次。培訓班從“大數據時代如何利用臨床數據”的角度出發,內容涵蓋大數據時代臨床研究策略、臨床研究選題、研究方案設計、數據分析和論文發表等方面,主旨是將臨床和科研進行更好的結合,提高臨床工作者的臨床研究水平。同時,建立組會制度,每周三進行匯報及答疑。此外,我院較早地成立了臨床研究中心,臨床研究中心會定期舉辦臨床研究骨干初、中級培訓班,鼓勵研究生進行參加,并在組會上進行匯報。
2019年9月-2020年9月將以上經驗進行推廣,并將經驗成果應用于15名臨床研究生,收集干預組與對照組的臨床研究生論文發表、專利成果等科研相關成果取得情況。2020年因疫情影響,無法進行線下的培訓及組會安排,期間組建微信群進行隨時溝通,啟用微信公眾號進行科研拓展,并通過騰訊會議進行線上培訓及組會交流,并對研究生的課題進展疑問進行解惑。對數據進行分析后,結果顯示干預組相較于對照組,發表論文數量差異具有統計學意義(χ2=6.694,P=0.035),發表專利數量無統計學意義(χ2=0.536,P=0.4464),如表1所示。

表1 經驗推廣組與未進行經驗推廣組之間研究成果的比較
大數據時代使得信息的傳遞及共享更加便捷,且在醫學領域中應用是具有可行性的。本次實驗結果顯示進行經驗推廣組的研究生相較于未進行推廣的研究生,其研究生成果更為豐碩,說明應用大數據具有可行性,這與Vérène Dougoud-Chauvin[10]等人在TCC數據庫中匹配社區癌癥患者的臨床病例,并對符合條件的癌癥患者進行老年咨詢的結果一致。肖連杰等人[11]通過對學位論文數據庫—ProQuest Dissertations & Theses(PQDT)博碩士論文文摘庫對國外情報學研究生學位論文進行數據處理。結果發現,健康信息與生物科學研究、交叉學科研究以及大數據技術與信息安全研究已經成為研究熱點。因此,在醫學領域中應用大數據具有一定的探索性及研究價值。
本次研究結果發現,應用醫學大數據對于提高研究生的研究成果具有一定的意義。國內研究結果顯示,研究生通過挖掘海量的數據庫,能夠提高其自學能力及科研效率,即使不用去實驗室,也能寫出高質量的文章,且在挖掘及分析數據的過程中,其科研邏輯思維也被培養。Christos Vaitsis[12]通過對醫學教育的可視化分析結果顯示,大數據為醫學教育提供了新的工具及研究方向。李珍艷[13]等人基于大數據的博士學位攻讀年限監測預警分析結果顯示,博士學位論文水平隨著學習年限的延長呈下降趨勢,且博士生延期完成學業的影響因素包括導師指導方式、論文選題工作及科研成果發表要求等制度因素。因此,提高導師大數據科研能力,應用大數據平臺為研究生提供更多的論文選題,對研究生培養質量的提高有一定的促進。
研究生的科研能力和創新能力在一定程度上能夠反映高校教育及學術的水平,而研究成果是體現科研及創新能力最直接的指標。因此,可通過研究生的成果輸出量來評估研究生教育的水平高低。趙靖[14]等人通過對影響研究生教育質量的潛在因素進行分析,并將潛在因素進行有序 logistic 回歸模型分析。結果顯示,在研究生層面,志向繼續深造是最顯著的影響因素,其個人學術產出是沒有繼續深造志向學生的25.8倍。在導師層面,是否有國家/省部級項目對研究生成果具有相當大的影響。因此,在探索應用大數據的時候,應鼓勵研究生繼續深造學習及挖掘相關數據,同時,導師應充分學習,為學生樹立榜樣、言傳身教,并爭取更多的縱向項目為學生的科研提供有力的經費支持。
大數據為我們帶來新方向的同時,其所帶來的風險性也應值得我們關注,尤其是患者的隱私更應是我們醫療衛生工作人員所需保護的。針對醫療大數據所帶來的隱私及風險性,廖伊婕[15]等人的研究結果從技術及管理兩個方面給出了用戶隱私保護體系。包括健全保護隱私及數據的法律、法規,建立保護隱私防止數據泄露的評估機制,對數據的使用進行規范化,加強數據管理人員的自律性。同時,提高數據進行徹底銷毀的技術,加強保護數據及隱私的技術。從而能夠切實保護好患者及受試者等相關人員的隱私。
本次研究結果存在一定的不足,臨床研究生所發表的核心期刊相對較少,可能與研究生要兼顧臨床實習有關,也可能與研究生在校時期較短,培訓時間有限,研究周期較短,所學習的大數據內容不夠深刻且全面有關。且因受疫情所影響,線上進行培訓及交流的效果與線下所形成的效果對比仍待后期研究。在今后的研究中,將會適當增加研究時間,例如選擇碩博連讀的研究生等。同時,也會針對2020年度新型冠狀病毒疫情進行總結,為今后的線上培訓總結經驗。
《國家中長期教育改革和發展規劃綱要(2010—2020年)》提出要發展每一個學生的優勢潛能,而大數據平臺的應用提高了研究生的社會適應性及學術創新性,使研究生的培養呈現多向性。因此,在研究生的培養過程中應用醫學大數據,對研究生培養質量的提高具有重要意義。