郭 峰,王 煜
中國醫科大學附屬盛京醫院急診科, 沈陽 110004
進入21世紀,“信息化”在我們的生產生活中扮演了重要的角色。而當代信息的具體體現形式就是大量的數據,具有代表性的是2008年由提維克托·邁爾·舍恩伯格提出的“大數據”概念[1]。關于大數據的應用,在很多行業都已經廣泛開展,如互聯網IT行業、產品銷售行業等[2]。但是,在臨床醫學及醫學教育行業,大數據應用還有待挖掘。中國醫科大學附屬盛京醫院急診科為臨床醫療一線科室、國家級住院醫師規范化培訓(以下簡稱“規培”)基地。筆者將急診醫療大數據與住院醫師規培課程建設結合,做一些相關探索性研究。
“規培”是目前西方國家主要實施的醫師培養方式,在歐美國家已應用多年。我國自2015年規培工作在各大醫院嚴格執行。在盛京醫院急診科規培基地,規培工作現已成為繼臨床醫療、醫學科研、本科生教學后的第四大工作內容[3]。規培涉及入科教育、過程培養、出科考試等環節。關于過程培養的具體形式,國家衛計委都有明確規定[4],具體為:除日常臨床學習過程外,每月規范教學查房4次,每月規培小講課4次。在其他專業規培活動中,培訓效果顯著[5]。急診專業因其自身特點,教學內容組織不能與其他專業相同。首先,急診患者就診都是以癥狀為主訴,無事先分診、無診斷傾向性、無重危狀態評估。這就決定了急診規培教育要以具體疾病癥狀為基礎;其次,急診科患者疾病不按器官、系統分類,疾病譜廣,涉及內、外、婦、兒下屬各三級學科。這種特點決定了急診規培教育不能以某一單一系統為具體范圍,需要涉及多學科;再之,急診科疾病還具有急、難、險、重的特點。這些特點是其他學科所不具備的,這對急診規培教學又提出了新的要求[6]。綜上所述,在有限的規培時間、有限的教學活動前提下,怎樣制定教學規劃及重點,既照顧全局內容,又能讓重點內容突出,是個現實問題。該研究根據醫院急診基地醫學大數據,即急診科的真實情況,探索了規培課程的規劃和重點課程建設方案。
盛京醫院于2016年被評為雙HIMMS7級醫院,信息化程度極高,已經實現了無紙化辦公。在日常的診療過程中,積累了大量的醫療數據,包括文字、影像、數字、視頻等。該研究利用急診病歷文字數據,研究急診患者中多發疾病、常見癥狀、急危重癥等的發病情況及構成比。根據真實世界的病例構成,制定和規劃規培課程重點教學內容。
從東軟公司HIS系統中提取中國醫科大學附屬盛京醫院急診科2012年1月1日至2017年12月31日共6年急診病歷的首次病程記錄,采用Windows 10操作系統,Anaconda 3集成編程環境,Python 3.6計算機語言及Pandas、Matplotlib等第三方庫進行數據分析[7],具體方法如下:
2.2.1數據導出及整合從東軟公司HIS系統導出的數據形式為Excel文件,鑒于每個Excel文件只能存儲病歷65 535條(2003版),大約是急診科4個月左右產生的病歷數。因此,為了能夠對6年數據進行分析,需要對多個Excel文件進行整合。先按4個月為周期,分批導出急診病歷,然后通過Python語言編寫數據連接函數,按列索引縱向連接各個數據表格,得到含有6年病歷數據的一個.csv文件,即待分析數據庫。待分析數據庫包含1 022 110條病歷數據,包括科室、患者姓名、門診病歷號、主訴、現病史、既往史、個人史、查體、囑托醫囑、就診日期及時間、診斷、接診醫師姓名共12個列索引,整體為二維矩陣結構。
2.2.2數據清洗病歷數據庫內容根據平時醫師接診患者時書寫的病歷自動生成,雖然醫院有病歷書寫相關規范,但由于急診工作繁忙,病歷質量仍有缺陷(如缺項、漏寫等)。這些空白項均可能對數據整體分析造成影響,也影響程序正常運行,故需先進行數據清洗。該研究是以診斷名稱序列為基礎,對診斷缺項的數據采取舍棄的方案。除空白項外,數據導出時因網絡錯誤等原因未能導出診斷名稱的病歷,系統會自動在診斷欄加入“診斷名稱”四個字,此類病歷同樣予以舍棄。
2.2.3數據重塑從待分析數據庫中提取診斷名稱列,作為分析對象。由于急診科診斷名稱庫并非標準診斷名稱庫,而且有自定義功能,在平時工作中有醫師自行根據具體情況寫入診斷,故須對清洗后數據進行重塑。具體方法按照以癥狀和病種為基礎的教學要求,參照醫師日常工作中對常見癥狀的診斷名稱進行總結,對單獨疾病或單類疾病診斷名稱進行規范,即將某一類癥狀或者疾病寫成正則表達式,表達式內邏輯關系為“或”,根據此正則表達式將同類癥狀或疾病賦予指定標準診斷名稱,并生成新的診斷統計序列,供計算、分析用。具體規范方案如表1所示。
2.2.4數據計算、可視化及分析規范后的診斷名稱按疾病特點及危重程度分為兩類:①癥狀描述診斷,如發熱待查、腹痛、抽搐等;②急危重癥,如休克、心肌梗死、呼吸衰竭等。編寫函數對具體診斷進行計數,并反復用函數對每個診斷名稱進行自動化計數,然后通過Matplotlib庫對計數結論進行可視化,生成統計圖和統計表,觀察各個病種的數量分布和構成比,并根據圖表規劃教學內容和重點。

表1 診斷庫診斷名稱規范方法
以癥狀診斷為計數基礎的診斷分布如圖1所示,排在前三位的分別為“發熱”“急性腹痛”和“創傷”,分別為191 780人次、159 798人次、108 820人次,構成比為293.61‰、244.64‰、166.60‰。

圖1 以癥狀診斷為計數基礎的診斷分布圖
以急危重癥診斷為診斷基礎的診斷分布如圖2所示,排在前三位的分別為“闌尾炎”“酸堿平衡紊亂”“腦梗死”,分別為6 285人次、6 087人次、5 432人次,構成比分別為:105.95‰、102.61‰、91.57‰。

圖2 以急危重癥診斷為計數基礎的診斷分布圖
根據上述結果綜合分析,擬定的急診規培課程綱要如表2所示。

表2 根據大數據擬定的急診規培課程綱要
急診醫學知識體系復雜,要求知識儲備多、涉及范圍廣。但住院醫師精力以及規培帶教時間均有限,不能把所有需要的知識都一一講授。所以,在龐大的急診醫學知識體系中,找出規培教學重點,是規培教學的一項新的挑戰。傳統醫學教科書對教學重點有規定,但由于規培作為畢業后教育,加上醫院所處地域、氣候、文化、人口構成等原因,傳統教科書并不能適合所有情況[8]。雖然國家衛計委制定了急診醫學專業的規培專用教材[9],包含7篇,140章,涉及疾病種類120多種,但也不可能在教學中完全同等對待。參加規培的住院醫師都已經完成了醫學本科課程,具備基礎的醫學知識,但還未經過實踐檢驗。醫學本科課程的基本思想是“大而全”,但臨床工作的基本特點是“細而精”,具體情況還要看具體的醫院、科室而定。所以,根據現實情況選擇重點教學是個很好的想法。但是,人的認知是有限的,規培教師的工作時間、工作經驗也不盡相同。故每個規培教師感覺的教學重點與真正的現實情況也不一定相同。在醫院目前的信息條件下,可以通過急診大數據獲得真實的信息,以指導規培教學工作。在該次課程建設方法的研究中,最大的優點就是真實,各個疾病的構成比完全根據真實數據記載而來,急診科接診患者的診斷類別得到真實表達[10]。可以粗略認為,急診工作中,患者患某種疾病的概率是多少,在實際臨床工作中有十分重大的意義。除此之外,能讓住院醫師在臨床經驗有限的情況下,提前了解現實工作的一些情況,對于教學也有重大意義。該研究將教學課程根據癥狀診斷和病種診斷分為兩個序列,根據構成比決定教學內容的掌握程度。常見病、多發病需掌握診斷、治療等全過程,而少見、罕見病只需掌握基本診斷方法即可。這樣可以使住院醫師有限的精力得到合理分配,避免浪費。但教學重點并非完全根據數量和構成比決定,在以構成比為基礎的同時,也參照了疾病的危重程度,避免了教條、死板的使用“大數據”[11]。
“大數據”雖能反映真實情況,但具體問題的決策,還是要作為教師的“人”來作出,這是我們在利用“大數據”時需要注意的問題。如該研究中,因疾病危急程度不同,并未把“闌尾炎”作為掌握內容。醫學科學具有很強的不確定性特點,急診科作為醫院的前沿陣地,通常治療的都是診斷不明確的患者。所以,急診科的病歷診斷有癥狀描述診斷,也有具體疾病診斷,但二者無法保證完全正確對應。如胸痛癥狀,可能對應心絞痛,也可能對應氣胸。故在制定規范診斷列表時,不能二者兼顧。根據癥狀的臨床思維教學和根據具體疾病的診治方法教學本身的側重點也不一樣,以上缺陷可能造成數據分析的不準確,但不會影響臨床教學。
眾所周知,雖然對于“大數據”本身,目前并沒有明確的定義,但醫療大數據具備的特點卻十分明顯[12]:①數量大。一般都在百萬條以上,占據TB級的硬盤空間。②數據種類多。數據多來自多個數據源(如化驗室、門診工作站、影像科等),同時包括結構化數據和非結構化數據。③數據處理速度快。雖然數據量龐大,但借助計算機工具,能夠做到數據的即時處理,即時得到結果。④數據真實可靠。醫療數據除病歷外,多為儀器、設備等自動檢測生成,自動化程度高,無篡改可能,病歷雖為人工書寫,但醫療病志為法律文書,醫院有嚴格規章制度對病歷書寫進行規范,且病歷書寫為臨床醫療服務,故可信性極高。⑤數據維度高。除上述特點外,醫療大數據還具有高維度的特點。醫療大數據基本以患者為基礎,而患者數據除基本信息外,每個化驗結果、CT影像序列、復查結果都會產生新的數據維度,使其數據結構更加復雜,分析難度加大。
基于上述特點,傳統分析工具是無法對大數據進行操作的。Python語言是目前世界上最流行的計算機語言,長于數據分析、數據挖掘、機器學習等領域,并且帶有豐富的功能庫,是大數據分析的有力武器。就該研究來看,面對結構復雜的醫療數據,聚合、清洗、重塑及計算過程均由Python及Pandas庫完成,操作便利、結果準確。同時,計算機強大的自動化功能在該研究也得以體現[13]。要想實現通過計算機語言進行數據分析,需要一定的編程能力。這對臨床醫師來說,是一項不小的挑戰。除此之外,想要獲得數據,需要醫院的信息化高度發達,各種臨床信息均在醫院數據庫有所記錄。
計算機、互聯網等現代工具參與具體工作,在當今時代環境下已經成為常態。但當代社會分工極細,如語言、計算機、教育科學等均自成專業。醫科大學附屬教學醫院的醫師,本身就具有多重身份。隨著規培工作的正規化,除了臨床醫師、醫學科研工作者、醫科大學教師外,規培教師的身份,也逐漸被重視。在這樣的多重身份條件下,利用現代信息工具為專業工作服務,將大大提高工作效率[14]。對于現代信息工具的使用,非計算機專業人員也許有一定難度,但面對現實情況,把自己培養成“一專多能”的人才,是大勢所趨。在精進自己專業的情況下,保持學習能力,不放棄對高級工具的學習,使自己適應時代、適應專業的要求,是當代高校教師應該具備的基本素質[15]。
在信息時代,數據更能客觀地體現真實情況,在有能力獲得數據并進行分析的情況下,以大數據為基礎,分析真實世界的情況,并以真實情況進行醫學教學工作指導的工作思想,值得在醫學教學工作中廣泛推廣。