李一晨,黃艷群,張志強,王牧雨,郜斌宇,陳卉
1.首都醫科大學 生物醫學工程學院,北京 100069;2.臨床生物力學應用基礎研究北京市重點實驗室,北京 100069
目前,深度學習方法在自然語言處理、多模態機器學習等領域中取得了顯著進展,但針對特定任務需要使用專有數據對模型進行訓練,耗費大量時間和經濟成本[1]。預訓練模型與微調相結合的方式是解決這一問題的常用方式,許多學者通過搭建預訓練模型處理電子病歷(Electronic Medical Record,EMR)[2-3]。EMR 是指通過信息化的醫療管理系統存儲管理患者的相關數據,包括住院史、病史和實驗室指標等,具有存儲成本低、便于管理等特點,有利于實現患者追蹤管理[4]。目前國內尚缺少可用于搭建預訓練模型的開放、大規模EMR 公共數據集,而國外已有如美國麻省理工學院發布的Medical Information Mart for Intensive Care(MIMIC)數據庫等公開數據集。然而,國外 EMR 數據庫與國內數據庫中臨床文本的語言不同,因此如果利用它們搭建面向國內 EMR 的預訓練模型時,需要解決臨床文本語言不同的問題。解決這一問題的方法之一是直接將英文文本翻譯成中文后用于搭建中文預訓練模型,但直接將英文文本翻譯成中文文本能否能表達原英文文本的語義和知識以及在機器學習任務中能否達到相同的性能等問題還需要探索?;诖耍狙芯恐荚谔骄繉⒂⑽奈谋緫糜诖罱ㄖ形念A訓練模型、將國外 EMR數據集用于搭建面向國內應用的預訓練模型的可行性。
本研究的數據來源為MIMIC-IV 數據集,其是一個多參數、結構化、包含圖像和文本等多模態數據的大型數據集[5],在去隱私化后對公眾免費開放,提供給全球的研究者進行研究[6-7]。由于數據集中的影像學報告均為胸部X 線片報告,因此本研究選取肺部疾病患者的文本作為研究對象。
根據患者的第一診斷提取患者記錄,將第一診斷為肺炎[國際疾病分類(International Classification of Diseases,ICD)第十次修訂本(ICD-9)編碼如481、486、4801 等;國際疾病分類第九次修訂本(ICD-10)編碼如J1000、J1008、J121 等)、氣胸(ICD-9 編碼如5120、5121、5128 等;ICD-10 編碼如J930、J9311、J9381 等)和胸腔積液(ICD-9 編碼如5119、51181、51189;ICD-10 編碼如J90、J910、J940、J942)的住院患者的X 線影像報告提取出來,并進一步提取影像報告中“影像所見”部分的文本,后續任務均基于這些文本。在提取數據并進行數據清洗之后,列入本研究的X 線影像報告共1986 份。在1986 份影像報告中,患者的患病情況如表1 所示。

表1 病例患病情況(分)
1.2.1 英文翻譯為中文
雙語評估替換(Bilingual Evaluation Understudy,BLEU)評分于2002 年由Papineni 等[8]提出,是廣泛應用于翻譯效果評價的指標。本研究測試了百度翻譯和谷歌翻譯對影像報告進行翻譯,并使用BLEU 評分對兩者翻譯結果進行量化評價,最終將BLEU 評分較高的翻譯工具提供的中文文本用于后續研究。依據BLEU 評分原則為1-gram、2-gram、3-gram、4-gram 分配不同的權重,并將1-gram至4-gram下的BLEU評分進行加權求和,結果如表2 所示。最終選取百度翻譯對影像報告文本的影像所見部分進行翻譯。

表2 不同權重下的BLEU評分(分)
1.2.2 分詞與向量化
對于中文版本的影像報告,采用jieba 分詞軟件進行分詞。在本研究中,通過閱讀X 線影像報告,人工記錄了報告中的專業詞匯,并將它們添加到詞典中,用于輔助jieba 分詞。對于英文文本,直接按照空格分詞。
使用Doc2vec[9]、詞頻-逆文檔頻率算法(Term Frequency - Inverse Document Frequency,TF-IDF)[10]、Tokenizer[11]和雙向編碼器表示(Bidirectional Encoder Representation from Transformers,BERT)[12]進 行 文本向量化。其中,對于英文文本,使用BERT-Base-Uncased 進行向量化;對于中文文本,使用BERTBase-Chinese 進行向量化,為了便于表述,以下統稱為BERT。使用Doc2vec、Tokenizer 和TF-IDF 向量化方法,將中英文文本嵌入為一個100 維的向量;使用BERT 時將每篇中英文文本轉換為一個256 維的向量。
在對中英文文本進行分詞與向量化之后,通過卷積神經網絡(Convolutional Neural Networks,CNN)、TextCNN[13]、Softmax 和隨機森林(Random Forest,RF)[14]進行疾病分類。
本研究設置了3 種二分類任務、3 種三分類任務和1 種五分類任務。二分類任務分別對肺炎-正常、氣胸-正常、胸腔積液-正常進行分類;三分類任務分別對肺炎-氣胸-正常、氣胸-胸腔積液-正常、肺炎-胸腔積液-正常進行分類;五分類任務則針對僅肺炎-僅氣胸-僅胸腔積液-患多種病-正常進行分類。由于BERT 向量化方法有較多參數,需要用較多數據進行訓練,因此本研究僅在樣本較多的胸腔積液-正常二分類任務(共1020 例樣本)和五分類任務(共1986 例樣本)上采用BERT 方法。各分類任務采用的輸入向量以及分類器模型整理如表3 所示。

表3 向量化、分類方法及其對應任務
以7 ∶3 的比例將數據集隨機劃分為訓練集和測試集。使用F1 值對分類模型在測試集上的分類準確性進行評估[15]。使用一致率和Kappa 系數對中英文文本分類結果的一致性進行評價[16]。Kappa 值>0.40 時認為一致性中等,Kappa 值>0.75 則認為一致性較高。
各個任務下,模型所得F1 值、一致率、Kappa 值如表4 所示,胸腔積液-正常二分類任務中,BERTSoftmax 在對中英文版本的影像報告的分類中,所得F1值(中文0.917 和英文0.948)明顯高于其他模型,得到一致率為0.922,Kappa 值為0.724。在肺炎-正常分類任務中,TF-IDF-RF 方案能夠得到較高的F1 值(中文0.834 和英文0.845),Tokenizer-CNN 得到更高的一致率(0.730)和Kappa 值(0.459)。在氣胸-正常分類任務中,Tokenizer-CNN 方案對于英文文本的分類能夠得到較高的F1 值(0.832);TF-IDF+Doc2vec-TextCNN與TF-IDF-RF 相比,前者對中文文本分類效果較好,后者對英文文本分類效果較好;此3 個模型得到的分類一致率范圍在0.801~0.819,Kappa 值范圍在0.203~0.312。在二分類任務中,中英文文本具有中等的一致性。

表4 二分類任務下各模型性能及結果一致性
三分類任務下各個模型的性能及結果一致性指標值如表5 所示,Tokenizer-CNN 模型在肺炎-氣胸-正常三分類和氣胸-胸腔積液-正常三分類中,F1 值高于其他模型。在各個模型下,一致率均可以達到0.65 以上,Kappa 基本可以達到0.40 以上,說明在此任務下中英文不同語言版本的影像報告具有中等的相似性。在肺炎-胸腔積液-正常三分類任務中,TF-IDF+Doc2vec-TextCNN 方案可以得到更高的F1 值,但3 個模型的性能均低于在其他兩個三分類任務中模型的性能,因此在此任務中中英文不同語言版本的影像報告的一致率和Kappa 值相對較低,中英文文本一致性差。

表5 三分類任務下各模型性能及結果一致性
在五分類任務中,BERT-Softmax 方案對中文文本進行分類的F1 值可達0.664,對英文文本分類的F1 值可達0.777,中英文結果的一致率為0.744,Kappa 值為0.638。說明在此任務中,中英文文本分類結果的一致性較高。
大規模訓練樣本是建立 EMR 預訓練模型的關鍵,在目前難以獲得可用的國內 EMR 數據集的情況下,利用國外公開的大規模數據集可作為一種備選方法。本研究將國外 EMR 數據集MIMIC-IV 中胸部X 線影像學報告的英文文本翻譯為中文,探究二者完成機器學習任務時結果的一致性,從任務的角度驗證中文譯文是否能保留原英文的語義和信息,目前尚無類似研究的報道。
在跨語言文本相似度的研究中,一些研究將不同語言的文本利用深度學習方法投影到雙語共享的同一向量空間,利用詞向量距離度量其語義相似度,并用于抄襲檢測等任務[20-21]。也有研究跨語言文本投影到獨立于語言的語義空間中,使用如余弦相似性[22]、Jaccard 相似性系數[23]等方式進行文本相似度的評估,以達到多語言文本進行主題分類、文本分類等目的[24]。本研究在將中文文本和英文文本分別投射到不同的向量空間中后,并不直接衡量文本間的相似程度,而是利用這些文本向量完成同樣的分類任務,對分類結果的一致性進行評價,因而是一種任務驅動的跨語言文本相似性評價,對利用英文文本的中文譯本建立機器學習模型更有借鑒意義。
在將醫療文本用于機器學習分類任務(如預測患者結局)時,影響分類性能的因素包括文本的嵌入(向量化)方法、分類算法等[25-26]。因此評價中英文文本分類的結果一致性時也需要考慮這些因素,特別是對文本的處理方法。有研究顯示,基于BERT 預訓練模型的文本向量化方法會帶來顯著的性能提升[27-28],而在本研究中也發現,采用BERT 預訓練模型進行文本向量化后,不僅分類性能高(F1 值最高可達0.9 以上),而且中英文文本分類結果的一致性也最高(一致率最高可達0.92%,Kappa 值超過0.7)。此外,從分類算法考察,對于同一任務,相比深度學習中的常規CNN 和用于文本的TextCNN,RF 算法反而可以獲得較高的結果一致性,而基于BERT 的文本向量化后,簡單的Softmax 分類函數就可達到最高一致性。
本研究存在以下不足:① 本研究的文本僅為X 線影像報告文本,醫療文本的來源和種類較為單一。后續的研究中將選擇更多類型的醫療文本(如CT 影像報告、病程記錄文本),進行更廣泛的對比、評價、驗證實驗。② 本研究使用適合大批量自動翻譯的機器翻譯工具進行翻譯,翻譯軟件的性能會對中英文文本的分類一致性產生影響,未來將在后續的研究中針對文本的特點結合領域知識改進翻譯的準確性。③ 本研究采用了任務驅動的文本性能評價方法,因此評價結果可能受到機器學習任務的影響,因而具有一定的局限性。
EMR 的應用場景較多,后續將設置更多任務(如聚類分析、評估患者相似性、預測患者結局等),本研究將國外 EMR 數據集中的英文文本翻譯為中文后,相當于擁有了類似國內 EMR 的大規模數據集,為建立國內 EMR 預訓練模型缺少大數據支撐這一難題提供了一種解決思路。
本研究結果表明,在二分類任務下,中英文版本影像學報告分類BERT-Softmax 模型可以得到一致率為0.922,Kappa 值為0.724;在三分類任務下,Tokenizer-CNN、TF-IDF+Doc2vec-TextCN、TF-IDF-RF 中英文版本的影像學報告分類一致率可以達到0.6~0.7,Kappa 值可以達到0.3~0.4;在五分類任務下,BERT-Softmax 得到中英文文本分類一致率為0.744,Kappa 值為0.638。針對特定任務,可以通過尋找合適的模型,使同源的中英文不同版本X 線影像報告在分類任務中表現出較高的一致性,證明將源于英文數據庫中的文本數據在翻譯后用于搭建面向中文預訓練模型具有可行性。