冷 冰
(安徽醫科大學,安徽 合肥 230601)
近二十年來,語料庫相關研究發展迅速,已成為語言學界重要的科研方向之一。許家金指出當今語言研究中,語料庫相關的研究與應用已引起了學界的廣泛關注[1]。醫藥相關語料庫指以醫藥相關話題為主題的語料信息集合,是專門化語料庫的重要分支之一。2022年,教育部高等教育司繼續提出高質量高等教育體系建設,深化“四新”建設,積極探索醫文融合的健康學科體系,啟動學科交叉的創新性研究。醫藥相關語料庫建設作為重要一環,可為醫藥相關研究的縱深發展提供新的數據發現點。然而,目前針對醫藥相關語料庫建設的研究分散在不同領域,采用的語料類型、標注方法,乃至以后的發展趨勢也尚不明確。
鑒于此,本文以中國知網、萬方、維普的期刊論文為數據來源,在CiteSpace的支持下,采用文獻綜述法總結國內2002年至2022年藥相關語料庫建設的特點與趨向,并提出些許建議。
本文采用系統文獻綜述與文獻計量分析結合的方法展現近二十年國內醫藥語料庫建設的研究現狀,采用CiteSpace計量分析工具整合文獻信息,客觀呈現領域內知識結構的發展進程。擬回答3個問題:
(1)語料采集的類型有何特點?
(2)語料標注的方法是什么?
(3)語料建設的發展有何趨勢?
文獻篩選自中國知網(CNKI)、萬方數據(Wan-Fang)、維普數據庫(VIP)。由于醫藥相關語料庫建設相關信息可能存在于以語料庫為研究方法的文獻中,因此以“語料”和“醫”相關的表達作為檢索詞,具體檢索篇名包含“語料”,且篇關摘含有“醫”或“藥”“病”“癥”“患”“診”“護理”的學術期刊,檢索式為TI=語料AND(TKA%‘醫’OR TKA%‘藥’OR TKA%‘癥’OR TKA%‘病’OR TKA%‘患’OR TKA%‘護理’OR TKA%‘診’)。檢索時限為2002-01-01至2022-12-31。初步檢索到498條相關期刊,經過NoteExpress軟件刪除重復文獻及不相關題錄175篇,剩余323篇。
本文對2002~2022年所發表的323篇文獻進行關鍵詞共現分析(圖1),按照話題中心度排名,前十名關鍵詞分別是:醫學英語、中醫英語、中醫藥、翻譯、中醫、醫患會話、教學、英譯、會話分析、詞匯教學,表明該領域的研究主題包括醫學英語教學、(中)醫藥翻譯及醫患話語分析。對所得文獻進行人工梳理,從語料類型、語料標注、發展趨勢三個方面進行綜述。

圖1 關鍵詞共現圖譜
1.語料類型:從單模轉向多模態語料
醫藥語料庫材語料選擇與研究主題息息相關,醫學英語教學與(中)醫藥翻譯相關主題往往采用傳統單模文本語料,而醫患話語分析主題則多采用多模態語料。
單模文本語料是指以文本為主要表現形式的材料。以醫學英語教學為研究主題的語料庫建設以學術期刊為主,如中美醫學論文英文標題語料庫[2]、國際醫學論文摘要語料庫[3]。(中)醫藥翻譯為主題的語料庫通常以雙語平行語料庫的形式出現,語料選自漢英對照叢書、經典原文及權威譯文,如英語叢書、教科書、工具書[4]、涵蓋多種醫藥學科的文庫[5]、《黃帝內經》等典籍漢英雙語書籍[6]。
多模態語料是指以音頻、視頻等多種信息整合的材料。目前,語料庫建設逐漸涉及醫療場域下的語言,包含醫患會話、特殊人群話語、電子病歷及醫學影像等。醫患會話以醫生或患者為話語主體,是醫患社會關系的重要參考,語料收集注重客觀性和多元性。學者通常整合不同級別下醫院的多個科室的真實醫患即時會話,采用多模態會話標注方法,如標注音律、體態語等人際交互要素,分析發現醫生會靈活使用人稱[7]、調整言語行為[8],以緩解患者的憂慮。特殊人群話語以特定疾病患者為話語主體,采用即席自然話語或任務誘導話語,如智力退化老人言語表現[9]、中國失語患者任務話語表現等[10]。此外,電子病例及其醫學影像話語,是生物醫學文本挖掘的重要資源,具有多模態實體對應的特點。一些學者分別就心血管疾病[11]、兒科疾病[12]以及甲狀腺結節[13]患者電子病歷及相關影像資料,構建相應疾病多模態語料庫。
就目前檢索到的文獻來看,多模態語料庫是語料庫建設的新起之秀,不僅能夠調用視覺、聽覺等感官信息,還能夠實現多模態語料與檢索及實體對應,后續可應用于多模態翻譯研究、多模態醫藥教學等。因此,醫藥相關語料庫建設應進一步挖掘多模態語料的深度和外延。
2.語料標注:從重復人工到智能識別
語料標注是指對語言樣本的屬性和特征所做的描述。語料標注方法因語料類型而各異。單模文本語料標注與雙語平行語料庫標注方法差異不大。目前,軟件輔助的文本標注方法成為主流,減少了人工標注的成本。劉建鵬通過UAM CorpusTool以及LIWC軟件對阿爾茨海默病患者話語進行功能詞和實體詞角度的跨語篇的特征描寫。李文通過EmEditor軟件去除信息雜質,再借助UAM CorpusTool中的TreeTagger軟件對收集的以XML為格式的現代醫學英語書面語語料進行詞性賦碼。
多模態語料標注涉及電子病歷、醫學影像以及特定疾病患者數據。電子病歷(electric medical record)是指醫療活動中產生的文字、符號等診療記錄。曲春燕開發實體標注工具,參照i2b2 2010(Informatics for Integrating Biology&the Bedside)評測數據構建規范進行標注,最終結果由IAA評價體系檢驗[14]。昝紅英采用最大雙向匹配對標注語料進行預標注,并采用專家多輪標注及協定的方式明確結果。此外,患者多模態數據標注也是重要內容。比如,陳珍珍采集命名性失語患者會話內容,通過CLAN(Computerized Language Analysis)計算語言分析軟件將會話、動作、表情等語料轉換為CHAT(Codes for the Human Analysis of Transcript)格式并進行自動標注,最終結果由MOR(Morphology)語法檢驗[15]。
當下語料標注技術吸收計算機技術已取得不小進展,但標注層級構建因研究視角及內容載體不同而雜亂無序,也無統一的建設與檢驗標準。以電子病歷標注為例,雖然腦卒中與甲狀腺疾病都能夠通過醫學影像體現,但因表征不同以及人們對素材的理解和分析遵循不同路徑,語料標注層級差異較大。因此,后續醫藥相關多模態語料庫建設應嘗試建設統一的檢驗標準,以保障后續語料庫信息化數據的延續使用。
3.發展趨勢:“醫+文”交叉成為主流
突現詞是指在一定時間范圍內使用頻次顯著上升的詞,體現該領域在一定時間范圍內的研究熱點以及未來研究趨勢。由圖2可見,2009年以前,醫藥相關語料庫建相關突現詞為教學、英語、詞匯教學、錯誤分析,表明早期專注(中)醫學語言教學,關注語言表層信息,可稱為語言教學研究期。2010年至2017年,突現詞有醫患會話、指示語、語步、醫學期刊、醫學英語、詞塊、英文摘要、護理英語、醫學論文、搭配、對比研究、英譯、翻譯、中醫英語,表明該段時間以醫學學術文本、醫患診療會話、中醫藥翻譯為重點,研究內容得到拓展和豐富,可稱為多體裁文本研究期。2018年以來,突現詞包含精準醫學、中醫、深度學習、自閉癥、自主學習、中醫藥、人際意義,表明該時期語料庫建設突破學科限制,運用計算機技術將語料庫應用于醫學實踐等領域,可稱為交叉實踐研究期。

圖2 突現詞演變
就當下而言,醫藥相關語料庫建設應用于精準醫學領域,體現在將醫藥相關文字信息化,關聯實體工具,用于臨床診治工作。醫學影像及其電子病歷的識別與標注是重要研究領域。蘇嘉提出適應中文特點的心血管疾病風險因素標注體系,構建了第一個中文心血管疾病因素的語料庫。昝紅英融合國內外醫學標準資源,構建了面向兒科疾病的醫學實體及關系語料庫與兒科醫學問答系統。此外,計算機輔助新視角給傳統醫學英語教學研究提供了新思路。比如蔡瑩基于ELAN構建小型醫護英語教學多模態語料庫,對師生話語、行為互動等進行反思,改變學習者被動聆聽的角色。周旭通過循證醫學專業語料庫,提升中醫藥本科生循證醫學英文寫作能力。
由此可見,醫藥相關語料庫建設逐漸向“醫+文”的學科交叉方向發展。但所建設的語料庫多局限于研究者使用,建設成果很少公開。實踐于臨床領域的醫藥相關語料庫以臨床診斷作為分類依據,建設主題多樣,需要多領域專業人士支持。然而,建設方法和程序未能公開闡述,給未來語料庫升級帶來不少困難。因此,后續醫藥相關語料庫建設,尤其是針對“醫+文”交叉領域,應相應地公開提供語料庫建設方法細則,持續更新語料庫資源,確保數據的適時性。
借助CiteSpace技術,本文梳理了近20年國內有關醫藥相關語料庫建設,發現:①多模態語料成為新的建設主體,但深度與廣度還需進一步拓展。醫藥多模態語料引起實體對應特性,逐漸成為多領域研究的重要載體,后續可對醫藥圖畫、醫學形象、臨床教學等語料進行分析。②計算機輔助標注與人工檢驗結合成為主流,但標注層級需標準化可檢驗。醫藥相關語料庫建設在計算機學科的支持下已取得提高效率和豐富內容的進展,但學者間研究視角及模態間內容差異導致標注層級紛繁復雜,后續研究亟須語料庫建設專家與醫藥領域專家聯手建設統一檢驗標準。③側重應用的“醫+文”交叉領域成為新的研究熱點,但其研究成果有待公開化。醫藥相關語料庫建設應用于精準醫學應用不僅推動臨床診治工作發展,而且賦予傳統研究新的活力,后續研究者應公開語料庫建設細則并持續更新。面對新醫科、新文科建設的訴求,醫藥相關語料庫建設不僅可以充分發揮語言學相關學科的效用,也能推動臨床相關學科及研究發展,值得關注。