上海市胸科醫院(上海交通大學附屬胸科醫院) 信息中心,上海 200030
近幾年來,由于檢查設備性能的提升和患者人數的增加,許多大型醫院的檢查科室運轉已達到滿負荷狀態。上海市胸科醫院作為診治胸部疾病為主的三級甲等專科醫院,2019年檢查人次已達70萬。而且受到檢查工作流程及環境等因素的影響,醫生在檢查時無法同步錄入診斷報告,如B超檢查、病理取材時,醫生因使用儀器而難以兼顧鍵盤錄入;放射閱片場景下,讀片醫生的注意力主要集中于對影像的觀察分析上,鍵盤輸入容易導致注意力分散。因此,大部分醫生需要通過事后回憶性錄入或配備助手協助轉錄的方式完成報告撰寫。據日本一項研究指出,74%的醫生認為現行鍵盤錄入的交互方式對診療工作產生了負面影響,包括工作效率降低、科室人力成本增加等[1-3]。因此,如何優化現有醫技科室的工作模式,在實現診療效率提升的同時減輕臨床工作壓力,是當前醫院發展中亟待解決的重要問題之一。
隨著人工智能技術的日益成熟,人工智能與醫療健康領域的融合也在不斷加深。智能語音識別作為人工智能技術之一,在輔助醫生病歷書寫、報告錄入方面應用效果良好[2]。Blackley Suzanne指出美國多家醫院放射科運用Nuance公司的醫療語音識別系統后,醫生報告錄入的時間縮短為原來的五分之一[4]。西班牙布宜諾斯艾利斯醫院對移動環境中的語音識別技術進行探索,識別率達到94.1%[5]。雖然我國對該領域的研究起步較晚,但發展迅速。根據世界產權組織近期開展的一項研究表明,中國的大學在人工智能,尤其是語音識別領域的創造發明顯示出強勁發展勢頭。工信部于2017年出臺了《促進新一代人工智能產業發展三年行動計劃(2018-2020年)》,其中明確支持發展智能語音識別交互系統[6]。
因此,本研究以上海市胸科醫院為背景,將智能語音識別技術作為切入點,構建醫技報告交互系統。通過與醫技檢查流程的緊密結合,實現檢查全程無接觸式語音輸入,使得醫生可以正確、高效地撰寫報告,并且對其應用情況進行研究分析,為語音識別技術在中文醫療領域的應用提供參考依據。
語音識別是指將人類說話的聲波轉換成可識別的文本信息,這項技術的重點在于如何使計算機聽懂人類的語言[7]。本研究所設計的醫技報告交互系統根據中文醫療領域相關標準及場景,定制專業模型實現語音信號的識別及轉換,從而輸出文本結果,具體流程見圖1。

圖1 語音識別流程框架
醫生的語音通過麥克風輸入后,先經過分幀、預加重等預處理操作后轉成數字信號,再利用端點檢測、噪音消除模塊進行處理,以確定語音起始及結束位置,并進一步消除由語音采集設備等外界環境因素引起的信號干擾[8]。接著將處理過的信號傳入特征提取模塊,把能有效反映語音特征的信息轉化成一組離散型矢量序列,壓縮封裝后傳送至識別引擎,開始語音識別搜索[9]。
識別引擎作為整個系統的中樞,分為醫療環境聲學模型、醫療語言模型、識別字典三個部分。醫療環境聲學模型基于隱馬爾可夫模型(Hidden Markov Models, HMM)構建,通過采集醫技科室真實音頻數據,對模型進行自適應訓練[10]。由于音頻中包含了真實醫療環境中的噪聲、采集設備噪聲及醫生個體發音習慣,因而訓練出的模型更加符合實際應用場景,極大地增強了該模型的識別性能。識別字典則由指令動作庫和標準醫學詞語庫組成,既包含了報告創建、保存等動作類操作指令,也涵蓋了ICD10、SNOMED等醫學領域的標準診斷及術語,有效解決了通用語音識別系統無法識別醫學專業詞匯的問題[11-12]。醫療語言模型主要負責句子的構成,能夠結合語法、上下文結構等要素來判定不同詞匯之間的聯結關系,從而將識別出的詞語最終組合成句[13]。為提高該模型的適用性,前期導入了醫技報告數據進行訓練,以使其返回結果時能夠優先輸出專業相關結果。
經過識別引擎處理后的數據將傳入語義理解模塊,該模塊是基于醫技科室報告錄入場景進行語義定制,能夠根據實際應用場景及內置醫學知識庫對結果進行語義分析,從而理解醫生意圖,以達到優化識別結果的目的。至此,系統完成所有語音識別處理步驟,輸出最終結果。
基于系統中預設的指令動作庫,通過語音代替鼠標,與醫技報告系統實現人機交互。當語音通過識別引擎轉化成文本以后,系統根據上下文語境、關鍵詞及光標位置等因素,綜合判定是否為文本輸出或執行具體操作命令[14]。此外,由于醫技科室業務不同,其檢查操作流程也大相徑庭。因此,本系統以科室為單位個性化定制相應的動作類語音操作指令,深度貼合檢查操作場景,實現B超、病理取材等全程非接觸式操作。以病理科為例,針對取材室的重污染環境,利用支架顯示器及腳踏板開關等設備,使醫生可以邊取材、邊錄入報告。首先,通過口述住院號檢索并選定患者,接著對該患者的送檢標本進行取材,在操作的同時可口述新增材塊命令在系統中依次添加材塊,再通過語音錄入具體取材描述內容,取材完成后口述打印包埋盒命令,最后將其儲存歸檔。

圖2 結構化報告錄入界面
語音錄入模式與現行結構化報告模板相兼容,實現結構化節點的語音自動填充,系統界面見圖2。
如圖2所示,醫生首先通過語音指令調出相應模板,再口述檢查具體數值,如右腎長徑10 cm,系統會自動將數值回填至對應的結構化節點內。該功能使得原有模板可以有效利用,同時也進一步提升了語音錄入模式與現行系統的協同性。
醫技報告交互系統自2019年12月在放射科、病理科上線以來,截至2020年1月底累計輸入約24.6萬字,統計情況見圖3。
因考慮到系統對醫生工作習慣影響較大,為保障科室工作平穩運行,采取了逐步推廣模式安排上線,本研究選擇先期上線的放射CT及MR報告、病理冰凍及常規報告作為應用場景進行統計。由圖3可見,經過前兩周的培訓及適應后,從12月16日開始,通過語音輸入的字數明顯增加,后續幾周一直保持平穩增長態勢。最后一周該指標下滑,是由于臨近春節檢查人數減少,工作量大幅降低所致。

圖3 放射報告及病理報告語音輸入字數統計
為進一步了解系統具體運行情況,本研究從撰寫冰凍病理報告的應用場景入手,在技術及應用效果兩個層面對相關指標進行深入統計及分析。
語音識別的準確性與系統可用程度密切相關,因此采用識別率作為評價指標,其計算公式為[15]:

利用系統采集的語音數據,對上線后1個月內每周的識別情況進行統計,見表1。

表1 病理科語音識別率統計
在系統上線之前,先將1年內各類型病理報告導入進行人工智能訓練,以確保系統對病理專業詞匯的初始識別率。上線第一周識別率較低,僅為74.67%,這是由于該系統對醫生的工作習慣有較大改變,運行初期尚處于磨合階段。此外,醫生口音也對識別準確性產生一定影響。從第二周起,識別單詞數、識別率均逐步上升,最后一周識別率比第一周提高了21.05%,這表明系統通過一段時間的自適應學習后,能夠有效克服病理科醫生的發音習慣、說話口音等個性化差異,系統體驗效果得到大幅改善。
為評價醫技報告交互系統的實際應用效果,對該系統上線前后的相關指標進行統計分析,見表2。
由表2可見,與傳統鍵盤錄入的模式相比,醫生通過語音錄入報告更為高效,記錄時長有所減少。而在報告審核方面,語音錄入報告所需審核時間則比鍵盤錄入略長,原因是醫生疲勞時容易產生聲調變化、饒舌等現象,導致語音識別的準確性有所降低,因此在審核階段,需要花費更多時間檢查校正。從整體而言,通過語音錄入的報告周轉時間較短,這是由于該系統的使用實現了病理科醫生邊取材、邊錄入報告的需求,有效縮短了取材時間,不僅降低了醫生的工作負荷,也增強了患者獲取報告的及時性。

表2 語音錄入與鍵盤錄入情況對比
本研究將智能語音識別技術與醫技報告系統相融合,醫生通過語音即可實現醫技報告的完整錄入。該系統的應用既有助于提高醫技科室的工作效率,又減少了病人的等待時間,對檢查醫療流程的優化起到了積極的作用,未來可陸續推廣到其余醫技科室全面應用[16-17],但仍存在一定局限性,比如同時有多位醫生使用語音錄入時,會造成互相干擾,導致識別結果不佳;對于一些未納入系統的醫學詞匯,容易產生識別錯誤[18-19]。因此,如何有效提高醫療領域語音識別的準確率將成為后續探索和研究的重點。