999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

無菌條件非接觸式多通道自然交互手術環境*

2019-10-24 02:09:28陶建華楊明浩王志良班曉娟汪云海王紅遷韓志帥陳文拯
軟件學報 2019年10期
關鍵詞:融合手術模型

陶建華,楊明浩,王志良,班曉娟,解 侖,汪云海,曾 瓊, 王 飛, 王紅遷, 劉 斌,韓志帥, 潘 航, 陳文拯

1(模式識別國家重點實驗室(中國科學院 自動化研究所),北京 100190)

2(北京科技大學 計算機與通信工程學院,北京 100083)

3(山東大學 計算機科學與技術學院,山東 青島 266237)

4(陸軍軍醫大學 重慶西南醫院 信息科,重慶 400038)

1 介 紹

醫療衛生信息化建設進程使得外科手術向微創及精準化發展,同時,對手術的安全性和舒適性提出了更高的要求.下一代手術室功能不但要滿足手術需求,還要體現現代化醫院的設施水平、醫療水平和管理水平,同時還需要將潔凈化、數字化和人性化融為一體.現代化手術室建設涉及室內環境整合及控制、手術視音頻信號采集分配管理、手術及相關設備控制、醫療影像診斷資料的采集傳輸存儲、醫院信息系統集成及遠程交互等多方面的內容,是涵蓋醫院多科室聯合的綜合系統工程[1],歷史上的國內外手術室的發展歷程可大概分為4 個階段.第1 階段:傳統手術室,一般是僅能對病人實施局部麻醉的小手術,不需要太多的儀器設備的接入,信息基本都是人工采集記錄.第2 階段:現代手術室,一般都可實現對病人的復蘇照顧,部分信息化設備已經逐步加以應用,可做的手術越來越多且相對復雜.第3 階段:數字化手術室,起源于20 世紀90 年代,一般就是在目前潔凈手術室的基礎上,綜合應用各種信息化設備和軟件技術,實現通過設備來采集數據、監控病人狀態,部分遠程示教,實現部分信息的共享[2].第4 階段:智能數字化手術室,實現手術室內部的非接觸式手術識別,遠程示教、手術全過程信息的管理,達到手術醫生可不離開手術臺即可精準、實時地獲取病人的一切相關信息,醫生可通過信息實時、動態地掌握每一個手術詳細的細節,病人家屬也可相對更加詳細地獲得手術進度,下一步實現人與機器更加緊密的結合,共同完成手術[3].

在上述建設條件中,無菌和非接觸環境是構建醫療手術室的基本要求,這樣的要求使得計算機操作室和手術室通常在大多數情況下距離很近,但會在物理上隔離開.在手術中,主治醫生通常需要查看病灶圖像,如患者手術前圖像細節,如血管、神經、周圍臨近器官的空間位置等.結構越復雜的手術,主治醫生會在查看病灶上花的時間越多,以乳腺癌腫瘤手術切除為例,目前每臺手術在上述環節總體需要耗時20 分鐘~1 小時不等,患者手術時間延長會導致術中失血增多,臟器暴露時間長會增加感染,不利于患者的術后恢復,另外還會增加手術后并發癥的風險[4].傳統手術中,主治手術醫師通常是通過授意護士或者手術助理到計算機操作室操作病灶圖像.因為手術室和計算機操作室間的距離,以及手術室主治醫生和助理間不熟悉程度可能存在的意圖理解錯誤風險,容易導致患者手術時間延長、失血增多、臟器暴露時間長等風險,因此,盡量減少定位到病灶圖像的時間對于醫生和病人都很重要.

近年來,隨著人工智能技術的發展,如語音識別技術[5,6]、姿態跟蹤與理解[7-9]、手勢理解[10-13]、多模態信息融合技術等[14-19],這些技術與方法使得用戶可以通過非接觸式的方式與計算機交互,為建立新型無菌條件的非接觸式自然交互手術室提供了方法與技術上的可能.然而,在手術室環境中利用上述技術仍然存在許多挑戰:(1)手術室環境要求醫生的穿戴盡量簡潔;(2)手術臺面以及護士及助理使得主治醫生的姿態處于遮擋環境,為準確地進行姿態跟蹤帶來了挑戰;(3)因為手術環境血液污染等,為手勢跟蹤及手勢的準確理解帶了困難.盡管最新的人工智能技術取得了很大進展,但要很好地將這些技術應用到新型無菌條件的非接觸式自然交互手術室仍然存在諸多困難.有研究認為,恰當的多通道融合的交互方式在表達效率和完整性上都要優于單一模式[20],因此,如何在上述交互通道上,通過多通道信息融合的模式建立非接觸交互的智能手術室,提高手術環境下計算機對主治醫師的交互意圖理解,實現無菌狀態下手術器械及材料的準確傳遞與自然、高效率的病灶圖像查閱,在減少傳統手術室的過多人環節的同時合理縮短手術時間,提高各個環節的效率和質量,最大程度地消除無菌手術人員和非手術人員的交流障礙,實現手術室內部的非接觸式手術識別,達到手術醫生可不離開手術臺即可精準、實時地獲取病人相關信息,是下一代智能手術室的重要需求[1-4].針對上述需求,本文通過融合遮擋環境下的深度圖像人體骨架提取、手勢跟蹤與理解、手術室環境遠場語音識別,多模態信息處理與融合技術,構建了無菌條件下的非接觸式多通道自然交互手術環境,使得主治醫生在手術中可通過語音命令、手勢及上述幾種交互方式相結合快速定位到需要觀察的病灶成像.在接近實際的實驗環境中,本文建立的無菌條件的非接觸式多通道自然交互手術環境在保證精度的情況下,可顯著縮短病灶圖像的定位時間.

本文第2 節介紹相關工作.第3 節介紹無菌條件下的非接觸式多通道自然交互手術環境的技術總體框架.第4 節和第5 節分別介紹面向無菌自然交互手術室各單一通道技術、多通道信息融合相關理論與方法.第6 節介紹相關實驗、結果及分析.第7 節給出本文的總結及展望.

2 相關工作

無菌條件下的非接觸式多通道自然交互手術環境主要基于遮擋環境下的深度圖像人體骨架提取、交互手勢理解、手術室環境遠場語音識別,多模態信息處理與融合技術等技術構建.本節介紹相關技術工作,并分析目前相關技術用于自然交互手術環境所存在的挑戰.

2.1 遮擋條件下人體骨架提取

人體骨架提取算法主要依賴于光學相機所采集的圖像或視頻信息,利用圖像或視頻特征算子[21,22]獲取人體二維骨架.然而,此類算法所提取的骨架精度受限于特征算子應用假設的約束,且不可避免具有二維信息場所具備的空間局限性,無法表達三維相關的信息(比如遮擋),因此,難以滿足實際應用需求[23].近年來,隨著三維掃描技術的日益成熟,愈來愈多的算法利用三維深度信息提取三維人體骨架,通過融合激光掃描儀、深度相機等設備采集的三維信息,采用幾何處理的辦法提取人體三維骨架.目前,人體骨架提取的研究正逐步由靜態的簡單結構化場景向動態的非結構化群體遮擋復雜場景轉化,由二維骨架提取發展為三維骨架提取.然而,這類方法存在的問題在于:激光掃描儀不僅造價過高,而且所獲取的點云存在較多噪聲,難以與圖像信息匹配,不適合于復雜場景;深度相機由于其硬件的限制,僅能夠獲取一定范圍內的深度信息,且無法精細化處理遠距離場景下手勢等細粒度應用[24,25].

為了從無標記運動采集數據中提取精確的三維人體骨架,深度學習理論與技術的發展為解決這一問題提供了重要思路[26-28].Belagiannis 等人[29]基于手術室場景中布置的多個光學相機提取人體三維骨架,該方法首先構造手術室場景下的二維人體姿態庫,利用卷積神經網絡,根據目標檢測所獲取的人體提取相應二維骨架,然后基于條件隨機場(conditional random field)以結構化支持向量機(structure SVM)及將不同視角獲取的二維姿態對應到三維人體骨架.然而,該方法依賴于目標檢測算法,其分階段式的三維姿態估計(先估計二維姿態,再轉換成三維姿態)易造成不同階段的累積誤差.Kadkhodamohammadi 等人[30]探索了手術室場景下基于單視角RGB-D 提取人體三維骨架的算法,該方法拓展了傳統骨架提取圖結構(pictorial structure)[31]框架,利用RGB 信息構建表面模型以及三維深度約束構建形變模型,并提出了差分直方圖作為深度圖像的特征.同年,Kadkhodamohammadi 等人[32]通過結合卷積神經網絡提取特征表達、基于隨機森林的姿態及位置先驗估計以及多視角優化,更進一步地將該算法拓展應用至基于多視角RGB-D 的手術室場景.然而,此類算法受限于深度相機的數據精度以及深度學習所需要的標記數據.相比深度相機采樣尺度限制,二維圖像數據具備高精度、高清晰度等特性,能夠從多尺度適應手術室的復雜環境.盡管相關算法取得了一定進展,但要準確地從無標記運動采集數據中提取精確的三維人體骨架,依然是一個極具挑戰性的問題.

2.2 交互手勢理解

手勢交互首先需要識別人體手勢,常用的手勢識別算法可以是非模板匹配算法,也可以基于模板匹配.模板匹配算法不易混淆手勢,并且在訓練數據很少的情況下也能夠達到較高的準確率.Ruan 等人[33]從動態時間規整(dynamic time warping,簡稱DTW)算法的約束條件出發提出了放寬端點對齊和全局路徑限制的方案,針對DTW算法,其速度和準確率都有較大的提升.Chao 等人[34]在傳統DTW 算法的基礎上根據每個骨骼節點對手勢貢獻的不同分別推算了加權距離,提升了識別準確率,在復雜背景和光照方面有很好的魯棒性.Wu 等人基于DTW 和K-means 進行人體動作匹配和評估,完成了病人康復訓練系統.Pan 等人[35]利用改進的DTW 算法實現了在線人體動作識別,Hiyadi 等人[36]使用自適應滑動窗口與DTW 結合的方式,能夠識別出混合手勢動作中的所有簡單手勢.由此可見,DTW 算法無需過多樣本進行訓練,只需要確定好手勢模板,便能夠達到較好的性能,在手勢識別結果的混淆程度上也低于一般的非模板匹配算法,但是它無法識別連續的重復手勢,這將導致用戶無法對同一張圖片進行連續的放大、移動等操作.

在非模板匹配算法方面,Zhang 等人[37]通過支持向量機(support vector machine,簡稱SVM)對Kinect 產生的骨骼數據進行分類,目前已經實現了22 種姿勢的識別.Chen 等人[38]使用SVM 實現了實時識別人手畫出的0~9等數字以及26 個英文字母,Zhang 等人[39]使用隱馬爾可夫模型(hidden Markov model,簡稱HMM)[40]實現了手勢軌跡的識別,Song 等人[41]使用高斯混合模型(Gaussian mixture model,簡稱GMM)和HMM 完成了全身姿勢的實時識別,Wang 等人[42]使用卷積神經網絡(convolutional neural network,簡稱CNN)實現了大規模的連續手勢識別,Li 等人[43]使用主成分分析法(principal components analysis,簡稱PCA)結合CNN 實現了對中國人表達數字的相關手勢的識別,Chavan 等人[44]使用“隨機森林(random forest,簡稱RF)”對印度的手語手勢進行分類,在連續手勢中能夠提取表達手語意義的片段并顯示結果.這些非模板匹配算法在進行手勢識別之前都需要進行訓練,在識別過程中容易對連續手勢動作產生混淆,若手勢樣本過少,將對非模板匹配相關算法的性能產生很大影響.

2.3 遠場語音識別

遠場環境下錄制的語音會面臨非平穩噪聲和高混響的干擾,從而導致話音質量的下降,直接影響到語音識別的性能.在算法方面,基于麥克風陣列的波束形成技術已得到很多年的發展,需要解決的核心問題是協方差矩陣的計算和導向矢量的估計,比較經典的方法包括加權延時求和法[45]、最小方差失真響應法[46]、廣義旁瓣濾波法[47]、多通道維納濾波法[48]等.隨著深度學習在語音領域的廣泛應用,相繼有一些基于深層神經網絡的多通道語音增強算法[49,50]被提了出來,以實現對非平穩噪聲和非目標方向干擾源的抑制,但上述方法大多受限于硬件結構,其性能仍有較大的提升空間;遠場語音處理中的另一難點是混響抑制,不同房間對應不同的混響函數,仿真生成的混響數據和真實混響數據存在較大的差異,使得混響比噪聲更難處理,主流的混響抑制方法包括譜減法[51]、加權預測誤差法[52]、深層神經網絡法[53]等,上述方法雖然能夠抑制混響干擾,但當噪聲和混響同時存在時,算法性能明顯下降.通過前端和后端聯合優化建模是提高遠場語音識別性能的有效途徑[54,55].前端的信號處理技術一般只用到當前狀態下的語音的信號信息,這些信息的利用主要依靠對聲學物理規律的把握,并基于一定的假設,而機器學習的方法能夠利用很多的訓練集里學到的信息來建模,但是它一般不是基于物理原理的,對當前幀信息的使用比較弱.所以,把這兩種方法比較好地融合在一起是目前很多研究機構發力的一個方向.一種典型的方式是把前端的信號處理與后端的語音識別引擎進行更好的聯合優化[56],前端信號處理有可能丟失信息且不可在后端恢復,而分別優化的策略可能對于前端來說是最優的,但對于整個系統未必是最優選項.因此需要一種有效的建模方法,以使前端可以有效提升信號質量但同時比較少地丟失信息,而把一些剩余的噪聲留給更強大的后端來處理,從而提升整體性能[57,58].

2.4 多模態信息處理與融合

多通道信息融合方法按照發生的時間順序,可以分為前期融合和后期融合;按照信息融合的層次來分,融合可以分別發生在數據(特征)層、模型層及決策層;如果按照處理方法來分,可分為基于規則的融合,或者基于統計(機器學習方法)的融合.也有文獻根據多通道信息的相關性,把它們的關系分為信息互補、信息互斥、信息冗余這樣幾個特點,然后根據其信息特點分別加以融合.

數據層、特征層、決策層的融合方法偏重于模型的設計,同時,在多模態信息融合的計算方法中大都通過采用基于統計和機器學習的方法進行模型的構建,如貝葉斯決策模型、神經網絡模型、圖模型等等.貝葉斯決策模型的特點在于其能夠根據不完全情報,對部分未知的狀態采用主觀概率估計,然后用貝葉斯公式對發生概率進行修正,最后利用期望值和修正概率做出最優決策[59].在多種通道信號聯合分布概率部分已知的情況下,貝葉斯決策模型可以根據歷史經驗反演得到某些缺失的信號,從而得到整個多通道信號融合整體最優評估.傳統的神經網絡模型在非線性函數擬合方面表現出很好的性能,并在單一通道的信息處理上,深度神經網絡模型取得了很好的效果,因此,很多研究者希望綜合不同的神經網絡模型,如LSTM、CNN、RNN 結構,構建面向多通道信息融合的大規模深度神經網絡模型,力圖在融合階段無差別地處理多通道信息.圖模型將概率計算和圖論結合在一起,提供較好的不確定性計算工具,其構成上的節點以及節點之間的連線,使其在計算變量與周圍相連變量的關系上具有一定優勢.相對于無向圖模型,有向圖模型節點之間的連線不僅記憶了數據流向,還記錄有學習過程中的狀態跳轉概率,有向圖模型除了可以用于不確定性計算外,還可用于面向時序問題的決策推理,如基于動態貝葉斯模型模仿產生人類對文字的書寫過程[60]等.除了以上多通道信息融合計算模型外,還有很多其他模型也用于多通道信息融合,如多層支持向量機、決策回歸樹、隨機森林等方法.

3 研究框架

整個算法框架如圖1 所示,輸入部分主要為包含姿態、手勢、語音的3 個主治醫師交互通道信息.姿態模塊用于在遮擋條件下準確地提取人體的框架,進而識別出醫生的姿態;手勢模塊用于獲取醫生的手部動作并識別出特定的手勢;語音模塊完成基于麥克風陣列的遠場語音識別,并轉化成指令.3 個輸入模塊的信息進行多通道的信息融合,實現醫生的意圖分類和理解,將分類結果通過交互界面反饋給醫生,下面分別介紹各單一模態信息處理技術及信息融合方法.

Fig.1 The framwwork of non contact multi-channel natural interactive surgical environment under eterile condition圖1 無菌條件非接觸式多通道自然交互手術環境整體研究框架

4 無菌條件下的不同通道信息感知方法

4.1 手術室遮擋條件下人體骨架準確提取

手術室場景存在較多的環境干擾(比如非自然燈光、復雜手術設備以及缺乏紋理信息的手術服),且場景中醫生、護士、病人等人員彼此之間存在大量復雜的遮擋及自遮擋關系,是動態的非結構化群體復雜場景.因此,如何在手術室群體復雜場景下高精度地提取人體骨架是一個極具挑戰性的問題.另外,手術室場景具有環境多樣、遮擋復雜等特性,除此以外,由于手術情況下應該盡可能地減少“侵入性”設備的使用,手術場景下的數據采集系統通常都是無標記的運動采集系統(比如光學相機、深度相機),給手術場景下提取人體三維骨架提出了更高要求.因此,我們認為手術室場景應該充分利用光學相機采集的二維圖像信息.然而,由二維圖像估計三維人體骨架是一個病態問題,盡管深度學習為解決該問題提供了有利工具,但卻面臨著三維姿態訓練數據缺失的問題.為此,我們提出了一種全自動的、大規模人體姿勢空間采樣并生成人體三維姿勢訓練集合的算法,基于深度學習端對端特性從單張二維圖像中全自動地提取三維人體骨架.該算法主要涉及人體三維姿態數據集合成、人體三維姿態回歸以及人體三維骨架提取這三大步驟.

(1)人體三維姿態數據集合成

針對三維人體骨架訓練數據極難標注的問題,我們在三維模型集合上大規模地渲染人體圖片及相應骨架標簽.我們認為,合成數據集中的人體姿態分布應當與真實圖像中的人體姿態分布相一致.為了更為完整地覆蓋整個人體空間,需要根據已有動作推斷自然連續的未知動作.我們發現,自然動作往往與聯合變化的人體部位相關(比如胳膊的前臂和后臂),可通過組合人體部位生成新的姿態.因此,我們利用基于運動捕捉設備捕獲的姿態以及二維圖像中恢復的姿態為樣本,學習了一個稀疏的、非參數化的貝葉斯模型[61]以分解人體姿態表達,通過組合人體子關節結構生成新的姿態,從而生成更為豐富的模型表達.由此獲取的人體三維姿態利用現有算法(如SCAPE 模型[62])生成三維模型,通過添加不同的紋理貼圖能夠生成豐富的人體姿態圖像.經過人體姿態采樣與紋理遷移后,我們能夠合成不同姿態、不同紋理的人體模型,通過改變渲染視角、渲染背景燈,能夠合成與真實圖片高度一致的二維圖像.多樣化二維圖像與人體三維姿態的對應,為基于深度學習的單幅圖像三維人體骨架的提取提供了數據基礎.

(2)人體三維姿態回歸域遷移網絡

為了避免由于真實圖像與合成圖像的差異所帶來的過擬合、最大優化訓練性能,我們提出一種域遷移網絡回歸真實圖像中的人體三維姿態,其核心思想在于將渲染圖像與真實圖像投影到相同特征空間,從而縮小渲染圖像與真實圖像集之間的分布差異.如圖2 藍色虛線部分所示,該域遷移網絡主要包括3 部分結構:特征提取器、姿態回歸器以及域間分類器.特征提取器主要負責提取圖像特征,采用了AlexNet[63]的conv1 到pool5 層作為特征提取網絡(這里可用其他卷積神經網絡代替).該特征被同時輸入至姿態回歸器及域間分類器,其中,姿態回歸器用于判別三維姿態.域間分類器用于判別高維特征的真實性,以促使特征提取器提取與真實圖像一致的特征.

域遷移網絡采用對抗網絡分階段訓練思想訓練模型,輸入包含具有三維姿態標簽的渲染圖像以及沒有三維姿態標簽的真實圖像.訓練分為兩個階段:第1 個階段(圖2 上半部分所示),我們固定特征提取器,輸出特定的特征用于訓練姿態回歸器和域間分類器.姿態回歸器用于回歸三維姿態,域間分類器用于判別圖像類別(即真實圖像還是合成圖像).第2 個階段(圖2 下半部分所示),我們固定域間分類器,訓練特征提取器和姿態回歸器.這里,要求特征提取器輸出一種新的特征,該特征能夠保持下述約束:(1)可用于姿態回歸器回歸三維姿態;(2)域間分類器能夠依據該特征輸出(0.5,0.5)的類別判斷,該約束的目的在于“迷惑”域間分類器,使其無法判別出圖片類別.訓練域遷移網絡至域間分類器無法判別圖像類別,則說明真實圖像和合成圖像的特征屬于同一特征空間,縮小了合成圖像與真實圖像特征之間的差異.該過程域遷移網絡整體損失函數如公式(1)所示,Lreg為回歸損失(即所估計的三維姿態與真實三維姿態之間的距離),Ldomain為域遷移損失(分兩階段訓練,其中,第1 階段固定特征提取器參數,目標是獲得不錯的姿態回歸,并能夠區分渲染圖像與真實圖像;第2 階段固定域間分類器的參數,目標是獲取新特征,混淆域間分類器).

(3)人體三維骨架提取

對于人體三維骨架提取,我們采取AlexNet[35]網絡結構,利用生成的渲染數據及人體三維姿態坐標去訓練新的模型.為了使現有網絡結構適應于人體三維姿態估計任務,我們修改了這些網絡的最后一層,使其能夠直接輸出三維坐標,并在推斷的三維骨架和真實三維姿態中間添加一層歐幾里德損失函數(見公式(5)),在訓練過程中對全連接層進行微調以使得參數從一個良好的初始值去適應新的面向手術室的人體三維骨架提取任務.

Fig.2 Occlusion-oriented skeleton extraction domain migration network圖2 面向遮擋添加下骨架提取的域遷移網絡

4.2 交互手勢理解

為了準確理解無菌條件下的醫生交互的手勢,本文在一般改進的DTW 算法的基礎上,采用基于后驗處理的優化方式,該方式通過參數調控、無效區域判定以及靜止手勢處理對DTW 的輸出結果進行修正,加快DTW的執行速度,將混淆手勢作為無效手勢處理,提升了手勢識別率,并能夠實現DTW 算法無法處理的連續重復手勢的識別,在實時性方面亦有較好的表現.

(1)手勢特征提取

Kinect 骨骼系統提供了20 個關節點的三維坐標信息,如果將所有關節點都作為特征點,計算會過于復雜,關節點之間也會相互干擾.因此,本方法舍去了一些在手勢序列中作用不明顯的骨骼關節點,降低了計算的復雜度,提高了識別速度.定義了7 個常用操作手勢,分別為右手向右滑動、右手向左滑動、右手向上滑動、右手向下滑動、雙手向外擴張、雙手向內收攏、左手向左滑動.在這7 種手勢中,最重要的參考節點為右手關節、右肘關節、左手關節、左肘關節、雙肩中心以及脊柱中央這6 個節點.記第t幀編號為i的關節點的坐標為分別表示第t幀編號為i的關節點在以Kinect 為原點的三維坐標系下的x,y,z的值.

由于在手勢操作過程中變化的點僅為右手關節、右肘關節、左手關節、左肘關節,因此以這4 個節點作為特征向量,雙肩中心及脊柱中央節點作為參考節點,第t幀的特征向量S可表示為

式(8)中,xsc,t,ysc,t,zsc,t將節點坐標進行歸一化,記歸一化后第t幀編號為i的節點坐標為

則第t幀進行中心化和歸一化的特征向量V可表示為

(2)手勢模板序列的訓練

本文采用DTW 進行手勢模板序列的訓練.DTW 算法的核心是將測試序列與模板序列進行匹配,因此,手勢模板的選擇將會很大程度上影響匹配的結果.本文用如下方法來確定手勢模板序列,每個模板序列長度均為20幀.設樣本序列k=(V1,V2,V3,…,V20),根據已經定義的7 種手勢動作,每種手勢采集n個樣本K=(V1,V2,V3,…,Vm,…,Vn).對于每個樣本km,依次與其余n–1 個樣本使用DTW 進行匹配.記待測樣本km與樣本k1,k2,k3,…之間的DTW距離為d1,…,dm,則待測樣本km的累計規整距離為然后對每個手勢類別下的樣本進行計算,便可確定所有類別手勢的模板序列.

將每一個樣本均使用式(11)計算其累計規整距離D1,D2,D3,…,Dn,累計規整距離越小,說明樣本的代表性就越強,并以此作為確定所有類別手勢的模板依據.

4.3 基于麥克風陣列的遠場語音識別

針對手術室環境這一特殊的應用場景,因為醫生難以通過手持麥克風直接進行語音交互,同時,頭戴式麥克風目前也不是國內外手術室的基本配置,因此需要選擇麥克風陣列作為拾音設備,采集不同方位的語音進行增強處理,在此基礎上識別音頻中的內容.本文采用這種端到端的建模方法以提高手術室這種復雜環境下語音識別的性能,從而實現在手術室環境下,醫生能夠釋放雙手進行語音交互.

(1)語音前端處理

語音前端處理模塊的順序是回聲消除、混響消除、波束形成、增益控制,然后在此基礎上進行后端處理,接下來介紹采用這種順序的原因:回聲消除模塊有參考信號源(比如遠端喇叭播放的手術控制指令)可以參考,通過回聲消除模塊可以剔除遠端信號的干擾,遠端信號的干擾(比如播放手術控制指令)會影響到混響消除和波束形成算法的性能,因此,對于每一路麥克風,首先進行回聲消除以消除其中一個干擾源的影響.在此基礎上進行混響消除,混響消除放到波束形成之前的原因是混響與房間的特性相關,不同麥克風之間的關系可以反映出這種空間特性,因此,采用多通道混響消除方法;然后對多通道信號進行波束形成,生成單通道的信號;再對波束形成后生成的單通道信號進行后置濾波,消除殘留噪聲的干擾.聲音在傳輸過程中可能會存在能量的衰減和溢出,通過增益控制算法對能量進行控制,生成最終經前端處理后輸出的語音,用于后端語音識別或指令詞識別的處理.語音前端處理流程如圖3 所示.

(2)語音后端建模

面向手術室環境的語音識別系統由聲學模型訓練模塊、語言模型訓練模塊和超大空間解碼3 個相互制約的部分組成;聲學模型訓練模塊通過深度學習方法提升語音識別器的聲學模型的泛化能力;語言模型訓練模塊通過融合Grammer 和N-gram 信息的方法在大規模數據集下訓練魯棒的語言模型.超大空間解碼子系統針對戰場環境的特點,通過高效約簡的解碼算法,快速、有效地從復雜搜索空間中確定最優路徑,保證語音識別器的準確率和運行速度.語音識別系統能夠支持在線對聲學模型和語言模型更新,從而提高對特定環境的適應能力.多通道語音識別流程如圖3 所示,聯合通用領域的聲學模型和面向手術室環境的解碼網絡進行語音識別,通過并行訓練方法訓練基于深層神經網絡的聲學模型,通過遷移學習機制,實現對領域知識的更新,快速構建面向手術室環境的解碼網絡,面向手術室環境域的語音識別解碼方案如圖4 所示.

Fig.3 Far-field speech recognition front-end flow operating圖3 遠場語音識別前端處理流程

Fig.4 Speech recognition decoding for processing room environment domain圖4 面向手術室環境域的語音識別解碼

5 多通道信息融合方法

無菌手術環境中,在非接觸式的自然交互情況下,由于語音識別的錯誤、姿態、手勢受到遮擋,因此,交互系統難以統一單一模態信息,精確地判斷醫生的操作意圖.為了提高交互系統中對醫生意圖識別的準確率,我們將多模態信息融合的不同策略引入神經網絡模型.隨著計算機技術和深度學習的快速發展,結構更深的神經網絡模型在語音識別、人機對話、機器翻譯、語義理解、目標識別、手勢檢測與跟蹤、人體檢測與跟蹤等領域得到廣泛應用.如在情感識別領域,采用相似度評估,目前采用深度長短時記憶神經網絡模型(long short-term memory neural network,簡稱LSTM)由計算機運行后得到的最好結果與專業人士識別相差10%左右[64,65];在語音識別領域,目前針對方言口音的語音識別,深度遞歸神經網絡(recurrent neural networks,簡稱RNN)在字識別準確度上可以達到95%[66],接近人類水平;在圖像目標識別領域,超大規模深度卷積神經網絡(convolution neural network,簡稱CNN)已經超過普通人類辨識水平[67,68].深度神經網絡模型技術在單一通道的數據處理上已經取得很好的成效,但是,如何構建面向多通道信息融合的大規模深度神經網絡模型,在融合階段無差別地處理多通道信息仍然是目前研究的熱點問題.

為了更為精準地實現交互系統在手術室環境中對醫生意圖的識別,將多模態信息應用于深度神經網絡,考慮到不同通道圖像、語音、手勢、生理信息的差異性,因此,在融合結構上,通過在特征層進行融合,具體的融合策略的抽象表示如圖5 所示.

Fig.5 Multi-modal information fusion for operating room environment圖5 面向手術室環境的多模態信息融合

圖像數據主要是用于手術室復雜場景下人體的骨架提取,采用深度學習端對端特性從單張二維圖像中全自動地提取三維人體骨架特征,該特征包含了54 維參數的人體骨架特征;手勢數據對應為Kinect 獲取的手勢信息,由于手勢操作主要是通過觀察人手的右手關節、右肘關節、左手關節、左肘關節而實現,故我們將這4 個節點作為特征向量,雙肩中心及脊柱中央節點作為參考節點,構建20 維特征向量作為手勢特征;將采用麥克風陣列進行遠場語音識別獲取的數據作為音頻數據,通過構建端到端的建模方法在每幀的音頻數據中提取64 維的音頻特征.在多通道信息特征提取的過程中,由于不同通道信息數據采集的頻率并不相同,因此需要對不同通道的數據進行不同的采樣,并加以特征融合,構建融合特征向量,然后采用深度學習的方法對特征向量進行分類,以判斷當前狀態下醫生的意圖.

6 實 驗

6.1 人體骨架結果及分析

6.1.1 定量結果分析

(1)人體三維骨架提取結果分析

如前文所述,訓練數據集的好壞直接影響到卷積神經網絡提取人體三維骨架的性能,該算法的核心貢獻在于提出了一個大規模人體三維骨架數據集.為此,我們用不同的標準化卷積神經網絡模型(Li14[28]、AlexNet 以及VGG[69]),分別在經典Human3.6M 數據集[70]、我們的數據集以及二者混合這3 個數據集上對人體三維骨架網絡進行訓練,并在Human3.6D+測試集評估各種方法及數據對應的人體三維骨架提取性能.如圖6 中左圖所示結果,用本文數據集訓練的模型要優于用Human 3.6M 數據集訓練的模型;Human3.6D+數據測試集合中圖像的變化更為豐富,表明本文所合成的數據集能夠更好地訓練模型學習這些變化.

Fig.6 Quantitative results analysis圖6 定量結果分析

圖6 的左圖分析了在運用不同卷積神經網絡模型的情況下,本文方法與Human3.6M 數據集在Human3D+測試集上生成的人體三維骨架測試結果;右圖為域遷移網絡結果分析,通過對不同方法使用混合數據(合成數據以及/或者真實數據)分析域遷移網絡性能.可以看到,本文提出的域遷移網絡不需要真實圖像的三維人體姿態標簽,因此,在訓練過程中可通過添加大量真實圖像抑制過擬合現象.如圖6 中右圖所示,經過域遷移網絡訓練的合成圖像及三維姿態,其模型在基準卷積神經網絡模型上有著極大的提升,僅次于使用真實圖像及真實三維姿態的結果,并且,網絡結構明顯優于經典域遷移網絡[71].其原因在于,域遷移網絡能夠訓練出更好的特征提取器,從真實圖像和合成圖像中提取出更為有意義的特征.

6.1.2 定性結果分析

利用深度學習由二維圖像生成三維人體骨架,核心在于構建大規模二維圖像與相對應的三維人體姿態標注數據集.因此,我們構建了Human3D+數據庫,該數據庫包含1 574 幅豐富的人體運動動作二維圖像及三維人體姿態坐標,能夠較好地描述真實圖像的分布.除此以外,我們根據現有人體三維骨架數據庫中的姿態數據,合成了10 556 個具有獨特紋理及姿態的人體模型,經過背景與光照渲染,合成5 099 405 幅訓練圖像用于網絡訓練.

對于單幅二維圖像,可利用本文提出的算法獲取三維人體骨架.圖7 展現了一組從單幅圖像生成三維人體骨架的實驗室結果,其中第1 列和第3 列為輸入圖像疊加了人體骨架的圖像(圓球為人體主要關節點),第2 列和第4 列為利用現有算法(如SCAPE 模型)匹配并重建的三維模型.

Fig.7 Extraction effect of multi-human skeleton with partly occlusion圖7 遮擋條件下的多人骨架提取效果圖

6.2 手勢提取結果及分析

6.2.1 正確性驗證

為了驗證本文基于后驗處理的DTW 優化方法仍具有較高的可行性,首先對孤立手勢識別的正確率進行驗證.本系統定義了7 種操作手勢,圖8 展示了實驗所用手勢的示意圖.每幅圖片右上方顯示出對應的手勢動作,“NoGesture”表示手勢落在無效區域內.

Fig.8 Gesture schematics and invalid areas圖8 手勢示意圖及其無效區域

使用傳統DTW 算法、文獻[42]提出的改進DTW 算法和本文基于后驗處理的DTW 優化方法分別進行實驗,按照識別出來的獨立手勢名稱進行統計,其混淆矩陣對比情況見表1.

由混淆矩陣對比可以看出,傳統DTW 算法在進行連續重復手勢處理時,無法區分正確手勢與無關手勢,從而導致系統執行了非常多的錯誤指令,其指令正確率幾乎都低于50%,對于雙手動作的指令正確率更是低至42%.文獻[42]提出的改進DTW 方法對連續重復手勢的處理效果比傳統DTW 略有提升,基于后驗處理的DTW優化方法對于連續重復手勢的處理效果則要好得多,指令正確率普遍高于96%.使用G-Mean 指標作為識別結果好壞的評價標準,分別用指令正確率IA 和識別率RR 代替式(24)中的召回率REC,則可以得到“指令正確率”和“識別率”的G-Mean 值,以此作為綜合指令正確率和綜合識別率.經計算后,傳統DTW 算法的綜合指令正確率、綜合識別率分別為51.18%和87.14%,文獻[42]提出的改進DTW 方法的綜合指令正確率、綜合識別率分別為56.75%和89.04%,基于后驗處理優化的DTW 算法綜合指令正確率、綜合識別率分別為98.56%和97.12%.實驗結果表明,本文提出的后驗處理優化方法能夠有效識別用戶的連續重復手勢,在指令正確率和識別率上都優于傳統DTW 算法.

Table 1 Comparison of confusion matrices for continuous gesture recognition based on two methods表1 兩種方法的連續手勢識別混淆矩陣對比

6.2.2 實時性檢測

5 名志愿者依次做一組由7 個手勢隨機組合的動作,編號為序列1、序列2、序列3、序列4、序列5.記錄每個手勢開始和首次識別成功時刻對應的幀編號,求其差值便可計算出識別每個手勢所用的時間.表2 記錄了5個序列進行測試時每個手勢從開始到成功識別經過的幀數及估計時間.

Table 2 The timeliness of real-time gesture recognition based on posterior processing DTW optimization method表2 本文基于后驗處理的DTW 優化方法進行實時手勢識別的時效性

實驗結果表明,本文提出的基于后驗處理的DTW 優化方法可在大約200ms~300ms 的時間延遲內給出識別結果并控制系統進行相關操作,能夠滿足識別實時性的要求.

6.3 語音信息處理結果及分析

(1)實驗數據

本文采用實測數據集進行實驗結果評估,該數據集在手術室環境下實際錄制,測試集中共包括2 000 句樣本,包括100 個說話人,平均信噪比為5dB,平均混響時間為300ms;訓練集采用仿真生成的遠場數據進行訓練,包括2 000 小時的訓練數據,信噪比覆蓋0dB、5dB、10dB、15dB,混響時間涉及100ms、200ms、300ms、400ms 和500ms.麥克風陣列設備采用6+1 的環形陣列.測試樣本主要包括醫院手術相關命令詞匯,如“開始手術”“打開設備”“到第8 頁”“監控心電圖”“準備麻醉”等.

(2)實驗設置

本文在語音識別工具Kaldi 的基礎上進行開發和實驗,實驗共采用兩種特征:mel 頻率倒譜系數(MFCC)和mel 標度濾波器組特征(FBANK).提取特征的窗長為25ms,幀移為10ms.MFCC 特征為13 維,加上其一階和二階差分統計量,共39 維.FBANK 特征為40 維,加上其一階和二階差分統計量,共120 維.特征的均值方差歸一化以說話人為單位進行.所有GMM-HMM 的輸入為MFCC,所有神經網絡模型的輸入為FBANK.就本文所涉及到的神經網絡模型而言,其損失函數為交叉熵,優化準則為隨機梯度下降(SGD).DNN 模型采用反向傳播(BP)算法進行訓練.BLSTM 模型采用隨時間反向傳播(BPTT)算法進行訓練.LSTM 模型采用截斷的隨時間反向傳播(truncatedBPTT)算法進行訓練.本文實驗所用語言模型為三元文法語言模型,詞表大小為100G;解碼的搜索空間基于加權有限狀態轉換器(WFST)進行構建,搜索策略為束搜索(beam-search)算法.

(3)基線方法

基線方法中前端采用加權延時求和方法進行增強處理,后端分別采用DNN和LSTM-RNN進行聲學模型訓練;所有DNN 模型均含有7 個隱層,每個隱層含有2 048 個節點.LSTM-RNN 模型含有5 個隱層,每個隱層包含640 個單元.DNN 模型的初始學習速率為0.008,LSTM-RNN 的初始學習速率為0.000 01,沖量值均設為0.9.

(4)實驗結果對比

本文前端波束形成采用廣義旁瓣濾波方法,去混響采用加權預測誤差方法,采用深層神經網絡進行單通道語音增強處理.本文采用的方法將DNN 和LSTM-RNN 兩種聲學模型輸出的后驗概率進行融合,通過聯合建模的方式提高語音識別的性能.實驗結果見表3.

Table 3 Comparison of speech recognition experiments表3 語音識別實驗結果對比

針對“本文前端+模型融合”的模型,在不同距離下進行了語音識別實驗,實驗結果見表4.

Table 4 Comparison of speech recognition under different distances表4 不同距離條件下語音識別實驗結果對比

(5)實驗結果分析

通過對比表3、表4 中的實驗結果可知,語音前端處理對于提升語音識別的性能起著非常關鍵的作用,本文采用的廣義旁瓣濾波方法通過自適應波束形成可以有效地增強目標方向的聲音,同時,通過加權預測誤差消除了遠場語音的干擾,在此基礎上,通過深層神經網絡模型有效地消除了非平穩噪聲的干擾,因此,相比于延時求和這種固定波束形成方法,有效地提升了語音識別的性能.同時,本文采用的模型融合策略,可以有效提升聲學模型的建模精度,融合后的模型結合了DNN 和LSTM-RNN 兩種模型的優勢,從而提升了語音識別在真實環境下的魯棒性.

6.4 無菌條件非接觸式多通道自然交互手術環境信息融合結果及分析

根據各單一通道技術與融合的要求,本文設計并接近真實地構建了整個無菌條件非接觸式多通道自然交互手術環境,設計時,要充分考慮各單一模態和融合計算的需求.系統的各個組成部件選用標準的硬件和軟件,采用模塊化設計,使系統可以通過增加模塊的方式進行擴容.無菌條件非接觸式多通道自然交互手術環境整體布局的要求如下:(1)節約手術室空間,使手術室更為簡潔,便于遠場語音信息采集及姿態和手勢獲取;(2)采用四分屏50 吋顯示器可實現閱片,顯示監護儀、內窺鏡等設備的圖像,方便獲取手術信息;(3)全景攝像方便手術室內場景實時監控;(4)嵌入式一體化工作站節約空間,雙屏設計,便于操作;(5)雙26 吋內窺顯示器,可用于內窺鏡手術場景.圖9 給出了無菌條件非接觸式多通道自然交互手術環境設計與真實場景圖.

Fig.9 Aseptic sonditional contactless multichannel natural interaction durgery environment design (left)and real scene map (right)圖9 無菌條件非接觸式多通道自然交互手術環境設計(左)與真實場景圖(右)

在醫院手術環境的交互過程中,交互系統對醫生的意圖識別的準確度和速度十分重要.根據無菌條件非接觸式多通道自然交互手術的設計及搭建的真實場,本文設置了10 種自然的醫生手勢動作,根據在不同操作視框的定義,可以實現呈線性倍數數量的指令,完全滿足系統的交互模式.本實驗通過對比姿態、手勢、語音等單一通道信息和多通道信息融合條件下系統對醫生意圖識別的準確度和速度,并分析在不同單一通道和多通道融合對醫生意圖識別的影響,發現在交互過程中,雖然基于單一通道的手勢、語音信息能夠使得系統在對醫生意圖識別時取得較好的準確度和速度,但是相對而言,基于多通道信息融合的效果會更好.實驗結果見表5 和表6.

Table 5 Accuracy of doctor intention recognition based on single channel information and multi-channel information fusion (%)表5 單一通道信息和多通道信息融合對醫生意圖識別準確率(%)

從實驗結果可以看出,單一通道條件下,由于手勢信息較為復雜,但手術室環境噪聲較小,所以系統在基于手勢交互的基礎上對醫生意圖的識別率比語音較低,但在某些較為簡單的手勢動作上,如“確定”“上一張”“下一張”的準確度并不比語音信息差.而在識別的時間方面,較為復雜的手勢動作同樣不占優勢,但是對簡單手勢動作而言,它們的識別速度仍然比語音來得更快.在此基礎上,將不同通道的信息進行融合后,系統無論是在時間性能上,還是在意圖理解的準確度上都會有比較明顯的提升.并且,相較于通過授意護士或者手術助理到計算機操作室操作的方式(以乳腺癌腫瘤手術為例,護士或者手術助理到計算機操作室定位到病灶圖像平均約1 分鐘),本文的定位方法平均不超過2s,可以看到,采用多通道信息融合方式來識別醫生的意圖,可以更快地定位到病灶圖像.

由于在手術室的操作環境中,多通道信息的融合處理的結果主要是為醫生在手術時提供便捷的交互環境,因此在交互過程中,醫生對多通道信息融合結果的滿意程度也很重要.因此,我們邀請了4 位醫生以及32 位助理人員對多通道信息融合交互系統的結果進行體驗和評測,每人至少進行3 輪以上的有效操作,最后在其他評測結束后,要求每個體驗醫生對結果進行滿意度投票,總共5 個選項,分別是很滿意、滿意、一般、不太滿意和很不滿意,其統計分布如圖10 所示.

由圖10 所示評測結果可知,66.67%的測試人員對多通道信息融合的結果體驗感覺滿意或者很滿意,而只有16.67%的醫生對體驗不太滿意或者很不滿意.從用戶的主觀評測角度來看,醫生對多通道信息融合的交互體驗比較不錯,能夠獲得大多數體驗醫生的認可.

Table 6 Speed of doctor intention recognition based on single channel information and multi-channel information fusion表6 單一通道信息和多通道信息融合對醫生意圖識別的速度

Fig.10 Evaluation of doctors for multimodal information fusion experience圖10 醫生對多模態信息融合體驗滿意度評測

7 結論和展望

實驗結果表明,在接近實際的實驗環境中,通過融合遮擋環境下的深度圖像人體骨架提取、手勢跟蹤與理解、手術室環境遠場語音識別,多模態信息處理與融合技術,無菌條件下的非接觸式多通道自然交互手術環境相對于傳統的通過護士或者手術助理到計算機操作室操作病灶圖像的方式,能夠明顯地節省時間,使得主治醫生在手術中可通過語音命令、手勢及上述交互相結合的方式快速定位到需要觀察的病灶成像.本文建立的無菌條件的非接觸式多通道自然交互手術環境在保證精度的情況下,為建立下一代未來高效的手術室提供了技術與方法驗證,可極大地方便醫生的手術過程,縮短平均手術時間.但無菌條件下的非接觸式多通道自然交互手術環境距離把人機交互技術魯棒地應用到臨床還有一定距離,未來進一步的工作主要包括:(1)進一步優化語音識別技術,更加準確地融合手勢,更加準確地識別手術醫師的意圖;(2)進一步引入三維手術影像導航技術,與多模態交互手段相融合,做到面向交互的更逼真的臨床展示.

猜你喜歡
融合手術模型
一半模型
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
重要模型『一線三等角』
手術之后
河北畫報(2020年10期)2020-11-26 07:20:50
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
顱腦損傷手術治療圍手術處理
主站蜘蛛池模板: 久久黄色视频影| 亚洲一区波多野结衣二区三区| 国产午夜一级毛片| 精品午夜国产福利观看| 在线观看无码av五月花| 69免费在线视频| 亚洲乱码视频| 午夜福利无码一区二区| 无码电影在线观看| 91亚洲国产视频| 日韩国产无码一区| 国产黄在线免费观看| 91亚洲精选| 日韩二区三区| 国产乱肥老妇精品视频| 日本久久久久久免费网络| 国产一区二区三区视频| 国产午夜精品鲁丝片| 亚洲午夜18| 国产精品片在线观看手机版| 国产精品免费久久久久影院无码| 国产日韩欧美精品区性色| 亚洲日韩图片专区第1页| 99在线视频免费| 亚洲成人网在线观看| 直接黄91麻豆网站| 欧美一区福利| 亚洲成a∧人片在线观看无码| 又大又硬又爽免费视频| 国产91丝袜| 国产精品亚欧美一区二区| 欧美亚洲国产精品第一页| 丰满人妻一区二区三区视频| 久久精品人人做人人| 精品国产免费第一区二区三区日韩| 很黄的网站在线观看| a毛片基地免费大全| 日韩毛片免费观看| 亚洲国产理论片在线播放| 亚洲色偷偷偷鲁综合| 中文字幕 欧美日韩| 色婷婷天天综合在线| 精品一区二区三区视频免费观看| 国产精品伦视频观看免费| www.youjizz.com久久| 国产91蝌蚪窝| 国产欧美日本在线观看| 99热这里只有免费国产精品| 国产综合精品日本亚洲777| 中文字幕一区二区视频| 国产乱视频网站| 国产欧美日韩18| 在线观看精品国产入口| 亚洲午夜综合网| 中文字幕va| 丝袜美女被出水视频一区| 四虎在线观看视频高清无码| 亚洲成a人片| 四虎永久在线视频| 国产精品va免费视频| 亚洲精品无码抽插日韩| 熟女日韩精品2区| 国产在线拍偷自揄拍精品| 中文字幕久久亚洲一区| 波多野结衣一区二区三区四区 | 久久精品这里只有国产中文精品| 国产伦精品一区二区三区视频优播| 亚洲男人的天堂在线| 国产极品粉嫩小泬免费看| 高清大学生毛片一级| 国产亚洲欧美在线中文bt天堂| 啪啪永久免费av| 91精品国产丝袜| 久久精品波多野结衣| 欧美a在线看| 亚洲精品在线91| 99青青青精品视频在线| 国产精品手机视频一区二区| 区国产精品搜索视频| 亚洲国产中文综合专区在| 免费又黄又爽又猛大片午夜| 国产精品成人观看视频国产|