999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于體感控制的語音障礙人群發音訓練系統設計及可用性探討

2023-06-15 05:26:44毛艷梅
無線互聯科技 2023年2期

毛艷梅

摘要: 基于Kinect的體感控制技術,文章研究了一種語音障礙人群發音訓練系統,并通過臨床運用測試了系統的可用性。該系統由障礙數據采集、發音康復訓練及發音康復評估三大模塊構成。每一模塊又由文字、圖像、聲音、視頻等多模態內容組建。共有10名語言治療師、30例語音障礙人群參加了本項研究。研究結果發現基于人工智能深度學習融合技術開發的這套語音康復訓練系統可顯著提升語音障礙人群的發音質量,具有較好的應用前景。

關鍵詞:體感控制;發音訓練系統;語音障礙;可用性

中圖分類號:R494? 文獻標志碼:A

0 引言

語音障礙是指因構音器官結構缺陷、神經、聽力障礙和肌肉運動異常等原因造成語音清晰度低于正常水平而無法正確發音和建立有效溝通的言語障礙[1]。研究證明,通過發音訓練,可以有效地發掘和激活語音障礙人群的聽說器官的功能代償,開發其語言能力和顯著提高其語音康復水平[2]。當前語音障礙人群的發音訓練以人工訓練或計算機輔助訓練模式為主,人工訓練模式不僅易受時間、地點、人員等諸多因素的限制,其訓練過程也費時費力,訓練效率低、達不到預期訓練效果;市場上所使用的發音訓練系統的訓練內容雖然多種多樣,但是智能化程度不高,訓練內容往往固定且無法更改,單一重復的訓練很容易使訓練者產生倦怠乃至抵觸心理。因此,尋找有效、規范的新技術、新方法促進語音障礙人群積極主動進行發音訓練具有極其重要的現實意義。

體感控制技術是利用肢體動作與周邊裝置或環境互動,再由機器對用戶的動作進行識別、解析,并做出相應反饋的計算機人機交互技術[3]。基于體感控制技術的Kinect是一款主要用于運動感知的體感設備,可以捕獲音頻信息流、彩色視頻流和深度信息流等三種不同表現形式的數據流。其自帶的SDK能很好地跟蹤到人臉,并使用121個3D坐標點定義臉部,同時能提供一體化的音視頻信息輸入與處理,以此來提高語音識別和人機交互能力[3]。

在參考諸多相關研究的基礎上[4],本研究基于運用Kinect的體感交互技術,設計了一個針對語音障礙人群的人工智能發音訓練系統,并將其命名為體感交互語音康復訓練系統(KAPTS 1.0)。在分析了該套系統的設計框架的基礎上,通過實證研究,探討了KAPTS 1.0用于進行語音障礙患者發音訓練的可用性。

1 研究方法

1.1 國內外計算機輔助發音訓練系統研究現狀

20世紀70—80年代計算機輔助發音訓練系統開始出現在以美國、日本為主要代表的發達國家。這些輔助發音系統大多比較簡單。近年來隨著多模態交互技術的飛速發展,語音障礙人群的康復訓練需求大幅提升,因此,通過人機交互技術輔助語音障礙人群進行康復訓練的研究顯著增加。這些研究在早期主要針對語音障礙人群的面部表情識別等單項交際技能[5],近10 年的相關研究逐步轉向綜合訓練,如基于Kinect人機交互技術的ECHOES項目[6]。此外,融合了人工智能的虛擬現實技術也逐漸應用到語音障礙人群的發音技能康復訓練中,如BPS數字行為輔助系統和3D虛擬發音導師系統[7];嘗試應用機器人干預進行語音障礙人群的康復訓練,如使用機器人Nao來訓練語音障礙人群的發音,結合LEGO治療法和人形機器人的康復訓練模式以及研發的能根據不同個體需求自動適應并做出反饋的機器人協同技術[8-9]。

在計算機輔助發音訓練方面,我國的研究起步較晚, 直到2004年才有學者基于語音特征視覺反饋的訓練方式,提出根據目標訓練法和對比訓練法設計的計算機輔助訓練方法能夠有效地解決發音異常和構音異常[2]。

國內發音訓練康復系統的研究和開發還不完善,缺乏對訓練者發音成效進行測評、量化。Kinect體感控制技術在該領域的研究多為語音識別領域[10],對應用體感控制技術進行語音障礙人群的發音訓練研究鮮有報道[11]。課題組近期研究發現:將體感控制技術應用在語音康復領域,可有效突破目前訓練的局限,為人機交互技術提供全新的研究視角和應用模式。

1.2 系統設計框架

體感交互語音康復訓練系統(KAPTS 1.0)于2021年完成。該系統包含3個模塊:(1)障礙數據采集。該模塊通過應用Kinect體感控制工具采集語音障礙人群的音頻信息、視頻彩色圖像序列、深度圖像序列及深度數據點序列、三維人臉模型序列,構建多模態數據集。(2)發音康復訓練。該模塊在對照患者和參照正常人群多模態發音數據庫的基礎上,按患者發音特點對錯誤方式進行歸類,根據構音錯誤產生的機制制訂體感交互個性化發音訓練方案,為患者個性化的發音康復訓練方案和任務。(3)發音康復評估。該模塊通過應用人工智能深度學習算法從訓練者的語音流利度、清晰度、準確度、音位構音能力等方面進行智能評估,驗證發音訓練的有效性。

1.3 基于體感互動的訓練設計實現

在借鑒已有研究所構建的發音語料庫的基礎上[12],研究者通過公開社區招募的方式招募了30名正常發音人群和30名發音障礙患者。按照精準預測-精準干預訓練-智能評估的原理和方法,課題研究者著手設計并開發KAPTS 1.0。首先,研究者建立了面向語音障礙人群的多模態數據集。(1)發音測試語料庫設計。根據語音障礙人群的發音特性設計語料庫。按照從簡單到復雜的發音原則,該語料庫包含了韻母、聲母、音節和句子。其中韻母有6個,聲母有3個;音節有固定音節和隨機音節;句子有8句,取自人教版一年級的一個朗讀段落。(2)多模態數據采集。選擇成人語音障礙30人(男性、女性各15人)和正常人30人(男性、女性各15人),應用kinect體感控制器,通過面部定位、特征提取、多流信息融合等技術同時獲取語音障礙人群的音頻信息數據、視頻信息數據和深度信息數據。通過音頻和深度數據融合,音頻和視頻信息融合以及深度數據和音視頻融合,將時間同步的各個流的特征拼接,然后通過隱馬爾可夫模型(HMM)進行分類識別。(3)多模態數據特征比較:比較語音障礙人群與正常人群的多模態數據特征,為訓練者個體生成數字化構音錯誤方式提供數據源。

其次,設計基于體感控制技術的個性化發音訓練方案。(1)訓練模塊設計:根據語音障礙人群的構音錯誤方式,設計舌前音化、非送氣化、側化構音、舌后音化、輔音脫落、唇齒音化、舌面音化及混合型等訓練模塊。(2)個性化發音訓練路徑規劃:在個體語音障礙數據集基礎上,結合構音錯誤方式,系統地生成訓練者個性化發音訓練路徑,并設定有效的訓練頻率與訓練時間周期。

最后,開發體感交互個性化發音訓練系統并進行訓練效果評估。(1)三維人物面部頭像與場景建模。通過3DS Max三維圖形繪制軟件、Direct 3D圖形繪制技術建立訓練者三維人物面部頭像模型、面部動作模型建模和紋理渲染、三維模型加載,并創建和渲染相關場景和人機交互界面。(2)訓練者三維人物面部頭像原始模型:基于Kinect采集的多模態數據集,利用視頻驅動方式與面部三維模型相融合生成面部三維模型動畫,實現能夠實時顯示訓練者面部動畫的面部表情、唇部動作、舌頭運動狀態的面部三維動畫效果。(3)訓練者三維人物面部頭像目標模型:根據個性化訓練方案,按照訓練者三維人物面部頭像原始模型生成基于訓練者個體的目標訓練模型。(4)發音智能評估和矯正。通過Kinect實時捕捉訓練者面部運動數據,結合語音識別數據反饋,通過人工智能深度學習算法,將訓練者發音與標準發音進行匹配,實現發音效果評估和矯正。

1.4 系統操作流程

KAPTS 1.0包括訓練者(患者)和診療師(醫生)兩個角色界面。在系統操作流程上,診療師(醫生)首先為訓練者(患者)創建一個賬戶。根據訓練者(患者)的病理資料,創建訓練者基本資料,評估發音障礙類型和嚴重程度,設定康復初步目標。然后,訓練者注冊并登錄創建的賬戶(訓練者也可自己創建賬務并錄入基本資料),錄入發音障礙數據。接下來,一方面,系統通過比照先前導入的正常人群的發音數據庫和患者錄入的障礙數據,分析患者的發音障礙特性和類型,給出自適應性地個性化康復訓練方案和任務。另一方面,醫生根據患者錄入的發音障礙數據,再次分析患者發音障礙特性和類型,結合系統給出的自適應康復訓練方案和任務,設置并生成患者的康復訓練方案和任務,下傳給患者。患者下載康復訓練方案和任務后,開始執行康復訓練。在訓練期間,訓練者的訓練數據會同時發送到在線數據庫中。訓練期間,醫生和系統均可以實時評估患者的康復訓練效果,給出實時的修改建議。訓練結束后,醫生和系統均會給出訓練報告,報告包含了每次訓練的評價意見和建議。在所有訓練完成后,系統和醫生會給予訓練者總體發音康復訓練結果評價以及后續的訓練建議。

1.5 系統評價

為了評價KAPTS 1.0的臨床可用性,研究組于 2021 年 7 月—2021年 9 月以方便抽樣和公開招募的方式邀請了10名語言治療師、30名發音障礙者對本套系統進行了測試體驗。在正式開始系統測試前,研究者向30名發音障礙者詳細解釋了本次研究的目的和所要進行的程序,并取得了參與的30位發音障礙患者的書面知情同意書。參與此次實驗的患者年齡均大于18周歲,有醫院出具的發音障礙診斷證明。然后,研究者通過一對一教授的方式,確保參與的治療師和患者都能準確使用該系統。對于治療師,設定的標準是必須是正規醫院的在職醫生。

訓練結束后,課題研究者對治療師和患者均進行了問卷調查。考慮到問卷的信效度,問卷通過問卷星App發放。問卷內容包括對KAPTS 1.0系統的界面設計的友好性、Kinect數據采集的準確性、訓練方案的可行性和趣味性、訓練效果的有用性、用戶使用黏度5個維度共計10個項目的評分。評分采用了5分量表制,即5分表示非常同意、4分表示同意、3分表示中立、2分表示不同意、1分表示非常不同意 。

1.6 統計學分析

采用問卷星自帶的SPSS軟件對問卷調查數據資料進行統計分析和人工核查后,研究者發現參與測試的10名治療師和30名發音障礙患者對KAPTS 1.0系統的評判比較一致,均為良好,為了確定問卷統計結果的信效度,采用Wilcoxon檢驗對其進行了非參數檢驗,發現P<0.05,即統計結果具有顯著性意義。

2 結果

2.1 一般資料

在本研究中,30例語音障礙患者在10名語音治療師的指導下,使用研究者研發的KAPTS 1.0系統進行了語音康復訓練。10名語音治療師中,男性 6例,女性 4例,平均年齡30歲左右,工作年限均大于3年,且經過了4個學時的KAPTS 1.0系統的使用培訓。30例語音患者中,男性 19例,女性 11例,平均年齡53歲左右,病程5個月左右,病因不盡相同,其中腦梗死 11 例,運動性失語 9 例,腦出血 10 例,均有正規醫院的診斷證明。每名患者在下載KAPTS 1.0后,均在家人的陪伴下,在其主管語音治療師的遠程指導下,順利完成了為期4周的個性化語音康復訓練。在這4周中,每位患者的語音康復訓練每天不少于 20分鐘,每周為期5天。此外,每位患者在通過研究者研發的KAPTS 1.0應用程序進行語音康復訓練時,需要配合使用研究者分發的Kinect傳感器。康復訓練的全過程中需要使用速度穩定的互聯網,否則訓練的流暢性和精準性會受影響。

2.2 調查結果

整體來看,參與本次研究的語音治療師和語音障礙患者對于研究者研發的 KAPTS 1.0應用程序在可用性維度方面的評分均比較高,其中來自治療師的平均分為81.6分,來自患者的平均分為78.2分。來自治療師的問卷結果顯示,在系統界面設計的友好性、Kinect數據采集的準確性以及訓練效果的有用性這三個維度的正向得分也很高;但是用戶使用黏度這一維度的得分明顯偏低,導致這一問題的主要原因可能是大部分發音障礙患者為老年群體,治療師對于其能否承擔購買Kinect成本的考量。來自患者的問卷調查結果顯示,其在系統界面設計的友好性、訓練方案的可行性和有用性維度的得分較高,訓練方案的趣味性維度的得分偏低。導致這一現象的原因可能是大部分患者在執行康復訓練時壓力較大,自我要求較高,因此對于康復訓練任務有超預期的期望。在后續的系統優化中,研究者會進一步進行相關優化。

3 討論

2017年10月18日,習近平同志在十九大報告中提出了“健康中國”的發展戰略。他指出,人民健康是一個國家富強、民族昌盛的重要標志。我國要不斷完善國民健康政策,為億萬人民群眾提供全方位全生命周期的健康服務。然而目前我國語音障礙、構音異常的總人數超過700萬,語音障礙的存在不僅影響人們正常的語言能力,同時也會引起心理、行為上的障礙,降低言語清晰度和社會交流能力,嚴重影響生活和工作。因此,尋找有效、規范的新技術、新方法促進語音障礙人群積極主動進行發音訓練具有重要的現實意義。

本課題組基于Kinect的體感控制技術設計研發的 KAPTS 1.0的功能特征主要體現在以下幾方面:(1)精準化。KAPTS 1.0系統在采集了正常人群的多模態發音數據的基礎上,建立多模態常模發音數據庫,然后根據Kinect的體感控制技術采集的個性化的語音障礙患者發音數據,研究其發音特性,分析其錯誤特征,為每位語音障礙患者提供個性化的發音訓練方案和任務,然后根據發音訓練數據,智能評估發音康復效果,做到精準預測-精準干預訓練-智能評估。(2)交互化。Kinect是一款主要用于運動感知的體感設備,可以捕獲音頻信息流、彩色視頻流和深度信息流等三種不同表現形式的數據流。其自帶的SDK能很好地跟蹤到人臉,并使用121個3D坐標點定義臉部,提供一體化的音視頻信息輸入與處理服務,從而顯著提高人體語音識別能力和人機交互能力。因此,在訓練中,該系統可以實時捕捉訓練者的發音數據,評估其發音效果,提出實時發音訓練指令,提升發音訓練效果。(3)遠程化。發音障礙患者一般處于居家休養狀態,相當一部分人為行動不便者,因此,對于居家進行康復訓練有著非常大的需求。KAPTS 1.0系統的遠程在線康復治療極大地滿足了患者此方面的需求。此外,也為異地就醫的患者提供了遠程診療的便利,大大節省了患者家庭的就醫開支,提升了患者居家進行康復訓練的幸福指數。

為了驗證KAPTS 1.0系統的可用性,研究者邀請了10名語言治療師、30例語音障礙人群參加了本項研究。患者在可用性(等級0—100)方面將應用程序評為良好(評分>80;P=0.03),治療師將應用程序評為良好(評分>80;P=0.04)。

綜上所述,基于Kinect的體感控制技術設計研發的語音障礙人群發音訓練系統KAPTS 1.0是一種人工智能深度學習融合的康復系統,可顯著提升語音障礙人群的發音質量。該系統的完成,不僅將改善語音障礙人群的發音訓練效果,為體感交互發音訓練提供嶄新思路;打破傳統發音訓練的空間和時間限制,緩解語音康復服務資源匱乏的局面,實現社會資源配置的優化。該系統還可運用到正常人群的語言學習中,具有廣闊的市場前景。

參考文獻

[1]李思奇,張玉梅.構音障礙的評定與康復治療進展[J].中國醫師進修雜志,2021(1):88-92.

[2]薛珮蕓.構音障礙患者病理語音特性分析與識別研究[D].太原:太原理工大學,2019.

[3]車娜,趙劍,史麗娟,等.基于Kinect和Faceshift的語言康復訓練方法[J].無線互聯科技,2018(21):108-110.

[4]史艷莉,明鈺,孫莉,等.基于平板電腦的漢語失語癥治療輔助系統的設計及可用性探討[J].中國康復醫學雜志,2021(7):822-826.

[5]朱虹.基于Kinect的特定說話人跟蹤系統的研究與實現[D].延邊:延邊大學,2017.

[6]MENG FANBO, WU ZHIYONG, JIA JIA, etal. Synthesizing English emphatic speech for multimodal corrective feedback in computer-aided pronunciation training[J]. Multimedia Tools and Applications,2013(1): 463-489.

[7]SU PEIHAO, WU CHUANHSUN, LEE LINSHAN. A recursive dialogue game for personalized computer-aided pronunciation training[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP),2015(1): 127-141.

[8]CHEN FEI, WANG LAN, PENG GANG,etal. Development and evaluation of a 3-D virtual pronunciation tutor for children with autism spectrum disorders.[J]. PloS One,2019(1): e0210858.

[9]ARORA VIPUL, LAHIRI ADITI, REETZ HENNING. Phonological feature-based speech recognition system for pronunciation training in non-native language learning[J]. The Journal of the Acoustical Society of America,2018(1):98-108.

[10]QIAN XIAOJUN, MENG HELEN, FRANK SOONG. A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP),2016(6): 1020-1028.

[11]歐熊,陳兵.計算機輔助聽覺言語評估及康復系統的研究與進展[J].聽力學及言語疾病雜志,2015(6):665-668.

[12]王濤,徐麗娜,李峰.功能性構音障礙患者側化構音特點分析及語音訓練療效觀察[J].中華物理醫學與康復雜志,2020(1):40-43.

(編輯 傅金睿)

Design and usability of voice training system for people with speech impairment based on somatosensory control

Mao Yanmei1,2

(1.Zhejiang University, Hangzhou 310058, China; 2.Zhejiang Business College, Hangzhou 310053, China)

Abstract:? Based on Kinects somatosensory control technology, this paper studies a voice training system for people with speech disorders, and tests its usability through clinical application. The system consists of three modules: obstacle data acquisition, pronunciation rehabilitation training and pronunciation rehabilitation evaluation. Each module is composed of text, image, sound, video and other multimodal content. A total of 10 language therapists and 30 people with speech disorders participated in this study. The research results show that the speech rehabilitation training system developed based on AI deep learning fusion technology can significantly improve the voice quality of people with speech disorders, and has a good application prospect.

Key words: somatosensory control; pronunciation training system; speech disorders; usability

主站蜘蛛池模板: 国产理论精品| 日韩精品亚洲一区中文字幕| 日韩精品免费在线视频| 国产www网站| 无码精油按摩潮喷在线播放| 国产视频欧美| 激情無極限的亚洲一区免费| 精品小视频在线观看| 91人妻日韩人妻无码专区精品| 精品国产免费观看一区| www.狠狠| 国产 在线视频无码| 亚洲国产成人久久77| 亚洲第一页在线观看| 久久五月视频| www.youjizz.com久久| 超清无码一区二区三区| 国产乱人伦AV在线A| 欧美日韩国产精品va| 91美女视频在线| 亚洲日产2021三区在线| 日本黄色不卡视频| 99久久这里只精品麻豆| 无遮挡国产高潮视频免费观看| 日韩区欧美国产区在线观看| 久久久久人妻精品一区三寸蜜桃| 国产欧美日韩专区发布| 日韩精品欧美国产在线| 成人福利一区二区视频在线| 91青青草视频在线观看的| 亚洲天堂2014| 亚洲欧洲国产成人综合不卡| 国产激情在线视频| 中文国产成人精品久久| 新SSS无码手机在线观看| 福利国产微拍广场一区视频在线| yjizz国产在线视频网| 欧美五月婷婷| 精品丝袜美腿国产一区| 国产成人精品免费视频大全五级| 国产成人精品一区二区不卡| 国产精品永久不卡免费视频| 国产91熟女高潮一区二区| 最新国产在线| 久久久噜噜噜久久中文字幕色伊伊 | 欧美一级高清视频在线播放| 午夜日b视频| 国产在线视频二区| 色婷婷在线播放| 无码精品福利一区二区三区| 久久婷婷人人澡人人爱91| 亚洲专区一区二区在线观看| 麻豆国产在线不卡一区二区| 欧美综合一区二区三区| 国产全黄a一级毛片| 色综合久久综合网| 91在线播放国产| 免费无遮挡AV| 亚洲精品国产综合99| 无码精品国产VA在线观看DVD| 国产欧美网站| 国产精品2| 日韩第九页| 中文字幕有乳无码| 日本免费一区视频| 久久久久久国产精品mv| 久久精品国产一区二区小说| 欧美无专区| 三上悠亚一区二区| 欧美精品啪啪| 高清免费毛片| 久久国产高清视频| 成人福利在线视频免费观看| 亚洲欧美国产五月天综合| 国产一级毛片yw| 青青青亚洲精品国产| 久久精品一品道久久精品| 精品国产成人三级在线观看| 精品小视频在线观看| www.91中文字幕| 亚洲性视频网站| 日本午夜影院|