一種基于AI 的聽障學生語音訓練教具設計

2022-05-30 08:36:08陸鑫焱徐紹達王曼麗

科學技術創新 2022年16期

陸鑫焱徐紹達王曼麗*

（1、遼寧科技大學，遼寧鞍山 114051 2、鞍山市第八中學，遼寧鞍山 114031 3、鞍山鋼鐵集團有限公司，遼寧鞍山 114021）

近年來人工智能技術伴隨著人類科技的不斷發展日趨成熟，在普通教育領域已經逐步應用。然而特殊教育領域的教學系統或裝置還比較傳統，對于調動學生學習興趣和提升學生科學意識等都遠遠不夠，亟需下大力氣開發有利于調動學生學習興趣、圖文并茂、應用高科技成果的教育教學裝置，這是目前發展特殊教育領域教學用具和教學方法改革的重要工作。在殘障人群中，聽力障礙人員占有很大的比重。據2006 年第二次全國殘疾人抽樣調查顯示,中國共有2780 萬聽力殘疾人，同時每年還有2 萬到3 萬新生兒患有先天嚴重聽力障礙疾病。聽障疾病使學生人際交往能力減弱，不利于相互間的溝通交流和學習，極易引發其他的心理問題[1]。對其進行語言訓練和人格培養對提高適應社會的能力起著重要作用。因此將人工智能技術和傳統的聽力障礙人員語言訓練方法相結合，設計出適合聽障學生的交互式教學設備是至關重要的。本設計采用交互式設計，從聽障學生的認知特點出發，幫助聽障學生通過多維度的訓練完成對語言的理解和構建[2]。

1 裝置的整體設計

1.1 工作原理。本裝置由視頻采集模塊、人工智能識別模塊、語音識別模塊、中央控制器、語音合成模塊、音鼓、頻譜燈等部分組成。視頻采集模塊選用USB攝像頭采集待識別物體或語音訓練學習卡片的信息；人工智能識別模塊接收到圖像信息后檢測物體的類別和學習內容等信息并傳輸給中央處理器；語音識別模塊負責采集聽障學生的語音輸入信息經識別處理后傳輸給中央處理器；中央處理器對接收到的信息進行處理后發送命令給語音合成模塊；語音合成模塊接收中央處理器傳過來的信息控制喇叭發出模擬人的聲音；音鼓將音頻的振動效果放大并顯現出來；頻譜燈將聲音震動頻率信號轉化為LED燈顯示。如圖1 所示。

圖1 工作原理圖

1.2 工作流程。該教具是一種基于AI 技術的用于聽力障礙人員語言訓練的輔助教具，教具具有體積小、攜帶方便，易于聽障學生操作，可大量生產制造等優點。根據聽障學生的交互式教學的需要，本裝置設計成為基于人工智能的自主學習模式和單機鞏固訓練模式兩種使用模式，如圖2 所示。

圖2

基于人工智能的自主學習模式，即通過視頻采集、人工智能圖像檢測等方法，自動識別實物或圖片，準確將學習內容的正確發音通過音鼓與頻譜轉化成相應聲音、振動和頻率顯示，完成從聽覺到觸覺與視覺的轉化，聽障學生在學習過程中反復用手感受音鼓振動和聲音變化的關系，通過視覺觀察頻譜燈光的變化，并不斷的進行模仿發音訓練，從而幫助聽障學生形象的理解和學習如何正確發音。如圖2(a)所示。鞏固訓練模式，該模式為教具脫離電腦人工智能軟件后的單機使用模式，聽障學生通過模仿自主學習模式下音鼓與頻譜在發聲時所產生的震動幅度與頻率，反復的進行發音訓練，并通過指示牌判別發音是否標準，以此不斷的鞏固學習效果。如圖2(b)所示。

2 裝置功能的實現

2.1 中央控制器選型及功能。本教具采用Arduino開發版作為中央控制器，因其開源、安全穩定、程序編輯和下載方便等特點，近年來得到廣泛的應用。設計中選用的型號是MEGA2560 R3 改進版，主控芯片為ATMEGA2560-16AU，USB轉串口芯片采用CH340G，實現快捷的程序裝載過程和語音訓練數據的傳輸[3-4]。Arduino開發版可以實現多串口通信，有4 對硬件串口，并且具有用程序模擬硬串口實現通信的軟串口功能，相比較而言硬件串口比軟串口性能更加的可靠。

中央控制器的主要作用是采用通用串口UART（Universal Asynchronous Receiver/Transmitter) 連接電腦、語音識別模塊、語音合成模塊等硬件設備，由振晶控制頻率，實現高速數字信號傳輸及數據處理。各個模塊之間的連接關系如圖3 所示。

圖3 功能模塊連接圖

2.2 圖像檢測。

2.2.1 人工智能圖像檢測架構的選擇。在人工智能圖像檢測領域，卷積神經網絡CNN (Convolutional Neural Networks) 是目前最具代表性的深度學習架構，是一種模仿生物感知方式而進行機器學習的深度學習網絡結構[5-6]。主要通過卷積、池化等操作得到圖片的特征值以實現識別功能。人工智能圖像檢測技術隨著卷積神經網絡的應用得到了飛速的發展,準確率也達到了可以實用的程度。卷積一般是指用正方形卷積核，遍歷圖像上的像素點，圖像與卷積核重合區域內，圖像的像素值與卷積核內相對應點的權重的乘積和，再加上偏置b，得到輸出圖像中的像素值。池化分為最大池化和平均池化，最大池化即取局部接受域中值最大的點，平均池化即取局部接受域中值的平均值。本設計采用YOLO-v4 人工智能識別算法。YOLO 技術由于采用了回歸的思想實現one-stage 檢測的算法，使得檢測速度和檢測小物品方面具有明顯的優勢[7]。

2.2.2 人工智能圖像檢測環境的搭建。人工智能圖像檢測采用Anaconda 軟件環境，該軟件是一個開源的python發行版本，含有大量的開發資源，包括tensorflow，c，numpy等。環境搭建過程先安裝Anaconda，再通過Anaconda 安裝OpenCV等其他模塊[8]。OpenCV4.4 可以支持YOLOv4，這使得人工智能圖像檢測的應用更加的方便，因此我們在Anaconda 軟件環境的命令窗口中用 pip install opencv-python==4.4-ihttps://pypi.tuna.tsinghua.edu.cn/simple安裝OpenCV4.4 模塊。如圖4 所示。

圖4 安裝OpenCV4.4 模塊

2.2.3 人工智能圖像檢測的實現。人工智能圖像檢測的實現，首先需要拍攝大量待識別物體圖片，接下來標注物體標簽作為數據集，提供給深度學習模型，經過諾干輪訓練得到自己的權重文件，再通過識別程序調用權重文件以及攝像頭用來檢測物體，得到物體類別信息后，判斷是否為有效學習內容，如果是則通過串口操作把學習內容的字節數組發送給主控開發板Arduino。

人工智能圖像檢測程序應用import 語句導入OpenCV4.4 庫，運行YOLOv4 模型的Python 程序模塊為：import cv2

人工智能圖像檢測程序運行后顯示的識別效果如圖5所示。

圖5 人工智能圖像檢測結果

2.3 語音輸入與識別。語音輸入與識別模塊選用LD3320 語音識別模塊，該模塊具有16 個io 口可接繼電器、LED燈、單片機端口等外部設備，采用異步串口（UART）通信方式，具有內置咪頭和外置咪頭接口，單片機型號為STC11L32XE，提供一鍵下載功能，下載程序非常方便，廣泛應用于家居智能控制，語音控制嵌入式產品等場景，實現語音交互的作用。

在本裝置中，該模塊的四個引腳（RX、TX、GND、5v）分別連接到Arduino開發版的14 引腳(TX3)、15 引腳（RX3）、5V引腳、GND引腳，內置咪頭接收外部語音信息，并將信息進行分析和識別，識別成功后，通過串口將識別碼發送給中央處理器Arduino開發版，實現教具接收人的指令。

2.4 語音合成。語音合成技術是通過電子和機械等技術制造出需要的聲音。本裝置語音合成功能選用的是SYN6288 語音合成模塊，該模塊采用SYN6288 芯片，通過異步串口（UART）通信方式，接收待合成的文本數據，應用TTS（Text To Speech）技術把文字轉發成為播放自然語音的電信號，控制揚聲器發出人可以聽懂的、模仿人類標準發音的聲音。

在本裝置中該模塊的四個引腳（VCC、RXD、TXD、G）分別連接到Arduino開發版的5V 引腳、引腳2(軟串口1TX)、引腳3（軟串口1RX）、GND引腳，通過串口接收從中央處理器Arduino開發板傳輸過來的文字信息，轉換電信號驅動揚聲器發出需要的聲音。

2.5 音鼓與頻譜燈。音鼓與頻譜燈在本設計中作為聲音轉化輸出設備。音鼓的作用是把喇叭的震動幅度放大，聽力障礙學生將手放在音鼓上，可以感受到不同的發音產生不同的震動效果，從而熟悉聲音產生振動的原理，學習震動自己的聲帶進行發聲練習。頻譜燈的作用是把喇叭產生的聲音，轉化為頻譜燈的閃爍頻率，從而讓聽障學習者通過視覺熟悉聲音和頻譜的聯系從而練習發音。

本裝置中通過給喇叭外面增添擴大振幅的鐵皮鼓面，并采用帶有麥克風的頻譜燈接收聲音并轉化為頻譜燈顯示，實現聽障學生用觸覺和視覺代替聽覺進行語言訓練，強化對不同聲音的認知并進行發音練習，從而學會正確的發音。該裝置的成品樣機圖如圖6 所示。

圖6 裝置樣機圖

3 裝置的使用

3.1 基于人工智能的自主學習。第一，聽障學生運行電腦端的人工智能學習軟件；第二，軟件運行后將待學習的課程卡片或實際物品對準攝像頭，電腦會顯示捕捉到的物體視頻圖像，人工智能軟件開始對課程卡片或物品進行分析和識別；第三，人工智能學習軟件將識別結果傳輸給通過USB連接的本裝置，裝置反復讀出課程設置的學習內容，聲音同時通過音鼓轉換成震動，頻譜燈接收到傳播過來的聲音通過led 燈的閃爍表現聲音的頻譜效果。

本裝置通過上述過程在識別學習主題發出語音的同時，將聲音轉換成震動和燈光的閃爍變化，聽障學生運用觸覺方式感受音鼓的震動頻率，運用視覺的方式觀察led 所顯示的頻譜閃爍變化，從而學習發音的原理和強弱，教師負責口型演示輔助。從而充分調動學生的觸覺、視覺感官，幫助聽力障礙學生進行語言學習。

3.2 訓練鞏固。該教具的訓練鞏固工作模式，在脫離電腦人工智能學習軟件的情況下可以單獨使用。第一，聽障學生對準本裝置麥克風說出喚醒詞“大寶”，這個喚醒詞需要在本裝置中反復使用，學生需要最先開始學習，并逐漸熟練并標準的說出，發音正確后裝置上的紅色指示燈閃爍，訓練模式開始；第二，學生按照學習卡片內容，模仿學習模式下學習到的發音辦法反復發出聲音；第三，發音時感受聲音產生音鼓的振動，并觀察聲音轉化的頻譜燈的閃爍，確定每個環節聲帶的發力大小；第四，如果學生發音正確，可被教具識別并由教具重復發出正確的聲音加深學習者的印象，同時表示發音正確的指示牌彈出。

教具本身具有模糊識別功能，使用初期可以設置模糊程度，循序漸進幫助聽障學生糾正發音問題培養信心。

4 結論

本設計采用人工智能識別、語音識別、語音合成、音鼓、頻譜等技術，從多維度幫助聽力障礙的學生感受聲音，學習發出正確語音的原理和技巧。幫助聽障學生通過不斷重復某一事物的發音，強化理解聲音與振動、頻譜形狀之間的聯系，通過豐富視覺形象及觸覺將聲音具體化。在特殊教育學校，可以通過本產品讓學生通過多感官彌補聽力障礙帶來的語音訓練難題，從而降低教學難度提高學習效率。尤其是對于那些先天性失聰的學生，在早期啟蒙教育、認知上會有很大的幫助。