基于虛擬現實技術的人機交互式盲人閱讀器

2018-12-22 06:42:47萬心媛宋萌趙渴欣王繹然劉千

現代計算機 2018年9期

關鍵詞：用戶系統

萬心媛，宋萌，趙渴欣，王繹然，劉千

（哈爾濱商業大學金融學院，哈爾濱 150028）

1 虛擬現實技術與盲人仿真視覺環境的創建

1.1 虛擬現實技術概述

虛擬現實（VR）融合了計算機圖形、數字多媒體、模擬仿真技術等多種技術，包括模擬環境、感知等以達到用戶無法區分這究竟是現實環境還是計算機模擬出來的環境［1］。

（1）虛擬現實技術特點

虛擬現實技術具有3I的特征，分別是沉浸感（Im?mersion）、交互性（Interaction）和想象性（Imagination）：

沉浸性，通過計算機的三維建模技術創造出仿真虛擬環境，使體驗者感受到強大且震撼的真實感，仿佛身臨其境。

交互性，在計算機創建的模擬環境中，用戶可以通過一些可穿戴設備進行人機交互。例如：在虛擬環境中佩戴可穿戴手套去觸摸虛擬環境中的物體時，會真實地感受到物體的觸感與粗糙程度，并且當抓取此物體時，會切實地感覺到物體的重量。

想象性，虛擬現實環境可以讓受眾用戶沉浸其中，通過體驗計算機創造出的各種虛擬環境，在短時間內、高效率地體會多種不同的人機交互環境。并且可以通過計算機的交互設備，將自己的動作與觸感信息錄入計算機，在計算機收到這些信息后，通過傳感設備進行數據的處理，從而更好地為用戶創造更加真實的環境。用戶在根據自己需要向計算機發出指令，從而體驗虛擬環境，在此過程中，用戶激發了自身想象力，并且在人機交互的過程中，不斷會將自身新的想法與感知輸入到計算機內，從而通過與計算機進一步的人機交互中，激發創造力、觸發靈感。

1.2 盲人仿真視覺環境的創建

我們團隊的新型盲人閱讀器利用虛擬現實技術，通過計算機捕捉盲人用戶頭部等身體部位的運動軌跡、利用特制的虛擬現實手套將盲人的觸感放大，并且通過聲源的捕捉，利用人機交互的技術，為盲人用戶創建一個仿真的視覺環境。三維建模是其中的一項核心技術，通過3D Max和VRML語言編寫，主要包括模式識別技術、支持向量計算技術、傳感器技術、通訊技術等[2]。虛擬仿真環境的創建也是基于三維建模技術的重要支持。

（1）頭部運動追蹤創建盲人模擬視覺環境

我們團隊的新型盲人閱讀器即是利用虛擬現實技術，將產品設計為一個虛擬現實的眼鏡，盲人由于自身視力障礙的特殊性，通過佩戴本產品眼鏡時，產品上有感知盲人頭部運動軌跡的接觸點，通過這些接觸點可以實時感知到盲人頭部的運動軌跡，從而可以利用盲人的頭部跟蹤來改變圖像的視角，而出于針對盲人用戶群體特殊性的考慮。當盲人用戶頭部在發生運動時，本產品眼鏡的接觸點感知后，就會自動智能追蹤盲人用戶運動的軌跡，實時給出相關語音的播報。創造出一種盲人用戶仿佛是視力正常者的虛擬環境，為盲人用戶提供無障礙出行的環境，從此解決了盲人視力障礙的問題，使盲人用戶能夠和明眼人一樣正常出行，而不再受到諸多局限。這也就是，利用虛擬現實技術，使盲人用戶可以用另一套系統來觀察環境，也就是頭部的運動。

（2）判定聲源方向創建盲人模擬視覺環境

人類具有判定聲音方向的能力，人類的雙耳可以根據聲音的強度、來源的方向來判定位置，并且聲音在傳到兩個耳朵時的時間和強弱也會有細微的差別，這就是雙耳效應。而作為盲人這一特殊群體來說，由于視覺方面的障礙，導致他們的聽覺感知更加靈敏，他們對于利用聲音來判別方向這一技能更為突出。他們可以更加快速地對于聲源方向進行識別，并且能夠更加靈敏通過雙耳效應辨別出左右耳在聽到聲音時細微的差別，從而對于聲源來源的方向有一個更加清晰的把控。

盲人足球這一運動地快速傳播就為本閱讀器利用判定聲源方向創建盲人模擬視覺環境的這一技術提供了現實依據。盲人足球19世紀80年代在西班牙出現，這種新興的運動模式激發了全世界各地愛好足球運動的盲人朋友的興趣。之前由于自身視力方面的障礙，盲人運球運動幾乎是一件不可能實現的事情，但盲人足球這種運動方式卻將盲人也能夠出色地進行一次足球比賽帶來了可能。由于這項運動開啟了盲人群體進行足球運動的新世界，這項運動迅速普及，在巴西、英國、阿根廷、德國等世界足球強國非常普遍。2004年，在雅典，五人制盲人足球運動項目首次進入殘奧會。2006年，中國正式組建了第一支盲人足球隊，而廣東省盲人足球隊則是其中非常出色的盲人足球隊之一。與普通的足球比賽不同，盲人足球比賽一開始，觀眾席就必須寂靜無聲，任何與足球比賽無關的噪音都可能會影響盲人運動員對于足球方向辨別的準確度。因為，比賽時，盲人隊員只能通過聲音來辨別方向，完全是在利用“耳朵”在踢球，他們通過聲音的辨別來判斷足球的方向，隊友的位置，自己的位置。5人制盲人足球賽制規定，除守門員以外的4名選手的視力傷殘程度應是B1級，即完全喪失視力并無光感。并且為了保證比賽公平防止作弊，場上除守門員以外的隊員均需佩戴眼罩。這樣就完全避免了盲人隊員可能通過微弱的光感來辨別方向，從而保證場上除守門員以外的所有隊員都是通過聲音來辨別方向。并且盲人足球還會內置鐵片和滾珠，從而加大聲音的清晰程度，更好地幫助球員根據聲音來判斷球的方位和距離。皮球內的鈴鐺聲音提醒著隊員們帶球人的位置，接球的球員和防守的球員要喊出聲，讓隊友和對手知道自己的位置，場內的守門員、場外的引導員和教練，則要不斷大聲指揮隊友調整前進方向和防守位置。就是通過這樣特殊的訓練方式和比賽方式，盲人運動員利用自身對于聲音的獨特辨識能力，出色的完成了每一次訓練和比賽。廣東省盲人足球隊多名主力入選國家隊，并且于2014年12月代表中國參加在香港舉辦的亞洲盲人足球隊公開賽，在其中表現出色，一舉奪冠。對于足球這一激烈的運動，盲人隊員都能夠通過聲音的識別來完成比賽并取得出色的成績，那對于盲人群體來說，平時生活中出行通過聲音來判斷障礙物的位置將更容易被實現。

因此，根據盲人用戶這一特殊性，在本產品的VR系統中，加入聲源探測器，將探測器的接觸點貼近雙耳，從而在盲人用戶聽到聲音后，通過接觸點可以探測到聲源的方向，與聲音的強弱，再與頭部追蹤系統相融合。當頭部發生運動時，聽到的聲音也會改變，從而帶來定位的不同。通過頭部的運動追蹤與聲源的判定，能夠更加準確地為盲人用戶確定當前的位置，所創建的模擬視覺環境將更為真實。

（3）感覺反饋創建盲人虛擬視覺環境

基于盲人用戶群體的特殊性，用戶無法看到虛擬的物體，但可以通過感知來判斷物體的存在，這個模擬環境的創建可以通過本產品盲人閱讀器虛擬現實眼鏡配備的虛擬現實手套完成。通過在手套內層安裝一些可以感知以及振動的觸發點，在盲人用戶接觸物體或障礙物時，就會觸發到這些接觸點。這些接觸點通過對于物體表面進行感知，根據其質地、粗糙程度的感知帶來的振動頻率強度不同，從而為盲人用戶判斷障礙物做出幫助。在基于可穿戴傳感器的手勢識別算法研究方面，有學者用離散的隱馬爾可夫模型結合矢量量化技術獲得的特征碼本識別了6種不同的網球擊球動作，獲得了較高的識別率[3]。進一步將盲人虛擬視覺環境創建的更為真實細致。

（4）語音匹配與盲人虛擬視覺環境的創建

在VR系統中，語音匹配系統是十分重要的。這要求模擬環境系統能快速識別用戶的語言，并對于用戶的指令做出反應。但對于計算機來說，讓其快速識別人類語言并及時做出反應是較為困難的。由于我國是一個多民族國家，各地的方言千差萬別，并且每個用戶在發音時的清晰程度和準確度也是無法統一量化的。這就為計算機在進行語音識別方面帶來了難度。

而本產品，新型盲人閱讀器則配備有多國語言智能識別系統，與區域語言識別系統，能夠帶來盲人用戶語言的快速識別。基于人工智能技術，在對于用戶語音進行識別方面加入更多智能識別技術，不只是簡單地將用戶輸入的語音與語音庫數據進行對比匹配，而是將用戶的語音輸入進行更為智能的識別，加入更多“人”的思維智慧，從而可以更好的完成人機交互。在盲人用戶需要幫助時，可以直接通過語言的方式與本產品所創建的虛擬環境進行溝通。在機器自動識別后，根據閱讀器內裝備的人工智能系統，及時解決回答盲人用戶的困難和問題，從而使本產品創建的盲人虛擬現實環境更為人性化、智能化。

2 多語種轉換系統與盲人閱讀器的有機結合

我們生活在一個全球化的時代，不同文化、不同語言間的交流日益頻繁，多語種的互譯就顯得尤其重要。本團隊設計的盲人閱讀器的多語種翻譯功能，旨在通過攝像頭錄入所需閱讀的文字后，轉化為數據，通過內置的翻譯軟件將其翻譯為客戶所需要的語言。其不僅可以方便我國盲人的生活，讓其感受多種語言、多種文化的魅力，還擴大了應用地域范圍，能為更多來自不同國度的盲人群體提高服務。

2.1 架構模式

隨著技術的不斷提高，翻譯系統也在不斷創新完善。目前的多語種輔助翻譯系統多采用網絡版和單機版兩種架構模式。網絡版系統包括：客戶端在線功能模塊、核心功能模塊、服務端WCF服務接口模塊、應用服務模塊、數據庫接口模塊，以及后臺數據存儲模塊。單機版包括：系統核心功能模塊、本地接口模塊和本地文件存儲模塊[4]。

2.2 網絡拓撲結構設計

應用網絡拓撲結構作為翻譯系統運行的基礎，通過按鍵向系統發出翻譯請求，在與數據庫進行交互后，將翻譯得出的結果傳遞給語音朗讀系統，通過預設的聲音模式，直接將其朗讀出來，即可將文字信息翻譯成所需要的語種并通過聲音傳遞給盲人用戶，帶來方便快捷的用戶體驗。

2.3 核心翻譯方法

本團隊采用中間語言法作為翻譯的核心方法，通過互聯網資源和自然語言處理技術，利用算法將源語言轉化為目標語言，從而完成翻譯。使用基于中間語言的方法，這種方法利用一種人工制定的標準語言作為語言翻譯的中介，即首先把源語言解析為中間語言的表示形式，然后再由這種中間語言生成目標語言[5]。這種方法具有研究人員無需精通2種以上語言、可分步進行語種添加等優點，技術要求低，操作簡單易上手，是多語種機器翻譯核心機理的首選。

2.4 作用流程

通過盲人閱讀器的攝像頭，將需要進行閱讀的文字信息進行錄入,而后轉化為數據暫存入數據庫，由數據庫對基本信息進行短時間內存儲，通過嵌入的翻譯腳本，將數據庫中的數據提取出來，通過單機版翻譯軟件、云翻譯等翻譯程序，將其翻譯為所需的語種，再通過語音功能將其播放出來。

2.5 作用原理

影像資料的處理：從外部的影像設備將需要翻譯的信息錄入以后，首先將其轉化為一張張的靜態圖片。并且根據盲人閱讀器內部的程序，在一句話的最后選擇5個比對點，若比中，可以將兩張圖片在系統中串聯起來，形成完整的信息。若不能比中，則說明掃描的速度太快，中間有斷點，缺了若干行文字。

文字特征抽取：特征抽取可以說是盲人閱讀器的核心，用什么特征，怎么抽取，直接影像到識別的好壞。特征抽取是文字識別中一個基本而又十分重要的問題，合理、正確抽取文字是提高識別率的關鍵[6]。

數據庫比較：通過與閱讀器自身數據庫的對比，將文字特征轉化為數據庫中的文字信息，將與之匹配的語音信息，通過擴音器朗讀出來。盲人閱讀器默認的翻譯語言將設置為中文，用戶可以通過計算機聯網方式下載所需翻譯語言的數據包，以實現閱讀器的多語種翻譯。用戶也應當定期更新盲人閱讀器的聯網數據庫，以保證數據的實效性。

人工矯正與學習：由于識別的正確度無法達到百分之百，想要加強閱讀器的實用性，人工矯正與學習這一步至關重要。盲人在使用過程中如果發現翻譯的語意嚴重偏離，那么就可以開啟矯正與學習功能。此時盲人閱讀器內部相關程序段就會運行，盲人只需要語音輸入他認為正確的語義內容，閱讀器便通過語音識別內容，并與數據庫對比是否有相似翻譯。一旦比中，程序就會修改關于這類詞語的翻譯方式，以提高系統的適用性。

3 新型盲人閱讀器內嵌智能識別系統

本團隊設計研發的此款盲人閱讀器運用了OCR技術、TTS技術、ASR技術等，不僅具有強大的內置攝像頭智能識別及提醒功能，還具有靈活的語音詞匯搜索功能。

3.1 文字識別技術

本閱讀器能夠將待閱讀文本進行圖像采集，然后利用圖像處理技術完成對文本的提取和文字識別，最后對識別的文字進行音頻輸出。文字識別（OCR）技術是模式識別的一個分支，是智能閱讀的核心[7]。閱讀器的提醒功能是指夠幫助盲人對想要獲取的信息文本進行完全錄入，使其閱讀過程更為順暢。在文字信息的處理方面，我團隊在盲人閱讀器中安裝了doPDF?Cajviewer 7.0系統。此系統可以做到經攝像頭讀取后確定文本范圍，進行文本內容錄入的操作。在錄入過程中，可以對識別內容進行自動調整，對于拍攝過程中的燈光角度自行調節。

3.2 文字轉語音技術

在對文本進行拍攝錄入時，應用了文字轉語音技術。TTS（Text-To-Speech）文字轉語音技術是一項實現任意文本信息到語音信號轉換的技術[8]。被拍攝的目標文本信息可以與多語種文字系統進行匹配，閱讀器會按照用戶需求進行文本信息的處理。在音頻信息的處理方面，通過多語種語音系統，建立生成多語種音頻庫，同時盲人用戶在使用過程中對于文本范圍的選取伴有建議范圍提醒功能，具體精確到對于范圍角度及廣度的提醒，提醒過程充分考慮到盲人的不便與需求。在已確定文本語種及音頻語種的前提下，系統將文字與音頻進行一對一搭配，匹配過程中智能查找錯誤進行修改與完善。并且，盲人用戶在文本信息讀取過程中，能夠及時進行詞匯語音搜索。具體來說即是盲人在聽讀過程中，遇到有疑問的詞匯，能夠立即通過語音搜索系統提出自己的疑問，閱讀器在接收到盲人用戶的語音反饋后，通過無線網絡系統進行智能搜索。通過這一服務項目，達到瞬時通過語音反饋解決閱讀過程中出現的困難的目的。

3.3 自動語音識別(ASR)技術

語音識別技術，也被稱為自動語音識別(ASR)。語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤，通過語音命令進行相應的操作[9]。其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入，例如按鍵、二進制編碼或者字符序列。在語音識別處理中，過高的語音采樣速率會使一段語音信號的幀數大大增加，不利于系統的實時處理[10]。

參考文獻：

[1]張毅.虛擬現實技術的發展現狀與展望[J].電腦迷,2017(11):32.

[2]王陽陽.基于虛擬現實的三維建模技術探析[J].數字技術與應用,2017(07):209-210.

[3]趙小川.手勢識別技術研究綜述與應用展望[A].中國高科技產業化研究會智能信息處理產業化分會、中國高科技產業化研究會信號處理專家委員會.第十一屆全國信號和智能信息處理與應用學術會議專刊[C].中國高科技產業化研究會智能信息處理產業化分會、中國高科技產業化研究會信號處理專家委員會,2017:4.

[4]尼加提·納吉米,席小剛,馬斌,買合木提·買買提.多語種輔助翻譯系統研究與實現[J].電腦知識與技術,2012,8(02):345-350.

[5]包蘇魯德.多語種機器翻譯平臺關鍵技術研究[D].復旦大學,2008.

[6]潘保昌.浮動模板法——一種抽取文字特征的方法[J].計算機學報,1983,(06):469-477.

[7]秦瑞強.嵌入式盲人閱讀器系統設計與開發[D].大連理工大學,2015.

[8]廖正和.淺析語音合成技術[J].科技情報開發與經濟,2006(18):216-217.

[9]劉向華.語音識別技術及應用[J].溫州職業技術學院學報,2006(03):33-35.

[10]王一.盲人信息輸入新方法的研究與實現[D].湖南大學,2009.