趙若言


摘要
隨著社會經濟的發展以及科學技術的進步,人工智能技術得到極大的發展,其中語音識別技術在各個領域的應用越來越廣泛,為人們的生產生活提供了極大的便利。但是,在科技發展迅速的今天,諸多成熟高科技仍未能運用到一些重要領域通信保障日常建設中來。本文就語音識別技術在某些特殊領域人工臺設備的應用進行了探討。
【關鍵詞】語音識別 人工臺 人工智能
1 前言
隨著云計算、模型算法、資源整合以及大數據等新技術的發展與成熟,人工智能技術如今進入了爆發式增長期。該技術引發了傳統領域的創新與變革,并己全方面向人們的日常生活滲透,改變了原本的生活方式。其中智能語音技術率先發展成熟起來,展現出了廣闊的行業發展前景。然而,目前一些重要崗位人工臺話務員查號報號主要靠人工記憶和人工查找,不具有智能型。且對于這類人工話務員的訓練周期過長,是對人力資源造成極大浪費,對人工話務臺的升級改造己刻不容緩。現階段民用語音識別技術已經相對成熟,利用語音識別技術對人工話務臺進行升級具有較大的現實意義。
2 語音識別技術概述
2.1 什么是語音識別技術
語音識別技術,也被稱為自動語音識別Automatic Speech Recognition(ASR),其目標是將人類語音中的詞匯內容轉換為計算機可以讀的輸入,例如按鍵、二進制編碼或者字符序列。通俗地說就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術,也就是讓機器聽懂人類的語言。
2.2 語音識別技術的發展
語音識別的研究工作開始于20世紀50年代,第一個語音識別系統源于AT&T貝爾實驗室的Andry系統,它可實現十個英文數字的識別。60年代,計算機技術的發展使得語音識別取得實質性進展,為語音識別的實現在硬件和軟件上提供了平臺。在這個時期,提出的動態規劃(DP,Dynamic Programming)和線性預測分析技術(LP)兩項技術可應用于語音識別。80年代,HMM模型在語音識別中的成功應用及人工神經網絡在語音識別中的研究進一步推動了語音識別研究工作。到2006年,微軟利用Hinton逐層貪婪無監督預訓練深度網絡,成功地將深度學習應用到其語音識別系統中,使識別錯誤率降低了約30%,這是語音識別領域中的一次重大突破。隨后,微軟又利用基于上下文相關的深度神經網絡一隱馬爾科夫模型(Context-dependent DNN-HMM,CD-DNN-HMM)對大詞匯量語音識別的研究成果,對語音識別系統的原有技術框架進行了徹底改造,語音識別技術進入新時代。
如今,在人們的生活中,智能化語音識別技術已經運用于各類通信、生活服務終端,例如美國微軟的Cortana,蘋果公司的Siri等移動終端虛擬語音助手;國內的百度語音、科大訊飛等。現在,應用于市場得到語音識別系統針對普通話識別準確率均超過了90%,絕大部分如今已超過95%。2016年9月到10月,美國雷德蒙研究院在電話語音識別的標準庫Switchboard上報道,可達到5.9%的錯誤率(在這個庫上人類也只能達到大概5.9%),機器性能基本與人類持平;而國內百度、搜狗、訊飛的連續三場發布會上,他們各家均聲稱的語音識別系統性能達到97%.這些均標志著語音識別技術已經成熟。
2.3 語音識別技術的應用
隨著科學技術的不斷發展和進步,許多新技術被應用于各個領域,有力推動了現代化社會的發展。語音識別技術作為近年來最熱的一種先進的技術,涉及信號處理、語言、心理和計算機等多門學科。大量的語音識別產品己經進入市場和服務領域,被廣泛地應用于智能終端、移動互聯網應用、金融、電信、汽車、家居、教育等行業,推動了車載語音、智能客服、智能家居、語音課件等產品的迅猛發展。近年來國內以科大訊飛代表的智能語音廠商紛紛進行市場布局,提供語音識別、語音合成、集成化產品、智能語音云平臺等多樣化能力服務,引發汽車、家電、銀行、家居、電信等多領域傳統行業的應用創新。各行各業也紛紛以此為契機,大力創新發展與人工智能技術結合的產品及服務,以提高用戶體驗。
3 人工臺智能語音識別技術應用淺析
3.1 人工臺現狀分析
某些內部人工話務臺主要用于保障重要領導視察時的電話轉接、實現與上下級電話轉接以及用戶的電話接續、查號等功能,而話務員的水平直接影響到人工電話服務質量。所以,該工作對話務員的業務水平要求高。電話號碼查詢和轉接一直是人工臺話務員的主要工作,然而,話務員的培訓難度大,訓練周期長。從而制約了人工話務服務質量水平的提高和業務范圍的擴展,而話務員的水平直接影響到人工電話服務質量。
在人工電話通信保障中,只有通過嚴格考核的話務員才有資格上崗。目前人工話務員采用人工識別用戶語音,對于業務合格的話務員仍存在因為心理素質不夠高、用戶詢問方式不清楚、話務員和用戶表達方式存在差異等因素導致報號延遲、報號錯誤的情況;同時由于話務員對部分用戶方言難以辨別需要向對方重復問詢,或者進行電話號碼反向核對時讓用戶等待時間較長卻未能及時向用戶解釋,從而導致用戶不滿意的情況。上述種種問題均制約了人工電話服務質量,降低了用戶滿意度。故如何提升人工臺正確率和速度是目前急需解決的問題。
3.2 語音識別技術在人工臺應用的實現方法
目前,智能語音識別技術相對比較成熟,已經可以實現全自動人機交流,但與人工保障仍存在一定差距。考慮到特殊領域保密要求高、保障準確率要求高以及反應速度快的具體要求,從語音識別技術的應用方法入手,結合內部電話號碼及其關聯特點,分析內部集團用戶需求以及現有保障水平,依托現有特殊領域人工話務臺保障模式進行應用,在保證其安全性的基礎上可實現智能語音輔助和自動報號兩項功能,具體設計如下:
如圖1所示是用于話務員的人工語音識別輔助系統,該系統首先從人工臺聲卡采集用戶語音信號,在服務器的錄音卡上對聲音進行處理并傳送到語音識別軟件中,通過軟件將語音轉換為文字進行關鍵詞對比搜索,通過服務器進行可視化處理,最后將結果傳送至人工臺坐席實現輔助顯示。
如圖2所示是基于語音識別的自動號碼查詢系統,該系統首先在用戶撥打專線后從語音中繼卡采集用戶語音信號,在服務器的錄音卡上對聲音進行處理并傳送到語音識別軟件中,通過軟件將語音轉換為文字進行關鍵詞對比搜索,將對比選擇出的結果送入服務器的語音合成核中合成語音,將最終合成的語音結果通過中繼卡播報給用戶,實現免人工自動號碼查詢系統。
3.3 語音識別技術在人工臺應用中需解決的關鍵技術
如上文所述,特殊領域人工話務臺由于其在任務和日常保障中對安全性、反應速度、準確率等方面要求極高的特殊性,其設計以及測試必將不同于民用語音識別系統,因此需解決以下相關問題,確保語音識別技術在特殊領域人工臺保障中發揮積極作用:
(1)解決用戶語音降噪的問題:從源頭上保證樣本質量,確保識別的正確率;
(2)解決對識別結果進行關鍵詞提取的問題:在語音識別和對比的過程中確保關鍵詞找準,避免反復搜索,提高反應速度和準確率。
(3)解決電話號碼庫如何建立且實現用戶關聯的問題:特殊領域集團電話號碼不同于民用的地方在于其復雜的關聯性和保密性,如需保證識別結果的準確率并保證其安全,需構造相互關聯的電話號碼庫,并設置保密級和優先級。
4 結束語
隨著人工智能行業的快速發展。信息技術領域未來必然是智能化,自動化的主流方向。在語音識別領域將大有可為,傳統的人工繁瑣的操作將被解放。系統語音智能識別,自動處理將是主流趨勢。在確保某些特殊領域信息安全的情況下,利用語音識別以及相關人工智能技術來不斷升級集團內部服務也是時代的要求。在科技不斷發展的今天,我們應該抓住契機,大力推動智能語音交互等人工智能應用,取代大量、重復性、內容定制化的人工服務及工作內容,不斷創新提高工作效率。
參考文獻
[1]英特爾芯片將加入語音識別技術.Siri登陸桌面之日將近[2016-04-26]http://www.dlworld.cn /YuYinShiBie/32.htr.
[2]武勤.《2015中國智能語音產業發展白皮書》發布[J].計算機網絡,2016,42(08):17-17.
[3]胡郁.人工智能與語音識別技術[EB/OL].[2016-09-28].http://www.eepw.com.cn/article/201603/288901.htm.
[4]胡祥杰.研報:全球智能語音市場將達200億美元,進入群雄紛爭時代[EB/OL].[2016-09-13].http://www.jiemian.com/article/648815.html.
[5]王忠,趙惠.移動智能語音產業鏈治理策略研究[J].科技管理研究,2014(18):117-120.
[6]吳勇毅.智能語音:移動互聯新入口爭奪戰[J].上海信息化,2014(10):42-44.
[7]胡勁松.移動電商安全防范中語音識別技術的運用探討[J].技術與應用,2017(10):17-20.