未來(lái)調(diào)度業(yè)務(wù)融入語(yǔ)音識(shí)別技術(shù)應(yīng)用的暢想

2024-06-18 00:00:00朱偉

管理學(xué)家 2024年11期

[摘要]上海市地鐵規(guī)模不斷擴(kuò)張，但調(diào)度工作的工作方式和依賴工具依然較為落后。為了應(yīng)對(duì)日益繁重的調(diào)度工作任務(wù)，從根本上減輕上海市地鐵調(diào)度工作人員的工作壓力和工作強(qiáng)度，實(shí)現(xiàn)降本增效的發(fā)展目標(biāo)，文章從調(diào)度業(yè)務(wù)入手，詳細(xì)分析在調(diào)度業(yè)務(wù)中引入語(yǔ)音識(shí)別技術(shù)的可行性及其可能達(dá)到的效果，設(shè)想了在調(diào)度通話、事后質(zhì)檢、表單填寫(xiě)、預(yù)案觸發(fā)等業(yè)務(wù)流程中引入語(yǔ)音識(shí)別技術(shù)的效果和可能面臨的困難，以供參考。

[關(guān)鍵詞]上海地鐵；語(yǔ)音識(shí)別技術(shù)；調(diào)度業(yè)務(wù)

中圖分類(lèi)號(hào)：U239.5 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1674-1722（2024）11-0034-03

現(xiàn)階段，語(yǔ)音識(shí)別技術(shù)作為人工智能領(lǐng)域重要的發(fā)展方向之一，在軌道交通行業(yè)已經(jīng)具備諸多實(shí)際落地的應(yīng)用場(chǎng)景，如語(yǔ)音購(gòu)票、智能客服、智能開(kāi)關(guān)站等。目前，上述應(yīng)用場(chǎng)景主要側(cè)重于地鐵車(chē)站的日常運(yùn)營(yíng)工作，在軌道交通行業(yè)各業(yè)務(wù)中充當(dāng)“大腦”的角色，與語(yǔ)音識(shí)別技術(shù)的實(shí)際結(jié)合案例相對(duì)較少。

基于此，文章針對(duì)上海地鐵調(diào)度業(yè)務(wù)與語(yǔ)音識(shí)別技術(shù)結(jié)合后，能夠?qū)υ辛鞒袒蚬ぷ鲗?shí)施提升和優(yōu)化的點(diǎn)展開(kāi)大膽設(shè)想，希望可以在不擴(kuò)張現(xiàn)有上海地鐵調(diào)度團(tuán)隊(duì)規(guī)模的同時(shí)，減輕調(diào)度工作人員的工作壓力，提高工作效率。

一、語(yǔ)音識(shí)別技術(shù)概述

ASR技術(shù)的發(fā)展歷史可以追溯到20世紀(jì)六七十年代，當(dāng)時(shí)主要集中在單詞識(shí)別上。2 0世紀(jì)八九十年代，隱馬爾可夫模型（Hidden Markov Model，HMM）引起了人們的興趣，并成功地應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域。近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNN）模型在語(yǔ)音識(shí)別領(lǐng)域表現(xiàn)越來(lái)越好。

目前，主流的ASR技術(shù)包括基于統(tǒng)計(jì)方法的傳統(tǒng)ASR系統(tǒng)和基于深度學(xué)習(xí)的新一代ASR系統(tǒng)兩種。其中，基于統(tǒng)計(jì)方法的傳統(tǒng)ASR系統(tǒng)使用高斯混合模型（GMM）和HMM等統(tǒng)計(jì)建模方法對(duì)語(yǔ)音信號(hào)進(jìn)行建模和識(shí)別?；谏疃葘W(xué)習(xí)的新一代ASR系統(tǒng)則利用DNN、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）等深度學(xué)習(xí)模型對(duì)語(yǔ)音信號(hào)進(jìn)行建模和識(shí)別[ 1 ]。相比之下，基于深度學(xué)習(xí)的新一代ASR系統(tǒng)在性能上明顯優(yōu)于傳統(tǒng)ASR系統(tǒng)，因此得到了廣泛應(yīng)用和研究。

二、上海市地鐵調(diào)度業(yè)務(wù)現(xiàn)狀

（一）工作內(nèi)容

調(diào)度工作人員的工作內(nèi)容從類(lèi)型上主要分為三種。

一是溝通類(lèi)工作。調(diào)度工作本身絕大部分工作內(nèi)容都是溝通類(lèi)工作，主要包括與車(chē)站的溝通、內(nèi)部跨專(zhuān)業(yè)的溝通以及與運(yùn)營(yíng)公司和第三方維保單位間的溝通等。相對(duì)于文字類(lèi)信息，溝通類(lèi)工作的語(yǔ)言類(lèi)信息在時(shí)效性上更具優(yōu)勢(shì)，而調(diào)度工作的性質(zhì)也決定了其對(duì)時(shí)效性的強(qiáng)烈要求。

二是表單類(lèi)工作。相較于溝通類(lèi)工作，表單類(lèi)工作雖然也起到傳遞信息的作用，但與溝通類(lèi)工作不同的是信息傳遞的對(duì)象和對(duì)時(shí)效性的要求。表單類(lèi)工作更關(guān)注信息的準(zhǔn)確性。表單類(lèi)工作最大的優(yōu)點(diǎn)在于留痕和有跡可查，多數(shù)溝通類(lèi)工作在事后也會(huì)相應(yīng)地補(bǔ)充一項(xiàng)表單類(lèi)工作。

三是復(fù)聽(tīng)轉(zhuǎn)寫(xiě)類(lèi)工作。復(fù)聽(tīng)轉(zhuǎn)寫(xiě)類(lèi)工作主要是將溝通類(lèi)工作過(guò)程中產(chǎn)生的錄音文件，通過(guò)重復(fù)收聽(tīng)轉(zhuǎn)寫(xiě)為文字版，一般在遇到重大事項(xiàng)需要專(zhuān)門(mén)向上匯報(bào)時(shí)進(jìn)行。平時(shí)更多是復(fù)聽(tīng)類(lèi)工作，也就是抽調(diào)專(zhuān)人對(duì)溝通類(lèi)工作過(guò)程中產(chǎn)生的錄音文件進(jìn)行復(fù)聽(tīng)，檢查在溝通過(guò)程中是否有不合規(guī)、不專(zhuān)業(yè)以及遺漏項(xiàng)等問(wèn)題。

（二）工作流程

溝通類(lèi)工作的工作方式主要依賴專(zhuān)用話機(jī)，調(diào)度中心與車(chē)站、運(yùn)營(yíng)單位、內(nèi)部跨專(zhuān)業(yè)以及第三方等的溝通需要通過(guò)不同話機(jī)進(jìn)行。溝通類(lèi)工作結(jié)束后會(huì)產(chǎn)生通話錄音。如果屬于日常類(lèi)溝通工作，需要補(bǔ)充填寫(xiě)表單的就需要人工進(jìn)行表單補(bǔ)充填寫(xiě)。通話產(chǎn)生的錄音在后續(xù)會(huì)被抽樣做復(fù)聽(tīng)質(zhì)檢，復(fù)聽(tīng)質(zhì)檢實(shí)際就是抽派專(zhuān)人復(fù)聽(tīng)抽樣的通話錄音，檢查通話過(guò)程是否合規(guī)、是否有遺漏項(xiàng)等。如果屬于重大事項(xiàng)，如列車(chē)火災(zāi)、車(chē)門(mén)夾人等，則需要調(diào)度人員對(duì)通話過(guò)程中產(chǎn)生的所有錄音復(fù)聽(tīng)轉(zhuǎn)寫(xiě)，即由調(diào)度工作人員人工復(fù)聽(tīng)錄音文件，將錄音文件轉(zhuǎn)寫(xiě)為文字版上報(bào)給領(lǐng)導(dǎo)，方便領(lǐng)導(dǎo)檢查。

三、調(diào)度業(yè)務(wù)引入語(yǔ)音識(shí)別技術(shù)的需求

（一）復(fù)聽(tīng)轉(zhuǎn)寫(xiě)

相較于文字信息，語(yǔ)言信息雖然在信息傳遞的實(shí)時(shí)性方面具有不可比擬的優(yōu)越性，但在事后復(fù)盤(pán)檢閱過(guò)程中其便利性卻又不如文字信息，文字的閱讀速度因人而異，音頻的復(fù)聽(tīng)速度卻依賴于音頻的長(zhǎng)度，一段三分鐘的音頻如果復(fù)聽(tīng)一定需要3分鐘的時(shí)長(zhǎng)，而且一段音頻還可能會(huì)被復(fù)聽(tīng)，但是將其蘊(yùn)含的內(nèi)容轉(zhuǎn)寫(xiě)成文字，閱讀起來(lái)可能只需要1分鐘的時(shí)間，可以略讀不重要的內(nèi)容，重點(diǎn)關(guān)注主要內(nèi)容即可。正因如此，為了上級(jí)領(lǐng)導(dǎo)可以及時(shí)注意到關(guān)鍵內(nèi)容，調(diào)度人員上報(bào)重大事項(xiàng)時(shí)需要先將音頻內(nèi)容轉(zhuǎn)寫(xiě)成文字版。

（二）復(fù)聽(tīng)質(zhì)檢

相較于復(fù)聽(tīng)轉(zhuǎn)寫(xiě)工作，復(fù)聽(tīng)質(zhì)檢少了將音頻文件轉(zhuǎn)寫(xiě)為文字版的過(guò)程，但是其在事后復(fù)盤(pán)檢閱文字信息的便利性是語(yǔ)音信息不具備的，由于調(diào)度工作對(duì)實(shí)時(shí)性的要求，溝通工作只能以語(yǔ)言溝通為主。

（三）表單填寫(xiě)

表單填寫(xiě)工作需要調(diào)度工作人員回憶在電話溝通過(guò)程中雙方交換的信息，在信息較多無(wú)法完整回憶時(shí)，要復(fù)聽(tīng)錄音文件，將正確的信息以文字的形式填寫(xiě)在表單內(nèi)，這一過(guò)程有點(diǎn)類(lèi)似復(fù)聽(tīng)轉(zhuǎn)寫(xiě)，但與復(fù)聽(tīng)轉(zhuǎn)寫(xiě)不同的是，表單填寫(xiě)不需要將對(duì)話內(nèi)容完整轉(zhuǎn)換，表單相對(duì)固定，只需要將表單內(nèi)需要的內(nèi)容轉(zhuǎn)成文字填入即可，因調(diào)度人員無(wú)法直觀地看到所需內(nèi)容具體在哪一部分，其依然需要從頭到尾完整地復(fù)聽(tīng)整段錄音，直到將表單所需內(nèi)容填寫(xiě)完整。

（四）信息檢索

因溝通過(guò)程中可能只會(huì)產(chǎn)生音頻文件而沒(méi)有文字記錄，這會(huì)對(duì)事后檢索所需信息造成嚴(yán)重障礙，工作人員無(wú)法對(duì)所需信息進(jìn)行有效檢索，只能逐個(gè)排查。如果涉及應(yīng)急事件的處置，工作人員核對(duì)后，需要在系統(tǒng)中手動(dòng)檢索相關(guān)的預(yù)案，在這種較為緊急的時(shí)刻，手動(dòng)檢索的動(dòng)作相對(duì)就顯得比較低效。

四、語(yǔ)音識(shí)別技術(shù)的引入

在調(diào)度業(yè)務(wù)中，為了保證重要信息傳遞的實(shí)時(shí)性，最關(guān)鍵和不可缺少的環(huán)節(jié)是語(yǔ)言類(lèi)的信息傳遞，但是與之矛盾的是，語(yǔ)言類(lèi)的信息在事后的回顧和檢查過(guò)程中會(huì)帶來(lái)種種不便，遠(yuǎn)不如文字信息直觀和便捷。在此過(guò)程中，引入語(yǔ)音識(shí)別技術(shù)，實(shí)現(xiàn)語(yǔ)音信息到文字信息的自動(dòng)轉(zhuǎn)換，可以為調(diào)度工作人員節(jié)省大量的精力，減輕絕大部分文字輸入類(lèi)工作的壓力。

（一）實(shí)時(shí)轉(zhuǎn)寫(xiě)

針對(duì)復(fù)聽(tīng)轉(zhuǎn)寫(xiě)和復(fù)聽(tīng)質(zhì)檢的痛點(diǎn)引入語(yǔ)音識(shí)別技術(shù)后，將語(yǔ)音識(shí)別服務(wù)對(duì)接通話系統(tǒng)，在調(diào)度人員與車(chē)站、運(yùn)營(yíng)單位和其他第三方維保單位等通話過(guò)程中，將對(duì)話內(nèi)容實(shí)時(shí)轉(zhuǎn)寫(xiě)成文字版，既可以避免事后復(fù)聽(tīng)轉(zhuǎn)寫(xiě)的工作，也可以將對(duì)話內(nèi)容更加直觀、實(shí)時(shí)地呈現(xiàn)在調(diào)度人員眼前，最大限度地避免了信息在口語(yǔ)傳遞過(guò)程中可能產(chǎn)生的誤解和偏差[ 2 ]。

具體設(shè)想如下：通話系統(tǒng)中接入語(yǔ)音識(shí)別的服務(wù)，實(shí)時(shí)監(jiān)聽(tīng)雙方的通話內(nèi)容，將對(duì)話內(nèi)容實(shí)時(shí)識(shí)別輸出成文字版，將輸出的文字內(nèi)容展示在調(diào)度工作人員的計(jì)算機(jī)屏幕上。這樣既可以及時(shí)發(fā)現(xiàn)并糾正通話雙方溝通過(guò)程中可能無(wú)意中出現(xiàn)的口誤，也可以對(duì)溝通內(nèi)容形成的文字+音頻進(jìn)行雙重記錄，在節(jié)省人為復(fù)聽(tīng)轉(zhuǎn)寫(xiě)的精力和時(shí)間的同時(shí)，提高了質(zhì)檢工作人員的工作效率。

（二）表單自動(dòng)化

表單填寫(xiě)工作具有模式化的特點(diǎn)，單一表單中所需填寫(xiě)的信息是比較固定的，但是，部分表單所需填寫(xiě)的內(nèi)容又是比較多的，在雙方通話過(guò)程中填寫(xiě)表單比較耗時(shí)，效率較低，會(huì)有長(zhǎng)時(shí)間占線的風(fēng)險(xiǎn)，違背了調(diào)度工作最基本的及時(shí)性響應(yīng)和語(yǔ)音信息傳遞的快捷性。所以，調(diào)度人員一般會(huì)在通話結(jié)束后依靠對(duì)通話內(nèi)容的回憶填寫(xiě)表單，內(nèi)容較多記不清楚的還會(huì)反復(fù)聽(tīng)通話錄音，這會(huì)占用較多的精力。

針對(duì)這一問(wèn)題，可以將表單填寫(xiě)工作交給語(yǔ)音識(shí)別技術(shù)，稍作改動(dòng)就可以實(shí)現(xiàn)這一目標(biāo)。具體構(gòu)想如下：在雙方通話的同時(shí)，語(yǔ)音識(shí)別服務(wù)將通話內(nèi)容實(shí)時(shí)轉(zhuǎn)寫(xiě)為文本內(nèi)容，輸出的文本內(nèi)容經(jīng)過(guò)關(guān)鍵字檢測(cè)。關(guān)鍵字檢測(cè)分為表單生成關(guān)鍵字和內(nèi)容填充關(guān)鍵字，通常要求一次通話只能生成一次表單，識(shí)別到生成表單的關(guān)鍵字后調(diào)用表單系統(tǒng)，頁(yè)面彈框提示，詢問(wèn)是否生成該表單。調(diào)度工作人員確認(rèn)生成后，在本次通話過(guò)程中不再生成新的表單。

表單生成后，開(kāi)始執(zhí)行內(nèi)容填充關(guān)鍵字的識(shí)別，將識(shí)別到的相關(guān)內(nèi)容在表單內(nèi)進(jìn)行自動(dòng)填充，在本次通話掛斷時(shí)頁(yè)面再次彈框提示調(diào)度工作人員，自動(dòng)填充已結(jié)束，工作人員在檢查無(wú)誤后可手動(dòng)點(diǎn)擊提交按鈕進(jìn)行表單提交。內(nèi)容有誤的可以有針對(duì)性地修改，修改后再提交。

（三）調(diào)度預(yù)案自動(dòng)化

在調(diào)度工作過(guò)程中，某些特定情況下需要緊急啟動(dòng)某些已經(jīng)提前設(shè)置好的預(yù)案，比如氣象災(zāi)害、人員入侵、列車(chē)事故、淹水倒灌等，需要啟動(dòng)預(yù)案的場(chǎng)景一般是特別緊急的情況，在這種緊急關(guān)頭，每多浪費(fèi)一秒鐘，危險(xiǎn)就會(huì)增加一分，可以考慮將語(yǔ)音識(shí)別技術(shù)對(duì)接到預(yù)案啟動(dòng)中[ 3 ]。具體構(gòu)想如下：在關(guān)鍵字檢測(cè)中再添加一類(lèi)應(yīng)急預(yù)案關(guān)鍵字，當(dāng)通話雙方在對(duì)話過(guò)程中觸發(fā)該關(guān)鍵字時(shí)，則立馬調(diào)用應(yīng)急預(yù)案系統(tǒng)，在調(diào)度人員工作計(jì)算機(jī)的相關(guān)頁(yè)面上彈框?qū)ζ涮崾竞驮儐?wèn)，是否要啟動(dòng)該預(yù)案，工作人員手動(dòng)確認(rèn)后，預(yù)案啟動(dòng)執(zhí)行。

該流程省去了工作人員檢索相關(guān)預(yù)案的步驟，直接在對(duì)話過(guò)程中檢測(cè)雙方的對(duì)話內(nèi)容，調(diào)度工作人員最少只需要點(diǎn)擊一次確認(rèn)按鈕，就可以及時(shí)啟動(dòng)相關(guān)預(yù)案，之所以設(shè)計(jì)為工作人員手動(dòng)確認(rèn)啟動(dòng)，同樣是考慮到語(yǔ)音識(shí)別技術(shù)的容錯(cuò)機(jī)制。

（四）語(yǔ)音檢索

以上功能的實(shí)現(xiàn)，已經(jīng)基本涵蓋調(diào)度工作中的人工文字輸入類(lèi)工作，語(yǔ)音檢索功能的構(gòu)想是對(duì)以上功能的補(bǔ)充，以上功能主要關(guān)注的是在調(diào)度工作人員和其他方通話的場(chǎng)景下，只能以話機(jī)作為入口去觸發(fā)各種場(chǎng)景的功能，語(yǔ)音檢索功能的設(shè)計(jì)則是在話機(jī)之外，單獨(dú)設(shè)置收音麥克風(fēng)，調(diào)度工作人員可以直接對(duì)麥克風(fēng)講話來(lái)觸發(fā)語(yǔ)音識(shí)別的服務(wù)。

五、引入語(yǔ)音識(shí)別技術(shù)可能面臨的困難和挑戰(zhàn)

（一）方言

語(yǔ)音識(shí)別技術(shù)是對(duì)語(yǔ)言發(fā)音內(nèi)容的識(shí)別，與發(fā)音準(zhǔn)確性高度相關(guān)。目前市面上主流的語(yǔ)音識(shí)別技術(shù)一般都支持普通話和英語(yǔ)的識(shí)別，但是我國(guó)幅員遼闊，對(duì)散布在中華大地各個(gè)地方的方言的識(shí)別是難點(diǎn)之一，雖然探討的是上海市地鐵的業(yè)務(wù)場(chǎng)景，申通集團(tuán)可以通過(guò)規(guī)章制度和招聘要求等，將崗位人員的從業(yè)資v0EwQvCig9MD/9pm7j5AdbdTauam5ItZp3mVSE3DnFU=格限制在普通話或上海話這一范圍內(nèi)，但部分業(yè)務(wù)場(chǎng)景下與調(diào)度人員發(fā)生通話的可能是外部的第三方人員，如施工負(fù)責(zé)人、第三方維保單位等，此類(lèi)外部人員的發(fā)音習(xí)慣和方言口音等對(duì)語(yǔ)音識(shí)別技術(shù)是一大挑戰(zhàn)。

（二）噪聲

對(duì)上海市地鐵部分調(diào)度通話錄音調(diào)研后發(fā)現(xiàn)，在錄音文件中，部分音頻中存在非常嚴(yán)重的噪聲干擾問(wèn)題，噪聲的來(lái)源大致有兩種。

一種是調(diào)度人員與多車(chē)站開(kāi)群體會(huì)議時(shí)，部分車(chē)站因參會(huì)目的已達(dá)到，在經(jīng)過(guò)調(diào)度人員同意后，會(huì)先行掛斷電話，在掛斷電話時(shí)產(chǎn)生的話機(jī)聽(tīng)筒與話機(jī)機(jī)身磕碰的聲音音量非常大，這個(gè)時(shí)候基本聽(tīng)不到正在發(fā)言的工作人員所說(shuō)的內(nèi)容。

另一種是通話人員旁邊無(wú)關(guān)人員的說(shuō)話聲，此類(lèi)情況一般出現(xiàn)在車(chē)站，無(wú)關(guān)人員的聲音被收錄后會(huì)對(duì)語(yǔ)音識(shí)別功能造成干擾，在應(yīng)用場(chǎng)景中很可能造成相關(guān)系統(tǒng)的誤觸發(fā)或無(wú)法準(zhǔn)確觸發(fā)等問(wèn)題。

（三）誤識(shí)別

誤識(shí)別問(wèn)題主要發(fā)生在發(fā)音人語(yǔ)速過(guò)快或發(fā)音音量過(guò)小時(shí)，語(yǔ)速過(guò)快時(shí)容易發(fā)生連音現(xiàn)象，即兩個(gè)字或兩個(gè)以上的字發(fā)音連在一起，實(shí)際發(fā)出的只有一個(gè)音，此時(shí)系統(tǒng)接收的發(fā)音只有一個(gè)，就會(huì)造成漏識(shí)別、錯(cuò)識(shí)別等。音量過(guò)小時(shí)可能無(wú)法達(dá)到語(yǔ)音識(shí)別系統(tǒng)的音量能量值，導(dǎo)致識(shí)別出錯(cuò)、不識(shí)別等。

（四）其他

其他可能對(duì)語(yǔ)音識(shí)別功能造成負(fù)面影響的情形還有多人同時(shí)發(fā)音、發(fā)音模糊等。發(fā)音模糊多發(fā)生在調(diào)度人員與多車(chē)站通過(guò)電話召開(kāi)群體會(huì)議時(shí)，在點(diǎn)名簽到環(huán)節(jié)，車(chē)站工作人員的回答發(fā)音極為模糊，基本聽(tīng)不清回答的內(nèi)容；多人同時(shí)發(fā)音的情況在調(diào)研過(guò)程中出現(xiàn)較少，在此僅做記錄用以提醒。

六、結(jié)語(yǔ)

人工智能技術(shù)有語(yǔ)音識(shí)別技術(shù)，還有圖像識(shí)別、行為分析、語(yǔ)義理解、語(yǔ)音合成等領(lǐng)域，文章對(duì)語(yǔ)音識(shí)別技術(shù)引入調(diào)度業(yè)務(wù)的淺談希望可以起到拋磚引玉的效果，期待諸位同仁可以發(fā)散思維，從不同的領(lǐng)域作出專(zhuān)業(yè)的審視。未來(lái)希望能夠與諸君一起，共同建設(shè)更加聰明、便捷、高效的調(diào)度業(yè)務(wù)流程。