[摘 要]上海市地鐵規(guī)模不斷擴(kuò)張,但調(diào)度工作的工作方式和依賴工具依然較為落后。為了應(yīng)對(duì)日益繁重的調(diào)度工作任務(wù),從根本上減輕上海市地鐵調(diào)度工作人員的工作壓力和工作強(qiáng)度,實(shí)現(xiàn)降本增效的發(fā)展目標(biāo),文章從調(diào)度業(yè)務(wù)入手,詳細(xì)分析在調(diào)度業(yè)務(wù)中引入語(yǔ)音識(shí)別技術(shù)的可行性及其可能達(dá)到的效果,設(shè)想了在調(diào)度通話、事后質(zhì)檢、表單填寫(xiě)、預(yù)案觸發(fā)等業(yè)務(wù)流程中引入語(yǔ)音識(shí)別技術(shù)的效果和可能面臨的困難,以供參考。
[關(guān)鍵詞]上海地鐵;語(yǔ)音識(shí)別技術(shù);調(diào)度業(yè)務(wù)
中圖分類(lèi)號(hào):U239.5 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-1722(2024)11-0034-03
現(xiàn)階段,語(yǔ)音識(shí)別技術(shù)作為人工智能領(lǐng)域重要的發(fā)展方向之一,在軌道交通行業(yè)已經(jīng)具備諸多實(shí)際落地的應(yīng)用場(chǎng)景,如語(yǔ)音購(gòu)票、智能客服、智能開(kāi)關(guān)站等。目前,上述應(yīng)用場(chǎng)景主要側(cè)重于地鐵車(chē)站的日常運(yùn)營(yíng)工作,在軌道交通行業(yè)各業(yè)務(wù)中充當(dāng)“大腦”的角色,與語(yǔ)音識(shí)別技術(shù)的實(shí)際結(jié)合案例相對(duì)較少。
基于此,文章針對(duì)上海地鐵調(diào)度業(yè)務(wù)與語(yǔ)音識(shí)別技術(shù)結(jié)合后,能夠?qū)υ辛鞒袒蚬ぷ鲗?shí)施提升和優(yōu)化的點(diǎn)展開(kāi)大膽設(shè)想,希望可以在不擴(kuò)張現(xiàn)有上海地鐵調(diào)度團(tuán)隊(duì)規(guī)模的同時(shí),減輕調(diào)度工作人員的工作壓力,提高工作效率。
ASR技術(shù)的發(fā)展歷史可以追溯到20世紀(jì)六七十年代,當(dāng)時(shí)主要集中在單詞識(shí)別上。2 0世紀(jì)八九十年代,隱馬爾可夫模型(Hidden Markov Model,HMM)引起了人們的興趣,并成功地應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)模型在語(yǔ)音識(shí)別領(lǐng)域表現(xiàn)越來(lái)越好。
目前,主流的ASR技術(shù)包括基于統(tǒng)計(jì)方法的傳統(tǒng)ASR系統(tǒng)和基于深度學(xué)習(xí)的新一代ASR系統(tǒng)兩種。其中,基于統(tǒng)計(jì)方法的傳統(tǒng)ASR系統(tǒng)使用高斯混合模型(GMM)和HMM等統(tǒng)計(jì)建模方法對(duì)語(yǔ)音信號(hào)進(jìn)行建模和識(shí)別?;谏疃葘W(xué)習(xí)的新一代ASR系統(tǒng)則利用DNN、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等深度學(xué)習(xí)模型對(duì)語(yǔ)音信號(hào)進(jìn)行建模和識(shí)別[ 1 ]。相比之下,基于深度學(xué)習(xí)的新一代ASR系統(tǒng)在性能上明顯優(yōu)于傳統(tǒng)ASR系統(tǒng),因此得到了廣泛應(yīng)用和研究。
(一)工作內(nèi)容
調(diào)度工作人員的工作內(nèi)容從類(lèi)型上主要分為三種。
一是溝通類(lèi)工作。調(diào)度工作本身絕大部分工作內(nèi)容都是溝通類(lèi)工作,主要包括與車(chē)站的溝通、內(nèi)部跨專(zhuān)業(yè)的溝通以及與運(yùn)營(yíng)公司和第三方維保單位間的溝通等。相對(duì)于文字類(lèi)信息,溝通類(lèi)工作的語(yǔ)言類(lèi)信息在時(shí)效性上更具優(yōu)勢(shì),而調(diào)度工作的性質(zhì)也決定了其對(duì)時(shí)效性的強(qiáng)烈要求。
二是表單類(lèi)工作。相較于溝通類(lèi)工作,表單類(lèi)工作雖然也起到傳遞信息的作用,但與溝通類(lèi)工作不同的是信息傳遞的對(duì)象和對(duì)時(shí)效性的要求。表單類(lèi)工作更關(guān)注信息的準(zhǔn)確性。表單類(lèi)工作最大的優(yōu)點(diǎn)在于留痕和有跡可查,多數(shù)溝通類(lèi)工作在事后也會(huì)相應(yīng)地補(bǔ)充一項(xiàng)表單類(lèi)工作。
三是復(fù)聽(tīng)轉(zhuǎn)寫(xiě)類(lèi)工作。復(fù)聽(tīng)轉(zhuǎn)寫(xiě)類(lèi)工作主要是將溝通類(lèi)工作過(guò)程中產(chǎn)生的錄音文件,通過(guò)重復(fù)收聽(tīng)轉(zhuǎn)寫(xiě)為文字版,一般在遇到重大事項(xiàng)需要專(zhuān)門(mén)向上匯報(bào)時(shí)進(jìn)行。平時(shí)更多是復(fù)聽(tīng)類(lèi)工作,也就是抽調(diào)專(zhuān)人對(duì)溝通類(lèi)工作過(guò)程中產(chǎn)生的錄音文件進(jìn)行復(fù)聽(tīng),檢查在溝通過(guò)程中是否有不合規(guī)、不專(zhuān)業(yè)以及遺漏項(xiàng)等問(wèn)題。
(二)工作流程
溝通類(lèi)工作的工作方式主要依賴專(zhuān)用話機(jī),調(diào)度中心與車(chē)站、運(yùn)營(yíng)單位、內(nèi)部跨專(zhuān)業(yè)以及第三方等的溝通需要通過(guò)不同話機(jī)進(jìn)行。溝通類(lèi)工作結(jié)束后會(huì)產(chǎn)生通話錄音。如果屬于日常類(lèi)溝通工作,需要補(bǔ)充填寫(xiě)表單的就需要人工進(jìn)行表單補(bǔ)充填寫(xiě)。通話產(chǎn)生的錄音在后續(xù)會(huì)被抽樣做復(fù)聽(tīng)質(zhì)檢,復(fù)聽(tīng)質(zhì)檢實(shí)際就是抽派專(zhuān)人復(fù)聽(tīng)抽樣的通話錄音,檢查通話過(guò)程是否合規(guī)、是否有遺漏項(xiàng)等。如果屬于重大事項(xiàng),如列車(chē)火災(zāi)、車(chē)門(mén)夾人等,則需要調(diào)度人員對(duì)通話過(guò)程中產(chǎn)生的所有錄音復(fù)聽(tīng)轉(zhuǎn)寫(xiě),即由調(diào)度工作人員人工復(fù)聽(tīng)錄音文件,將錄音文件轉(zhuǎn)寫(xiě)為文字版上報(bào)給領(lǐng)導(dǎo),方便領(lǐng)導(dǎo)檢查。
(一)復(fù)聽(tīng)轉(zhuǎn)寫(xiě)
相較于文字信息,語(yǔ)言信息雖然在信息傳遞的實(shí)時(shí)性方面具有不可比擬的優(yōu)越性,但在事后復(fù)盤(pán)檢閱過(guò)程中其便利性卻又不如文字信息,文字的閱讀速度因人而異,音頻的復(fù)聽(tīng)速度卻依賴于音頻的長(zhǎng)度,一段三分鐘的音頻如果復(fù)聽(tīng)一定需要3分鐘的時(shí)長(zhǎng),而且一段音頻還可能會(huì)被復(fù)聽(tīng),但是將其蘊(yùn)含的內(nèi)容轉(zhuǎn)寫(xiě)成文字,閱讀起來(lái)可能只需要1分鐘的時(shí)間,可以略讀不重要的內(nèi)容,重點(diǎn)關(guān)注主要內(nèi)容即可。正因如此,為了上級(jí)領(lǐng)導(dǎo)可以及時(shí)注意到關(guān)鍵內(nèi)容,調(diào)度人員上報(bào)重大事項(xiàng)時(shí)需要先將音頻內(nèi)容轉(zhuǎn)寫(xiě)成文字版。
(二)復(fù)聽(tīng)質(zhì)檢
相較于復(fù)聽(tīng)轉(zhuǎn)寫(xiě)工作,復(fù)聽(tīng)質(zhì)檢少了將音頻文件轉(zhuǎn)寫(xiě)為文字版的過(guò)程,但是其在事后復(fù)盤(pán)檢閱文字信息的便利性是語(yǔ)音信息不具備的,由于調(diào)度工作對(duì)實(shí)時(shí)性的要求,溝通工作只能以語(yǔ)言溝通為主。
(三)表單填寫(xiě)
表單填寫(xiě)工作需要調(diào)度工作人員回憶在電話溝通過(guò)程中雙方交換的信息,在信息較多無(wú)法完整回憶時(shí),要復(fù)聽(tīng)錄音文件,將正確的信息以文字的形式填寫(xiě)在表單內(nèi),這一過(guò)程有點(diǎn)類(lèi)似復(fù)聽(tīng)轉(zhuǎn)寫(xiě),但與復(fù)聽(tīng)轉(zhuǎn)寫(xiě)不同的是,表單填寫(xiě)不需要將對(duì)話內(nèi)容完整轉(zhuǎn)換,表單相對(duì)固定,只需要將表單內(nèi)需要的內(nèi)容轉(zhuǎn)成文字填入即可,因調(diào)度人員無(wú)法直觀地看到所需內(nèi)容具體在哪一部分,其依然需要從頭到尾完整地復(fù)聽(tīng)整段錄音,直到將表單所需內(nèi)容填寫(xiě)完整。
(四)信息檢索
因溝通過(guò)程中可能只會(huì)產(chǎn)生音頻文件而沒(méi)有文字記錄,這會(huì)對(duì)事后檢索所需信息造成嚴(yán)重障礙,工作人員無(wú)法對(duì)所需信息進(jìn)行有效檢索,只能逐個(gè)排查。如果涉及應(yīng)急事件的處置,工作人員核對(duì)后,需要在系統(tǒng)中手動(dòng)檢索相關(guān)的預(yù)案,在這種較為緊急的時(shí)刻,手動(dòng)檢索的動(dòng)作相對(duì)就顯得比較低效。
在調(diào)度業(yè)務(wù)中,為了保證重要信息傳遞的實(shí)時(shí)性,最關(guān)鍵和不可缺少的環(huán)節(jié)是語(yǔ)言類(lèi)的信息傳遞,但是與之矛盾的是,語(yǔ)言類(lèi)的信息在事后的回顧和檢查過(guò)程中會(huì)帶來(lái)種種不便,遠(yuǎn)不如文字信息直觀和便捷。在此過(guò)程中,引入語(yǔ)音識(shí)別技術(shù),實(shí)現(xiàn)語(yǔ)音信息到文字信息的自動(dòng)轉(zhuǎn)換,可以為調(diào)度工作人員節(jié)省大量的精力,減輕絕大部分文字輸入類(lèi)工作的壓力。
(一)實(shí)時(shí)轉(zhuǎn)寫(xiě)
針對(duì)復(fù)聽(tīng)轉(zhuǎn)寫(xiě)和復(fù)聽(tīng)質(zhì)檢的痛點(diǎn)引入語(yǔ)音識(shí)別技術(shù)后,將語(yǔ)音識(shí)別服務(wù)對(duì)接通話系統(tǒng),在調(diào)度人員與車(chē)站、運(yùn)營(yíng)單位和其他第三方維保單位等通話過(guò)程中,將對(duì)話內(nèi)容實(shí)時(shí)轉(zhuǎn)寫(xiě)成文字版,既可以避免事后復(fù)聽(tīng)轉(zhuǎn)寫(xiě)的工作,也可以將對(duì)話內(nèi)容更加直觀、實(shí)時(shí)地呈現(xiàn)在調(diào)度人員眼前,最大限度地避免了信息在口語(yǔ)傳遞過(guò)程中可能產(chǎn)生的誤解和偏差[ 2 ]。
具體設(shè)想如下:通話系統(tǒng)中接入語(yǔ)音識(shí)別的服務(wù),實(shí)時(shí)監(jiān)聽(tīng)雙方的通話內(nèi)容,將對(duì)話內(nèi)容實(shí)時(shí)識(shí)別輸出成文字版,將輸出的文字內(nèi)容展示在調(diào)度工作人員的計(jì)算機(jī)屏幕上。這樣既可以及時(shí)發(fā)現(xiàn)并糾正通話雙方溝通過(guò)程中可能無(wú)意中出現(xiàn)的口誤,也可以對(duì)溝通內(nèi)容形成的文字+音頻進(jìn)行雙重記錄,在節(jié)省人為復(fù)聽(tīng)轉(zhuǎn)寫(xiě)的精力和時(shí)間的同時(shí),提高了質(zhì)檢工作人員的工作效率。
(二)表單自動(dòng)化
表單填寫(xiě)工作具有模式化的特點(diǎn),單一表單中所需填寫(xiě)的信息是比較固定的,但是,部分表單所需填寫(xiě)的內(nèi)容又是比較多的,在雙方通話過(guò)程中填寫(xiě)表單比較耗時(shí),效率較低,會(huì)有長(zhǎng)時(shí)間占線的風(fēng)險(xiǎn),違背了調(diào)度工作最基本的及時(shí)性響應(yīng)和語(yǔ)音信息傳遞的快捷性。所以,調(diào)度人員一般會(huì)在通話結(jié)束后依靠對(duì)通話內(nèi)容的回憶填寫(xiě)表單,內(nèi)容較多記不清楚的還會(huì)反復(fù)聽(tīng)通話錄音,這會(huì)占用較多的精力。
針對(duì)這一問(wèn)題,可以將表單填寫(xiě)工作交給語(yǔ)音識(shí)別技術(shù),稍作改動(dòng)就可以實(shí)現(xiàn)這一目標(biāo)。具體構(gòu)想如下:在雙方通話的同時(shí),語(yǔ)音識(shí)別服務(wù)將通話內(nèi)容實(shí)時(shí)轉(zhuǎn)寫(xiě)為文本內(nèi)容,輸出的文本內(nèi)容經(jīng)過(guò)關(guān)鍵字檢測(cè)。關(guān)鍵字檢測(cè)分為表單生成關(guān)鍵字和內(nèi)容填充關(guān)鍵字,通常要求一次通話只能生成一次表單,識(shí)別到生成表單的關(guān)鍵字后調(diào)用表單系統(tǒng),頁(yè)面彈框提示,詢問(wèn)是否生成該表單。調(diào)度工作人員確認(rèn)生成后,在本次通話過(guò)程中不再生成新的表單。
表單生成后,開(kāi)始執(zhí)行內(nèi)容填充關(guān)鍵字的識(shí)別,將識(shí)別到的相關(guān)內(nèi)容在表單內(nèi)進(jìn)行自動(dòng)填充,在本次通話掛斷時(shí)頁(yè)面再次彈框提示調(diào)度工作人員,自動(dòng)填充已結(jié)束,工作人員在檢查無(wú)誤后可手動(dòng)點(diǎn)擊提交按鈕進(jìn)行表單提交。內(nèi)容有誤的可以有針對(duì)性地修改,修改后再提交。
(三)調(diào)度預(yù)案自動(dòng)化
在調(diào)度工作過(guò)程中,某些特定情況下需要緊急啟動(dòng)某些已經(jīng)提前設(shè)置好的預(yù)案,比如氣象災(zāi)害、人員入侵、列車(chē)事故、淹水倒灌等,需要啟動(dòng)預(yù)案的場(chǎng)景一般是特別緊急的情況,在這種緊急關(guān)頭,每多浪費(fèi)一秒鐘,危險(xiǎn)就會(huì)增加一分,可以考慮將語(yǔ)音識(shí)別技術(shù)對(duì)接到預(yù)案啟動(dòng)中[ 3 ]。具體構(gòu)想如下:在關(guān)鍵字檢測(cè)中再添加一類(lèi)應(yīng)急預(yù)案關(guān)鍵字,當(dāng)通話雙方在對(duì)話過(guò)程中觸發(fā)該關(guān)鍵字時(shí),則立馬調(diào)用應(yīng)急預(yù)案系統(tǒng),在調(diào)度人員工作計(jì)算機(jī)的相關(guān)頁(yè)面上彈框?qū)ζ涮崾竞驮儐?wèn),是否要啟動(dòng)該預(yù)案,工作人員手動(dòng)確認(rèn)后,預(yù)案啟動(dòng)執(zhí)行。
該流程省去了工作人員檢索相關(guān)預(yù)案的步驟,直接在對(duì)話過(guò)程中檢測(cè)雙方的對(duì)話內(nèi)容,調(diào)度工作人員最少只需要點(diǎn)擊一次確認(rèn)按鈕,就可以及時(shí)啟動(dòng)相關(guān)預(yù)案,之所以設(shè)計(jì)為工作人員手動(dòng)確認(rèn)啟動(dòng),同樣是考慮到語(yǔ)音識(shí)別技術(shù)的容錯(cuò)機(jī)制。
(四)語(yǔ)音檢索
以上功能的實(shí)現(xiàn),已經(jīng)基本涵蓋調(diào)度工作中的人工文字輸入類(lèi)工作,語(yǔ)音檢索功能的構(gòu)想是對(duì)以上功能的補(bǔ)充,以上功能主要關(guān)注的是在調(diào)度工作人員和其他方通話的場(chǎng)景下,只能以話機(jī)作為入口去觸發(fā)各種場(chǎng)景的功能,語(yǔ)音檢索功能的設(shè)計(jì)則是在話機(jī)之外,單獨(dú)設(shè)置收音麥克風(fēng),調(diào)度工作人員可以直接對(duì)麥克風(fēng)講話來(lái)觸發(fā)語(yǔ)音識(shí)別的服務(wù)。
(一)方言
語(yǔ)音識(shí)別技術(shù)是對(duì)語(yǔ)言發(fā)音內(nèi)容的識(shí)別,與發(fā)音準(zhǔn)確性高度相關(guān)。目前市面上主流的語(yǔ)音識(shí)別技術(shù)一般都支持普通話和英語(yǔ)的識(shí)別,但是我國(guó)幅員遼闊,對(duì)散布在中華大地各個(gè)地方的方言的識(shí)別是難點(diǎn)之一,雖然探討的是上海市地鐵的業(yè)務(wù)場(chǎng)景,申通集團(tuán)可以通過(guò)規(guī)章制度和招聘要求等,將崗位人員的從業(yè)資v0EwQvCig9MD/9pm7j5AdbdTauam5ItZp3mVSE3DnFU=格限制在普通話或上海話這一范圍內(nèi),但部分業(yè)務(wù)場(chǎng)景下與調(diào)度人員發(fā)生通話的可能是外部的第三方人員,如施工負(fù)責(zé)人、第三方維保單位等,此類(lèi)外部人員的發(fā)音習(xí)慣和方言口音等對(duì)語(yǔ)音識(shí)別技術(shù)是一大挑戰(zhàn)。
(二)噪聲
對(duì)上海市地鐵部分調(diào)度通話錄音調(diào)研后發(fā)現(xiàn),在錄音文件中,部分音頻中存在非常嚴(yán)重的噪聲干擾問(wèn)題,噪聲的來(lái)源大致有兩種。
一種是調(diào)度人員與多車(chē)站開(kāi)群體會(huì)議時(shí),部分車(chē)站因參會(huì)目的已達(dá)到,在經(jīng)過(guò)調(diào)度人員同意后,會(huì)先行掛斷電話,在掛斷電話時(shí)產(chǎn)生的話機(jī)聽(tīng)筒與話機(jī)機(jī)身磕碰的聲音音量非常大,這個(gè)時(shí)候基本聽(tīng)不到正在發(fā)言的工作人員所說(shuō)的內(nèi)容。
另一種是通話人員旁邊無(wú)關(guān)人員的說(shuō)話聲,此類(lèi)情況一般出現(xiàn)在車(chē)站,無(wú)關(guān)人員的聲音被收錄后會(huì)對(duì)語(yǔ)音識(shí)別功能造成干擾,在應(yīng)用場(chǎng)景中很可能造成相關(guān)系統(tǒng)的誤觸發(fā)或無(wú)法準(zhǔn)確觸發(fā)等問(wèn)題。
(三)誤識(shí)別
誤識(shí)別問(wèn)題主要發(fā)生在發(fā)音人語(yǔ)速過(guò)快或發(fā)音音量過(guò)小時(shí),語(yǔ)速過(guò)快時(shí)容易發(fā)生連音現(xiàn)象,即兩個(gè)字或兩個(gè)以上的字發(fā)音連在一起,實(shí)際發(fā)出的只有一個(gè)音,此時(shí)系統(tǒng)接收的發(fā)音只有一個(gè),就會(huì)造成漏識(shí)別、錯(cuò)識(shí)別等。音量過(guò)小時(shí)可能無(wú)法達(dá)到語(yǔ)音識(shí)別系統(tǒng)的音量能量值,導(dǎo)致識(shí)別出錯(cuò)、不識(shí)別等。
(四)其他
其他可能對(duì)語(yǔ)音識(shí)別功能造成負(fù)面影響的情形還有多人同時(shí)發(fā)音、發(fā)音模糊等。發(fā)音模糊多發(fā)生在調(diào)度人員與多車(chē)站通過(guò)電話召開(kāi)群體會(huì)議時(shí),在點(diǎn)名簽到環(huán)節(jié),車(chē)站工作人員的回答發(fā)音極為模糊,基本聽(tīng)不清回答的內(nèi)容;多人同時(shí)發(fā)音的情況在調(diào)研過(guò)程中出現(xiàn)較少,在此僅做記錄用以提醒。
人工智能技術(shù)有語(yǔ)音識(shí)別技術(shù),還有圖像識(shí)別、行為分析、語(yǔ)義理解、語(yǔ)音合成等領(lǐng)域,文章對(duì)語(yǔ)音識(shí)別技術(shù)引入調(diào)度業(yè)務(wù)的淺談希望可以起到拋磚引玉的效果,期待諸位同仁可以發(fā)散思維,從不同的領(lǐng)域作出專(zhuān)業(yè)的審視。未來(lái)希望能夠與諸君一起,共同建設(shè)更加聰明、便捷、高效的調(diào)度業(yè)務(wù)流程。
[1]吳佳佳,彭其淵,魯工圓.基于調(diào)度電話語(yǔ)音信息的調(diào)度命令智能生成方法[J].鐵道運(yùn)輸與經(jīng)濟(jì),2021(04):105-111+134.
[2]謝璟捷.地鐵運(yùn)營(yíng)調(diào)度關(guān)鍵業(yè)務(wù)數(shù)據(jù)特征分析及中臺(tái)架構(gòu)研究[J].交通科技與管理,2023(21):22-24.
[3]代偉,劉洪.基于神經(jīng)網(wǎng)絡(luò)的中文語(yǔ)音識(shí)別技術(shù)[J].四川師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2022(01):131-135.