[摘 要]上海市地鐵規(guī)模不斷擴(kuò)張,但調(diào)度工作的工作方式和依賴工具依然較為落后。為了應(yīng)對日益繁重的調(diào)度工作任務(wù),從根本上減輕上海市地鐵調(diào)度工作人員的工作壓力和工作強(qiáng)度,實(shí)現(xiàn)降本增效的發(fā)展目標(biāo),文章從調(diào)度業(yè)務(wù)入手,詳細(xì)分析在調(diào)度業(yè)務(wù)中引入語音識別技術(shù)的可行性及其可能達(dá)到的效果,設(shè)想了在調(diào)度通話、事后質(zhì)檢、表單填寫、預(yù)案觸發(fā)等業(yè)務(wù)流程中引入語音識別技術(shù)的效果和可能面臨的困難,以供參考。
[關(guān)鍵詞]上海地鐵;語音識別技術(shù);調(diào)度業(yè)務(wù)
中圖分類號:U239.5 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-1722(2024)11-0034-03
現(xiàn)階段,語音識別技術(shù)作為人工智能領(lǐng)域重要的發(fā)展方向之一,在軌道交通行業(yè)已經(jīng)具備諸多實(shí)際落地的應(yīng)用場景,如語音購票、智能客服、智能開關(guān)站等。目前,上述應(yīng)用場景主要側(cè)重于地鐵車站的日常運(yùn)營工作,在軌道交通行業(yè)各業(yè)務(wù)中充當(dāng)“大腦”的角色,與語音識別技術(shù)的實(shí)際結(jié)合案例相對較少。
基于此,文章針對上海地鐵調(diào)度業(yè)務(wù)與語音識別技術(shù)結(jié)合后,能夠?qū)υ辛鞒袒蚬ぷ鲗?shí)施提升和優(yōu)化的點(diǎn)展開大膽設(shè)想,希望可以在不擴(kuò)張現(xiàn)有上海地鐵調(diào)度團(tuán)隊規(guī)模的同時,減輕調(diào)度工作人員的工作壓力,提高工作效率。
ASR技術(shù)的發(fā)展歷史可以追溯到20世紀(jì)六七十年代,當(dāng)時主要集中在單詞識別上。2 0世紀(jì)八九十年代,隱馬爾可夫模型(Hidden Markov Model,HMM)引起了人們的興趣,并成功地應(yīng)用于語音識別領(lǐng)域。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)模型在語音識別領(lǐng)域表現(xiàn)越來越好。
目前,主流的ASR技術(shù)包括基于統(tǒng)計方法的傳統(tǒng)ASR系統(tǒng)和基于深度學(xué)習(xí)的新一代ASR系統(tǒng)兩種。其中,基于統(tǒng)計方法的傳統(tǒng)ASR系統(tǒng)使用高斯混合模型(GMM)和HMM等統(tǒng)計建模方法對語音信號進(jìn)行建模和識別?;谏疃葘W(xué)習(xí)的新一代ASR系統(tǒng)則利用DNN、長短時記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等深度學(xué)習(xí)模型對語音信號進(jìn)行建模和識別[ 1 ]。相比之下,基于深度學(xué)習(xí)的新一代ASR系統(tǒng)在性能上明顯優(yōu)于傳統(tǒng)ASR系統(tǒng),因此得到了廣泛應(yīng)用和研究。
(一)工作內(nèi)容
調(diào)度工作人員的工作內(nèi)容從類型上主要分為三種。
一是溝通類工作。調(diào)度工作本身絕大部分工作內(nèi)容都是溝通類工作,主要包括與車站的溝通、內(nèi)部跨專業(yè)的溝通以及與運(yùn)營公司和第三方維保單位間的溝通等。相對于文字類信息,溝通類工作的語言類信息在時效性上更具優(yōu)勢,而調(diào)度工作的性質(zhì)也決定了其對時效性的強(qiáng)烈要求。
二是表單類工作。相較于溝通類工作,表單類工作雖然也起到傳遞信息的作用,但與溝通類工作不同的是信息傳遞的對象和對時效性的要求。表單類工作更關(guān)注信息的準(zhǔn)確性。表單類工作最大的優(yōu)點(diǎn)在于留痕和有跡可查,多數(shù)溝通類工作在事后也會相應(yīng)地補(bǔ)充一項表單類工作。
三是復(fù)聽轉(zhuǎn)寫類工作。復(fù)聽轉(zhuǎn)寫類工作主要是將溝通類工作過程中產(chǎn)生的錄音文件,通過重復(fù)收聽轉(zhuǎn)寫為文字版,一般在遇到重大事項需要專門向上匯報時進(jìn)行。平時更多是復(fù)聽類工作,也就是抽調(diào)專人對溝通類工作過程中產(chǎn)生的錄音文件進(jìn)行復(fù)聽,檢查在溝通過程中是否有不合規(guī)、不專業(yè)以及遺漏項等問題。
(二)工作流程
溝通類工作的工作方式主要依賴專用話機(jī),調(diào)度中心與車站、運(yùn)營單位、內(nèi)部跨專業(yè)以及第三方等的溝通需要通過不同話機(jī)進(jìn)行。溝通類工作結(jié)束后會產(chǎn)生通話錄音。如果屬于日常類溝通工作,需要補(bǔ)充填寫表單的就需要人工進(jìn)行表單補(bǔ)充填寫。通話產(chǎn)生的錄音在后續(xù)會被抽樣做復(fù)聽質(zhì)檢,復(fù)聽質(zhì)檢實(shí)際就是抽派專人復(fù)聽抽樣的通話錄音,檢查通話過程是否合規(guī)、是否有遺漏項等。如果屬于重大事項,如列車火災(zāi)、車門夾人等,則需要調(diào)度人員對通話過程中產(chǎn)生的所有錄音復(fù)聽轉(zhuǎn)寫,即由調(diào)度工作人員人工復(fù)聽錄音文件,將錄音文件轉(zhuǎn)寫為文字版上報給領(lǐng)導(dǎo),方便領(lǐng)導(dǎo)檢查。
(一)復(fù)聽轉(zhuǎn)寫
相較于文字信息,語言信息雖然在信息傳遞的實(shí)時性方面具有不可比擬的優(yōu)越性,但在事后復(fù)盤檢閱過程中其便利性卻又不如文字信息,文字的閱讀速度因人而異,音頻的復(fù)聽速度卻依賴于音頻的長度,一段三分鐘的音頻如果復(fù)聽一定需要3分鐘的時長,而且一段音頻還可能會被復(fù)聽,但是將其蘊(yùn)含的內(nèi)容轉(zhuǎn)寫成文字,閱讀起來可能只需要1分鐘的時間,可以略讀不重要的內(nèi)容,重點(diǎn)關(guān)注主要內(nèi)容即可。正因如此,為了上級領(lǐng)導(dǎo)可以及時注意到關(guān)鍵內(nèi)容,調(diào)度人員上報重大事項時需要先將音頻內(nèi)容轉(zhuǎn)寫成文字版。
(二)復(fù)聽質(zhì)檢
相較于復(fù)聽轉(zhuǎn)寫工作,復(fù)聽質(zhì)檢少了將音頻文件轉(zhuǎn)寫為文字版的過程,但是其在事后復(fù)盤檢閱文字信息的便利性是語音信息不具備的,由于調(diào)度工作對實(shí)時性的要求,溝通工作只能以語言溝通為主。
(三)表單填寫
表單填寫工作需要調(diào)度工作人員回憶在電話溝通過程中雙方交換的信息,在信息較多無法完整回憶時,要復(fù)聽錄音文件,將正確的信息以文字的形式填寫在表單內(nèi),這一過程有點(diǎn)類似復(fù)聽轉(zhuǎn)寫,但與復(fù)聽轉(zhuǎn)寫不同的是,表單填寫不需要將對話內(nèi)容完整轉(zhuǎn)換,表單相對固定,只需要將表單內(nèi)需要的內(nèi)容轉(zhuǎn)成文字填入即可,因調(diào)度人員無法直觀地看到所需內(nèi)容具體在哪一部分,其依然需要從頭到尾完整地復(fù)聽整段錄音,直到將表單所需內(nèi)容填寫完整。
(四)信息檢索
因溝通過程中可能只會產(chǎn)生音頻文件而沒有文字記錄,這會對事后檢索所需信息造成嚴(yán)重障礙,工作人員無法對所需信息進(jìn)行有效檢索,只能逐個排查。如果涉及應(yīng)急事件的處置,工作人員核對后,需要在系統(tǒng)中手動檢索相關(guān)的預(yù)案,在這種較為緊急的時刻,手動檢索的動作相對就顯得比較低效。
在調(diào)度業(yè)務(wù)中,為了保證重要信息傳遞的實(shí)時性,最關(guān)鍵和不可缺少的環(huán)節(jié)是語言類的信息傳遞,但是與之矛盾的是,語言類的信息在事后的回顧和檢查過程中會帶來種種不便,遠(yuǎn)不如文字信息直觀和便捷。在此過程中,引入語音識別技術(shù),實(shí)現(xiàn)語音信息到文字信息的自動轉(zhuǎn)換,可以為調(diào)度工作人員節(jié)省大量的精力,減輕絕大部分文字輸入類工作的壓力。
(一)實(shí)時轉(zhuǎn)寫
針對復(fù)聽轉(zhuǎn)寫和復(fù)聽質(zhì)檢的痛點(diǎn)引入語音識別技術(shù)后,將語音識別服務(wù)對接通話系統(tǒng),在調(diào)度人員與車站、運(yùn)營單位和其他第三方維保單位等通話過程中,將對話內(nèi)容實(shí)時轉(zhuǎn)寫成文字版,既可以避免事后復(fù)聽轉(zhuǎn)寫的工作,也可以將對話內(nèi)容更加直觀、實(shí)時地呈現(xiàn)在調(diào)度人員眼前,最大限度地避免了信息在口語傳遞過程中可能產(chǎn)生的誤解和偏差[ 2 ]。
具體設(shè)想如下:通話系統(tǒng)中接入語音識別的服務(wù),實(shí)時監(jiān)聽雙方的通話內(nèi)容,將對話內(nèi)容實(shí)時識別輸出成文字版,將輸出的文字內(nèi)容展示在調(diào)度工作人員的計算機(jī)屏幕上。這樣既可以及時發(fā)現(xiàn)并糾正通話雙方溝通過程中可能無意中出現(xiàn)的口誤,也可以對溝通內(nèi)容形成的文字+音頻進(jìn)行雙重記錄,在節(jié)省人為復(fù)聽轉(zhuǎn)寫的精力和時間的同時,提高了質(zhì)檢工作人員的工作效率。
(二)表單自動化
表單填寫工作具有模式化的特點(diǎn),單一表單中所需填寫的信息是比較固定的,但是,部分表單所需填寫的內(nèi)容又是比較多的,在雙方通話過程中填寫表單比較耗時,效率較低,會有長時間占線的風(fēng)險,違背了調(diào)度工作最基本的及時性響應(yīng)和語音信息傳遞的快捷性。所以,調(diào)度人員一般會在通話結(jié)束后依靠對通話內(nèi)容的回憶填寫表單,內(nèi)容較多記不清楚的還會反復(fù)聽通話錄音,這會占用較多的精力。
針對這一問題,可以將表單填寫工作交給語音識別技術(shù),稍作改動就可以實(shí)現(xiàn)這一目標(biāo)。具體構(gòu)想如下:在雙方通話的同時,語音識別服務(wù)將通話內(nèi)容實(shí)時轉(zhuǎn)寫為文本內(nèi)容,輸出的文本內(nèi)容經(jīng)過關(guān)鍵字檢測。關(guān)鍵字檢測分為表單生成關(guān)鍵字和內(nèi)容填充關(guān)鍵字,通常要求一次通話只能生成一次表單,識別到生成表單的關(guān)鍵字后調(diào)用表單系統(tǒng),頁面彈框提示,詢問是否生成該表單。調(diào)度工作人員確認(rèn)生成后,在本次通話過程中不再生成新的表單。
表單生成后,開始執(zhí)行內(nèi)容填充關(guān)鍵字的識別,將識別到的相關(guān)內(nèi)容在表單內(nèi)進(jìn)行自動填充,在本次通話掛斷時頁面再次彈框提示調(diào)度工作人員,自動填充已結(jié)束,工作人員在檢查無誤后可手動點(diǎn)擊提交按鈕進(jìn)行表單提交。內(nèi)容有誤的可以有針對性地修改,修改后再提交。
(三)調(diào)度預(yù)案自動化
在調(diào)度工作過程中,某些特定情況下需要緊急啟動某些已經(jīng)提前設(shè)置好的預(yù)案,比如氣象災(zāi)害、人員入侵、列車事故、淹水倒灌等,需要啟動預(yù)案的場景一般是特別緊急的情況,在這種緊急關(guān)頭,每多浪費(fèi)一秒鐘,危險就會增加一分,可以考慮將語音識別技術(shù)對接到預(yù)案啟動中[ 3 ]。具體構(gòu)想如下:在關(guān)鍵字檢測中再添加一類應(yīng)急預(yù)案關(guān)鍵字,當(dāng)通話雙方在對話過程中觸發(fā)該關(guān)鍵字時,則立馬調(diào)用應(yīng)急預(yù)案系統(tǒng),在調(diào)度人員工作計算機(jī)的相關(guān)頁面上彈框?qū)ζ涮崾竞驮儐?,是否要啟動該預(yù)案,工作人員手動確認(rèn)后,預(yù)案啟動執(zhí)行。
該流程省去了工作人員檢索相關(guān)預(yù)案的步驟,直接在對話過程中檢測雙方的對話內(nèi)容,調(diào)度工作人員最少只需要點(diǎn)擊一次確認(rèn)按鈕,就可以及時啟動相關(guān)預(yù)案,之所以設(shè)計為工作人員手動確認(rèn)啟動,同樣是考慮到語音識別技術(shù)的容錯機(jī)制。
(四)語音檢索
以上功能的實(shí)現(xiàn),已經(jīng)基本涵蓋調(diào)度工作中的人工文字輸入類工作,語音檢索功能的構(gòu)想是對以上功能的補(bǔ)充,以上功能主要關(guān)注的是在調(diào)度工作人員和其他方通話的場景下,只能以話機(jī)作為入口去觸發(fā)各種場景的功能,語音檢索功能的設(shè)計則是在話機(jī)之外,單獨(dú)設(shè)置收音麥克風(fēng),調(diào)度工作人員可以直接對麥克風(fēng)講話來觸發(fā)語音識別的服務(wù)。
(一)方言
語音識別技術(shù)是對語言發(fā)音內(nèi)容的識別,與發(fā)音準(zhǔn)確性高度相關(guān)。目前市面上主流的語音識別技術(shù)一般都支持普通話和英語的識別,但是我國幅員遼闊,對散布在中華大地各個地方的方言的識別是難點(diǎn)之一,雖然探討的是上海市地鐵的業(yè)務(wù)場景,申通集團(tuán)可以通過規(guī)章制度和招聘要求等,將崗位人員的從業(yè)資v0EwQvCig9MD/9pm7j5AdbdTauam5ItZp3mVSE3DnFU=格限制在普通話或上海話這一范圍內(nèi),但部分業(yè)務(wù)場景下與調(diào)度人員發(fā)生通話的可能是外部的第三方人員,如施工負(fù)責(zé)人、第三方維保單位等,此類外部人員的發(fā)音習(xí)慣和方言口音等對語音識別技術(shù)是一大挑戰(zhàn)。
(二)噪聲
對上海市地鐵部分調(diào)度通話錄音調(diào)研后發(fā)現(xiàn),在錄音文件中,部分音頻中存在非常嚴(yán)重的噪聲干擾問題,噪聲的來源大致有兩種。
一種是調(diào)度人員與多車站開群體會議時,部分車站因參會目的已達(dá)到,在經(jīng)過調(diào)度人員同意后,會先行掛斷電話,在掛斷電話時產(chǎn)生的話機(jī)聽筒與話機(jī)機(jī)身磕碰的聲音音量非常大,這個時候基本聽不到正在發(fā)言的工作人員所說的內(nèi)容。
另一種是通話人員旁邊無關(guān)人員的說話聲,此類情況一般出現(xiàn)在車站,無關(guān)人員的聲音被收錄后會對語音識別功能造成干擾,在應(yīng)用場景中很可能造成相關(guān)系統(tǒng)的誤觸發(fā)或無法準(zhǔn)確觸發(fā)等問題。
(三)誤識別
誤識別問題主要發(fā)生在發(fā)音人語速過快或發(fā)音音量過小時,語速過快時容易發(fā)生連音現(xiàn)象,即兩個字或兩個以上的字發(fā)音連在一起,實(shí)際發(fā)出的只有一個音,此時系統(tǒng)接收的發(fā)音只有一個,就會造成漏識別、錯識別等。音量過小時可能無法達(dá)到語音識別系統(tǒng)的音量能量值,導(dǎo)致識別出錯、不識別等。
(四)其他
其他可能對語音識別功能造成負(fù)面影響的情形還有多人同時發(fā)音、發(fā)音模糊等。發(fā)音模糊多發(fā)生在調(diào)度人員與多車站通過電話召開群體會議時,在點(diǎn)名簽到環(huán)節(jié),車站工作人員的回答發(fā)音極為模糊,基本聽不清回答的內(nèi)容;多人同時發(fā)音的情況在調(diào)研過程中出現(xiàn)較少,在此僅做記錄用以提醒。
人工智能技術(shù)有語音識別技術(shù),還有圖像識別、行為分析、語義理解、語音合成等領(lǐng)域,文章對語音識別技術(shù)引入調(diào)度業(yè)務(wù)的淺談希望可以起到拋磚引玉的效果,期待諸位同仁可以發(fā)散思維,從不同的領(lǐng)域作出專業(yè)的審視。未來希望能夠與諸君一起,共同建設(shè)更加聰明、便捷、高效的調(diào)度業(yè)務(wù)流程。
[1]吳佳佳,彭其淵,魯工圓.基于調(diào)度電話語音信息的調(diào)度命令智能生成方法[J].鐵道運(yùn)輸與經(jīng)濟(jì),2021(04):105-111+134.
[2]謝璟捷.地鐵運(yùn)營調(diào)度關(guān)鍵業(yè)務(wù)數(shù)據(jù)特征分析及中臺架構(gòu)研究[J].交通科技與管理,2023(21):22-24.
[3]代偉,劉洪.基于神經(jīng)網(wǎng)絡(luò)的中文語音識別技術(shù)[J].四川師范大學(xué)學(xué)報(自然科學(xué)版),2022(01):131-135.