999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于嵌入式NLP的鐵路車務(wù)術(shù)語語音識別方法

2020-11-25 07:59:28黃大吉林海香
關(guān)鍵詞:嵌入式語義鐵路

黃大吉,林海香

(蘭州交通大學(xué) 自動化與電氣工程學(xué)院,蘭州 730070)

2015年9月至2016年4月,連續(xù)發(fā)生了3起因車務(wù)值班員的操作不熟練而引起的操作違規(guī)、列車區(qū)間停車、擅自調(diào)整調(diào)度計(jì)劃等類事故,為防止此類安全事故的再次發(fā)生,2016到2017年,鐵總連續(xù)發(fā)了3個(gè)文件,明確提到車站需要配備相應(yīng)的仿真演練設(shè)備,以確保上崗車務(wù)值班員素質(zhì)達(dá)標(biāo),持證上崗.鐵路車務(wù)仿真培訓(xùn)系統(tǒng)應(yīng)運(yùn)而生,但無論是基本作業(yè)還是應(yīng)急處理,在實(shí)際工作中值班員都需要與各個(gè)崗位進(jìn)行語音交互,而現(xiàn)有仿真培訓(xùn)系統(tǒng)中都未能實(shí)現(xiàn)語音交互[1-2],語音識別的引入,可以解決這一問題.

但現(xiàn)有的語音識別軟件對車務(wù)術(shù)語的識別準(zhǔn)確率不盡人意,例如科大訊飛、百度、中科信利等,并沒有針對鐵路行業(yè)的識別庫.文獻(xiàn)[3]對比了科大訊飛、Siri、Cortana以及百度的語音識別率得分,Cortana的綜合得分最高,科大訊飛的識別率最穩(wěn)定.本文通過實(shí)際測試,運(yùn)用科大訊飛識別鐵路車務(wù)專用術(shù)語的準(zhǔn)確率僅為50%,這遠(yuǎn)遠(yuǎn)達(dá)不到要求.所以急需研發(fā)一種提高鐵路車務(wù)術(shù)語語音識別準(zhǔn)確率的方法.

自然語言處理是人工智能的一個(gè)分支,使機(jī)器像人一樣對接收到的語言進(jìn)行理解并反饋[4-5].近幾年來,NLP不斷與語音識別(automatic speech recognition,簡寫為ASR)、語音合成(text to speech,簡寫為TTS)等語音技術(shù)相互結(jié)合形成新的研究分支.文獻(xiàn)[6]設(shè)計(jì)了一種基于NLP和ASR的電信業(yè)務(wù)軟件;文獻(xiàn)[7]完成了嵌入式人機(jī)語音交互系統(tǒng)的研究,把NLP與ASR結(jié)合運(yùn)用到了服務(wù)機(jī)器人的語音交互;文獻(xiàn)[8]則把研究擴(kuò)展到了智能家居領(lǐng)域.

本文提出一種基于嵌入式NLP的鐵路車務(wù)術(shù)語語音識別方法,運(yùn)用NLP的方法來提高鐵路車務(wù)術(shù)語的ASR準(zhǔn)確率,并將嵌入式設(shè)計(jì)與傳統(tǒng)培訓(xùn)系統(tǒng)相結(jié)合,以實(shí)現(xiàn)培訓(xùn)人員與仿真系統(tǒng)的語音交互.

1 NLP簡述

NLP一般分為詞法、句法、語義、語用以及篇章分析[9].第一部分是詞法分析,包含去除停止詞、中文分詞和詞性標(biāo)注;第二部分就是利用從第一部分得出的結(jié)果理解出整個(gè)句子的框架結(jié)構(gòu)進(jìn)行句法分析;第三部分是在前兩部分的基礎(chǔ)上對輸入文本的整體意思進(jìn)行語義分析;語用和篇章分析是在第三部分的基礎(chǔ)上利用上下文或者整篇文章進(jìn)行分析.對自然語言的研究分為開放領(lǐng)域和特定領(lǐng)域,開放領(lǐng)域的研究設(shè)定可以解決任何主題的問題,本文研究的是特定領(lǐng)域,即鐵路車務(wù)用語語音識別后文本的處理,使其滿足鐵路車務(wù)術(shù)語并能被系統(tǒng)識別.

隨著NLP與ASR的越發(fā)成熟,NLP與ASR的兩個(gè)重要方向是基于PC機(jī)的大詞匯量識別和嵌入式的自然語言處理,尤其是嵌入式的自然語言處理,漸漸發(fā)展到了鐵路行業(yè).吳萍等[10]將NLP與ASR應(yīng)用于火車票查詢系統(tǒng);翁湦元等[11]設(shè)計(jì)了一種鐵路語音識別引導(dǎo)購票系統(tǒng);潘梁生[12]針對鐵路機(jī)務(wù)部門的“車機(jī)聯(lián)控”,設(shè)計(jì)了一種列車車載識別系統(tǒng).但前兩者,更多傾向于開放領(lǐng)域的識別,而后者,并未真正實(shí)現(xiàn)與列車運(yùn)行監(jiān)控裝置的聯(lián)調(diào),其準(zhǔn)確率有待進(jìn)一步考證.

把語音識別引入到了車務(wù)仿真培訓(xùn)系統(tǒng)中,但僅僅使用語音識別不能解決鐵路車務(wù)專業(yè)術(shù)語的識別率問題.針對現(xiàn)有車務(wù)仿真培訓(xùn)系統(tǒng)對標(biāo)準(zhǔn)用語的語音識別準(zhǔn)確率低的問題,本文提出了一種基于嵌入式NLP的車務(wù)術(shù)語ASR方法,將NLP與ASR、TTS等語音技術(shù)應(yīng)用到鐵路車務(wù)仿真培訓(xùn)系統(tǒng)的語音交互中,其整體流程如圖1所示.

車務(wù)值班員輸入語音,通過無線傳輸至科大訊飛云識別轉(zhuǎn)化為文字信息,然后經(jīng)過分詞,把句子切分為一個(gè)個(gè)詞串;接著進(jìn)行鐵路專有詞處理,生成符合鐵路標(biāo)準(zhǔn)用語的詞串信息;然后通過語義分析,轉(zhuǎn)化為標(biāo)準(zhǔn)的詞義塊后輸入計(jì)算機(jī)識別;最后結(jié)合TTS技術(shù)播放出來,完成語音交互.

2 嵌入式NLP算法

2.1 嵌入式技術(shù)

為了與傳統(tǒng)車務(wù)仿真培訓(xùn)系統(tǒng)更好地結(jié)合,運(yùn)用嵌入式技術(shù),設(shè)計(jì)了運(yùn)用NLP算法的車務(wù)仿真調(diào)度電話,該調(diào)度電話能直接與傳統(tǒng)仿真培訓(xùn)系統(tǒng)相連接,節(jié)約了成本.

以飛凌OK6410開發(fā)板為基礎(chǔ)搭建硬件平臺,結(jié)合Intel Loihi547文本處理芯片進(jìn)行自然語言處理,配上SYN6288語音播放芯片實(shí)現(xiàn)語音合成.OK6410開發(fā)板采用ARM11系列的S3C6410微處理器,提供了飛凌FIT-LCD4.3 LCD顯示屏、256MByte的RAM、2GByte的ROM、音頻接口、聲卡模塊、TTL電平和RS232電平的串口,支持Nand-flash和SD卡兩種啟動方式[13].硬件平臺結(jié)構(gòu)如圖2所示,語音識別模塊、自然語言處理模塊、語音合成模塊共同完成了系統(tǒng)的語音交互功能.

2.2 分詞與糾錯(cuò)算法

1) 基于詞典的改進(jìn)正向最大匹配分詞算法

分詞是NLP的基礎(chǔ),提高分詞的正確性與效率至關(guān)重要.研究表明[14],在非限定性領(lǐng)域,正向最大匹配的錯(cuò)誤率僅為0.5%,而應(yīng)用到鐵路行業(yè)內(nèi),其正確率將大幅提高,所以本文提出一種hash函數(shù)結(jié)合正向最大匹配的分詞算法,提高了分詞效率.

本文應(yīng)用于鐵路車務(wù)場景,為減少停止詞的數(shù)量,建立一個(gè)專用于此場景的詞典.結(jié)合《鐵路技術(shù)管理規(guī)程》、《鐵路行車組織規(guī)則》以及收集到的車務(wù)培訓(xùn)系統(tǒng)中的規(guī)范語的正確與錯(cuò)誤語料,收錄了包含舉例車站名稱、專有名詞等在內(nèi)的2 000個(gè)詞,存入文本文檔中.為了便于詞與詞各種屬性的查詢,把文本中的詞存于內(nèi)存中,即詞庫的初始化.

定義數(shù)組dictionary[]和hash[],前者用來存放所有的詞,后者用來存放key值相同的詞,即只要key值相同的詞都存放于相同的數(shù)組hash[key]中.具體流程:

① 獲取詞庫中詞的首字w和長度L;

② 用MD5算法計(jì)算w對應(yīng)的MD5值,得出value值,即

value=MD5(w)+L;

(1)

③ 定義哈希函數(shù)key=value%n,由于本文詞庫規(guī)模相對較小,取n=300;

④ 將詞的key值存儲到相應(yīng)的hash[key]中,并重復(fù)上述過程,直到所有的詞都存儲在hash[]中.

初始化結(jié)果如圖3所示,其中:hash[i]表示第i個(gè)數(shù)組;Cij、Sij分別表示hash[i]中的第j個(gè)詞及其屬性.

通過以上的初始化,所有首字相同且字?jǐn)?shù)相同的詞都被存儲在同一鏈表中,能快速定位關(guān)鍵詞,這樣有利于縮短算法的運(yùn)行時(shí)間.改進(jìn)的分詞算法基本原理如圖4所示,具體過程如下:

a. 定義輸入:帶切分的字串T,最大詞長L;輸出:切分后的字串T’;

b. 令P指向T首部,T’初始化為空;

c. 計(jì)算length為P至T尾部的長度,如果length=0則至h,反之則下一步;

d. 在dictionary[]中搜索以P為首字的詞,如果搜索不到則將后移一位P,返回c,反之則下一步;

e. 設(shè)置最大詞長為L,當(dāng)length的值大于L時(shí),賦值length=L;

f. 在P后提取長度為length的字符串t;

g. 計(jì)算P指向的首字和長度為length的key值,在hash[key]對應(yīng)鏈表中查找字符串t,如果存在則在T’中添加t并賦予詞性,同時(shí)P后移length的長度,返回步驟b;否則令length減一,在P后提取長度為length的字串t,重復(fù)步驟g,直到length=0時(shí),將P后移1個(gè)單位,返回c;

h. 返回切分后得到的字串T’.

2) 鐵路專有詞糾錯(cuò)

引入識別可信度概念,定義百分百正確識別的詞的可信度為1,百分百錯(cuò)誤識別的詞的可信度為0,可信度的范圍為0~1,其具體值為識別正確的次數(shù)與總的識別次數(shù)的比值.通過統(tǒng)計(jì)現(xiàn)有的語音識別軟件對車務(wù)值班員口呼信息的輸出結(jié)果,可以得到比較正確的語句與大量錯(cuò)誤的訓(xùn)練語句,例如:原文為“蘭州西站,6道軌區(qū)段出現(xiàn)紅光帶,影響D1402次接車”,科大訊飛識別結(jié)果為“蘭州西站,6導(dǎo)軌/搗鬼/島柜區(qū)段出現(xiàn)虹光/宏光/鴻光帶,影響動1402次接車/街車/借車”.從中可以發(fā)現(xiàn)大都是專業(yè)詞匯或者平時(shí)交流中不常用的詞出現(xiàn)錯(cuò)誤,例如:“蘭州西站”、“出現(xiàn)”、“區(qū)段”、“影響”、“次”的識別率較高,而“道軌”、“紅光帶”、“動”、“接車”等專業(yè)詞匯或者需要特殊轉(zhuǎn)換的詞的識別率極低.考慮到鐵路領(lǐng)域標(biāo)準(zhǔn)用詞的有限性,根據(jù)語音識別結(jié)果,人為挑選識別率高的詞,其可信度均為1,識別率低的詞和其他詞,其可信度均為0.例如例子中識別結(jié)果用可信度表示為11,10110,10111110.由此,只對可信度為0的詞進(jìn)行查錯(cuò)和糾錯(cuò).

糾錯(cuò)框架如圖5所示,創(chuàng)立一個(gè)鐵路專用詞匯列表庫,其包含5個(gè)數(shù)據(jù)庫:上下詞模式庫、邊界詞庫、正確詞匯庫、錯(cuò)誤詞匯庫以及對比詞匯庫.采用模式匹配的方法對可信度為0的詞進(jìn)行糾錯(cuò),具體步驟為:

a. 通過訓(xùn)練識別后的文本和標(biāo)準(zhǔn)文本,形成糾正詞匯庫(正確詞匯庫、錯(cuò)誤詞匯庫和對比詞匯庫)和替換詞匯庫(上下詞模式庫和邊界詞庫).

b. 對于鐵路專用術(shù)語,例如“紅光帶”、“道岔”等,匹配糾正詞匯庫,然后根據(jù)三個(gè)詞匯庫之間的映射關(guān)系,保留正確詞,糾正錯(cuò)誤詞.

c. 對于特殊替換詞,例如車次號中的“D”、“Z”等以及“道軌”應(yīng)為“DG”等,繼續(xù)匹配替換詞匯庫,例如“動”的右邊界詞為數(shù)字,則替換為“D”.

2.3 語義識別

語義分析旨在系統(tǒng)考核,考核值班員與其他崗位的語音交互信息操作流程是否滿足標(biāo)準(zhǔn).現(xiàn)有的語義分析有概念從屬理論和模板匹配語義分析兩種[15].概念從屬理論認(rèn)為只要表達(dá)的語義相同即為正確,無論表達(dá)方式幾何,其由有限語義塊組成的語義表達(dá)式只有一個(gè);模板匹配語義分析是對關(guān)鍵信息進(jìn)行抽取來理解語義.本文運(yùn)用模板匹配語義分析,實(shí)現(xiàn)系統(tǒng)識別.

經(jīng)過分詞和糾錯(cuò)流程得到帶有詞性標(biāo)注的詞串,并得到一個(gè)詞的上下詞詞性與邊界詞性,系統(tǒng)運(yùn)用模板匹配語義分析,直接抽取關(guān)鍵詞信息進(jìn)行考核評判即可.例如,值班員口呼“6DG區(qū)段出現(xiàn)紅光帶”,系統(tǒng)只要能抽取到“6DG”和“紅光帶”,即系統(tǒng)認(rèn)為值班員口呼正確.

3 實(shí)驗(yàn)測試與對比分析

下文中所涉及到的實(shí)驗(yàn)指標(biāo)[16]正確率P、召回率R和綜合評價(jià)指標(biāo)F1值定義如下:

(2)

(3)

(4)

其中:N1表示實(shí)際正確識別的個(gè)數(shù);N2表示總的個(gè)數(shù);N3表示系統(tǒng)認(rèn)為正確識別的個(gè)數(shù).

由于鐵路車務(wù)術(shù)語的語料庫規(guī)模較小,本文測試時(shí)采用交叉驗(yàn)證的方法使訓(xùn)練語料達(dá)到最大化.不區(qū)分訓(xùn)練集和測試集,把500句樣本隨機(jī)分為50份,每份10句樣本,測試時(shí)把其中一份作為測試樣本,其他為訓(xùn)練樣本,統(tǒng)計(jì)各組的正確率P、召回率R和F1值.

3.1 準(zhǔn)確率測試

圖6為各系統(tǒng)識別的P、R、F1的總體分布圖.由圖6(a)和圖6(b)可知百度和科大訊飛的識別分布大都集中在45%~55%,科大訊飛的分布更為緊密,且比百度語音在更小的區(qū)間有較少的分布,說明雖然其兩者識別準(zhǔn)確率差不多,但是科大訊飛識別時(shí)有較少的語料沒有被識別出來,識別性更加穩(wěn)定,這也是本文選取科大訊飛的識別結(jié)果作為系統(tǒng)輸入的原因.從圖6(c)可以看出,傳統(tǒng)的結(jié)合了語音識別的仿真系統(tǒng)雖然準(zhǔn)確率有所提高,集中分布在60%~70%,但和百度語音識別存在相同的問題,即分布松散、在更小的區(qū)間有較多的分布,造成有較多的語料沒有被識別出來.圖6(d)為本文研究的系統(tǒng),準(zhǔn)確率有了極大的提高,集中分布在了90%~95%的區(qū)間,減少了未被識別的語料的數(shù)量,具體的識別結(jié)果見表1.

表1 各系統(tǒng)具體識別結(jié)果Tab.1 Specific identification results of each system

3.2 運(yùn)行時(shí)間測試

從語料庫中隨機(jī)選出20組來進(jìn)行運(yùn)行時(shí)間的測試,同時(shí)確保每組的總字?jǐn)?shù)大似接近.對這20組數(shù)據(jù)分別用正向最大匹配分詞算法和本文改進(jìn)的分詞算法進(jìn)行分詞,得出每組中每條語句的運(yùn)行時(shí)間,再計(jì)算平均時(shí)間,得到的結(jié)果如圖7所示.

由圖7可知,改進(jìn)的正向最大匹配分詞算法縮短了近50%的運(yùn)行時(shí)間,其中第7、9、11組運(yùn)行時(shí)間較短,通過對比語料進(jìn)行分析可得這3組中停止詞較少,因?yàn)槲锤倪M(jìn)的分詞算法出現(xiàn)一次停止詞,就要遍歷一次詞庫而進(jìn)行不必要的運(yùn)算,而改進(jìn)的正向最大匹配分詞算法,利用hash結(jié)合正向最大匹配只運(yùn)算一次就將停止詞去除,提高了算法運(yùn)行時(shí)間.對比加入人工自定義詞典后,除第2組和第8組略高外,總體運(yùn)行效率進(jìn)一步提高,原因在于本文自定義詞典時(shí),結(jié)合了收集到的車務(wù)培訓(xùn)系統(tǒng)中規(guī)范語的正確與錯(cuò)誤語料后,進(jìn)一步減少了停止詞,縮短了運(yùn)行時(shí)間.

4 案例應(yīng)用

將基于嵌入式NLP的鐵路車務(wù)術(shù)語語音識別方法運(yùn)用于哈爾濱南上行發(fā)車場道岔區(qū)段紅光帶的接車作業(yè)培訓(xùn).車務(wù)培訓(xùn)系統(tǒng)通過TDCS(train dispatching command system)下發(fā)調(diào)度命令,聯(lián)鎖場景布置,TDCS下發(fā)接車命令,值班員收到接車命令排列進(jìn)路,發(fā)現(xiàn)6號道岔區(qū)段顯示紅光帶,通過調(diào)度電話,向助理值班員通話檢查6DG紅光帶.接著值班員與電務(wù)、工務(wù)通話,分析6DG區(qū)段紅光帶的原因,并給出應(yīng)急處理,系統(tǒng)實(shí)時(shí)記錄值班員操作記錄與語音交互信息,最后系統(tǒng)判分,給出培訓(xùn)建議,系統(tǒng)截圖如圖8所示.

對比現(xiàn)有的僅加入了語音識別的車務(wù)仿真培訓(xùn)系統(tǒng),從圖9中看到,傳統(tǒng)系統(tǒng)語音識別為“6導(dǎo)軌區(qū)段出現(xiàn)宏光帶”,出現(xiàn)了“導(dǎo)軌”和“宏光”這兩個(gè)不符鐵路術(shù)語的詞,而本系統(tǒng)通過自然語言處理后識別為“6DG區(qū)段出現(xiàn)紅光帶”,可以看到,不僅把“導(dǎo)軌”和“宏光”這兩個(gè)詞正確識別了,還把“道軌”替換為了“DG”,更加符合鐵路標(biāo)準(zhǔn)用語.

運(yùn)用本文方法的車務(wù)仿真調(diào)度電話系統(tǒng)已在哈爾濱、西安、成都等多個(gè)車站的職教中心投入使用.主要用于車務(wù)值班員、助理值班員、信號員等崗位培訓(xùn),在部分車站作為選拔車務(wù)作業(yè)崗位人員的輔助系統(tǒng).

5 結(jié)論

針對應(yīng)用于非特定行業(yè)的語音識別軟件對鐵路車務(wù)術(shù)語識別準(zhǔn)確率低的問題,本文提出了一種基于自然語言處理的車務(wù)術(shù)語語音識別方法,通過實(shí)驗(yàn)分析,得出以下結(jié)論:

1) 該方法以科大訊飛云識別的識別結(jié)果為輸入,經(jīng)過改進(jìn)的分詞算法、車務(wù)術(shù)語庫糾錯(cuò)以及模板匹配的語義分析,輸出最后結(jié)果,并將嵌入式設(shè)計(jì)直接與傳統(tǒng)系統(tǒng)結(jié)合,節(jié)約了成本.

2) 相比于傳統(tǒng)的帶語音識別系統(tǒng)63.34%的識別率,運(yùn)用本文方法的系統(tǒng)則為92.48%,識別率提高了29.14%.

3) 提出改進(jìn)的正向最大匹配分詞算法,利用hash結(jié)合正向最大匹配只遍歷一次就將停止詞去除,提高了算法運(yùn)行時(shí)間.

由于本文的語料規(guī)模較小,需要不斷地?cái)U(kuò)充具有廣泛代表性的語料庫,進(jìn)而提出更高效的標(biāo)注方法.

猜你喜歡
嵌入式語義鐵路
沿著中老鐵路一路向南
語言與語義
鐵路通信線路維護(hù)體制改革探索與實(shí)踐
搭建基于Qt的嵌入式開發(fā)平臺
嵌入式軟PLC在電鍍生產(chǎn)流程控制系統(tǒng)中的應(yīng)用
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
無人機(jī)在鐵路工程建設(shè)中的應(yīng)用與思考
GSM-R在鐵路通信中的應(yīng)用
認(rèn)知范疇模糊與語義模糊
Altera加入嵌入式視覺聯(lián)盟
主站蜘蛛池模板: 国产精品自在在线午夜区app| 青青草91视频| 1级黄色毛片| 午夜免费小视频| 亚洲成a人片| 都市激情亚洲综合久久| 九色视频线上播放| 欧美无专区| 国产精品jizz在线观看软件| 伊人久久婷婷| 亚洲人成网站观看在线观看| 91av国产在线| 免费看美女毛片| 婷婷五月在线| 国产精品99久久久| 亚洲精品国产日韩无码AV永久免费网 | 国产欧美日韩视频怡春院| 国产精品亚欧美一区二区三区| 亚洲国产精品VA在线看黑人| 少妇被粗大的猛烈进出免费视频| 国产视频入口| 免费一级全黄少妇性色生活片| 91欧美亚洲国产五月天| 国产成人AV男人的天堂| 色婷婷在线播放| 天天综合网色中文字幕| 三级视频中文字幕| 少妇人妻无码首页| 国产亚洲精品自在线| 国产网友愉拍精品视频| a欧美在线| 国产网友愉拍精品视频| 欧美日韩成人| 曰韩免费无码AV一区二区| 亚洲一区二区三区在线视频| 91精品小视频| 毛片手机在线看| 一级毛片视频免费| 国产97视频在线观看| 国产精女同一区二区三区久| 波多野结衣无码视频在线观看| 天堂网亚洲系列亚洲系列| 亚洲AⅤ永久无码精品毛片| 国产成人超碰无码| 国产一级毛片网站| 97国产成人无码精品久久久| 成人免费黄色小视频| 亚洲国产精品VA在线看黑人| 国产精品亚欧美一区二区三区| 不卡无码网| 国产在线高清一级毛片| A级全黄试看30分钟小视频| 在线观看无码av免费不卡网站| 亚洲91在线精品| 免费无遮挡AV| 亚洲三级色| 亚洲永久视频| 在线观看精品国产入口| 69av免费视频| 日本国产精品| 亚洲精品自拍区在线观看| 99一级毛片| 999国内精品久久免费视频| 久久人搡人人玩人妻精品| 欧美色图久久| 亚洲精品男人天堂| 国产精品自在线天天看片| 国产JIZzJIzz视频全部免费| Aⅴ无码专区在线观看| 国产成人精品午夜视频'| 激情爆乳一区二区| AV老司机AV天堂| 精品一区二区三区无码视频无码| 一本大道香蕉高清久久| 日韩资源站| 尤物午夜福利视频| 国产日韩av在线播放| 日韩欧美中文字幕在线精品| 美女潮喷出白浆在线观看视频| 亚洲欧美不卡中文字幕| 思思热精品在线8| 日韩无码精品人妻|