999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

汽車(chē)故障知識(shí)圖譜構(gòu)建及應(yīng)用研究

2024-02-29 06:28:36李先旺黃忠祥賀德強(qiáng)劉賽虎秦學(xué)敬
科學(xué)技術(shù)與工程 2024年4期
關(guān)鍵詞:汽車(chē)文本故障

李先旺, 黃忠祥, 賀德強(qiáng), 劉賽虎, 秦學(xué)敬

(廣西大學(xué)機(jī)械工程學(xué)院, 南寧 530004)

汽車(chē)維修領(lǐng)域存在大量的文本數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含豐富的信息,且多數(shù)以非結(jié)構(gòu)化文本的形式散落在各處,沒(méi)得到統(tǒng)一的組織與管理,造成了知識(shí)的浪費(fèi)。如何根據(jù)故障現(xiàn)象快速?gòu)暮A课谋緮?shù)據(jù)中找到故障原因與解決方法,并構(gòu)建一個(gè)完整的面向汽車(chē)故障診斷的知識(shí)體系是一個(gè)亟待解決的問(wèn)題。

知識(shí)圖譜是有效的知識(shí)集成方法之一,它能形式化地描述現(xiàn)實(shí)世界的事物及其相互關(guān)系[1],從而促進(jìn)對(duì)其所包含信息的管理與使用。知識(shí)圖譜目前已被應(yīng)用在多個(gè)領(lǐng)域,如醫(yī)療[2]、制造[3]和公共交通[4]等領(lǐng)域,而針對(duì)汽車(chē)維修領(lǐng)域的知識(shí)圖譜也有部分學(xué)者進(jìn)行了研究。趙祥龍[5]基于規(guī)則進(jìn)行知識(shí)抽取,在構(gòu)建的車(chē)輛故障知識(shí)圖譜基礎(chǔ)上通過(guò)XGBoost分類(lèi)算法實(shí)現(xiàn)了故障原因的推薦應(yīng)用。但基于規(guī)則的方法存在召回率底、沖突性高的缺點(diǎn)。葛任賢[6]基于汽車(chē)故障案例,使用正則表示式進(jìn)行知識(shí)抽取,構(gòu)建汽車(chē)故障事理圖譜。但知識(shí)抽取過(guò)于依賴(lài)人工和專(zhuān)家經(jīng)驗(yàn),自動(dòng)化程度不高。徐成現(xiàn)[7]通過(guò)將注意力機(jī)制與BiLSTM-CRF(bidirectional long short-term memory-conditional random field)模型相結(jié)合對(duì)發(fā)動(dòng)機(jī)維修案例進(jìn)行知識(shí)抽取,構(gòu)建發(fā)動(dòng)機(jī)故障維修知識(shí)圖譜,并以關(guān)鍵詞和人工制定規(guī)則的方式進(jìn)行映射實(shí)現(xiàn)故障知識(shí)的查詢(xún)。但未能實(shí)現(xiàn)嵌套實(shí)體的識(shí)別,此外故障搜索依賴(lài)模板庫(kù)或關(guān)鍵詞庫(kù),后期維護(hù)困難。

命名實(shí)體識(shí)別(named entity recognition,NER)指將預(yù)定義類(lèi)別的實(shí)體從非結(jié)構(gòu)化文本中識(shí)別出來(lái),為知識(shí)圖譜構(gòu)建、智能問(wèn)答等下游任務(wù)的開(kāi)展奠定基礎(chǔ)[8]。因此提高實(shí)體識(shí)別效果十分重要。BiLSTM-CRF常作為基線模型用于中文實(shí)體識(shí)別[9],但該模型不能解決實(shí)體嵌套問(wèn)題。Li等[10]提出將嵌套NER任務(wù)轉(zhuǎn)化成機(jī)器閱讀理解(machine reading comprehension,MRC)任務(wù)來(lái)解決,通過(guò)構(gòu)建相應(yīng)問(wèn)題識(shí)別不同類(lèi)型實(shí)體,使用單層指針網(wǎng)絡(luò)識(shí)別實(shí)體邊界,但該方法用兩個(gè)模塊分別識(shí)別實(shí)體的首尾,將導(dǎo)致訓(xùn)練和預(yù)測(cè)不一致。為此,Su等[11]提出全局指針(gloabal pointer, GP),該框架將實(shí)體首尾視為整體進(jìn)行判別,能實(shí)現(xiàn)訓(xùn)練與預(yù)測(cè)的一致性。

首先,汽車(chē)維修文本具有領(lǐng)域?qū)I(yè)性,實(shí)體結(jié)構(gòu)較為復(fù)雜,存在大量實(shí)體嵌套的情況,如“發(fā)動(dòng)機(jī)無(wú)法啟動(dòng)”是個(gè)故障現(xiàn)象實(shí)體,其內(nèi)嵌套著“發(fā)動(dòng)機(jī)”這個(gè)部件實(shí)體,因此其實(shí)體邊界較難確定。其次,該領(lǐng)域缺乏成熟的公開(kāi)數(shù)據(jù)集,只能人工標(biāo)注小規(guī)模的領(lǐng)域數(shù)據(jù)集。預(yù)訓(xùn)練語(yǔ)言模型BERT (bidirectional encoder representation from transformers)[12]使用大規(guī)模的語(yǔ)料進(jìn)行預(yù)訓(xùn)練,具有通用的語(yǔ)言表征能力,無(wú)需從零開(kāi)始訓(xùn)練字符向量,只需在后續(xù)的任務(wù)中通過(guò)少量標(biāo)注語(yǔ)料進(jìn)行微調(diào)就可得到動(dòng)態(tài)的字符向量,但其采用的是字級(jí)掩碼機(jī)制,因此模型在處理中文時(shí)難以獲得詞級(jí)特征。RoBERTa-wwm(a robustly optimized BERT pre-training approach-whole word masking)[13]增加了全詞掩碼機(jī)制,中文語(yǔ)義表示能力更強(qiáng)。Jiang等[14]研究發(fā)現(xiàn),專(zhuān)業(yè)領(lǐng)域的數(shù)據(jù)集規(guī)模較小,模型在訓(xùn)練中很容易發(fā)生過(guò)擬合,進(jìn)而影響模型的表現(xiàn)。

針對(duì)汽車(chē)維修文本實(shí)體邊界難確定、實(shí)體嵌套和數(shù)據(jù)集規(guī)模較小的問(wèn)題,為全局指針引入中文分詞,并進(jìn)一步提出引入中文分詞的嵌套實(shí)體識(shí)別模型AT-RWSGP (nested named entity recognition using adversarial training and RoBERTa-wwm in the word segmentation GlobalPointer frame),以提高嵌套實(shí)體識(shí)別效果。在構(gòu)建汽車(chē)故障知識(shí)圖譜后,實(shí)現(xiàn)基于知識(shí)圖譜的汽車(chē)維修知識(shí)問(wèn)答原型系統(tǒng),展示知識(shí)圖譜技術(shù)在汽車(chē)維修領(lǐng)域的應(yīng)用前景。該系統(tǒng)為維修人員進(jìn)行汽車(chē)故障排查提供了故障知識(shí)問(wèn)答和圖譜可視化功能,為輔助維修人員對(duì)汽車(chē)進(jìn)行故障排查提供了理論參考和技術(shù)支撐。

1 汽車(chē)故障知識(shí)圖譜構(gòu)建流程及本體構(gòu)建

1.1 汽車(chē)故障知識(shí)圖譜構(gòu)建流程

知識(shí)圖譜就覆蓋范圍可分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜[15],而知識(shí)圖譜的構(gòu)建方式可分為自底向上構(gòu)建和自頂向下構(gòu)建[16]。一般而言,自底向上構(gòu)建方式更合適于覆蓋范圍廣泛的通用知識(shí)圖譜,此類(lèi)圖譜常用于搜索、推薦以及問(wèn)答等。汽車(chē)故障知識(shí)圖譜是一個(gè)典型的領(lǐng)域知識(shí)圖譜,此類(lèi)圖譜需要根據(jù)領(lǐng)域業(yè)務(wù)需求,構(gòu)建出合適的本體模式,確定實(shí)體與關(guān)系的類(lèi)型。所設(shè)計(jì)的汽車(chē)故障知識(shí)圖譜構(gòu)建流程如圖1所示,包括數(shù)據(jù)層、構(gòu)建層和應(yīng)用層。

圖1 汽車(chē)故障知識(shí)圖譜構(gòu)建框架圖Fig.1 Frame chart of building automobile fault knowledge graph

圖1中,數(shù)據(jù)層為汽車(chē)故障知識(shí)的數(shù)據(jù)來(lái)源,這些數(shù)據(jù)作為汽車(chē)故障實(shí)體和關(guān)系的基礎(chǔ)語(yǔ)料。構(gòu)建層的工作包括確定實(shí)體與關(guān)系的類(lèi)型,然后將預(yù)定義好的實(shí)體和關(guān)系從多源異構(gòu)的文本數(shù)據(jù)中抽取出來(lái),并進(jìn)行知識(shí)融合,最后根據(jù)構(gòu)建的本體模式將知識(shí)三元組存儲(chǔ)到知識(shí)庫(kù)中。應(yīng)用層則是將構(gòu)建好的汽車(chē)故障知識(shí)圖譜應(yīng)用到汽車(chē)故障診斷業(yè)務(wù)中,包括智能問(wèn)答與推薦等。

1.2 本體構(gòu)建

領(lǐng)域知識(shí)圖譜本體的構(gòu)建,需要結(jié)合專(zhuān)家知識(shí)進(jìn)行,規(guī)范好實(shí)體和關(guān)系的類(lèi)型才能保證從文本中抽取出正確的知識(shí)。針對(duì)汽車(chē)故障知識(shí)圖譜,其數(shù)據(jù)來(lái)源主要是維修手冊(cè)和汽車(chē)維修案例等,而此類(lèi)數(shù)據(jù)則主要包括品牌車(chē)型、故障現(xiàn)象、故障原因以及零部件等實(shí)體,具體實(shí)體和關(guān)系類(lèi)型如圖2所示。

圖2 汽車(chē)故障知識(shí)圖譜模式層設(shè)計(jì)Fig.2 Design of pattern layer of automobile fault knowledge graph

2 AT-RWSGP模型

所提AT-RWSGP模型架構(gòu)如圖3所示,該模型包括三層,分別是RoBERTa-wwm嵌入層、對(duì)抗訓(xùn)練和WSGP(word segmentation global pointer)解碼層。首先將字符序列輸入到RoBERTa-wwm中獲取字符編碼;然后在RoBERTa-wwm后接對(duì)抗訓(xùn)練層,對(duì)嵌入層加入小擾動(dòng),然后一起送到WSGP中識(shí)別實(shí)體的邊界并進(jìn)行分類(lèi)。

圖3 AT-RWSGP模型結(jié)構(gòu)圖Fig.3 AT-RWSGP model structure diagram

2.1 RoBERTa-wwm嵌入層

RoBERTa-wwm預(yù)訓(xùn)練模型是哈工大訊飛聯(lián)合實(shí)驗(yàn)室提出,其采用了中文全詞掩碼技術(shù),如圖4所示。通過(guò)全詞掩碼技術(shù),RoBERTa-wwm可以在訓(xùn)練的時(shí)候?qū)W到詞級(jí)別的語(yǔ)義表示,有助于提高汽車(chē)維修領(lǐng)域文本的實(shí)體識(shí)別效果。

圖4 RoBERTa-wwm的全詞掩碼示例Fig.4 Example of whole word masking for RoBERta-wwm

RoBERTa-wwm結(jié)構(gòu)圖如圖5所示,將輸入的句子定義為s= {x1,x2, …,xn},其中xi為序列的第i個(gè)字,i=1,2,…,n。在句子開(kāi)頭加上分類(lèi)符([CLS]),在句尾處添上分割符([SEP]),經(jīng)由RoBERTa-wwm處理,得到句子s的向量表示E,E= [E1,E2, …,En]。

圖5 RoBERTa-wwm結(jié)構(gòu)圖Fig.5 Structure Diagram of RoBERTa-wwm

2.2 對(duì)抗訓(xùn)練層

對(duì)抗訓(xùn)練的思想是直接在模型的向量表示層加入微小的擾動(dòng)以生成對(duì)抗樣本,然后再用對(duì)抗樣本進(jìn)行訓(xùn)練,借此提升模型的魯棒性。由于FGM (fast gradient method)[17]方法兼顧了性能和效率,因此采用FGM方法來(lái)計(jì)算擾動(dòng)。

FGM采用的方法是L2歸一化,即將梯度的每個(gè)維度的值除以梯度的L2范數(shù)。擾動(dòng)radv的計(jì)算公式為

(1)

g=▽EL(E;θ)

(2)

式中:g為梯度,‖g‖2為g的L2范數(shù);ε為超參數(shù);L(E;θ)為損失函數(shù);θ為模型參數(shù)。

2.3 WSGP解碼層

GP通過(guò)構(gòu)造一個(gè)上三角矩陣來(lái)遍歷所有有效的實(shí)體邊界,每一個(gè)格子對(duì)應(yīng)一個(gè)實(shí)體邊界,不同的矩陣表示不同類(lèi)型的實(shí)體。

經(jīng)過(guò)對(duì)抗訓(xùn)練層,添加小擾動(dòng)后,得到編碼向量序列[h1,h2, …,hn]。然后將每個(gè)token的編碼向量放入兩個(gè)線性層“start_FFN”和“end_FFN”,分別得到屬于每個(gè)實(shí)體類(lèi)別的開(kāi)始向量和結(jié)束向量,其計(jì)算公式分別為

qi=Wqhi+bq

(3)

ki=Wkhi+bk

(4)

式中:hi為向量序列;qi、ki分別為開(kāi)始和結(jié)束向量;Wq、Wk為變換矩陣;bq、bk為權(quán)重偏移指數(shù)。

為了方便推導(dǎo),將省略式(3)和式(4)的偏置項(xiàng)。

GP將實(shí)體抽取分為兩個(gè)階段,即先判斷某個(gè)token-pair是否是實(shí)體,然后再對(duì)實(shí)體進(jìn)行分類(lèi)。通過(guò)式(5) 計(jì)算跨度從i到j(luò)連續(xù)片段是一個(gè)類(lèi)型為的實(shí)體的分?jǐn)?shù)。

(5)

(6)

為了減少參數(shù),可進(jìn)一步將hi表示為[qi;ki],則式(6)可轉(zhuǎn)化為式(7)。

(7)

對(duì)于不同的實(shí)體類(lèi)別,通過(guò)式(7)可以得到每個(gè)span[i:j]的分?jǐn)?shù)sα(i,j),最后的任務(wù)就是從n(n+1)/2個(gè)候選實(shí)體中,選出k個(gè)真實(shí)的實(shí)體,該問(wèn)題是個(gè)多標(biāo)簽分類(lèi)問(wèn)題。損失函數(shù)的計(jì)算公式為

(8)

式(8)中:Pα為所有實(shí)體類(lèi)型為α的span集合;Qα為非α實(shí)體類(lèi)型的span集合,i≤j。

在解碼階段,只有滿(mǎn)足sα(i,j) >0的片段才會(huì)被視為α類(lèi)型的實(shí)體,并輸出。log以2為底。

2.3.1 改進(jìn)思路

(9)

2.3.2 方法

使用開(kāi)源中文分詞工具jieba來(lái)獲取文本的分詞標(biāo)簽,將句子進(jìn)行盡可能細(xì)粒度的分詞。例如存在短句“診斷為電機(jī)控制器故障”。基于細(xì)粒度的分詞會(huì)輸出:[診斷][為][電機(jī)][控制器][故障],對(duì)應(yīng)的詞列表word_list為[(0,1), (2, 2), (3, 4), (5, 7), (8, 9)],數(shù)字代表索引位置,從0開(kāi)始。然后通過(guò)遞歸的方式不斷對(duì)相鄰詞進(jìn)行組合從而生成:[診斷][診斷為][電機(jī)控制][控制器][電機(jī)控制器][電機(jī)控制器故障]等,遞歸的盡頭是改句子本身,從而得到中文分詞的真實(shí)標(biāo)簽seg_labels。seg_labels可視化如圖6所示。

圖6 seg_labels可視化Fig.6 seg_labels visualization

最后,將中文分詞的真實(shí)標(biāo)簽引入損失函數(shù)的計(jì)算,式(10)為原版GP的損失函數(shù)計(jì)算公式,式(12)為引入分詞信息后的損失函數(shù)計(jì)算公式。

loss1=loss_fc(all_logits,labels)

(10)

loss2=βloss_fc(logits,seg_labels)

(11)

loss=loss1+loss2

(12)

3 知識(shí)融合

從非結(jié)構(gòu)化的汽車(chē)維修文本中抽取的故障知識(shí)極大概率存在數(shù)據(jù)語(yǔ)義重復(fù)、質(zhì)量不一的問(wèn)題,知識(shí)融合可以將沖突的知識(shí)進(jìn)行融合,以實(shí)現(xiàn)知識(shí)表示的統(tǒng)一,進(jìn)而構(gòu)建高質(zhì)量的知識(shí)圖譜[18]。知識(shí)融合包括兩方面內(nèi)容,分別是實(shí)體消歧和實(shí)體對(duì)齊[19]。

實(shí)體消歧技術(shù)旨在解決同名不同意的實(shí)體問(wèn)題,因?yàn)檎Z(yǔ)料均為汽車(chē)領(lǐng)域文本,因此基本不存在該問(wèn)題。實(shí)體對(duì)齊技術(shù)則是解決同意不同名的實(shí)體問(wèn)題。例如,“發(fā)動(dòng)機(jī)控制模塊”和“發(fā)動(dòng)機(jī)控制器”均表示“發(fā)動(dòng)機(jī)控制單元”這個(gè)實(shí)體。人工撰寫(xiě)的故障維修報(bào)告大量存在這種用語(yǔ)不規(guī)范、不統(tǒng)一的情況,因此需要對(duì)知識(shí)進(jìn)行規(guī)范化表示。

采用計(jì)算相似度的方法進(jìn)行實(shí)體對(duì)齊,預(yù)先設(shè)置好閾值,將實(shí)體間相似度大于設(shè)置閾值的實(shí)體進(jìn)行融合,并將二者統(tǒng)一存入同義詞實(shí)體庫(kù),為后續(xù)實(shí)體鏈接做準(zhǔn)備。采用編輯距離和余弦相似度相結(jié)合的方法來(lái)計(jì)算相似度,任一相似度大于閾值則進(jìn)行融合。

(1)距離編輯相似度。編輯距離(levenshtein distance)是衡量?jī)蓚€(gè)字符串相似程度的常用方法,指兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。操作方法包括插入、刪除或者替換字符[20]。其中插入、刪除編輯次數(shù)為1,替換編制次數(shù)為2。距離編輯相似度則根據(jù)式(13)進(jìn)行計(jì)算。

(13)

式(13)中:Sle為距離編輯相似度分?jǐn)?shù);D為編輯次數(shù);L為兩實(shí)體總長(zhǎng)度。

(2) 余弦相似度。余弦相似度Scos是用來(lái)衡量向量空間中的兩個(gè)向量是否接近、相似,其值越接近1,就表明夾角越接近0°,即兩個(gè)向量越相似,其計(jì)算公式為

(14)

式(14)中:S1和S2為實(shí)體。

Sle、Scos值越大就表示二者相似度越高,表1列出了部分實(shí)體相似度計(jì)算實(shí)例。

表1 實(shí)體相似度計(jì)算實(shí)例Table 1 Example of entity similarity calculation

4 基于知識(shí)圖譜的智能問(wèn)答

問(wèn)答系統(tǒng)的作用是通過(guò)將用戶(hù)使用自然語(yǔ)言提出的問(wèn)題進(jìn)行語(yǔ)義解析,轉(zhuǎn)化成結(jié)構(gòu)化的查詢(xún)語(yǔ)句,進(jìn)而在知識(shí)圖譜中找到答案,并將答案返回給用戶(hù)[21]。因此,對(duì)自然問(wèn)句的語(yǔ)義進(jìn)行解析是關(guān)鍵的一步。采用的語(yǔ)義解析模塊如圖7所示。該模塊包括3個(gè)子模塊,分別是實(shí)體識(shí)別、實(shí)體鏈接以及關(guān)系匹配。實(shí)體識(shí)別模塊的作用是識(shí)別自然問(wèn)句中單個(gè)或多個(gè)關(guān)鍵詞,實(shí)體鏈接模塊的作用則是將識(shí)別到的關(guān)鍵詞正確鏈接到知識(shí)圖譜中的實(shí)體詞。關(guān)系匹配則是將自然問(wèn)句中蘊(yùn)含的關(guān)系與知識(shí)圖譜中的實(shí)體間關(guān)系進(jìn)行匹配。

領(lǐng)域特定語(yǔ)言(domain-specific language,DSL)圖7 語(yǔ)義解析的流程示意圖Fig.7 Schematic diagram of semantic parsing process

4.1 基于Albert-WSGP的實(shí)體識(shí)別方法

Albert[22]是輕量版的BERT,其利用詞嵌入?yún)?shù)因式分解和隱藏層間參數(shù)共享技術(shù),在顯著減少模型參數(shù)量的同時(shí),基本沒(méi)有損失模型的性能。可見(jiàn)Albert比BERT更適合部署在線上,因此選擇Albert獲取字符的上下文表示。解碼層則依然使用WSGP,因?yàn)槠淇梢詿o(wú)差別識(shí)別普通實(shí)體和嵌套實(shí)體,并且較CRF效率更高、速度更快。

4.2 基于字匹配的實(shí)體鏈接方法

在具體的業(yè)務(wù)場(chǎng)景下,用戶(hù)表達(dá)具有多樣性,為提高答案的正確率,需要通過(guò)實(shí)體鏈接將實(shí)體提及與知識(shí)圖譜中的實(shí)體詞進(jìn)行關(guān)聯(lián)。采用第三節(jié)中構(gòu)建的同義實(shí)體庫(kù)進(jìn)行實(shí)體鏈接,并以字匹配的方式鏈接,為提高匹配的準(zhǔn)確性,加權(quán)實(shí)體間相似度和實(shí)體與問(wèn)句相似度,計(jì)算公式為

(15)

式(15)中:X為同義詞庫(kù)檢索的候選實(shí)體詞;Y為實(shí)體提及;S為自然問(wèn)句;α、β為參數(shù),分別取0.8和0.2;X∩Y表示X與Y的公共字符;|·|為字符數(shù)量。

計(jì)算候選實(shí)體詞的分?jǐn)?shù)并按照降序排序,選擇得分最大的實(shí)體詞。

4.3 基于Albert的關(guān)系匹配

在知識(shí)圖譜中準(zhǔn)確找到實(shí)體后,可以根據(jù)該實(shí)體匹配關(guān)系。若該實(shí)體詞的關(guān)系存在與自然問(wèn)句意圖一致的關(guān)系,則基于實(shí)體詞及關(guān)系輸出對(duì)應(yīng)的答案。采用Albert進(jìn)行匹配,構(gòu)造關(guān)系數(shù)據(jù)集對(duì)該模型進(jìn)行訓(xùn)練,將訓(xùn)練好的模型部署到問(wèn)答系統(tǒng)。該結(jié)構(gòu)如圖8所示,模型可簡(jiǎn)化為式(16)、式(17)。

qt為自然問(wèn)句的字符;at為實(shí)體詞及其關(guān)系的字符;[CLS]用于輸入的待匹配文本的語(yǔ)義表示;[SEP]為分隔符;Softmax為歸一化指數(shù)函數(shù);FNN為全連接層;E[CLS]為[CLS]的字符表示的語(yǔ)義編碼圖8 關(guān)系匹配的模型結(jié)構(gòu)圖Fig.8 Model structure diagram of relationship matching

E=Albert([CLS],q1,q2,…,[SEP],
a1,a2,…,[SEP])

(16)

p=Softmax(WeE[CLS]+be)

(17)

式中:qt為自然問(wèn)句的字符,t=1,2,…;at為實(shí)體詞及其關(guān)系的字符;[CLS]用于輸入的待匹配文本的語(yǔ)義表示;[SEP]為分隔符;be為權(quán)重偏移指數(shù);使用Albert模型內(nèi)部的注意力機(jī)制進(jìn)行交互,得到字符的向量表示E;使用Softmax進(jìn)行分類(lèi);We為全連接層FFN的網(wǎng)絡(luò)參數(shù);E[CLS]為[CLS]的字符表示的語(yǔ)義編碼;p為分類(lèi)結(jié)果。

5 實(shí)驗(yàn)及知識(shí)圖譜的創(chuàng)建與應(yīng)用

5.1 汽車(chē)故障數(shù)據(jù)準(zhǔn)備

以爬蟲(chóng)的方式從精通維修網(wǎng)獲取汽車(chē)維修案例,對(duì)獲取的案例進(jìn)行清洗和整理,得到2 000個(gè)案例,并對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注,作為實(shí)驗(yàn)數(shù)據(jù)集,取訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例為8∶1∶1。實(shí)體類(lèi)別如表2所示,其中故障現(xiàn)象、故障原因以及解決方法實(shí)體中嵌套有零部件實(shí)體。

表2 汽車(chē)故障文本命名實(shí)體分類(lèi)Table 2 Example of entity similarity calculation

5.2 實(shí)體環(huán)境及實(shí)驗(yàn)參數(shù)

本實(shí)驗(yàn)環(huán)境及配置如表3所示。

表3 環(huán)境配置Table 3 Environment configuration

5.3 模型評(píng)估

實(shí)驗(yàn)采用3個(gè)評(píng)價(jià)指標(biāo),分別是精確率(precision,記為P)、召回率(recall,記為R)以及P、R的調(diào)和平均數(shù)F1值(記為F1)[23],計(jì)算公式為

(18)

(19)

(20)

式中:TP為正確識(shí)別的個(gè)數(shù);FP為將不正確識(shí)別為正確的個(gè)數(shù);FN為數(shù)據(jù)集中存在但未被識(shí)別出來(lái)的個(gè)數(shù)。

5.4 實(shí)驗(yàn)結(jié)果及分析

本實(shí)驗(yàn)分析比較了AT-RWSGF模型與BERT-CRF、BERT-MRC、BERT-BinaryPointer(BERT-BP)[24]以及BERT-GP模型在汽車(chē)維修數(shù)據(jù)集上的實(shí)體識(shí)別效果,其結(jié)果如表4所示。

表4 各模型的評(píng)價(jià)結(jié)果Table 4 Evaluation results of each model

從表4可以看出,所提AT-RWSGP模型在汽車(chē)維修數(shù)據(jù)集上取得F1為93.73%的成績(jī)。相對(duì)于BERT-GP而言,本文模型F1提高了3.56%。這是因?yàn)楸疚哪P蛯⒅荒茏盅诖a的BERT替換為擁有全詞掩碼機(jī)制的RoBERTa-wwm,提高了模型學(xué)習(xí)詞級(jí)表征的能力;其次,本文模型還增加了對(duì)抗訓(xùn)練,該舉措有助于提高模型的魯棒性和泛化性;最后,本文模型對(duì)GP進(jìn)行改進(jìn),引入中文分詞信息,可以提升模型實(shí)體識(shí)別性能。而基于序列標(biāo)注的經(jīng)典模型BERT-CRF表現(xiàn)最差,F1只有71%,說(shuō)明BERT-CRF模型不適合用于嵌套命名實(shí)體識(shí)別。

為了評(píng)估RoBERTa-wwm、對(duì)抗訓(xùn)練模塊以及WSGP的有效性,設(shè)計(jì)如下4組實(shí)驗(yàn)進(jìn)行對(duì)比,模型分別為BERT-GP、RoBERTa-wwm-GP、BERT-AT-GP以及BERT-WSGP。各模型在汽車(chē)維修數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表5所示。

表5 不同組件對(duì)模型性能的影響Table 5 Effect of different components on model performance

從表5可以看出,將BERT-GP中的BERT換成替換為RoBERTa-wwm后,在汽車(chē)維修數(shù)據(jù)集上的F1提升了2.05%,說(shuō)明RoBERTa-wwm模型增加全詞掩碼機(jī)制的措施可以提升汽車(chē)維修文本的嵌套命名實(shí)體識(shí)別效果。在BERT-GP基礎(chǔ)上加上對(duì)抗訓(xùn)練,在汽車(chē)維修數(shù)據(jù)集上的F1提升了1.45%,這體現(xiàn)了通過(guò)向訓(xùn)練數(shù)據(jù)添加小擾動(dòng)的方式能使模型的魯棒性得到提高,進(jìn)而增強(qiáng)模型的實(shí)體識(shí)別能力。而WSGP相比GP表現(xiàn)也更好,其F1提高了1.78%,可見(jiàn)通過(guò)引入中文分詞可以提升模型的實(shí)體識(shí)別效果。

5.5 知識(shí)圖譜構(gòu)建與應(yīng)用

抽取到實(shí)體及其關(guān)系后,需要依托相關(guān)工具將這些知識(shí)構(gòu)建成知識(shí)圖譜。Neo4j是一個(gè)開(kāi)源圖形數(shù)據(jù)庫(kù),與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,Neo4j可以直觀地表示各節(jié)點(diǎn)之間的語(yǔ)義關(guān)系。此外,Neo4j還具有查詢(xún)便捷和更新維護(hù)方便等優(yōu)點(diǎn)。因此,選擇Neo4j作為構(gòu)建知識(shí)圖譜的工具。如圖9所示,選取部分內(nèi)容進(jìn)行可視化展示。

GL8為別克GL8車(chē)型;A6L為奧迪A6L車(chē)型;VTEC為本田的可變氣門(mén)正時(shí)和升程電子控制系統(tǒng)圖9 汽車(chē)故障知識(shí)圖譜可視化展示Fig.9 Visual display of automobile fault knowledge graph

汽車(chē)故障知識(shí)圖譜通過(guò)構(gòu)建故障現(xiàn)象、故障原因以及解決方法等信息之間的關(guān)聯(lián)關(guān)系,依托知識(shí)圖譜強(qiáng)大的語(yǔ)義網(wǎng)絡(luò),可以進(jìn)行圖譜可視化,還可依靠智能問(wèn)答系統(tǒng),理解用戶(hù)輸入的自然語(yǔ)言問(wèn)題,并返回正確的答案和相關(guān)問(wèn)題推薦。

以新能源汽車(chē)中典型實(shí)例“車(chē)輛儀表EV功能受限和請(qǐng)檢查低壓系統(tǒng)是什么原因”進(jìn)行系統(tǒng)演示,在系統(tǒng)的右上角搜索框內(nèi)輸入“車(chē)輛儀表EV功能受限和請(qǐng)檢查低壓系統(tǒng)是什么原因”的自然問(wèn)句,系統(tǒng)首先識(shí)別實(shí)體,得到實(shí)體提及“儀表報(bào)EV功能受限”和“請(qǐng)檢查低壓系統(tǒng)”。接著進(jìn)行實(shí)體鏈接,輸出標(biāo)準(zhǔn)名“EV功能受限”“請(qǐng)檢查低壓系統(tǒng)”以及候選的關(guān)系。通過(guò)意圖分類(lèi)得到關(guān)系“故障原因”,然后將語(yǔ)義解析得到的信息轉(zhuǎn)換成Cypher查詢(xún)語(yǔ)句,在知識(shí)圖譜中進(jìn)行檢索,并將輸出答案和圖譜可視化,在本例中可以看出,故障原因“PTC互鎖插頭松動(dòng)”和“OBC內(nèi)部損壞”為故障現(xiàn)象“請(qǐng)檢查低壓系統(tǒng)”和“EV功能受限”的共同原因,以可視化的方式可以通俗易懂地展示出這個(gè)信息,效果如圖10所示。

6 結(jié)論

基于汽車(chē)故障文本,提出一種嵌套命名實(shí)體識(shí)別模型AT-RWSGP。該模型通過(guò)RoBERTa-wwm獲得輸入信息的向量表示,并引入對(duì)抗訓(xùn)練機(jī)制,最后使用WSGP進(jìn)行解碼。構(gòu)建汽車(chē)故障知識(shí)圖譜后,實(shí)現(xiàn)了基于知識(shí)圖譜的汽車(chē)維修知識(shí)問(wèn)答原型系統(tǒng)。通過(guò)實(shí)驗(yàn)和知識(shí)圖譜應(yīng)用分析后得到以下結(jié)論。

(1)所提基于AT-RWSGP的嵌套命名實(shí)體識(shí)別模型可以提高汽車(chē)維修領(lǐng)域嵌套命名實(shí)體識(shí)別效果。

(2)利用本文模型構(gòu)建一定數(shù)據(jù)規(guī)模的汽車(chē)故障知識(shí)圖譜,可以為智能問(wèn)答等應(yīng)用提高知識(shí)支持。

(3)知識(shí)圖譜技術(shù)在汽車(chē)故障診斷領(lǐng)域具有良好的應(yīng)用前景。

猜你喜歡
汽車(chē)文本故障
故障一點(diǎn)通
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
汽車(chē)的“出賣(mài)”
奔馳R320車(chē)ABS、ESP故障燈異常點(diǎn)亮
汽車(chē)們的喜怒哀樂(lè)
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
故障一點(diǎn)通
江淮車(chē)故障3例
3D 打印汽車(chē)等
決策探索(2014年21期)2014-11-25 12:29:50
主站蜘蛛池模板: 波多野结衣一区二区三区四区| 久久久久九九精品影院| 免费精品一区二区h| 国内精品伊人久久久久7777人| 91久久国产综合精品| 国产精品亚洲а∨天堂免下载| 成人一级黄色毛片| 国产剧情伊人| 日本人真淫视频一区二区三区| 国产后式a一视频| 高清精品美女在线播放| 国产91在线免费视频| 国产成人精品免费av| 亚洲国产成人自拍| 啪啪免费视频一区二区| 国产免费久久精品99re不卡 | 小说区 亚洲 自拍 另类| 国产95在线 | 国产亚洲精品无码专| 久久性视频| 国产91小视频在线观看| av一区二区三区高清久久| 天堂在线视频精品| 亚洲免费毛片| 99中文字幕亚洲一区二区| 乱码国产乱码精品精在线播放| 久久这里只有精品国产99| a色毛片免费视频| 成人午夜网址| 欧洲极品无码一区二区三区| 国产在线观看精品| 国产伦精品一区二区三区视频优播| 免费中文字幕一级毛片| 久无码久无码av无码| 国产真实乱子伦精品视手机观看| 国产精品久久精品| 日韩成人午夜| 国产欧美日韩视频怡春院| 人人91人人澡人人妻人人爽| 亚洲swag精品自拍一区| 伊人久久福利中文字幕| 国产亚洲欧美另类一区二区| 一本大道视频精品人妻| 成人自拍视频在线观看| 精品乱码久久久久久久| 一区二区在线视频免费观看| 中文字幕啪啪| 亚洲第一成年网| 久久亚洲日本不卡一区二区| 四虎国产永久在线观看| 久久人搡人人玩人妻精品一| 亚洲成年人网| 欧美日本在线一区二区三区| 色婷婷亚洲综合五月| 国产在线麻豆波多野结衣| 国产免费a级片| 欧美色图久久| 为你提供最新久久精品久久综合| 久久综合九色综合97婷婷| 强乱中文字幕在线播放不卡| 亚洲第一在线播放| 国产一线在线| 伊人久久婷婷五月综合97色| 色综合热无码热国产| 婷婷激情五月网| 四虎影视国产精品| 人人爽人人爽人人片| 伊人久久久久久久| 无码高潮喷水专区久久| 精品国产免费第一区二区三区日韩| 九九热免费在线视频| 国产黄色视频综合| 5555国产在线观看| 成人一区在线| 免费视频在线2021入口| 成年人久久黄色网站| 亚洲无码视频图片| 久久国产高潮流白浆免费观看| 久久人人爽人人爽人人片aV东京热| 亚洲动漫h| 国产精品密蕾丝视频| 99久久99视频|