999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于二次排序Top-N算法的呼叫中心文本識別方法

2020-02-05 02:19:44思永坤劉娟許婧
電子技術(shù)與軟件工程 2020年7期
關(guān)鍵詞:語義文本分析

思永坤 劉娟 許婧

(中移在線服務(wù)有限公司云南分公司 云南省昆明市 650221)

近年來,隨著互聯(lián)網(wǎng),特別是移動互聯(lián)網(wǎng)的發(fā)展,引發(fā)了數(shù)據(jù)爆發(fā)式增長,大數(shù)據(jù)正日益對企業(yè)競爭能力提升、產(chǎn)品創(chuàng)新、客戶市場發(fā)展等產(chǎn)生重要影響。而當(dāng)前大數(shù)據(jù)平臺中存貯的數(shù)據(jù)分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩類組織形式。據(jù)統(tǒng)計,企業(yè)中80%以上的業(yè)務(wù)相關(guān)的信息都來源于非結(jié)構(gòu)化數(shù)據(jù)文本[1]。

1 中文分詞和語義分析

1.1 中文分詞

分詞技術(shù)是語義理解的首要環(huán)節(jié),是文本分類,信息檢索,機器翻譯,自動標(biāo)引,文本的語音輸入輸出等領(lǐng)域的基礎(chǔ)。而由于中文本身的復(fù)雜性及其書寫習(xí)慣,使中文分詞成為分詞技術(shù)中的難點[2]。

1.1.1 通信行業(yè)分詞難點

首先,專業(yè)術(shù)語與自然表述方式矛盾,例如,“家庭套餐”4字術(shù)語在中文中由“家庭”、“套餐”兩個詞組成,“家庭”、“套餐”又分別有其自有的自然語言定義,將“家庭套餐”分割為特定專業(yè)術(shù)語,就是中文分詞在特定行業(yè)應(yīng)用的一個難點。

其次,詞的語義需要根據(jù)上下文關(guān)聯(lián)性判斷,例如,“還欠費200 多元”,可分割為“還(huan)/欠費/200 多元”和“還(hai)欠費/200 多元”。

1.1.2 常見分詞方式

目前較為常見的分詞方法有:基于機械切分的分詞方法、基于統(tǒng)計的分詞方法和知識分詞方法。

1.2 語義分析

語義分析指運用各種方法,學(xué)習(xí)與理解一段文本所表示的語義內(nèi)容。一般來說,詞匯級語義分析關(guān)注的是如何獲取或區(qū)別單詞的語義,句子級語義分析則試圖分析整個句子所表達(dá)的語義,而篇章語義分析旨在研究自然語言文本的內(nèi)在結(jié)構(gòu)并理解文本單元(可以是句子從句或段落)間的語義關(guān)系[3]。

按照研究策略的不同,現(xiàn)有每層次語義分析研究都大概可分為基于知識或語義學(xué)規(guī)則的語義分析和基于統(tǒng)計學(xué)的語義分析[4]。

2 呼叫中心文本識別面臨的問題和解決思路

2.1 呼叫中心文本的特點

呼叫中心的文本數(shù)據(jù)大部分來源于錄音文件的語音識別轉(zhuǎn)寫。不同于書面語言,呼叫中心的文本內(nèi)容幾乎都是客戶與客戶代表之間的口述交互,其作為真實數(shù)據(jù)的記錄,數(shù)據(jù)可能不完整、有噪音,且不一致[5]。因此,呼叫中心的錄音文本在識別過程中會存在以下問題:

2.1.1 錄音文本準(zhǔn)確度問題

受限于錄音文件轉(zhuǎn)寫平臺,錄音文本存在轉(zhuǎn)寫準(zhǔn)確性的問題,導(dǎo)致標(biāo)準(zhǔn)化的字典分詞難于適用。例如,“4G”錄音轉(zhuǎn)寫過程轉(zhuǎn)譯為“四季”、“四區(qū)”、“四哥”;“移動MM”錄音轉(zhuǎn)寫為“移動妹妹”等。

2.1.2 客戶表達(dá)存在個性化差異

對于同一需求,由于客戶的個性化表達(dá)的差異,存在錄音文本關(guān)鍵信息的較大差異。例如,對于取消業(yè)務(wù)的訴求,客戶的表述會有“關(guān)一下”、“關(guān)掉”、“不要了”、“退掉”、“停止”等多種個性化表達(dá)。

2.1.3 業(yè)務(wù)術(shù)語與自然語言差異

部分業(yè)務(wù)的標(biāo)準(zhǔn)化業(yè)務(wù)名稱與客戶來電口頭表述有較大差異,甚至存在較大偏離。例如,“已開通收費業(yè)務(wù)”這一標(biāo)準(zhǔn)業(yè)務(wù)術(shù)語,客戶的表達(dá)為“收費的業(yè)務(wù)”、“有些什么業(yè)務(wù)”、“開通了些什么”、“扣費的業(yè)務(wù)”、“月租”等。

2.1.4 區(qū)域性語言(方言)表達(dá)差異

2.1.5 多訴求對話

一通對話錄音文本中,客戶訴求可能會有多個。例如,客戶表述“查詢話費較高的原因”,從而衍生出“取消某些不需要的業(yè)務(wù)”;或者客戶分別需要“取消彩鈴”和“開通來電提醒”。

2.1.6 業(yè)務(wù)范疇變動頻繁

通信行業(yè)面向客戶提供的業(yè)務(wù)、產(chǎn)品(含營銷活動)、服務(wù)并不是一成不變的,對應(yīng)的業(yè)務(wù)標(biāo)簽每月、每周、每天都有可能出現(xiàn)新增或下線,所以客戶交互信息也會頻繁變化。

2.2 呼叫中心文本識別算法解決思路

基于錄音轉(zhuǎn)寫、客戶表達(dá)、區(qū)域方言、多訴求、業(yè)務(wù)變動等原因,通信行業(yè)的客戶服務(wù)錄音文本分析,具有典型的行業(yè)特征。目前比較熱門的基于深度學(xué)習(xí)的文本識別算法,雖能夠在有效的訓(xùn)練后達(dá)到較高的準(zhǔn)確度,但由于其前期需投入大量訓(xùn)練數(shù)據(jù),且對于新增標(biāo)簽反應(yīng)滯后,不能完全滿足通信行業(yè)呼叫中心對于客戶錄音文本分析的需求。于是,依賴于經(jīng)驗和語料庫的基于統(tǒng)計學(xué)和概率性的語義分析策略相較來說,更適合那些內(nèi)容范疇相對統(tǒng)一、模型迭代快速、業(yè)務(wù)術(shù)語較多的文本挖掘領(lǐng)域。算法需重點研究和解決:

2.2.1 文本完整性校驗

錄音文件轉(zhuǎn)寫為語音文本,由于以下因素可導(dǎo)致文本可用信息缺失:

5例硬膜下積液自行吸收,7例演變?yōu)槁杂材は卵[;前者的積液量少于后者[(26.4±14.6)mL vs(80.0±52.3)mL, P=0.002]。演變?yōu)槁杂材は卵[的7例患者中,5例因血腫厚度>1.5 cm、出現(xiàn)顱高壓或神經(jīng)功能障礙而進一步行鉆孔引流術(shù);鉆孔手術(shù)平均于夾閉術(shù)后(9.1±3.8)個月(4~20個月)進行。進一步分析發(fā)現(xiàn),硬膜下積液量越大,其演變?yōu)槁杂材は卵[的比例越高,慢性硬膜下血腫后須行鉆孔引流手術(shù)治療的比例也越高(表2)。

(1)通話錄音本身業(yè)務(wù)元素缺失。例如,交互過程中的異常掛機。

(2)由于錄音轉(zhuǎn)寫文本準(zhǔn)確性問題,導(dǎo)致文本業(yè)務(wù)元素缺失。

2.2.2 分詞規(guī)則與業(yè)務(wù)對應(yīng)

(1)專業(yè)術(shù)語的識別。例如,“和彩鈴”、“和多號”等業(yè)務(wù)名稱,在分詞過程不能分割為“和/彩鈴”、“和/多號”,而應(yīng)做為統(tǒng)一整體進行分詞。

(2)客戶化表述的識別。例如,客戶需要辦理“國際漫游”,但在交互過程的用語為:“出國上網(wǎng)”、“國際流量”、“港澳臺流量”、“外國漫游”等。

(3)短語描述的識別。例如,“呼叫轉(zhuǎn)移”表述為“把電話轉(zhuǎn)接到別的手機上”。此類情況非字典字詞,也非標(biāo)準(zhǔn)業(yè)務(wù)名詞,但需在分詞規(guī)則中進行詞組的定義。

2.2.3 關(guān)鍵訴求判定

(1)在整通來話錄音文本中,通常存在客戶多訴求表達(dá)。例如,一次來話有查話費、查流量、辦套餐等訴求。

表1:文本識別語料庫(樣例)

(2)有客戶訴求與業(yè)務(wù)定義存在語義纏繞的問題,例如,客戶表述中出現(xiàn)“上不了網(wǎng)”,有可能是指手機流量上網(wǎng)問題、寬帶上網(wǎng)問題、WLAN 上網(wǎng)問題,其由此產(chǎn)生的需求,有可能是開通相關(guān)業(yè)務(wù),也有可能是投訴業(yè)務(wù)故障。

3 呼叫中心文本識別算法實現(xiàn)

3.1 建立文本識別語料庫

如表1 所示。

3.2 文本識別算法流程

基于上述呼叫中心錄音文件文本還原準(zhǔn)確性、分詞規(guī)則、語義分析、關(guān)鍵訴求判定等現(xiàn)實問題,本文提出“基于二次排序的Top-N 語義分析算法”,算法流程如圖1 所示。

“基于二次排序的Top-N 語義分析算法”包括檢測模塊、獲取模塊和確定模塊。其中:

檢測模塊,用于對錄音文本(非結(jié)構(gòu)化數(shù)據(jù))進行完整性檢測;

獲取模塊,用于當(dāng)錄音文本確定為完整的非結(jié)構(gòu)化數(shù)據(jù)時,將錄音文本與預(yù)存儲的關(guān)鍵詞進行匹配,獲取與錄音文本相對應(yīng)的待確定標(biāo)簽;

確定模塊,用于根據(jù)預(yù)設(shè)的匹配規(guī)則,在待確定的標(biāo)簽中確定與錄音文本最終匹配的標(biāo)簽。

4 總結(jié)和展望

通過對真實錄音文本的語義識別結(jié)果進行全量測算檢驗,本算法文對于通話時長低于60 秒的錄音文本,識別準(zhǔn)確率達(dá)到93.67%,識別準(zhǔn)確率達(dá)到業(yè)界較高水平。算法中涉及的報錯閥值、排序TOP 值均為配置參數(shù),可根據(jù)實際情況進行調(diào)整,算法的流程化設(shè)計思想,也可支持在遇突發(fā)事件、文本內(nèi)容較大變動、表述習(xí)慣改變的情況下,調(diào)整特殊節(jié)點,甚至快速優(yōu)化算法流程,增減篩選環(huán)節(jié),有效提高了算法對外部環(huán)境的適應(yīng)性。

后續(xù),該算法的應(yīng)用和優(yōu)化仍有一定空間。除了單純文本內(nèi)容外,將靜音、音量、語速、聲道等錄音屬性也加入語義分析模型,可支持捕捉性格特征、語境、情緒等更具體明確的語義內(nèi)容。也可將本算法輸出結(jié)果作為訓(xùn)練集,將無規(guī)則的深度學(xué)習(xí)算法和有規(guī)則的本文所述算法結(jié)合起來,開創(chuàng)探索新的算法迭代模式,實現(xiàn)語義判定內(nèi)在算法的自主學(xué)習(xí)和優(yōu)化。

圖1:“基于二次排序的Top-N 語義分析算法”流程圖

猜你喜歡
語義文本分析
隱蔽失效適航要求符合性驗證分析
語言與語義
在808DA上文本顯示的改善
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
電力系統(tǒng)及其自動化發(fā)展趨勢分析
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 在线免费不卡视频| 成人在线观看不卡| 国产激爽爽爽大片在线观看| 亚洲国产一成久久精品国产成人综合| 91在线国内在线播放老师| 青草视频免费在线观看| 色丁丁毛片在线观看| 久久天天躁狠狠躁夜夜2020一| 欧美日韩激情在线| 国产午夜一级毛片| 影音先锋丝袜制服| 成年人久久黄色网站| 国产福利大秀91| 久久国产高潮流白浆免费观看| 亚洲一区二区三区香蕉| 天堂岛国av无码免费无禁网站| 亚洲黄色激情网站| 亚洲最大综合网| 欧美福利在线| 成人综合在线观看| 无遮挡国产高潮视频免费观看| 一级毛片基地| 一区二区三区在线不卡免费 | 欧美不卡视频一区发布| 日韩欧美色综合| 毛片免费观看视频| 国产成本人片免费a∨短片| 国产欧美日韩免费| 波多野结衣一区二区三区四区| 亚洲午夜国产精品无卡| 国产精品自在自线免费观看| 国产成人综合欧美精品久久| 亚洲有码在线播放| 嫩草在线视频| 欧洲极品无码一区二区三区| 啪啪啪亚洲无码| 久无码久无码av无码| 伊人色天堂| 亚洲第一成年人网站| 久久久久人妻一区精品| 亚洲一区网站| 国产日韩精品欧美一区喷| 亚洲人成影视在线观看| 视频一本大道香蕉久在线播放| 一级黄色欧美| 欧美日韩国产综合视频在线观看| 日韩黄色大片免费看| 国产一级在线播放| 成年人久久黄色网站| 日韩一区二区三免费高清| 色国产视频| 大香网伊人久久综合网2020| 国产乱视频网站| 国产一级妓女av网站| 91在线一9|永久视频在线| 亚洲综合香蕉| 日本亚洲欧美在线| 欧美精品成人一区二区视频一| 亚洲人成色在线观看| 潮喷在线无码白浆| 国产亚洲精品自在线| 又爽又大又光又色的午夜视频| 幺女国产一级毛片| 国产人人干| 免费xxxxx在线观看网站| 亚洲大学生视频在线播放| 日韩第一页在线| 国产精品漂亮美女在线观看| 少妇极品熟妇人妻专区视频| WWW丫丫国产成人精品| 日韩精品成人网页视频在线| 国产第三区| 久青草免费视频| 亚洲精品波多野结衣| 91精品国产麻豆国产自产在线 | 亚洲色图在线观看| 国产成人综合久久| 毛片一级在线| 国产精品视频999| 欧类av怡春院| 日韩专区第一页| 国产精品大白天新婚身材|