999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合MacBERT和Kenlm的中文糾錯方法

2022-03-02 06:16:00王夢賢何春輝
現(xiàn)代計算機 2022年23期
關鍵詞:文本語言方法

王夢賢,何春輝

(1.湖南城市學院管理學院,益陽 413000;2.國防科技大學信息系統(tǒng)工程重點實驗室,長沙 410073)

0 引言

隨著信息技術的快速發(fā)展,文本自動糾錯技術無處不在,涉及聊天信息、社交動態(tài)、學術出版物、政策文件、通知公告以及文檔編寫等日常應用場景。經(jīng)過分析發(fā)現(xiàn),在這些場景中較常見的錯誤有字詞拼寫錯誤(例如諧音字)、少字多字、字詞異位、標點符號使用不當、數(shù)字錯誤等幾大類。在海量的文本中,若完全依靠人力來完成上述錯誤類型的自動糾正顯然不太現(xiàn)實。因此,提出高效的文本自動糾錯方法來輔助人工完成海量文本的自動糾錯已經(jīng)成為了一個極具挑戰(zhàn)的難題。

國外雖然有學者針對文本糾錯任務提出了一些先進的理論和方法[1],但是大部分都只適用于印歐語系的語種,對中文的適應性較差。現(xiàn)階段大多數(shù)中文文本糾錯方法仍然需要借助規(guī)則或者糾錯策略,只有少數(shù)方法是借助語言模型來自動探測錯誤并糾正錯誤,但整體的糾錯率不高。近年來,隨著知識表示技術的發(fā)展,也有部分學者提出結(jié)合大規(guī)模預訓練語言模型[2]來解決中文文本的自動糾錯難題。這類方法在文本糾錯任務上取得了一些成效,在精確率方面有較大提升,但召回率偏低。此外,發(fā)現(xiàn)基于Kenlm和混淆詞表的中文糾錯方法具有較高召回率,但精確率非常低。綜上所述,如何同時提升糾錯算法的精確率和召回率就顯得非常重要。

根據(jù)上述分析可知,為了有效提升中文自動糾錯方法的綜合性能,本文首次嘗試通過融合預訓練語言模型MacBERT和詞表+Kenlm統(tǒng)計語言模型后提出了一種具有層次化結(jié)構(gòu)的中文糾錯方法。

1 相關研究

早期的中文糾錯方法主要是圍繞文本自動校對[3]應用場景來展開,這類方法需要依賴人工制定的規(guī)則庫來完成查錯和糾錯。隨著統(tǒng)計學習的興起,陳翔等[4]提出了一種規(guī)則和統(tǒng)計方法相結(jié)合的自動糾錯技術,用來解決數(shù)字化系統(tǒng)的自動糾錯難題并取得了一定的效果。石敏等[5]針對中文同音字錯誤類型提出了一種基于決策列表的中文糾錯方法,借助構(gòu)建的混淆集在同音字糾錯任務上達到了較好的效果。此外,楊蘇穩(wěn)等[6]提出了一種結(jié)合模糊匹配和最小編輯距離來解決搜索引擎中查詢語句的智能糾錯方法,有效提升了用戶的搜索體驗。近年來,隨著深度學習技術的發(fā)展,有學者提出結(jié)合知識庫或知識表示技術來解決中文糾錯難題,也取得了一系列的研究成果。王瓊等[7]針對鐵路車務系統(tǒng)語音識別后的文本易出現(xiàn)散串和同音字錯誤的情況,提出了一種基于領域知識庫的查錯算法,有效地提升了文本錯誤檢測率。張佳寧等[8]利用word2vec詞嵌入技術結(jié)合深度語言模型以及混淆集技術對語音識別后的文本進行自動糾錯,也取得良好的效果。葉俊民等[9]提出了一種層次化修正框架,用于解決中文糾錯任務,它在不同層次上分別結(jié)合預訓練語言模型[10]和語義表示技術來探測并修正錯誤。王辰成等[11]和孫邱杰等[12]分別基于Transformer增強框架和BRAT噪聲器對中文語法糾錯進行了探索,有效地提升了中文語法的糾錯性能。

受上述啟發(fā),在糾錯領域中文語料上實現(xiàn)遷移學習后得到MacBERT[13]語言模型,并結(jié)合人工構(gòu)造的詞表+Kenlm[14]語言模型提出了一種中文糾錯方法。

2 融合MacBERT和Kenlm的中文糾錯方法

為解決現(xiàn)有基于BERT語言模型的文本糾錯方法糾錯性能偏低的問題,本文提出了融合MacBERT和詞表+Kenlm的中文糾錯方法。模型的整體流程及示例說明如圖1所示。由圖1可知,它是一個包含多級結(jié)構(gòu)的一體化模型。根據(jù)輸入的原始序列,首先會調(diào)用輕量級的MacBERT一級糾錯模型完成錯誤探測和修正建議。然后結(jié)合一個判別模塊,當發(fā)現(xiàn)MacBERT模型的糾錯結(jié)果為空時,說明MacBERT模型沒有從原始輸入序列中探測到錯誤信息。

圖1 融合MacBERT和Kenlm的中文糾錯方法整體流程及示例說明圖

有兩種可能會導致這個結(jié)果:第一,原始輸入序列中確實沒有錯誤信息;第二,原始輸入序列中存在錯誤,但是由于MacBERT模型的糾錯性能有限,無法探測真實存在的錯誤。第一種屬于正常情況,不會影響模型糾錯性能。但第二種情況會直接對模型的糾錯性能產(chǎn)生影響。為了避免這種情況的發(fā)生,提出新增一個基于詞表+Kenlm統(tǒng)計語言模型相結(jié)合的二級糾錯模型來完成二次糾錯,它可以在一定程度上彌補MacBERT模型自身的不足。MacBERT一級糾錯模型和詞表+Kenlm二級糾錯模型的相關概述請見2.1和2.2小節(jié)。

2.1 MacBERT糾錯模型

MacBERT[13]模型是在Google開源的Chinese BERT-base模型的基礎上結(jié)合公開的大規(guī)模中文糾錯語料進行微調(diào)后得到的一個輕量級模型。根據(jù)中文糾錯任務的要求,額外追加了一個全連接層作為錯誤檢測層,整個糾錯模型是通過利用錯誤檢測層和錯誤糾正層的Loss加權得到最終Loss值。相關計算公式如下:

其中,Lossdet是錯誤檢測的損失函數(shù),Losscor是錯誤糾正的損失函數(shù),Loss是綜合損失函數(shù),ω是一個權重系數(shù)。除此之外,MacBERT采用了全詞掩蔽和N-Gram掩蔽策略來選擇候選序列進行掩蔽,從1-Gram到4-Gram字符序列的掩蔽比例分別調(diào)整為40%、30%、20%、10%。考慮到原始BERT模型使用[MASK]進行掩蔽,但它在微調(diào)階段并不會出現(xiàn)這個標識,這會造成預訓練任務與下游微調(diào)任務不一致。因此,MacBERT采用近義詞替換來完成全詞的掩蔽操作,當遇到某個詞語不存在近義詞的時候,通過隨機詞語替換策略完成掩蔽操作。MacBERT使用句子順序預測(SOP)任務替換BERT原始的下一句預測(NSP)任務,并通過切換兩個連續(xù)句子的原始順序來創(chuàng)建負樣本。MacBERT模型的示例流程如圖2所示。

圖2 微調(diào)后的MacBERT模型示例流程圖

2.2 詞表+Kenlm糾錯模型

詞表+Kenlm糾錯模型共分為兩步:第一步是錯誤檢測;第二步是錯誤糾正。錯誤檢測部分先通過中文分詞器進行分詞,若句子中含有錯別字,分詞后提取出不在常用詞典中的疑似錯詞,并聯(lián)合人工整理的混淆詞典構(gòu)建一個候選錯詞集合。在錯誤糾正部分,首先會依次遍歷候選錯詞集合,同時使用音似字典和形似字典依次替換候選錯誤集合中的候選錯詞,然后通過Kenlm統(tǒng)計語言模型依次計算替換后的句子似然概率,并把似然概率超過原句且達到最大時所對應的替換詞語作為糾正詞返回,從而完成整個錯誤檢測和錯誤糾正的流程。該方法最大優(yōu)點是可以通過擴展混淆詞典、音似字典、形似字典、常用詞典來快速提升模型的糾錯性能。

3 實驗驗證

3.1 數(shù)據(jù)集和評測指標

為了驗證方法的有效性,選取中文糾錯領域標準的公開數(shù)據(jù)集SIGHAN Bake-off 2015[15]作為實驗評測數(shù)據(jù)集,它總共包含了1100個通過領域?qū)<覙俗⑦^的錯誤-正確中文句子對以及相應的錯誤位置和錯誤字詞信息。實驗部分采用中文糾錯領域經(jīng)典的查準率P、查全率R以及F1值三個評測指標來完成模型的性能評測。需要注意的是,相關指標皆采用強匹配準則來計算,即模型糾正結(jié)果與專家給出的正確句子必須完全一致,判定為糾正成功,否則就判定為糾正失敗。三個指標可根據(jù)表1所示的混淆矩陣來計算。

表1 混淆矩陣的結(jié)構(gòu)

3.2 實驗結(jié)果

為了全方位驗證方法的性能,實驗在同一個評測數(shù)據(jù)集上選取了五個不同的先進基線模型加入到對比實驗組,相關實驗結(jié)果如表2所示。

表2 不同模型在評測數(shù)據(jù)集上的糾錯實驗結(jié)果單位:%

根據(jù)表2的糾錯實驗結(jié)果可知,從單模型的角度來看,基于BERT模型完成遷移學習后得到的MacBERT模型相對其它基線模型來說不僅速度快,而且性能更高。查準率、查全率以及F1值分別達到了77.9%、66.4%和71.7%,這充分揭示了遷移學習技術所帶來的優(yōu)勢。此外,本文所提方法在融合MacBERT+詞表+Kenlm語言模型后整體性能大大提升。尤其是查全率和F1值相對于單獨的MacBERT模型而言提升了3.6個百分點,準確率和召回率也有提升,這主要得益于同時發(fā)揮了MacBert和詞表+Kenlm語言模型的優(yōu)勢。從實驗結(jié)果來看MacBERT模型大概只能糾正85%左右的錯誤句子,而剩余15%的錯誤句子是通過詞表+Kenlm語言模型來完成糾正。上述結(jié)果可以充分說明本方法具有更優(yōu)的綜合糾錯性能。

4 結(jié)語

針對中文智能糾錯領域現(xiàn)有方法存在整體糾錯性能偏低的問題,提出了一種融合MacBERT和詞表+Kenlm的一體化中文糾錯方法。實驗結(jié)果表明,所提方法可以提升模型的整體糾錯性能,尤其是結(jié)合可擴展的詞表+Kenlm后能有效提升糾錯模型的召回率和F1值,這為解決中文糾錯難題提供了新的理論和方向。

猜你喜歡
文本語言方法
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態(tài)分析下的同聲傳譯語言壓縮
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
我有我語言
捕魚
主站蜘蛛池模板: 日韩天堂在线观看| 精品少妇三级亚洲| 欧美午夜视频在线| 免费人成在线观看视频色| 亚洲伊人久久精品影院| 无码国内精品人妻少妇蜜桃视频| 国产成年无码AⅤ片在线| 91福利免费| 欧美日韩亚洲综合在线观看| 国产真实乱了在线播放| 黄色免费在线网址| A级毛片无码久久精品免费| 国产精彩视频在线观看| 亚洲成人一区在线| 亚洲va精品中文字幕| 无码啪啪精品天堂浪潮av| 国产成人盗摄精品| 手机在线国产精品| 黄片一区二区三区| 真人高潮娇喘嗯啊在线观看 | 国产呦精品一区二区三区网站| 一级成人a毛片免费播放| 99无码中文字幕视频| av天堂最新版在线| 九九热在线视频| a级高清毛片| 国产精品视频导航| 日韩黄色精品| 国产另类视频| 国产成人精品一区二区不卡| 伊人福利视频| 九九九精品成人免费视频7| 五月天福利视频| 国产精品人成在线播放| 亚洲,国产,日韩,综合一区| 91精品免费久久久| 一本一本大道香蕉久在线播放| 四虎影视永久在线精品| 国产欧美精品专区一区二区| 99免费在线观看视频| 美女国产在线| 亚洲香蕉伊综合在人在线| 久久免费视频播放| 亚洲91精品视频| 98精品全国免费观看视频| 伦精品一区二区三区视频| 激情综合网激情综合| 久久综合一个色综合网| 无码'专区第一页| 人人爱天天做夜夜爽| 亚洲国产第一区二区香蕉| 亚洲精品视频在线观看视频| 久久久精品无码一区二区三区| 在线观看视频一区二区| 亚洲无码精品在线播放 | 亚洲人成人无码www| 77777亚洲午夜久久多人| 五月婷婷导航| 亚洲网综合| 亚洲精品视频免费看| 玖玖精品在线| www.youjizz.com久久| 久久免费精品琪琪| 亚洲视频三级| 久久亚洲黄色视频| 亚洲精品卡2卡3卡4卡5卡区| 亚洲成人高清无码| 午夜福利亚洲精品| av一区二区三区高清久久| 91口爆吞精国产对白第三集| 欧美日韩福利| 亚洲第一极品精品无码| 亚洲国产天堂久久综合226114| 国产www网站| 亚洲精品午夜无码电影网| 国产极品粉嫩小泬免费看| 波多野衣结在线精品二区| 久久9966精品国产免费| 午夜视频日本| 91精品啪在线观看国产60岁| 国产精品成人久久| 国产无码高清视频不卡|