999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

服務(wù)于拼寫檢查的偽語料生成方法實(shí)現(xiàn)*

2021-03-24 03:26:26胡睿
關(guān)鍵詞:單詞模型

胡睿

(北方工業(yè)大學(xué)信息學(xué)院,北京 100144)

0 引言

目前對(duì)于中文文本拼寫檢查的研究已經(jīng)持續(xù)了相當(dāng)一段時(shí)間。通過人工方法手動(dòng)識(shí)別并糾正出版物中所有的拼寫錯(cuò)誤,往往效果并不理想,而這項(xiàng)工作本身也十分耗費(fèi)精力[1-2]。隨著深度學(xué)習(xí)領(lǐng)域的不斷發(fā)展,越來越多的研究表明在某些事情上神經(jīng)網(wǎng)絡(luò)可以比人類做的更加出色。如何以較小代價(jià)訓(xùn)練語料庫來支撐深度學(xué)習(xí)等先進(jìn)的學(xué)習(xí)方法是急需解決的難題。

本文在前人工作的基礎(chǔ)上,提出結(jié)合詞的拼音混淆,與字的字形混淆,兩種混淆方式的偽語料生成方法。該方法可以應(yīng)用于任意句子級(jí)別的生語料庫,并快速生成大量包含帶有字和詞級(jí)別拼寫錯(cuò)誤的偽語料。

1 主要方法

1.1 生成混淆項(xiàng)

本文研究自動(dòng)構(gòu)造偽語料庫,將正常語料庫中混雜按照一定方法生成的錯(cuò)誤例子。預(yù)處理中將維基語料預(yù)處理為句子級(jí)別的語料庫[3-4]。

過程中進(jìn)行如下操作:進(jìn)行繁體中文到簡(jiǎn)體中文的轉(zhuǎn)換;規(guī)范標(biāo)點(diǎn)、數(shù)字:將數(shù)字統(tǒng)一到半角,標(biāo)點(diǎn)統(tǒng)一到全角;剔除包含日韓文字的句子,剔除外文占比過大的句子。提取語料庫中所有單詞和拼音對(duì),整理為字典。

對(duì)于給定的任意兩個(gè)拼音,計(jì)算二者的Levenshtein編輯距離,該距離越小則表示兩個(gè)單詞的相似度越高。對(duì)于給定拼音,遍歷所有不同的拼音組合,兩兩計(jì)算編輯距離,隨后將各編輯距離除以其中的最大值并用1 減去結(jié)果,將結(jié)果映射到區(qū)間[0,1]上,該值定義為拼音相似度。相似度越大,與原拼音越相似,值越接近1;相似度越小,與原拼音越不相似,值越接近0。隨后按照相似度隨機(jī)抽取備選拼音,該過程中相似度越大,被選取的概率越大。根據(jù)備選拼音找出所有可能的備選詞,按均勻分布隨機(jī)選一個(gè)作為混淆詞。在語料足夠大的情況下,可以平滑隨機(jī)抽取混淆詞帶來的負(fù)面影響(例如拼音相似但字形相差甚遠(yuǎn)),如果生語料不夠大,可以考慮在備選詞中計(jì)算與源詞的字形相似度,并以該相似度作為基準(zhǔn)隨機(jī)選取一個(gè)作為混淆詞。

本文使用CHISE提供的基礎(chǔ)字符集IDS,在計(jì)算距離之前,首先將IDS從序列轉(zhuǎn)換為樹。除了字符之外,每個(gè)節(jié)點(diǎn)還帶有一個(gè)層級(jí)數(shù)字,該數(shù)字表征其所屬節(jié)點(diǎn)對(duì)于字形的貢獻(xiàn)級(jí)別。例如數(shù)字1表示該節(jié)點(diǎn)的內(nèi)容直接決定字形,而數(shù)字2 表示該節(jié)點(diǎn)需要先構(gòu)成一個(gè)字,以該字作為部分構(gòu)成其他字,以此類推??紤]原子字形,即字符本身不可拆分(存在于葉子節(jié)點(diǎn)的字符),在解析成樹時(shí)其單獨(dú)地位于根節(jié)點(diǎn),但并不屬于任何表意文字描述符,沒有字形結(jié)構(gòu),此時(shí)層級(jí)數(shù)字定義為0。

給定任意一個(gè)字符,遍歷其他所有已知IDS的字符,兩兩計(jì)算樹編輯距離,隨后將各距離除以其中最大值,并以1減去結(jié)果,得到結(jié)果在區(qū)間[0,1],定義該值為字形相似度,字形相似度越接近1 表明該字與原字越像,相似度越接近0則表示該字越不像原字。按照相似度篩選后(剔除值小于給定閾值的結(jié)果)按照概率隨機(jī)選取一個(gè)字作為混淆字,過程中相似度越大,被選中的概率就越大。

1.2 偽語料庫生成

由于目前尚未有針對(duì)中文母語者錄入文字時(shí)產(chǎn)生的錯(cuò)誤的相關(guān)統(tǒng)計(jì)研究,因此下面所使用的參數(shù)全部是經(jīng)驗(yàn)參數(shù),需要根據(jù)模型的訓(xùn)練情況進(jìn)行調(diào)整。首先定義三個(gè)比率:拼音變異率、字形變異率、字形相似度閾值。對(duì)于語料庫中的句子處理如下:

(1)從語料庫中取出一個(gè)尚未被處理過的句子。

(2)分詞,遍歷每一個(gè)單詞,以拼音變異率為概率,根據(jù)拼音替換原單詞為選出的混淆詞,標(biāo)記未替換的單詞為O,替換的單詞為W。

(3)按字遍歷步驟2)的結(jié)果,每個(gè)字以字形變異率為概率,以字形相似度閾值為選擇混淆字時(shí)的相似度閾值,根據(jù)對(duì)應(yīng)的IDS替換原字為選出的混淆字,標(biāo)記未替換字為原有詞的標(biāo)簽,替換的字為W。

(4)將步驟3)的結(jié)果轉(zhuǎn)換為BIO標(biāo)記,即連續(xù)的W將第一個(gè)W 替換為B,隨后的W 為I,單獨(dú)的W 只替換為B。標(biāo)記O 不變。

(5)回到步驟(1),直到所有句子被處理完。

處理結(jié)束后得到BIO標(biāo)注的拼寫錯(cuò)誤對(duì)照語料,其中由標(biāo)簽B和I標(biāo)注拼寫有誤的部分。

1.3 偽語料庫效果展示

在兩個(gè)變異率都為0.1、字形相似度閾值為0.45的條件下,有如下句子:

(1)所以武林盟主是典范楷模,溈天下江湖人索厄信服。

所以武林盟主是典范楷模,為天下江湖人所信服。

(2)男女刵刖均外西裝夾呈。

男女制服均為西裝夾克。

(3)即是奡偶5天工作,珻天最高巿時(shí)7小時(shí)。

即是每周5天工作,每天最高工時(shí)7小時(shí)。

(4)世民大悅,賜以小宴,引為右一府童軍。

世民大悅,賜以曲宴,引為右一府統(tǒng)軍。

上述各例從生成的語料庫中隨機(jī)選出,第一行為生成的偽語料,其中加粗字為混淆項(xiàng),第二行是原始句子。通過上下參照可以看出隨機(jī)產(chǎn)生的句子并不完美,但可以輕易的產(chǎn)生大量語料。

2 訓(xùn)練模型

2.1 模型概覽

本文使用如下圖1所示的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖,以前述隨機(jī)語料為例:

字符首先轉(zhuǎn)換為詞向量,經(jīng)由一層雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)之后傳入循環(huán)注意力層(Recurrent Multi-Head Attention),原始句子在輸入神經(jīng)網(wǎng)絡(luò)前需要先轉(zhuǎn)換為數(shù)字形式的表示。

該詞向量在百度百科、中文維基百科、人民日?qǐng)?bào)、搜狗新聞、知乎問答等大量語料上,在字和詞級(jí)別上使用負(fù)采樣Skip-gram(SGNS)進(jìn)行訓(xùn)練,每一個(gè)字向量或詞向量的維度是300維。結(jié)果最終經(jīng)過一個(gè)前向傳播的多層感知機(jī)(MLP)輸出為標(biāo)簽。

2.2 模型效果展示

在現(xiàn)實(shí)語料上表現(xiàn)如下(斜體加粗為模型標(biāo)注出來的拼寫錯(cuò)誤):

(1)即是奡偶5天工作,珻天最高巿時(shí)7小時(shí)。

圖1 模型概覽Fig.1 Model Overview

(2)所以武林盟主是典范楷模,溈天下江湖人索厄信服。

(3)這是罕有中文拼寫錯(cuò)誤的一段文字。這句話中有中文措別字一個(gè)。

(4)次の曲が始まるのです

(5)其實(shí)答案很簡(jiǎn)單啊,因?yàn)槲腋阕隽送瑯拥氖虑椤?/p>

(6)修橋補(bǔ)路雙瞎眼,殺人放火子孫多。

(7)天匠染青紅,花腰呈裊娜。

3 結(jié)語

本文傾向于將模型解釋為對(duì)語言模型的學(xué)習(xí)。通過對(duì)正常句子的加工,標(biāo)注出其中故意引入錯(cuò)誤的位置,在學(xué)習(xí)的過程中模型能夠?qū)W習(xí)到哪些情況下句子的某個(gè)部分很奇怪,并對(duì)正常的句子建立一個(gè)模式。而諸如楷模、江湖人等詞在維基語料中出現(xiàn)的比例不大,因而很容易被誤判為錯(cuò)誤句,而當(dāng)句式符合訓(xùn)練語料的句式時(shí)(例如c句),模型能夠較好的判定拼音混淆(含有-罕有)和字形混淆(錯(cuò)別字-措別字)。而一旦句式脫離了模型熟悉的陳述句(例如人物對(duì)話、俗語或古詩文),則誤判較多。

猜你喜歡
單詞模型
What’s This?
Exercise 1
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個(gè)人都不好了
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 中文字幕在线永久在线视频2020| 国产精品13页| 欧美自慰一级看片免费| 日本黄色a视频| 日韩123欧美字幕| 亚洲国产日韩视频观看| 亚洲乱强伦| 国产性爱网站| 国产精品视频导航| av性天堂网| 小13箩利洗澡无码视频免费网站| 亚洲国产精品日韩av专区| 免费一级毛片在线观看| 538国产在线| 国产在线一区二区视频| 国产真实乱了在线播放| 偷拍久久网| 国产亚洲欧美日韩在线观看一区二区| 欧美国产精品不卡在线观看| 亚洲AⅤ综合在线欧美一区| 日韩无码真实干出血视频| 激情综合激情| 欧美视频在线播放观看免费福利资源| 国产欧美日本在线观看| 毛片视频网址| 亚洲一区二区约美女探花 | 亚洲伊人天堂| 99国产精品国产| 国产成人综合在线观看| 国产主播喷水| 91啪在线| 亚洲伊人天堂| 色综合综合网| 国产欧美在线| 精品一区二区三区波多野结衣| 亚洲黄色视频在线观看一区| 九九视频免费在线观看| 亚洲看片网| www.亚洲色图.com| 国产成人艳妇AA视频在线| 精品久久人人爽人人玩人人妻| 久久精品国产91久久综合麻豆自制| 日韩免费无码人妻系列| 五月婷婷欧美| 成人精品午夜福利在线播放| 国产精品亚欧美一区二区| 欧美一区福利| 色综合国产| 国产丝袜无码精品| 黄片在线永久| 精品国产www| 丁香五月激情图片| 伊人色综合久久天天| 久久人与动人物A级毛片| 精品国产免费第一区二区三区日韩| 亚洲国产成人久久77| 国产亚洲精久久久久久久91| 韩国福利一区| 美女被躁出白浆视频播放| 亚洲视频一区在线| 国产迷奸在线看| 亚洲无码视频图片| 国产精品永久久久久| 亚洲成a人在线观看| 日韩欧美国产中文| 色综合五月| 久久青青草原亚洲av无码| 中文字幕va| 亚洲AV无码一二区三区在线播放| 五月天久久婷婷| 99精品福利视频| 高潮毛片无遮挡高清视频播放| 亚洲无码在线午夜电影| 亚洲永久精品ww47国产| 天堂va亚洲va欧美va国产| 人妻丰满熟妇αv无码| 亚洲人视频在线观看| 91视频日本| 国产成人精品亚洲77美色| 免费jizz在线播放| 囯产av无码片毛片一级| 六月婷婷激情综合|