999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文文本拼寫(xiě)糾錯(cuò)研究綜述

2025-06-19 00:00:00沈友志沈友志程春雷程春雷句澤東龔著凡
現(xiàn)代信息科技 2025年8期
關(guān)鍵詞:文本語(yǔ)言模型

中圖分類(lèi)號(hào):TP391.1;TP301.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)08-0138-08

Abstract:Chinese Spelling Correction(CSC)isacrucial foundational task inNaturalLanguage Processing (NLP),and providessupport forthedownstreamtasks andresearch.Theresearch in the fieldofCSCtaskscontinues to develop,mainly divided into eror corrction methods based onN-Gram language models,Deep Leaming,andLarge Language Models (LLMs). Firstly,techaracteristicsoftheN-GamlnguagemodelanditsapplicationinCSCareanalyzed,rvealingitsadvatagesin capturing contextual information.Secondly,methodsbasedonDepLearning improve theaccuracyof error coectionthrough deep neural networksand are widelyused in Chinese text procesing.Atthesame time,theriseofLLMs provides new ideas for speling correction,demonstrating their enormous potentialindealing withcomplex languagephenomena.Thisreviewprovides adetailedoverviewofthecurrentresearchstatusintheCSCfeld,providingareferenceforscholars engaged inrelatedresearch.

Keywords: Chinese text; spelling correction; N-Gram language model; Deep Learning; Large Language Model

0 引言

中文文本拼寫(xiě)錯(cuò)誤(CSC)是自然語(yǔ)言處理(NLP)領(lǐng)域的一個(gè)重要的基礎(chǔ)研究方向,其目的是檢測(cè)和糾正文本中出現(xiàn)的拼寫(xiě)錯(cuò)誤,為后續(xù)的文本分析、信息檢索、文本生成等任務(wù)提供了干凈、準(zhǔn)確的輸入數(shù)據(jù)。另外拼寫(xiě)糾錯(cuò)與其他NLP任務(wù)緊密相關(guān)。例如,在信息抽取任務(wù)中,準(zhǔn)確的文本能夠提高信息提取的準(zhǔn)確性;在機(jī)器翻譯中,拼寫(xiě)錯(cuò)誤可能導(dǎo)致翻譯結(jié)果不準(zhǔn)確,因此糾錯(cuò)可以提高翻譯質(zhì)量。此外人們?cè)谌粘T诰€(xiàn)交流、寫(xiě)作和翻譯中,難免會(huì)出現(xiàn)拼寫(xiě)錯(cuò)誤問(wèn)題,這些錯(cuò)誤可能會(huì)影響到文本的準(zhǔn)確性和可讀性。它可以幫助用戶(hù)在撰寫(xiě)文檔時(shí)提高寫(xiě)作質(zhì)量,改善用戶(hù)體驗(yàn)。綜上所述,中文文本拼寫(xiě)糾錯(cuò)在自然語(yǔ)言處理中不僅是一個(gè)關(guān)鍵的基礎(chǔ)任務(wù),也為各種應(yīng)用和研究提供了支持,促進(jìn)了NLP技術(shù)的全面發(fā)展。

1基于N-Gram語(yǔ)言模型的糾錯(cuò)方法

早期無(wú)監(jiān)督時(shí)代拼寫(xiě)糾錯(cuò)方法主要利用無(wú)監(jiān)督管道系統(tǒng)即在沒(méi)有人工標(biāo)注或監(jiān)督信號(hào)的情況下,通過(guò)自動(dòng)化處理流程來(lái)完成特定任務(wù)的系統(tǒng)。由于N-Gram語(yǔ)言模型在上下文建模、處理語(yǔ)言特性、計(jì)算效率以及實(shí)現(xiàn)和可解釋性等方面的優(yōu)勢(shì),早期的拼寫(xiě)糾錯(cuò)方法都采用了N-Gram的語(yǔ)言模型,并結(jié)合了動(dòng)態(tài)規(guī)劃、加權(quán)平滑、發(fā)音和字形相似性等多種技術(shù)手段提升糾錯(cuò)精度。

1.1N-Gram 語(yǔ)言模型

N-Gram語(yǔ)言模型是一種基于概率的語(yǔ)言模型,用于預(yù)測(cè)一串詞序列中給定上下文后出現(xiàn)某個(gè)詞的概率。N-Gram模型通過(guò)統(tǒng)計(jì)不同長(zhǎng)度的詞組(即 N 個(gè)詞組成的片段)在語(yǔ)料庫(kù)中的出現(xiàn)頻率,來(lái)計(jì)算詞與詞之間的條件概率。N-Gram模型的核心思想是使用前面的 N - 1 個(gè)詞預(yù)測(cè)第 N 個(gè)詞。

在這個(gè)模型中,假設(shè)一個(gè)句子中的第i個(gè)詞的出現(xiàn)只依賴(lài)于前面的 N - 1 個(gè)詞,而與其他詞無(wú)關(guān),即滿(mǎn)足馬爾可夫假設(shè)。 N 的值決定了模型的復(fù)雜度和上下文長(zhǎng)度。常用的N-Gram模型包括:

1)Unigram(一元模型)假設(shè)每個(gè)詞的出現(xiàn)獨(dú)立 于前面的詞,只考慮詞本身的頻率。 2)Bigram(二元模型)只考慮前一個(gè)詞。 3)Trigram(三元模型)考慮前兩個(gè)詞。

例如,N-Gram語(yǔ)言模型預(yù)測(cè)第 N 個(gè)詞只依賴(lài)于第 N - 2 和第 N - 1 個(gè)詞。

第 i 個(gè)詞只依賴(lài)于第 i - 2 和第i-1個(gè)詞。對(duì)于給定的詞序列 ,N-Gram模型計(jì)算該序列的概率如下:

其中, 表示在前面 N - 1 個(gè)詞出現(xiàn)的情況下,第 i 個(gè)詞出現(xiàn)的條件概率。

條件概率通過(guò)詞頻的相對(duì)頻率來(lái)估計(jì),即:

其中, 表示該N-Gram在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù),而count 表示前面 N - 1 個(gè)詞組成的詞組出現(xiàn)的次數(shù)。

在實(shí)際應(yīng)用中,由于數(shù)據(jù)稀疏性,很多N-Gram組合可能在語(yǔ)料庫(kù)中沒(méi)有出現(xiàn)。為了解決這種“零概率”問(wèn)題,需要使用平滑技術(shù),如拉普拉斯平滑、加權(quán)平滑、Kneser-Ney平滑等。這些方法通過(guò)將部分概率質(zhì)量從高頻事件轉(zhuǎn)移到低頻甚至未出現(xiàn)的事件,來(lái)提高模型的泛化能力。

1.2N-Gram語(yǔ)言模型在中文拼寫(xiě)糾錯(cuò)中的應(yīng)用

Xie等人[2]將Bigram和Trigram模型結(jié)合并使用動(dòng)態(tài)規(guī)劃和加權(quán)平滑解決了訓(xùn)練數(shù)據(jù)稀疏性問(wèn)題并提高了糾錯(cuò)能力,但其召回率(Recall)較低,且處理長(zhǎng)句子時(shí)復(fù)雜度較高。Huang等人[3]使用了Trigram語(yǔ)言模型進(jìn)一步提高了其糾錯(cuò)能力,但其主要針對(duì)字符級(jí)別的錯(cuò)誤檢測(cè)和糾正,忽略了單詞級(jí)別的錯(cuò)誤。Yu等人[4使用字符級(jí)N-Gram語(yǔ)言模型用于檢測(cè)潛在的拼寫(xiě)錯(cuò)誤的字符,并根據(jù)發(fā)音和形狀相似性生成候選集,再根據(jù)詞字典過(guò)濾掉不能形成合法單詞的候選項(xiàng),最后選擇最高概率的候選字符作為糾錯(cuò)的結(jié)果。Yeh等人[5]使用了N-Gram排名倒排索引列表用于映射潛在的拼寫(xiě)錯(cuò)誤字符到可能的對(duì)應(yīng)字符,并結(jié)合發(fā)音和形狀字典用于生成候選集,并用E-HowNet傳統(tǒng)中文詞匯的知識(shí)表提高了糾錯(cuò)效果,但其訓(xùn)練和測(cè)試階段的復(fù)雜性較高。Yu等人結(jié)合了多種統(tǒng)計(jì)方法(N-Gram模型、機(jī)器學(xué)習(xí)模型、圖模型)以及使用了多個(gè)語(yǔ)料庫(kù)的資源,增強(qiáng)了模型的效果并提高了魯棒性和準(zhǔn)確性,但其融合多種方法導(dǎo)致其實(shí)現(xiàn)和維護(hù)難度增加。

綜上所述,N-Gram模型計(jì)算效率高、對(duì)小數(shù)據(jù)集友好且解讀性好,但其長(zhǎng)距離依賴(lài)有限,只能捕捉固定窗口內(nèi)的依賴(lài)關(guān)系,處理較長(zhǎng)的句子時(shí)效果不佳,容易忽視跨N-Gram邊界的詞匯關(guān)系。而且稀疏性問(wèn)題嚴(yán)重,當(dāng) N 值較大時(shí),N-Gram模型會(huì)變得稀疏,導(dǎo)致無(wú)法捕捉到足夠的語(yǔ)言現(xiàn)象,影響糾錯(cuò)的準(zhǔn)確性。最后N-Gram模型在生成候選詞方面不如深度學(xué)習(xí)模型,容易導(dǎo)致糾錯(cuò)的多樣性和自然性不足。

2基于深度學(xué)習(xí)的糾錯(cuò)方法

中文拼寫(xiě)糾錯(cuò)需要考慮上下文語(yǔ)境,以判斷某字是否正確。傳統(tǒng)的N-Gram模型只能捕捉有限范圍的上下文信息,而深度學(xué)習(xí)網(wǎng)絡(luò)(如Transformer[)可以利用自注意力機(jī)制在全局范圍內(nèi)建模句子的語(yǔ)義關(guān)系,捕捉到長(zhǎng)距離的詞匯關(guān)聯(lián)。而且拼寫(xiě)錯(cuò)誤在不同的上下文中可能代表不同的糾正方式,深度學(xué)習(xí)模型通過(guò)上下文對(duì)字詞進(jìn)行編碼,可以根據(jù)具體句子的語(yǔ)義來(lái)調(diào)整糾錯(cuò)建議。這對(duì)于中文這樣有大量同音字和形近字的語(yǔ)言尤其重要。另外深度學(xué)習(xí)模型既可以通過(guò)生成式方法給出候選糾錯(cuò)字詞,也可以通過(guò)判別式方法判斷某字是否錯(cuò)誤。這種靈活性使得深度學(xué)習(xí)網(wǎng)絡(luò)可以更全面地解決拼寫(xiě)糾錯(cuò)任務(wù)。因此,深度學(xué)習(xí)網(wǎng)絡(luò)因其強(qiáng)大的特征學(xué)習(xí)和長(zhǎng)距離依賴(lài)建模能力,非常適合中文拼寫(xiě)糾錯(cuò)任務(wù)。在當(dāng)前實(shí)踐中,BERT等預(yù)訓(xùn)練語(yǔ)言模型以及基于Transformer的序列到序列網(wǎng)絡(luò)在中文拼寫(xiě)糾錯(cuò)任務(wù)中已經(jīng)展現(xiàn)出優(yōu)異的表現(xiàn)。

2.1 深度學(xué)習(xí)網(wǎng)絡(luò)

深度學(xué)習(xí)網(wǎng)絡(luò)[8是一種通過(guò)多個(gè)神經(jīng)網(wǎng)絡(luò)層級(jí)結(jié)構(gòu)來(lái)模擬人類(lèi)大腦的學(xué)習(xí)模式的算法模型。通過(guò)層層的神經(jīng)元結(jié)構(gòu),深度學(xué)習(xí)網(wǎng)絡(luò)能夠自動(dòng)提取數(shù)據(jù)中的多級(jí)特征,實(shí)現(xiàn)復(fù)雜模式的識(shí)別和預(yù)測(cè)。深度學(xué)習(xí)網(wǎng)絡(luò)中的常見(jiàn)模型有前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetwork,F(xiàn)NN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)和

Transformer等。深度學(xué)習(xí)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖1所示,包括輸入層、隱藏層和輸出層。輸入層用于接收輸入數(shù)據(jù),如文本、圖像等。隱藏層包含多個(gè)神經(jīng)元層,負(fù)責(zé)數(shù)據(jù)特征的提取和抽象。深度網(wǎng)絡(luò)的“深度”通常指隱藏層的數(shù)量。輸出層產(chǎn)生模型的最終預(yù)測(cè)結(jié)果。

圖1深度學(xué)習(xí)網(wǎng)絡(luò)的基本結(jié)構(gòu)

深度學(xué)習(xí)網(wǎng)絡(luò)通過(guò)大量的數(shù)據(jù)訓(xùn)練,使得網(wǎng)絡(luò)層的權(quán)重逐漸調(diào)整,以最小化預(yù)測(cè)結(jié)果與真實(shí)值之間的誤差。這個(gè)過(guò)程通過(guò)反向傳播和梯度下降來(lái)實(shí)現(xiàn)。

2.2深度學(xué)習(xí)在中文拼寫(xiě)糾錯(cuò)中的應(yīng)用

2.2.1 模型架構(gòu)創(chuàng)新

隨著Wang等人提出自動(dòng)生成偽標(biāo)記數(shù)據(jù)的技術(shù)解決CSC數(shù)據(jù)稀缺的問(wèn)題,標(biāo)志著CSC研究范式向以深度神經(jīng)網(wǎng)絡(luò)為主導(dǎo)的監(jiān)督學(xué)習(xí)時(shí)代的轉(zhuǎn)變。這一時(shí)期,研究人員探索了各種途徑來(lái)提高CSC性能。Zhang等人[1o]提出了新的神經(jīng)網(wǎng)絡(luò)Soft-MaskedBERT架構(gòu),如圖2所示,通過(guò)結(jié)合錯(cuò)誤檢測(cè)網(wǎng)絡(luò)和基于BERT的錯(cuò)誤糾正網(wǎng)絡(luò)使其能夠更有效地利用全局上下文信息,顯著提高了拼寫(xiě)錯(cuò)誤糾正的性能。其中錯(cuò)誤檢測(cè)網(wǎng)絡(luò)使用雙向GRU(Bi-GRU)網(wǎng)絡(luò)來(lái)預(yù)測(cè)每個(gè)字符是否為錯(cuò)誤。對(duì)于每個(gè)字符,定義了一個(gè)條件概率 表示其為錯(cuò)誤的概率。錯(cuò)誤糾正網(wǎng)絡(luò)使用BERT模型作為錯(cuò)誤糾正網(wǎng)絡(luò),其最后一層包含一個(gè)Softmax函數(shù),用于輸出每個(gè)字符的糾正概率。

圖2Soft-Masked BERT架構(gòu)

Zhu等人[提出了一種新的多任務(wù)檢測(cè)-校正框架MDCSpell,如圖3所示,并通過(guò)利用拼寫(xiě)錯(cuò)誤字符的字形和發(fā)音特征同時(shí)最小化其對(duì)上下文的誤導(dǎo)性影響從而在中文拼寫(xiě)糾錯(cuò)任務(wù)中表現(xiàn)出色。其中檢測(cè)網(wǎng)絡(luò)使用基于Transformer的結(jié)構(gòu)作為檢測(cè)網(wǎng)絡(luò),確定每個(gè)字符的錯(cuò)誤概率。輸入文本的嵌入序列經(jīng)過(guò)多層Transformer編碼后,得到檢測(cè)網(wǎng)絡(luò)的輸出編碼向量,表示每個(gè)位置字符的正確性概率。糾錯(cuò)網(wǎng)絡(luò)使用BERT-base作為糾錯(cuò)網(wǎng)絡(luò),找到替換錯(cuò)誤字符的正確字符。BERT-base由12層相同的Transformer塊組成,最后一層的隱藏狀態(tài)用于糾錯(cuò)任務(wù)。

圖3MDCSpelI架構(gòu)

2.2.2 訓(xùn)練策略改進(jìn)創(chuàng)新

Liu等人[12]提出了一種新的訓(xùn)練策略CRASpell(Contextual Typo Robust Approach for ChineseSpellingCorrection),通過(guò)引入噪聲建模模塊和復(fù)制機(jī)制,有效解決了中文拼寫(xiě)糾錯(cuò)中的上下文錯(cuò)別字干擾和過(guò)度糾正問(wèn)題。噪聲建模模塊為了使模型對(duì)上下文噪聲魯棒,該方法首先生成每個(gè)訓(xùn)練樣本的噪聲上下文。然后,強(qiáng)制糾錯(cuò)模型基于原始上下文和噪聲上下文生成相似的輸出。噪聲建模模塊通過(guò)替換原始訓(xùn)練樣本中的字符來(lái)生成噪聲上下文,具體替換策略包括替換位置(從距離最近錯(cuò)別字一定范圍內(nèi)的位置中選擇位置進(jìn)行替換)和替換字符(根據(jù)混淆集隨機(jī)替換為音似字符、形似字符或詞匯表中的任意字符)。而糾錯(cuò)模塊輸入為嵌入序列,經(jīng)過(guò)Transformer編碼器生成隱藏表示矩陣。最終輸出分布是生成分布和復(fù)制分布的加權(quán)和,算式如下:

其中, 表示生成分布, 表示復(fù)制分布, ω 表示復(fù)制概率。生成分布通過(guò)一層前饋網(wǎng)絡(luò)計(jì)算,復(fù)制分布是一個(gè)獨(dú)熱向量(One-hotVector),復(fù)制概率通過(guò)兩層前饋網(wǎng)絡(luò)計(jì)算。

Wu等人[13]提出了一種簡(jiǎn)單但有效的方法來(lái)解決BERT在CSC任務(wù)中過(guò)度擬合錯(cuò)誤模型的問(wèn)題。該CSC任務(wù)需要語(yǔ)言模型和錯(cuò)誤模型協(xié)同工作來(lái)做出決策。語(yǔ)言模型決定給定上下文中字符的分布,而錯(cuò)誤模型表示給定上下文及其正確形式的潛在拼寫(xiě)錯(cuò)誤的分布。算式如下:

其中, x 表示除位置 外的所有字符。為了提高語(yǔ)言模型的性能而不影響錯(cuò)誤模型,該論文提出在微調(diào)過(guò)程中隨機(jī)掩蓋輸入序列中 20 % 的非錯(cuò)誤標(biāo)記。這樣模型被迫在給定上下文的情況下預(yù)測(cè)被掩蓋的標(biāo)記,從而學(xué)習(xí)到更好的語(yǔ)言模型。這種方法不需要對(duì)人類(lèi)錯(cuò)誤的任何假設(shè),因此能夠從真實(shí)的人類(lèi)數(shù)據(jù)中學(xué)習(xí)到完全無(wú)偏的錯(cuò)誤模型。另外還提出了一種利用單語(yǔ)數(shù)據(jù)與并行數(shù)據(jù)進(jìn)行模型訓(xùn)練的方法,以實(shí)現(xiàn)在新領(lǐng)域的領(lǐng)域遷移。Liu等人[4]提出了重述語(yǔ)言模型(ReLM)來(lái)解決中文拼寫(xiě)糾錯(cuò)問(wèn)題。傳統(tǒng)的序列標(biāo)注方法將CSC視為字符到字符的標(biāo)注任務(wù),模型被訓(xùn)練來(lái)將一個(gè)字符映射到另一個(gè)字符。這種方法會(huì)導(dǎo)致模型過(guò)度依賴(lài)訓(xùn)練數(shù)據(jù)中的錯(cuò)誤模式,忽略了整個(gè)句子的語(yǔ)義。然而重述語(yǔ)言模型(ReLM)為了克服序列標(biāo)注的缺點(diǎn),提出用重述作為CSC的主要訓(xùn)練目標(biāo)。具體來(lái)說(shuō),源句子首先被編碼到語(yǔ)義空間,然后基于給定的掩碼槽進(jìn)行重述以生成正確的句子。

ReLM基于BERT模型,通過(guò)填充預(yù)設(shè)的掩碼槽來(lái)實(shí)現(xiàn)重述。ReLM是一個(gè)非自回歸的重述模型,使用BERT架構(gòu)。輸入句子和目標(biāo)字符被連接起來(lái),模型被訓(xùn)練來(lái)逐個(gè)生成目標(biāo)字符。算式如下:

其中, 表示用于 的掩碼字符。ReLM自然地適用于多任務(wù)學(xué)習(xí),所有任務(wù)都統(tǒng)一為掩碼語(yǔ)言建模格式,增強(qiáng)了CSC到各種任務(wù)的可遷移性。

2.2.3 多模態(tài)與特征增強(qiáng)創(chuàng)新

此外,還可以將發(fā)音或字形特征融入模型增強(qiáng)糾錯(cuò)效果,如Cheng等人[15]提出了一種新的拼寫(xiě)糾錯(cuò)方法SpellGCN,通過(guò)圖卷積網(wǎng)絡(luò)(GraphConvolutionalNetwork,GCN)將語(yǔ)音和視覺(jué)相似性知識(shí)融入語(yǔ)言模型中。首先,從開(kāi)源的混淆集中構(gòu)建兩個(gè)相似性圖,分別對(duì)應(yīng)發(fā)音相似性和形狀相似性。每個(gè)相似性圖是一個(gè)二進(jìn)制鄰接矩陣,表示混淆集中的字符對(duì)是否存在。SpellGCN通過(guò)圖卷積操作吸收?qǐng)D中相鄰字符的信息。每層采用輕量級(jí)的GCN卷積層,算式如下:

其中, 表示鄰接矩陣 A 的歸一化版本, 表示可訓(xùn)練的權(quán)重矩陣。

為了結(jié)合發(fā)音和形狀相似性圖,采用了注意力機(jī)制。對(duì)于每個(gè)字符,表示組合操作的算式如下:

其中, 表示圖 k 的卷積表示的第 i 行, 表示權(quán)重,計(jì)算式為:

β 表示一個(gè)超參數(shù),控制注意力權(quán)重的平滑度。

等人[提出了REALISE中文拼寫(xiě)檢查器,通過(guò)利用漢字的多模態(tài)信息(語(yǔ)義、發(fā)音和圖形信息)來(lái)檢測(cè)和糾正拼寫(xiě)錯(cuò)誤。其實(shí)驗(yàn)結(jié)果表明,REALISE模型在SIGHAN基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于現(xiàn)有的最先進(jìn)模型,驗(yàn)證了多模態(tài)信息在中文拼寫(xiě)檢查任務(wù)中的有效性。該REALISE模型包含了語(yǔ)義編碼器、語(yǔ)音編碼器和圖形編碼器。其中語(yǔ)義編碼器采用BERT作為語(yǔ)義編碼器的骨干,捕捉文本信息。語(yǔ)音編碼器使用漢語(yǔ)拼音作為語(yǔ)音特征,設(shè)計(jì)了一個(gè)分層編碼器。拼音由聲母、韻母和聲調(diào)組成,分別用字母和數(shù)字表示。圖形編碼器應(yīng)用ResNet作為圖形編碼器,提取字符圖像的視覺(jué)信息。字符圖像從預(yù)設(shè)的字體文件中讀取,使用三種字體(黑體、小篆)來(lái)捕捉字符的圖形關(guān)系。最終輸出為一個(gè)向量,長(zhǎng)度等于語(yǔ)義編碼器的隱藏大小

Li等人[17]提出了SCOPE(Spelling Check byPronunciationPrediction),SCOPE基于共享編碼器和兩個(gè)并行解碼器,一個(gè)用于主要的CSC任務(wù),另一個(gè)用于細(xì)粒度的輔助CPP(CharacterPronunciationPrediction)任務(wù)。輸入句子經(jīng)過(guò)編碼器處理后,生成語(yǔ)義、語(yǔ)音和形態(tài)特征。其次兩個(gè)解碼器分別生成目標(biāo)正確字符和預(yù)測(cè)每個(gè)目標(biāo)字符的聲母、韻母和聲調(diào)。Liang等人[18]提出了DORM(DisentangledPhoneticRepresentationModel)糾錯(cuò)模型,其通過(guò)分離文本和拼音特征,并引入拼音到字符的預(yù)測(cè)目標(biāo)和自我蒸餾模塊。其中包含拼音感知輸入序列。首先,將拼音序列附加到原始文本輸入,構(gòu)建一個(gè)拼音感知的輸入序列。拼音序列由聲母和韻母組成,忽略聲調(diào)信息。Wu等人[提出了一種通過(guò)隨機(jī)遮蔽非錯(cuò)誤詞元來(lái)增強(qiáng)語(yǔ)言模型的方法。即在微調(diào)過(guò)程中,隨機(jī)遮蔽輸入序列中 20 % 的非錯(cuò)誤詞元,迫使模型在沒(méi)有這些詞元的情況下預(yù)測(cè)目標(biāo)詞元。這種方法不同于BERT預(yù)訓(xùn)練時(shí)的 1 5 % 詞元遮蔽,旨在增強(qiáng)語(yǔ)言模型的學(xué)習(xí)而不影響錯(cuò)誤模型。該方法有效地解決了BERT在CSC任務(wù)中過(guò)度擬合錯(cuò)誤模型的問(wèn)題以及LEMON基準(zhǔn)的引入為CSC模型的泛化能力評(píng)估提供了新的標(biāo)準(zhǔn)。

綜上所述,研究者通過(guò)創(chuàng)新模型架構(gòu)、改進(jìn)訓(xùn)練策略及融合多模態(tài)特征,顯著提升了拼寫(xiě)糾錯(cuò)的性能?;谏疃葘W(xué)習(xí)的中文拼寫(xiě)糾錯(cuò)方法具備更高的針對(duì)性和計(jì)算效率,尤其適合處理中文特有的拼音、字形等錯(cuò)誤類(lèi)型,且對(duì)數(shù)據(jù)需求較低,適用性強(qiáng)。但其泛化能力和靈活性較弱,難以應(yīng)對(duì)復(fù)雜上下文和多種類(lèi)型的錯(cuò)誤。相比之下,大語(yǔ)言模型雖然計(jì)算成本更高,但具備強(qiáng)大的語(yǔ)言理解和遷移能力,能夠在多樣化場(chǎng)景中處理更復(fù)雜的語(yǔ)言錯(cuò)誤。

3基于大語(yǔ)言模型的糾錯(cuò)方法

3.1 大語(yǔ)言模型

大語(yǔ)言 模型(Large Language Model,LLM)[20]是一種由包含數(shù)百億以上參數(shù)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語(yǔ)言模型。其訓(xùn)練通?;邶嫶蟮奈谋緮?shù)據(jù)集進(jìn)行,這些數(shù)據(jù)集包含了廣泛的語(yǔ)言現(xiàn)象、語(yǔ)法規(guī)則和詞匯用法。從而使模型能夠?qū)W習(xí)到語(yǔ)言的復(fù)雜性和多樣性,從而在處理文本糾錯(cuò)任務(wù)時(shí)能夠識(shí)別并糾正各種語(yǔ)言錯(cuò)誤。其次大語(yǔ)言模型具有強(qiáng)大的上下文理解能力,能夠根據(jù)句子的前后文來(lái)推斷詞語(yǔ)的正確用法。這種能力使得模型在糾正文本錯(cuò)誤時(shí),能夠考慮到整個(gè)句子的語(yǔ)義和語(yǔ)法結(jié)構(gòu),而不僅僅是單個(gè)詞語(yǔ)的替換。而且大語(yǔ)言模型具有強(qiáng)大的文本生成能力,能夠生成流暢、連貫的文本。在文本糾錯(cuò)任務(wù)中,這種生成能力使得模型能夠替換掉錯(cuò)誤的詞語(yǔ)或句子,同時(shí)保持文本的連貫性和可讀性。其次通過(guò)增加大模型參數(shù)規(guī)模或數(shù)據(jù)規(guī)模會(huì)帶來(lái)下游任務(wù)的模型性能提升,這種現(xiàn)象通常被稱(chēng)為擴(kuò)展定律(ScalingLaw)[21]如圖4所示。而當(dāng)模型參數(shù)規(guī)模達(dá)到千億量級(jí)(例如175B參數(shù)的GPT-3[22]和540B參數(shù)的 )語(yǔ)言大模型能夠展現(xiàn)出多方面的能力躍升。又如,GPT-3可以通過(guò)“上下文學(xué)習(xí)”(In-ContextLearning,ICL)的方式來(lái)利用少樣本數(shù)據(jù)解決下游任務(wù),甚至在某些任務(wù)上超過(guò)當(dāng)時(shí)最好的專(zhuān)用模型。

圖4大規(guī)模語(yǔ)言模型的擴(kuò)展定律(ScalingLaws)

綜上所述,大語(yǔ)言模型由于其大規(guī)模數(shù)據(jù)集訓(xùn)練、上下文理解能力、生成能力、自適應(yīng)性和可擴(kuò)展性、語(yǔ)言模型的內(nèi)在特性以及錯(cuò)誤模式識(shí)別能力等因素,非常適合用于文本糾錯(cuò)任務(wù)。這些特性使得大語(yǔ)言模型在處理文本糾錯(cuò)時(shí)能夠表現(xiàn)出色,為用戶(hù)提供準(zhǔn)確、可靠的糾正建議。

3.2大語(yǔ)言模型在拼寫(xiě)糾錯(cuò)中的應(yīng)用

Li等人[24認(rèn)為L(zhǎng)LMs在滿(mǎn)足中文拼寫(xiě)檢查任務(wù)的字符級(jí)約束方面存在不足,通過(guò)提出C-LLM方法并建立字符級(jí)映射,逐字檢查和糾正錯(cuò)誤來(lái)提高拼寫(xiě)檢查的性能,使其成為字符復(fù)制和替換的任務(wù)。Li等人[25]使用LLMs作為基礎(chǔ)模型進(jìn)行微調(diào)并通過(guò)任務(wù)特定的提示和上下文學(xué)習(xí)策略來(lái)評(píng)估和改進(jìn)LLMs在CSC任務(wù)中的表現(xiàn)。任務(wù)特定提示如圖5所示,為了引導(dǎo)LLMs像糾錯(cuò)模型一樣行為,提示要求LLMs最小化對(duì)原始輸入句子的更改,并且在拼寫(xiě)糾錯(cuò)任務(wù)中保持輸入和輸出句子長(zhǎng)度一致。而在上下文學(xué)習(xí)策略中設(shè)計(jì)了三種隨機(jī)樣本:隨機(jī)錯(cuò)誤樣本、正確和錯(cuò)誤樣本、選擇難以糾正的錯(cuò)誤樣本,以此來(lái)增強(qiáng)LLMs的中文拼寫(xiě)糾錯(cuò)能力。

Dong等人[2提出了名為RS-LLM(RichSemanticbasedLLMs)的上下文學(xué)習(xí)方法將GPT-3.5-turbo和ChatGLM2-6B作為基礎(chǔ)模型,并研究引入各種中文富語(yǔ)義信息對(duì)框架的影響。其中構(gòu)建了一個(gè)包含6763個(gè)漢字的GB2312簡(jiǎn)化漢字編碼表,并收集了每個(gè)漢字的多種屬性,如拼音、部首、筆畫(huà)數(shù)、結(jié)構(gòu)等,如圖6所示。為了確保數(shù)據(jù)的準(zhǔn)確性和完整性,對(duì)這些信息進(jìn)行了手動(dòng)標(biāo)注。

利用RS-LLM的上下文學(xué)習(xí)能力,通過(guò)提供有限的與任務(wù)相關(guān)的例子來(lái)快速提高任務(wù)性能。如圖7所示,在該提示模板中,限制RS-LLM對(duì)輸入句子的語(yǔ)義重述,并要求其找到并糾正拼寫(xiě)錯(cuò)誤。為了避免RS-LLM在生成修正句子時(shí)過(guò)度修改句子長(zhǎng)度或未有效使用語(yǔ)義信息,引入了一個(gè)內(nèi)省機(jī)制即生成修正句子后,再次將其與原始輸入句子一起輸入RS-LLM,要求其判斷兩個(gè)句子的長(zhǎng)度是否一致以及語(yǔ)義信息是否有效使用。只有當(dāng)兩個(gè)問(wèn)題的答案都是“是”時(shí),才輸出修正結(jié)果;否則,將當(dāng)前對(duì)話(huà)作為歷史對(duì)話(huà)的一部分,并再次請(qǐng)求RS-LLM回復(fù)。其實(shí)驗(yàn)結(jié)果表明發(fā)音和部首信息對(duì)CSC任務(wù)的提升最為顯著,其次是結(jié)構(gòu)信息,而筆畫(huà)信息的提升相對(duì)較小。

Zhou等人[27]提出了首個(gè)無(wú)須訓(xùn)練和提示的框架,該方法完全不同于以往的中文拼寫(xiě)糾錯(cuò)(CSC)方法,利用大型語(yǔ)言模型(LLMs)作為傳統(tǒng)語(yǔ)言模型進(jìn)行評(píng)估。并提出了長(zhǎng)度獎(jiǎng)勵(lì)策略以及忠實(shí)度獎(jiǎng)勵(lì)策略,有效促進(jìn)了多字符標(biāo)記的生成,減少了過(guò)度糾正問(wèn)題。

4結(jié)論

本文詳細(xì)闡述了中文文本拼寫(xiě)糾錯(cuò)(CSC)的研究現(xiàn)狀,重點(diǎn)介紹了基于N-Gram語(yǔ)言模型、深度學(xué)習(xí)和大語(yǔ)言模型的糾錯(cuò)方法。N-Gram語(yǔ)言模型通過(guò)統(tǒng)計(jì)詞組頻率來(lái)預(yù)測(cè)詞的概率,盡管計(jì)算效率高,但在處理長(zhǎng)距離依賴(lài)和生成候選詞方面存在局限。基于深度學(xué)習(xí)方法探討了模型架構(gòu)創(chuàng)新、訓(xùn)練策略改進(jìn)和多模態(tài)特征融合等方面的研究進(jìn)展。特別是基于Transformer的模型,通過(guò)自注意力機(jī)制捕捉長(zhǎng)距離依賴(lài),顯著提高了糾錯(cuò)性能,大語(yǔ)言模型憑借其強(qiáng)大的上下文理解和生成能力,進(jìn)一步提升了糾錯(cuò)效果。隨著技術(shù)的不斷進(jìn)步和優(yōu)化,我們可以期待這一領(lǐng)域在未來(lái)呈現(xiàn)更多創(chuàng)新和突破。

參考文獻(xiàn):

[1]KONDRAK G.N-Gram Similarity and Distance[C]//String Processing and Information Retrieval (SPIRE 20o5).BuenosAires:SpringerNature,2005:115-126.

[2]XIEWJ,HUANGPJ,ZHANGXR,etal.ChineseSpellingCheck SystemBased onN-GramModel[C]//Proceedingsof the Eighth SIGHANWorkshop on ChineseLanguage Processing(SIGHAN-8).Beijing:ACL,2015:128-136.

[3]HUANGQ,HUANGPJ,ZHANGXR,et al.Chinese SpellingCheck System Based on Tri-Gram Model [C]//Proceedingsof the ThirdCIPS-SIGHAN JointConferenceonChineseLanguage Processing.Wuhan:ACL,2014:173-178.

[4]YUJJ,LI Z H.Chinese Spelling Error Detection andCorrection Based onLanguage Model,Pronunciation,and Shape[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference onChinese Language Processing.Wuhan:ACL,2014:220-223.

[5]YEHJ-F,LI S-F,WU M-R,et al.Chinese WordSpellingCorrectionBasedonN-GramRanked Inverted IndexList[C]//Proceedings of the Seventh SIGHAN Workshop on ChineseLanguage Processing.Nagoya:ACL,2013:43-48.

[6]YUL-C,LEEL-H,TSENGY-H,etal.OverviewofSIGHAN 2014 Bake-off for Chinese SpellingCheck[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference onChinese Language Processing.Wuhan:ACL,2014:126-132.

[7]VASWANIA,SHAZEERN,PARMARN,etal.Attention IsAll You Need[C]//3lst International Conference onNeural Information Processing Systems.Long Beach:CurranAssociatesInc,2017:6000-6010.

[8]SCHMIDHUBER J.Deep Learning in Neural Networks:AnOverview[J].Neural Networks,2015,61:85-117.

[9] WANGDM,SONGY,LIJ,et al.AHybrid ApproachtoAutomatic Corpus Generation for Chinese Spelling Check[C]//Proceedings of the 2018 Conference on Empirical Methods inNaturalLanguage Processing.Brussels:ACL,2018:2517-2527.

[10] ZHANG SH,HUANG HR,LIUJC,et al. SpellingError Correction with Soft-Masked BERT[C]//Proceedings ofthe 58th Annual Meeting of the Association for ComputationalLinguistics.Online:ACL,2020:882-890.

[11]ZHUCX,YINGZQ,ZHANGBY,etal.MDCSpell:A Multi-task Detector-corrector Framework forChinese Spelling Correction [C]//Findings of the Association forComputational Linguistics.Dublin:ACL,2022:1244-1253.

[12] LIU SL,SONG SK,YUETC,et al.CRASpell: AContextual Typo Robust Approach to Improve Chinese SpellingCorrection [C]//Findings of the Association for ComputationalLinguistics.Dublin:ACL,2022:3008-3018.

[13]WUHQ,ZHANG SH,ZHANGYC,et al.Rethinking Masked Language Modeling for Chinese SpelingCorrection[C]//Proceedingsof the6lstAnnualMeetingoftheAssociation for ComputationalLinguistics.Toronto:ACL,2023:10743-10756.

[14]LIULF,WUHQ,ZHAO H.ChineseSpelling Correction as Rephrasing Language Model [J/OL].arXiv:2308.08796 [cs.CL].[2024-10-02].https://arxiv.org/abs/2308.08796.

[15]CHENGXY,XUWD,CHENKL,et al.SpellGCN: Incorporating Phonological and Visual Similarities intoLanguage Models for Chinese Spelling Check [C]//Proceedingsof the 58th Annual Meeting of the Association for ComputationalLinguistics.Online:ACL,2020:871-881.

[16] XUH-D,LI ZL,ZHOUQY,et al.Read,Listen,and See: Leveraging Multimodal Information Helps Chinese SpellChecking [J/OL].arXiv:2105.12306 [cs.CL].[2024-10-02].https://arxiv.org/abs/2105.12306.

[17] LI JH,WANGQ,MAO ZD,et al. ImprovingChinese Spelling Check by Character Pronunciation Prediction:The Effects ofAdaptivity and Granularity[J/OL].arXiv:2210.10996[cs.CL].[2024-10-04].https://arxiv.org/abs/2210.10996.

[18] LIANG ZH,QUANXJ,WANGQF.DisentangledPhonetic Representation for Chinese Spelling Correction [J/OL].arXiv:2305.14783 [cs.CL].[2024-10-05].https://arxiv.org/abs/2305.14783?context=cs.CL.

[19]WUHQ,ZHANGSH,ZHANGYC,et al.Rethinking Masked Language Modeling for Chinese SpellingCorrection [J/OL].arXiv:2305.17721[cs.CL].[2024-10-07].https://arxiv.org/abs/2305.17721?context=cs.

[20] ZHAOWX,ZHOUK,LIJY,etal.A Surveyof LargeLanguageModels[J/OL].arXiv:2303.18223[cs.CL].[2024- 09-20].https://arxiv.org/abs/2303.18223.

[21]KAPLANJ,MCCANDLISHS,HENIGHAN T,etal.ScalingLaws forNeuralLanguage Models[J/OL]. arXiv:2001.08361 [cs.LG].[2024-09-20].https://arxiv.org/ abs/2001.08361?file=2001.08361.

[22]WUTY,HESZ,LIUJP,etal.ABriefOverviewof ChatGPT:The History, StatusQuo and Potential FutureDevelopment[J].IEEE/CAAJournal ofAutomatica Sinica,2023,10(5):1122-1136.

[23]ANILR,DAIAM,F(xiàn)IRATO,etal.PaLM2 TechnicalReport[J/OL].arXiv:2305.10403[cs.CL].[2024-09-10]. https://arxiv.0rg/abs/2305.10403v3#.

[24]LIKT,HUY,HEL,etal.C-LLM:Learnto Check Chinese Spelling Errors Character by Character[J/ OL].arXiv:2406.16536 [cs.CL].[2024-09-10].https://arxiv.org/ abs/2406.16536.

[25]LIYH,HUANGHJ,MASR,etal.Onthe (in)Effectiveness ofLarge Language Models for Chinese Text Correction [J/OL].arXiv:2307.09007 [cs.CL].[2024-09-16].https:// arxiv.org/abs/2307.09007?context=cs.CL.

[26]DONGM,CHENYJ,ZHANG M,etal.Rich SemanticKnowledgeEnhancedLargeLanguageModelsforFewshotChinese Spell Checking[J/OL].arXiv:2403.08492[cs.CL]. [2024-09-16].https://arxiv.org/abs/2403.08492.

[27]ZHOUHQ,LIZH,ZHANGB,etal.A Simple yetEffective Training-free Prompt-freeApproach to Chinese SpellingCorrection BasedonLargeLanguageModels[J/ OL].arXiv:2410.04027[cs.CL].[2024-09-16].https://arxiv.org/ abs/2410.04027?context=cs.CL.

作者簡(jiǎn)介:沈友志(1997一),男,漢族,九江人,碩士在讀,研究方向:自然語(yǔ)言處理;通信作者:程春雷(1976一),男,漢族,人,副教授,碩士生導(dǎo)師,博士,研究方向:機(jī)器學(xué)習(xí)、知識(shí)表示與學(xué)習(xí)、知識(shí)圖譜;句澤東(1998一),男,漢族,山西朔州人,碩士在讀,研究方向:自然語(yǔ)言處理;龔著凡(2000一),男,漢族,人,碩士在讀,研究方向:自然語(yǔ)言處理。

猜你喜歡
文本語(yǔ)言模型
一半模型
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
讓語(yǔ)言描寫(xiě)搖曳多姿
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
主站蜘蛛池模板: 国产精品福利一区二区久久| 国产午夜无码片在线观看网站| 国产av无码日韩av无码网站| 色综合国产| 日韩黄色在线| 在线观看免费AV网| 久久精品国产精品青草app| 国产人前露出系列视频| 中国精品自拍| 四虎永久免费在线| 中文字幕免费在线视频| 高清无码不卡视频| 欧美亚洲日韩不卡在线在线观看| 波多野结衣AV无码久久一区| 欧美综合成人| 91av成人日本不卡三区| 性欧美在线| 日韩黄色大片免费看| 在线观看的黄网| 狠狠色成人综合首页| 在线不卡免费视频| 成人国产免费| 日韩在线2020专区| 久久 午夜福利 张柏芝| 亚洲精品视频免费| 国产性精品| 成人日韩欧美| 亚洲综合极品香蕉久久网| 欧美三级视频在线播放| 亚洲高清资源| 伊伊人成亚洲综合人网7777| 国产91小视频| 亚洲天堂网2014| 日韩天堂网| 亚洲无线观看| 国产成+人+综合+亚洲欧美| 日韩国产精品无码一区二区三区| 在线国产91| 久久精品国产国语对白| 国产丝袜第一页| 亚洲无码精品在线播放| 成人国内精品久久久久影院| 啊嗯不日本网站| 欧美精品在线免费| 国产偷国产偷在线高清| 在线看片免费人成视久网下载| 亚洲性影院| 亚洲国产一成久久精品国产成人综合| 国产色图在线观看| 成人在线欧美| 亚洲一级毛片| 欧美色亚洲| 亚洲视频四区| 日本午夜视频在线观看| 国产精品亚欧美一区二区三区| 亚洲一欧洲中文字幕在线| 天堂亚洲网| 国产电话自拍伊人| 免费看一级毛片波多结衣| 亚洲精品视频免费观看| 亚洲精品高清视频| 亚洲欧美成人影院| 欧美精品xx| 亚洲综合中文字幕国产精品欧美| 99视频在线免费| 免费A级毛片无码免费视频| 超碰91免费人妻| 色综合激情网| 尤物精品视频一区二区三区| 久久国产精品无码hdav| 好吊妞欧美视频免费| 色老二精品视频在线观看| 日韩在线播放欧美字幕| av天堂最新版在线| 欧美日韩91| 欧美日韩一区二区三| 高h视频在线| 99激情网| 国产视频自拍一区| AⅤ色综合久久天堂AV色综合| 欧美 亚洲 日韩 国产| 国产18在线播放|