中文文本拼寫(xiě)糾錯(cuò)研究綜述

2025-06-19 00:00:00沈友志沈友志程春雷程春雷句澤東龔著凡

現(xiàn)代信息科技 2025年8期

中圖分類(lèi)號(hào)：TP391.1；TP301.1 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2096-4706（2025）08-0138-08

Abstract：Chinese Spelling Correction（CSC）isacrucial foundational task inNaturalLanguage Processing （NLP），and providessupport forthedownstreamtasks andresearch.Theresearch in the fieldofCSCtaskscontinues to develop，mainly divided into eror corrction methods based onN-Gram language models，Deep Leaming，andLarge Language Models （LLMs）. Firstly，techaracteristicsoftheN-GamlnguagemodelanditsapplicationinCSCareanalyzed，rvealingitsadvatagesin capturing contextual information.Secondly，methodsbasedonDepLearning improve theaccuracyof error coectionthrough deep neural networksand are widelyused in Chinese text procesing.Atthesame time，theriseofLLMs provides new ideas for speling correction，demonstrating their enormous potentialindealing withcomplex languagephenomena.Thisreviewprovides adetailedoverviewofthecurrentresearchstatusintheCSCfeld，providingareferenceforscholars engaged inrelatedresearch.

Keywords： Chinese text; spelling correction; N-Gram language model; Deep Learning; Large Language Model

0 引言

中文文本拼寫(xiě)錯(cuò)誤（CSC）是自然語(yǔ)言處理（NLP）領(lǐng)域的一個(gè)重要的基礎(chǔ)研究方向，其目的是檢測(cè)和糾正文本中出現(xiàn)的拼寫(xiě)錯(cuò)誤，為后續(xù)的文本分析、信息檢索、文本生成等任務(wù)提供了干凈、準(zhǔn)確的輸入數(shù)據(jù)。另外拼寫(xiě)糾錯(cuò)與其他NLP任務(wù)緊密相關(guān)。例如，在信息抽取任務(wù)中，準(zhǔn)確的文本能夠提高信息提取的準(zhǔn)確性；在機(jī)器翻譯中，拼寫(xiě)錯(cuò)誤可能導(dǎo)致翻譯結(jié)果不準(zhǔn)確，因此糾錯(cuò)可以提高翻譯質(zhì)量。此外人們?cè)谌粘Ｔ诰€(xiàn)交流、寫(xiě)作和翻譯中，難免會(huì)出現(xiàn)拼寫(xiě)錯(cuò)誤問(wèn)題，這些錯(cuò)誤可能會(huì)影響到文本的準(zhǔn)確性和可讀性。它可以幫助用戶(hù)在撰寫(xiě)文檔時(shí)提高寫(xiě)作質(zhì)量，改善用戶(hù)體驗(yàn)。綜上所述，中文文本拼寫(xiě)糾錯(cuò)在自然語(yǔ)言處理中不僅是一個(gè)關(guān)鍵的基礎(chǔ)任務(wù)，也為各種應(yīng)用和研究提供了支持，促進(jìn)了NLP技術(shù)的全面發(fā)展。

1基于N-Gram語(yǔ)言模型的糾錯(cuò)方法

早期無(wú)監(jiān)督時(shí)代拼寫(xiě)糾錯(cuò)方法主要利用無(wú)監(jiān)督管道系統(tǒng)即在沒(méi)有人工標(biāo)注或監(jiān)督信號(hào)的情況下，通過(guò)自動(dòng)化處理流程來(lái)完成特定任務(wù)的系統(tǒng)。由于N-Gram語(yǔ)言模型在上下文建模、處理語(yǔ)言特性、計(jì)算效率以及實(shí)現(xiàn)和可解釋性等方面的優(yōu)勢(shì)，早期的拼寫(xiě)糾錯(cuò)方法都采用了N-Gram的語(yǔ)言模型，并結(jié)合了動(dòng)態(tài)規(guī)劃、加權(quán)平滑、發(fā)音和字形相似性等多種技術(shù)手段提升糾錯(cuò)精度。

1.1N-Gram 語(yǔ)言模型

N-Gram語(yǔ)言模型是一種基于概率的語(yǔ)言模型，用于預(yù)測(cè)一串詞序列中給定上下文后出現(xiàn)某個(gè)詞的概率。N-Gram模型通過(guò)統(tǒng)計(jì)不同長(zhǎng)度的詞組（即 N 個(gè)詞組成的片段）在語(yǔ)料庫(kù)中的出現(xiàn)頻率，來(lái)計(jì)算詞與詞之間的條件概率。N-Gram模型的核心思想是使用前面的 N - 1 個(gè)詞預(yù)測(cè)第 N 個(gè)詞。

在這個(gè)模型中，假設(shè)一個(gè)句子中的第i個(gè)詞的出現(xiàn)只依賴(lài)于前面的 N - 1 個(gè)詞，而與其他詞無(wú)關(guān)，即滿(mǎn)足馬爾可夫假設(shè)。 N 的值決定了模型的復(fù)雜度和上下文長(zhǎng)度。常用的N-Gram模型包括：

1）Unigram（一元模型）假設(shè)每個(gè)詞的出現(xiàn)獨(dú)立于前面的詞，只考慮詞本身的頻率。 2）Bigram（二元模型）只考慮前一個(gè)詞。 3）Trigram（三元模型）考慮前兩個(gè)詞。

例如，N-Gram語(yǔ)言模型預(yù)測(cè)第 N 個(gè)詞只依賴(lài)于第 N - 2 和第 N - 1 個(gè)詞。

第 i 個(gè)詞只依賴(lài)于第 i - 2 和第i-1個(gè)詞。對(duì)于給定的詞序列，N-Gram模型計(jì)算該序列的概率如下：

其中，表示在前面 N - 1 個(gè)詞出現(xiàn)的情況下，第 i 個(gè)詞出現(xiàn)的條件概率。

條件概率通過(guò)詞頻的相對(duì)頻率來(lái)估計(jì)，即：

其中，表示該N-Gram在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)，而count 表示前面 N - 1 個(gè)詞組成的詞組出現(xiàn)的次數(shù)。

在實(shí)際應(yīng)用中，由于數(shù)據(jù)稀疏性，很多N-Gram組合可能在語(yǔ)料庫(kù)中沒(méi)有出現(xiàn)。為了解決這種“零概率”問(wèn)題，需要使用平滑技術(shù)，如拉普拉斯平滑、加權(quán)平滑、Kneser-Ney平滑等。這些方法通過(guò)將部分概率質(zhì)量從高頻事件轉(zhuǎn)移到低頻甚至未出現(xiàn)的事件，來(lái)提高模型的泛化能力。

1.2N-Gram語(yǔ)言模型在中文拼寫(xiě)糾錯(cuò)中的應(yīng)用

Xie等人[2]將Bigram和Trigram模型結(jié)合并使用動(dòng)態(tài)規(guī)劃和加權(quán)平滑解決了訓(xùn)練數(shù)據(jù)稀疏性問(wèn)題并提高了糾錯(cuò)能力，但其召回率（Recall）較低，且處理長(zhǎng)句子時(shí)復(fù)雜度較高。Huang等人[3]使用了Trigram語(yǔ)言模型進(jìn)一步提高了其糾錯(cuò)能力，但其主要針對(duì)字符級(jí)別的錯(cuò)誤檢測(cè)和糾正，忽略了單詞級(jí)別的錯(cuò)誤。Yu等人[4使用字符級(jí)N-Gram語(yǔ)言模型用于檢測(cè)潛在的拼寫(xiě)錯(cuò)誤的字符，并根據(jù)發(fā)音和形狀相似性生成候選集，再根據(jù)詞字典過(guò)濾掉不能形成合法單詞的候選項(xiàng)，最后選擇最高概率的候選字符作為糾錯(cuò)的結(jié)果。Yeh等人[5]使用了N-Gram排名倒排索引列表用于映射潛在的拼寫(xiě)錯(cuò)誤字符到可能的對(duì)應(yīng)字符，并結(jié)合發(fā)音和形狀字典用于生成候選集，并用E-HowNet傳統(tǒng)中文詞匯的知識(shí)表提高了糾錯(cuò)效果，但其訓(xùn)練和測(cè)試階段的復(fù)雜性較高。Yu等人結(jié)合了多種統(tǒng)計(jì)方法（N-Gram模型、機(jī)器學(xué)習(xí)模型、圖模型）以及使用了多個(gè)語(yǔ)料庫(kù)的資源，增強(qiáng)了模型的效果并提高了魯棒性和準(zhǔn)確性，但其融合多種方法導(dǎo)致其實(shí)現(xiàn)和維護(hù)難度增加。

綜上所述，N-Gram模型計(jì)算效率高、對(duì)小數(shù)據(jù)集友好且解讀性好，但其長(zhǎng)距離依賴(lài)有限，只能捕捉固定窗口內(nèi)的依賴(lài)關(guān)系，處理較長(zhǎng)的句子時(shí)效果不佳，容易忽視跨N-Gram邊界的詞匯關(guān)系。而且稀疏性問(wèn)題嚴(yán)重，當(dāng) N 值較大時(shí)，N-Gram模型會(huì)變得稀疏，導(dǎo)致無(wú)法捕捉到足夠的語(yǔ)言現(xiàn)象，影響糾錯(cuò)的準(zhǔn)確性。最后N-Gram模型在生成候選詞方面不如深度學(xué)習(xí)模型，容易導(dǎo)致糾錯(cuò)的多樣性和自然性不足。

2基于深度學(xué)習(xí)的糾錯(cuò)方法

中文拼寫(xiě)糾錯(cuò)需要考慮上下文語(yǔ)境，以判斷某字是否正確。傳統(tǒng)的N-Gram模型只能捕捉有限范圍的上下文信息，而深度學(xué)習(xí)網(wǎng)絡(luò)（如Transformer[）可以利用自注意力機(jī)制在全局范圍內(nèi)建模句子的語(yǔ)義關(guān)系，捕捉到長(zhǎng)距離的詞匯關(guān)聯(lián)。而且拼寫(xiě)錯(cuò)誤在不同的上下文中可能代表不同的糾正方式，深度學(xué)習(xí)模型通過(guò)上下文對(duì)字詞進(jìn)行編碼，可以根據(jù)具體句子的語(yǔ)義來(lái)調(diào)整糾錯(cuò)建議。這對(duì)于中文這樣有大量同音字和形近字的語(yǔ)言尤其重要。另外深度學(xué)習(xí)模型既可以通過(guò)生成式方法給出候選糾錯(cuò)字詞，也可以通過(guò)判別式方法判斷某字是否錯(cuò)誤。這種靈活性使得深度學(xué)習(xí)網(wǎng)絡(luò)可以更全面地解決拼寫(xiě)糾錯(cuò)任務(wù)。因此，深度學(xué)習(xí)網(wǎng)絡(luò)因其強(qiáng)大的特征學(xué)習(xí)和長(zhǎng)距離依賴(lài)建模能力，非常適合中文拼寫(xiě)糾錯(cuò)任務(wù)。在當(dāng)前實(shí)踐中，BERT等預(yù)訓(xùn)練語(yǔ)言模型以及基于Transformer的序列到序列網(wǎng)絡(luò)在中文拼寫(xiě)糾錯(cuò)任務(wù)中已經(jīng)展現(xiàn)出優(yōu)異的表現(xiàn)。

2.1 深度學(xué)習(xí)網(wǎng)絡(luò)

深度學(xué)習(xí)網(wǎng)絡(luò)[8是一種通過(guò)多個(gè)神經(jīng)網(wǎng)絡(luò)層級(jí)結(jié)構(gòu)來(lái)模擬人類(lèi)大腦的學(xué)習(xí)模式的算法模型。通過(guò)層層的神經(jīng)元結(jié)構(gòu)，深度學(xué)習(xí)網(wǎng)絡(luò)能夠自動(dòng)提取數(shù)據(jù)中的多級(jí)特征，實(shí)現(xiàn)復(fù)雜模式的識(shí)別和預(yù)測(cè)。深度學(xué)習(xí)網(wǎng)絡(luò)中的常見(jiàn)模型有前饋神經(jīng)網(wǎng)絡(luò)（FeedforwardNeuralNetwork，F(xiàn)NN）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）和

Transformer等。深度學(xué)習(xí)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖1所示，包括輸入層、隱藏層和輸出層。輸入層用于接收輸入數(shù)據(jù)，如文本、圖像等。隱藏層包含多個(gè)神經(jīng)元層，負(fù)責(zé)數(shù)據(jù)特征的提取和抽象。深度網(wǎng)絡(luò)的“深度”通常指隱藏層的數(shù)量。輸出層產(chǎn)生模型的最終預(yù)測(cè)結(jié)果。

圖1深度學(xué)習(xí)網(wǎng)絡(luò)的基本結(jié)構(gòu)

深度學(xué)習(xí)網(wǎng)絡(luò)通過(guò)大量的數(shù)據(jù)訓(xùn)練，使得網(wǎng)絡(luò)層的權(quán)重逐漸調(diào)整，以最小化預(yù)測(cè)結(jié)果與真實(shí)值之間的誤差。這個(gè)過(guò)程通過(guò)反向傳播和梯度下降來(lái)實(shí)現(xiàn)。

2.2深度學(xué)習(xí)在中文拼寫(xiě)糾錯(cuò)中的應(yīng)用

2.2.1 模型架構(gòu)創(chuàng)新

隨著Wang等人提出自動(dòng)生成偽標(biāo)記數(shù)據(jù)的技術(shù)解決CSC數(shù)據(jù)稀缺的問(wèn)題，標(biāo)志著CSC研究范式向以深度神經(jīng)網(wǎng)絡(luò)為主導(dǎo)的監(jiān)督學(xué)習(xí)時(shí)代的轉(zhuǎn)變。這一時(shí)期，研究人員探索了各種途徑來(lái)提高CSC性能。Zhang等人[1o]提出了新的神經(jīng)網(wǎng)絡(luò)Soft-MaskedBERT架構(gòu)，如圖2所示，通過(guò)結(jié)合錯(cuò)誤檢測(cè)網(wǎng)絡(luò)和基于BERT的錯(cuò)誤糾正網(wǎng)絡(luò)使其能夠更有效地利用全局上下文信息，顯著提高了拼寫(xiě)錯(cuò)誤糾正的性能。其中錯(cuò)誤檢測(cè)網(wǎng)絡(luò)使用雙向GRU（Bi-GRU）網(wǎng)絡(luò)來(lái)預(yù)測(cè)每個(gè)字符是否為錯(cuò)誤。對(duì)于每個(gè)字符，定義了一個(gè)條件概率表示其為錯(cuò)誤的概率。錯(cuò)誤糾正網(wǎng)絡(luò)使用BERT模型作為錯(cuò)誤糾正網(wǎng)絡(luò)，其最后一層包含一個(gè)Softmax函數(shù)，用于輸出每個(gè)字符的糾正概率。

Zhu等人[提出了一種新的多任務(wù)檢測(cè)-校正框架MDCSpell，如圖3所示，并通過(guò)利用拼寫(xiě)錯(cuò)誤字符的字形和發(fā)音特征同時(shí)最小化其對(duì)上下文的誤導(dǎo)性影響從而在中文拼寫(xiě)糾錯(cuò)任務(wù)中表現(xiàn)出色。其中檢測(cè)網(wǎng)絡(luò)使用基于Transformer的結(jié)構(gòu)作為檢測(cè)網(wǎng)絡(luò)，確定每個(gè)字符的錯(cuò)誤概率。輸入文本的嵌入序列經(jīng)過(guò)多層Transformer編碼后，得到檢測(cè)網(wǎng)絡(luò)的輸出編碼向量，表示每個(gè)位置字符的正確性概率。糾錯(cuò)網(wǎng)絡(luò)使用BERT-base作為糾錯(cuò)網(wǎng)絡(luò)，找到替換錯(cuò)誤字符的正確字符。BERT-base由12層相同的Transformer塊組成，最后一層的隱藏狀態(tài)用于糾錯(cuò)任務(wù)。

2.2.2 訓(xùn)練策略改進(jìn)創(chuàng)新

Liu等人[12]提出了一種新的訓(xùn)練策略CRASpell（Contextual Typo Robust Approach for ChineseSpellingCorrection），通過(guò)引入噪聲建模模塊和復(fù)制機(jī)制，有效解決了中文拼寫(xiě)糾錯(cuò)中的上下文錯(cuò)別字干擾和過(guò)度糾正問(wèn)題。噪聲建模模塊為了使模型對(duì)上下文噪聲魯棒，該方法首先生成每個(gè)訓(xùn)練樣本的噪聲上下文。然后，強(qiáng)制糾錯(cuò)模型基于原始上下文和噪聲上下文生成相似的輸出。噪聲建模模塊通過(guò)替換原始訓(xùn)練樣本中的字符來(lái)生成噪聲上下文，具體替換策略包括替換位置（從距離最近錯(cuò)別字一定范圍內(nèi)的位置中選擇位置進(jìn)行替換）和替換字符（根據(jù)混淆集隨機(jī)替換為音似字符、形似字符或詞匯表中的任意字符）。而糾錯(cuò)模塊輸入為嵌入序列，經(jīng)過(guò)Transformer編碼器生成隱藏表示矩陣。最終輸出分布是生成分布和復(fù)制分布的加權(quán)和，算式如下：

其中，表示生成分布，表示復(fù)制分布， ω 表示復(fù)制概率。生成分布通過(guò)一層前饋網(wǎng)絡(luò)計(jì)算，復(fù)制分布是一個(gè)獨(dú)熱向量（One-hotVector），復(fù)制概率通過(guò)兩層前饋網(wǎng)絡(luò)計(jì)算。

Wu等人[13]提出了一種簡(jiǎn)單但有效的方法來(lái)解決BERT在CSC任務(wù)中過(guò)度擬合錯(cuò)誤模型的問(wèn)題。該CSC任務(wù)需要語(yǔ)言模型和錯(cuò)誤模型協(xié)同工作來(lái)做出決策。語(yǔ)言模型決定給定上下文中字符的分布，而錯(cuò)誤模型表示給定上下文及其正確形式的潛在拼寫(xiě)錯(cuò)誤的分布。算式如下：

其中， x 表示除位置外的所有字符。為了提高語(yǔ)言模型的性能而不影響錯(cuò)誤模型，該論文提出在微調(diào)過(guò)程中隨機(jī)掩蓋輸入序列中 20 % 的非錯(cuò)誤標(biāo)記。這樣模型被迫在給定上下文的情況下預(yù)測(cè)被掩蓋的標(biāo)記，從而學(xué)習(xí)到更好的語(yǔ)言模型。這種方法不需要對(duì)人類(lèi)錯(cuò)誤的任何假設(shè)，因此能夠從真實(shí)的人類(lèi)數(shù)據(jù)中學(xué)習(xí)到完全無(wú)偏的錯(cuò)誤模型。另外還提出了一種利用單語(yǔ)數(shù)據(jù)與并行數(shù)據(jù)進(jìn)行模型訓(xùn)練的方法，以實(shí)現(xiàn)在新領(lǐng)域的領(lǐng)域遷移。Liu等人[4]提出了重述語(yǔ)言模型（ReLM）來(lái)解決中文拼寫(xiě)糾錯(cuò)問(wèn)題。傳統(tǒng)的序列標(biāo)注方法將CSC視為字符到字符的標(biāo)注任務(wù)，模型被訓(xùn)練來(lái)將一個(gè)字符映射到另一個(gè)字符。這種方法會(huì)導(dǎo)致模型過(guò)度依賴(lài)訓(xùn)練數(shù)據(jù)中的錯(cuò)誤模式，忽略了整個(gè)句子的語(yǔ)義。然而重述語(yǔ)言模型（ReLM）為了克服序列標(biāo)注的缺點(diǎn)，提出用重述作為CSC的主要訓(xùn)練目標(biāo)。具體來(lái)說(shuō)，源句子首先被編碼到語(yǔ)義空間，然后基于給定的掩碼槽進(jìn)行重述以生成正確的句子。

ReLM基于BERT模型，通過(guò)填充預(yù)設(shè)的掩碼槽來(lái)實(shí)現(xiàn)重述。ReLM是一個(gè)非自回歸的重述模型，使用BERT架構(gòu)。輸入句子和目標(biāo)字符被連接起來(lái)，模型被訓(xùn)練來(lái)逐個(gè)生成目標(biāo)字符。算式如下：

其中，表示用于的掩碼字符。ReLM自然地適用于多任務(wù)學(xué)習(xí)，所有任務(wù)都統(tǒng)一為掩碼語(yǔ)言建模格式，增強(qiáng)了CSC到各種任務(wù)的可遷移性。

2.2.3 多模態(tài)與特征增強(qiáng)創(chuàng)新

此外，還可以將發(fā)音或字形特征融入模型增強(qiáng)糾錯(cuò)效果，如Cheng等人[15]提出了一種新的拼寫(xiě)糾錯(cuò)方法SpellGCN，通過(guò)圖卷積網(wǎng)絡(luò)（GraphConvolutionalNetwork，GCN）將語(yǔ)音和視覺(jué)相似性知識(shí)融入語(yǔ)言模型中。首先，從開(kāi)源的混淆集中構(gòu)建兩個(gè)相似性圖，分別對(duì)應(yīng)發(fā)音相似性和形狀相似性。每個(gè)相似性圖是一個(gè)二進(jìn)制鄰接矩陣，表示混淆集中的字符對(duì)是否存在。SpellGCN通過(guò)圖卷積操作吸收?qǐng)D中相鄰字符的信息。每層采用輕量級(jí)的GCN卷積層，算式如下：

其中，表示鄰接矩陣 A 的歸一化版本，表示可訓(xùn)練的權(quán)重矩陣。

為了結(jié)合發(fā)音和形狀相似性圖，采用了注意力機(jī)制。對(duì)于每個(gè)字符，表示組合操作的算式如下：

其中，表示圖 k 的卷積表示的第 i 行，表示權(quán)重，計(jì)算式為：

β 表示一個(gè)超參數(shù)，控制注意力權(quán)重的平滑度。

等人[提出了REALISE中文拼寫(xiě)檢查器，通過(guò)利用漢字的多模態(tài)信息（語(yǔ)義、發(fā)音和圖形信息）來(lái)檢測(cè)和糾正拼寫(xiě)錯(cuò)誤。其實(shí)驗(yàn)結(jié)果表明，REALISE模型在SIGHAN基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于現(xiàn)有的最先進(jìn)模型，驗(yàn)證了多模態(tài)信息在中文拼寫(xiě)檢查任務(wù)中的有效性。該REALISE模型包含了語(yǔ)義編碼器、語(yǔ)音編碼器和圖形編碼器。其中語(yǔ)義編碼器采用BERT作為語(yǔ)義編碼器的骨干，捕捉文本信息。語(yǔ)音編碼器使用漢語(yǔ)拼音作為語(yǔ)音特征，設(shè)計(jì)了一個(gè)分層編碼器。拼音由聲母、韻母和聲調(diào)組成，分別用字母和數(shù)字表示。圖形編碼器應(yīng)用ResNet作為圖形編碼器，提取字符圖像的視覺(jué)信息。字符圖像從預(yù)設(shè)的字體文件中讀取，使用三種字體（黑體、小篆）來(lái)捕捉字符的圖形關(guān)系。最終輸出為一個(gè)向量，長(zhǎng)度等于語(yǔ)義編碼器的隱藏大小。

Li等人[17]提出了SCOPE（Spelling Check byPronunciationPrediction），SCOPE基于共享編碼器和兩個(gè)并行解碼器，一個(gè)用于主要的CSC任務(wù)，另一個(gè)用于細(xì)粒度的輔助CPP（CharacterPronunciationPrediction）任務(wù)。輸入句子經(jīng)過(guò)編碼器處理后，生成語(yǔ)義、語(yǔ)音和形態(tài)特征。其次兩個(gè)解碼器分別生成目標(biāo)正確字符和預(yù)測(cè)每個(gè)目標(biāo)字符的聲母、韻母和聲調(diào)。Liang等人[18]提出了DORM（DisentangledPhoneticRepresentationModel）糾錯(cuò)模型，其通過(guò)分離文本和拼音特征，并引入拼音到字符的預(yù)測(cè)目標(biāo)和自我蒸餾模塊。其中包含拼音感知輸入序列。首先，將拼音序列附加到原始文本輸入，構(gòu)建一個(gè)拼音感知的輸入序列。拼音序列由聲母和韻母組成，忽略聲調(diào)信息。Wu等人[提出了一種通過(guò)隨機(jī)遮蔽非錯(cuò)誤詞元來(lái)增強(qiáng)語(yǔ)言模型的方法。即在微調(diào)過(guò)程中，隨機(jī)遮蔽輸入序列中 20 % 的非錯(cuò)誤詞元，迫使模型在沒(méi)有這些詞元的情況下預(yù)測(cè)目標(biāo)詞元。這種方法不同于BERT預(yù)訓(xùn)練時(shí)的 1 5 % 詞元遮蔽，旨在增強(qiáng)語(yǔ)言模型的學(xué)習(xí)而不影響錯(cuò)誤模型。該方法有效地解決了BERT在CSC任務(wù)中過(guò)度擬合錯(cuò)誤模型的問(wèn)題以及LEMON基準(zhǔn)的引入為CSC模型的泛化能力評(píng)估提供了新的標(biāo)準(zhǔn)。

綜上所述，研究者通過(guò)創(chuàng)新模型架構(gòu)、改進(jìn)訓(xùn)練策略及融合多模態(tài)特征，顯著提升了拼寫(xiě)糾錯(cuò)的性能?；谏疃葘W(xué)習(xí)的中文拼寫(xiě)糾錯(cuò)方法具備更高的針對(duì)性和計(jì)算效率，尤其適合處理中文特有的拼音、字形等錯(cuò)誤類(lèi)型，且對(duì)數(shù)據(jù)需求較低，適用性強(qiáng)。但其泛化能力和靈活性較弱，難以應(yīng)對(duì)復(fù)雜上下文和多種類(lèi)型的錯(cuò)誤。相比之下，大語(yǔ)言模型雖然計(jì)算成本更高，但具備強(qiáng)大的語(yǔ)言理解和遷移能力，能夠在多樣化場(chǎng)景中處理更復(fù)雜的語(yǔ)言錯(cuò)誤。

3基于大語(yǔ)言模型的糾錯(cuò)方法

3.1 大語(yǔ)言模型

大語(yǔ)言模型（Large Language Model，LLM）[20]是一種由包含數(shù)百億以上參數(shù)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語(yǔ)言模型。其訓(xùn)練通?；邶嫶蟮奈谋緮?shù)據(jù)集進(jìn)行，這些數(shù)據(jù)集包含了廣泛的語(yǔ)言現(xiàn)象、語(yǔ)法規(guī)則和詞匯用法。從而使模型能夠?qū)W習(xí)到語(yǔ)言的復(fù)雜性和多樣性，從而在處理文本糾錯(cuò)任務(wù)時(shí)能夠識(shí)別并糾正各種語(yǔ)言錯(cuò)誤。其次大語(yǔ)言模型具有強(qiáng)大的上下文理解能力，能夠根據(jù)句子的前后文來(lái)推斷詞語(yǔ)的正確用法。這種能力使得模型在糾正文本錯(cuò)誤時(shí)，能夠考慮到整個(gè)句子的語(yǔ)義和語(yǔ)法結(jié)構(gòu)，而不僅僅是單個(gè)詞語(yǔ)的替換。而且大語(yǔ)言模型具有強(qiáng)大的文本生成能力，能夠生成流暢、連貫的文本。在文本糾錯(cuò)任務(wù)中，這種生成能力使得模型能夠替換掉錯(cuò)誤的詞語(yǔ)或句子，同時(shí)保持文本的連貫性和可讀性。其次通過(guò)增加大模型參數(shù)規(guī)模或數(shù)據(jù)規(guī)模會(huì)帶來(lái)下游任務(wù)的模型性能提升，這種現(xiàn)象通常被稱(chēng)為擴(kuò)展定律（ScalingLaw）[21]如圖4所示。而當(dāng)模型參數(shù)規(guī)模達(dá)到千億量級(jí)（例如175B參數(shù)的GPT-3[22]和540B參數(shù)的）語(yǔ)言大模型能夠展現(xiàn)出多方面的能力躍升。又如，GPT-3可以通過(guò)“上下文學(xué)習(xí)”（In-ContextLearning，ICL）的方式來(lái)利用少樣本數(shù)據(jù)解決下游任務(wù)，甚至在某些任務(wù)上超過(guò)當(dāng)時(shí)最好的專(zhuān)用模型。

圖4大規(guī)模語(yǔ)言模型的擴(kuò)展定律（ScalingLaws）

綜上所述，大語(yǔ)言模型由于其大規(guī)模數(shù)據(jù)集訓(xùn)練、上下文理解能力、生成能力、自適應(yīng)性和可擴(kuò)展性、語(yǔ)言模型的內(nèi)在特性以及錯(cuò)誤模式識(shí)別能力等因素，非常適合用于文本糾錯(cuò)任務(wù)。這些特性使得大語(yǔ)言模型在處理文本糾錯(cuò)時(shí)能夠表現(xiàn)出色，為用戶(hù)提供準(zhǔn)確、可靠的糾正建議。

3.2大語(yǔ)言模型在拼寫(xiě)糾錯(cuò)中的應(yīng)用

Li等人[24認(rèn)為L(zhǎng)LMs在滿(mǎn)足中文拼寫(xiě)檢查任務(wù)的字符級(jí)約束方面存在不足，通過(guò)提出C-LLM方法并建立字符級(jí)映射，逐字檢查和糾正錯(cuò)誤來(lái)提高拼寫(xiě)檢查的性能，使其成為字符復(fù)制和替換的任務(wù)。Li等人[25]使用LLMs作為基礎(chǔ)模型進(jìn)行微調(diào)并通過(guò)任務(wù)特定的提示和上下文學(xué)習(xí)策略來(lái)評(píng)估和改進(jìn)LLMs在CSC任務(wù)中的表現(xiàn)。任務(wù)特定提示如圖5所示，為了引導(dǎo)LLMs像糾錯(cuò)模型一樣行為，提示要求LLMs最小化對(duì)原始輸入句子的更改，并且在拼寫(xiě)糾錯(cuò)任務(wù)中保持輸入和輸出句子長(zhǎng)度一致。而在上下文學(xué)習(xí)策略中設(shè)計(jì)了三種隨機(jī)樣本：隨機(jī)錯(cuò)誤樣本、正確和錯(cuò)誤樣本、選擇難以糾正的錯(cuò)誤樣本，以此來(lái)增強(qiáng)LLMs的中文拼寫(xiě)糾錯(cuò)能力。

Dong等人[2提出了名為RS-LLM（RichSemanticbasedLLMs）的上下文學(xué)習(xí)方法將GPT-3.5-turbo和ChatGLM2-6B作為基礎(chǔ)模型，并研究引入各種中文富語(yǔ)義信息對(duì)框架的影響。其中構(gòu)建了一個(gè)包含6763個(gè)漢字的GB2312簡(jiǎn)化漢字編碼表，并收集了每個(gè)漢字的多種屬性，如拼音、部首、筆畫(huà)數(shù)、結(jié)構(gòu)等，如圖6所示。為了確保數(shù)據(jù)的準(zhǔn)確性和完整性，對(duì)這些信息進(jìn)行了手動(dòng)標(biāo)注。

利用RS-LLM的上下文學(xué)習(xí)能力，通過(guò)提供有限的與任務(wù)相關(guān)的例子來(lái)快速提高任務(wù)性能。如圖7所示，在該提示模板中，限制RS-LLM對(duì)輸入句子的語(yǔ)義重述，并要求其找到并糾正拼寫(xiě)錯(cuò)誤。為了避免RS-LLM在生成修正句子時(shí)過(guò)度修改句子長(zhǎng)度或未有效使用語(yǔ)義信息，引入了一個(gè)內(nèi)省機(jī)制即生成修正句子后，再次將其與原始輸入句子一起輸入RS-LLM，要求其判斷兩個(gè)句子的長(zhǎng)度是否一致以及語(yǔ)義信息是否有效使用。只有當(dāng)兩個(gè)問(wèn)題的答案都是“是”時(shí)，才輸出修正結(jié)果；否則，將當(dāng)前對(duì)話(huà)作為歷史對(duì)話(huà)的一部分，并再次請(qǐng)求RS-LLM回復(fù)。其實(shí)驗(yàn)結(jié)果表明發(fā)音和部首信息對(duì)CSC任務(wù)的提升最為顯著，其次是結(jié)構(gòu)信息，而筆畫(huà)信息的提升相對(duì)較小。

Zhou等人[27]提出了首個(gè)無(wú)須訓(xùn)練和提示的框架，該方法完全不同于以往的中文拼寫(xiě)糾錯(cuò)（CSC）方法，利用大型語(yǔ)言模型（LLMs）作為傳統(tǒng)語(yǔ)言模型進(jìn)行評(píng)估。并提出了長(zhǎng)度獎(jiǎng)勵(lì)策略以及忠實(shí)度獎(jiǎng)勵(lì)策略，有效促進(jìn)了多字符標(biāo)記的生成，減少了過(guò)度糾正問(wèn)題。

4結(jié)論

本文詳細(xì)闡述了中文文本拼寫(xiě)糾錯(cuò)（CSC）的研究現(xiàn)狀，重點(diǎn)介紹了基于N-Gram語(yǔ)言模型、深度學(xué)習(xí)和大語(yǔ)言模型的糾錯(cuò)方法。N-Gram語(yǔ)言模型通過(guò)統(tǒng)計(jì)詞組頻率來(lái)預(yù)測(cè)詞的概率，盡管計(jì)算效率高，但在處理長(zhǎng)距離依賴(lài)和生成候選詞方面存在局限。基于深度學(xué)習(xí)方法探討了模型架構(gòu)創(chuàng)新、訓(xùn)練策略改進(jìn)和多模態(tài)特征融合等方面的研究進(jìn)展。特別是基于Transformer的模型，通過(guò)自注意力機(jī)制捕捉長(zhǎng)距離依賴(lài)，顯著提高了糾錯(cuò)性能，大語(yǔ)言模型憑借其強(qiáng)大的上下文理解和生成能力，進(jìn)一步提升了糾錯(cuò)效果。隨著技術(shù)的不斷進(jìn)步和優(yōu)化，我們可以期待這一領(lǐng)域在未來(lái)呈現(xiàn)更多創(chuàng)新和突破。

參考文獻(xiàn)：

[1]KONDRAK G.N-Gram Similarity and Distance[C]//String Processing and Information Retrieval （SPIRE 20o5）.BuenosAires：SpringerNature，2005：115-126.

[2]XIEWJ，HUANGPJ，ZHANGXR，etal.ChineseSpellingCheck SystemBased onN-GramModel[C]//Proceedingsof the Eighth SIGHANWorkshop on ChineseLanguage Processing（SIGHAN-8）.Beijing：ACL，2015：128-136.

[3]HUANGQ，HUANGPJ，ZHANGXR，et al.Chinese SpellingCheck System Based on Tri-Gram Model [C]//Proceedingsof the ThirdCIPS-SIGHAN JointConferenceonChineseLanguage Processing.Wuhan：ACL，2014：173-178.

[4]YUJJ，LI Z H.Chinese Spelling Error Detection andCorrection Based onLanguage Model，Pronunciation，and Shape[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference onChinese Language Processing.Wuhan：ACL，2014：220-223.

[5]YEHJ-F，LI S-F，WU M-R，et al.Chinese WordSpellingCorrectionBasedonN-GramRanked Inverted IndexList[C]//Proceedings of the Seventh SIGHAN Workshop on ChineseLanguage Processing.Nagoya：ACL，2013：43-48.

[6]YUL-C，LEEL-H，TSENGY-H，etal.OverviewofSIGHAN 2014 Bake-off for Chinese SpellingCheck[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference onChinese Language Processing.Wuhan：ACL，2014：126-132.

[7]VASWANIA，SHAZEERN，PARMARN，etal.Attention IsAll You Need[C]//3lst International Conference onNeural Information Processing Systems.Long Beach：CurranAssociatesInc，2017：6000-6010.

[8]SCHMIDHUBER J.Deep Learning in Neural Networks：AnOverview[J].Neural Networks，2015，61：85-117.

[9] WANGDM，SONGY，LIJ，et al.AHybrid ApproachtoAutomatic Corpus Generation for Chinese Spelling Check[C]//Proceedings of the 2018 Conference on Empirical Methods inNaturalLanguage Processing.Brussels：ACL，2018：2517-2527.

[10] ZHANG SH，HUANG HR，LIUJC，et al. SpellingError Correction with Soft-Masked BERT[C]//Proceedings ofthe 58th Annual Meeting of the Association for ComputationalLinguistics.Online：ACL，2020：882-890.

[11]ZHUCX，YINGZQ，ZHANGBY，etal.MDCSpell：A Multi-task Detector-corrector Framework forChinese Spelling Correction [C]//Findings of the Association forComputational Linguistics.Dublin：ACL，2022：1244-1253.

[12] LIU SL，SONG SK，YUETC，et al.CRASpell： AContextual Typo Robust Approach to Improve Chinese SpellingCorrection [C]//Findings of the Association for ComputationalLinguistics.Dublin：ACL，2022：3008-3018.

[13]WUHQ，ZHANG SH，ZHANGYC，et al.Rethinking Masked Language Modeling for Chinese SpelingCorrection[C]//Proceedingsof the6lstAnnualMeetingoftheAssociation for ComputationalLinguistics.Toronto：ACL，2023：10743-10756.

[14]LIULF，WUHQ，ZHAO H.ChineseSpelling Correction as Rephrasing Language Model [J/OL].arXiv：2308.08796 [cs.CL].[2024-10-02].https：//arxiv.org/abs/2308.08796.

[15]CHENGXY，XUWD，CHENKL，et al.SpellGCN： Incorporating Phonological and Visual Similarities intoLanguage Models for Chinese Spelling Check [C]//Proceedingsof the 58th Annual Meeting of the Association for ComputationalLinguistics.Online：ACL，2020：871-881.

[16] XUH-D，LI ZL，ZHOUQY，et al.Read，Listen，and See： Leveraging Multimodal Information Helps Chinese SpellChecking [J/OL].arXiv：2105.12306 [cs.CL].[2024-10-02].https：//arxiv.org/abs/2105.12306.

[17] LI JH，WANGQ，MAO ZD，et al. ImprovingChinese Spelling Check by Character Pronunciation Prediction：The Effects ofAdaptivity and Granularity[J/OL].arXiv：2210.10996[cs.CL].[2024-10-04].https：//arxiv.org/abs/2210.10996.

[18] LIANG ZH，QUANXJ，WANGQF.DisentangledPhonetic Representation for Chinese Spelling Correction [J/OL].arXiv：2305.14783 [cs.CL].[2024-10-05].https：//arxiv.org/abs/2305.14783？context=cs.CL.

[19]WUHQ，ZHANGSH，ZHANGYC，et al.Rethinking Masked Language Modeling for Chinese SpellingCorrection [J/OL].arXiv：2305.17721[cs.CL].[2024-10-07].https：//arxiv.org/abs/2305.17721？context=cs.

[20] ZHAOWX，ZHOUK，LIJY，etal.A Surveyof LargeLanguageModels[J/OL].arXiv：2303.18223[cs.CL].[2024- 09-20].https：//arxiv.org/abs/2303.18223.

[21]KAPLANJ，MCCANDLISHS，HENIGHAN T，etal.ScalingLaws forNeuralLanguage Models[J/OL]. arXiv：2001.08361 [cs.LG].[2024-09-20].https：//arxiv.org/ abs/2001.08361？file=2001.08361.

[22]WUTY，HESZ，LIUJP，etal.ABriefOverviewof ChatGPT：The History， StatusQuo and Potential FutureDevelopment[J].IEEE/CAAJournal ofAutomatica Sinica，2023，10（5）：1122-1136.

[23]ANILR，DAIAM，F(xiàn)IRATO，etal.PaLM2 TechnicalReport[J/OL].arXiv：2305.10403[cs.CL].[2024-09-10]. https：//arxiv.0rg/abs/2305.10403v3#.

[24]LIKT，HUY，HEL，etal.C-LLM：Learnto Check Chinese Spelling Errors Character by Character[J/ OL].arXiv：2406.16536 [cs.CL].[2024-09-10].https：//arxiv.org/ abs/2406.16536.

[25]LIYH，HUANGHJ，MASR，etal.Onthe （in）Effectiveness ofLarge Language Models for Chinese Text Correction [J/OL].arXiv：2307.09007 [cs.CL].[2024-09-16].https：// arxiv.org/abs/2307.09007？context=cs.CL.

[26]DONGM，CHENYJ，ZHANG M，etal.Rich SemanticKnowledgeEnhancedLargeLanguageModelsforFewshotChinese Spell Checking[J/OL].arXiv：2403.08492[cs.CL]. [2024-09-16].https：//arxiv.org/abs/2403.08492.

[27]ZHOUHQ，LIZH，ZHANGB，etal.A Simple yetEffective Training-free Prompt-freeApproach to Chinese SpellingCorrection BasedonLargeLanguageModels[J/ OL].arXiv：2410.04027[cs.CL].[2024-09-16].https：//arxiv.org/ abs/2410.04027？context=cs.CL.

作者簡(jiǎn)介：沈友志（1997一），男，漢族，九江人，碩士在讀，研究方向：自然語(yǔ)言處理；通信作者：程春雷（1976一），男，漢族，人，副教授，碩士生導(dǎo)師，博士，研究方向：機(jī)器學(xué)習(xí)、知識(shí)表示與學(xué)習(xí)、知識(shí)圖譜；句澤東（1998一），男，漢族，山西朔州人，碩士在讀，研究方向：自然語(yǔ)言處理；龔著凡（2000一），男，漢族，人，碩士在讀，研究方向：自然語(yǔ)言處理。