■于亞明 蘇海波
無論是媒體行業還是出版行業,校對方式都經歷了人工校對和人機校對兩個階段。
在進入計算機時代之前的校對工作,主要是由人工“校異同”,這種校對方式屬于傳統校對方式。“校異同”也就是在稿件上版之前,校對工作者拿原稿與排版打印出來的樣張逐字逐句對照,以原稿為準糾正樣張上的多字、漏字、錯字等錯誤,反復進行三次,即所謂的“三校”,直到樣張和原稿內容完全一致方可發布。
在進入計算機時代后,紙質稿件逐漸變為電子稿件,從而使原稿和樣張合二為一,這種改變對校對人員提出了更高的要求,要求校對工作對編輯工作起補充和完善作用,因此該階段由“校異同”開始向“校是非”轉變。“校是非”顧名思義就是校對文本內容的正確與否,不再是和原稿一致性的檢查,雖然這個階段的“校是非”比重較小,但這標志著傳統校對的創新和變革。
稿件電子化和對校對人員更高的要求催生了校對軟件,也就出現了新的校對方式,即“人機校對”。此時的校對軟件是采用N-Gram統計語言模型的校對計算技術,主要實現查找錯別字、專有名詞、標點符號等錯誤,相比人工校對提升了效率。舉個簡單的例子,“餞行社會主義核心價值觀”,該句中“餞行”一詞本身沒有錯誤,但在該句中卻是錯誤的,利用校對軟件能夠自動識別出這類錯誤。雖然校對軟件具有一定優勢,在識別文本的錯字錯詞方面提高了效率,但是其局限性也十分明顯,因而要求采用“人校+機校相結合”的方式。
基于N-Gram統計語言模型的校對,其實現方式可以簡單地按照如下思路理解:首先基于大量的語料進行分詞,進行統計得到N-Gram語言模型,對需要校對的文本,判斷相鄰詞語在語言模型中出現的次數是否高于一定的閾值,如果達不到該要求,則報錯。這種方法實現比較簡單,效果也比較一般,容易誤報和漏報。
新興的利用人工智能技術的校對軟件,是利用自然語言處理技術和深度學習技術,對大量語料進行模型訓練從而完成校對。算法人員依據行業規范、標準和業務知識設計對應的模型,讓機器通過模型去學習語料中的錯誤的案例和對應的正確的內容,同時以知識庫作為補充和完善,最終識別和提示稿件中的不規范內容,并給出修改建議。基于深度學習模型的方法需要更多的語料,實現更加復雜,但是效果相比傳統的N-Gram統計語言模型有明顯的提升。
目前市面上的校對軟件主要分為兩類,分別是基于N-Gram統計語言模型的校對軟件和利用深度學習技術的校對軟件,這兩種類型的軟件有各自的優缺點。
基于N-Gram統計語言模型方式實現校對的軟件,有以下優勢:一是進入行業早,客戶多,知名度高;二是軟件的功能多,通用性強。其缺點也是顯而易見的,由于采用的是傳統統計語言模型,效果一般。
利用深度學習技術的校對軟件,結合前沿的深度學習技術,具有以下優勢:一是利用深度學習技術滿足了不同業務場景下的語法錯誤校對,校對效果好;二是可快速優化效果,根據收集的錯誤案例及時優化模型,快速解決客戶的問題,其優勢非常明顯,在信息爆炸、新聞時效性高、稿件量大、工作任務緊、質量要求高的情況下,這種優勢變得越來越重要。
盡管校對軟件可以輔助人工審稿,提高審稿效率,降低錯誤率,但所有校對軟件的準確率目前都還無法達到100%。中國漢字語言博大精深,一字一詞錯誤就可能會差之毫厘,謬以千里。完全由機器替代人工完成校對工作是不現實的,因此依舊需要人機結合校對。
目前市面上的大多數校對軟件都支持網頁端、插件端等多種使用方式,編校人員可根據實際使用場景選擇合適的版本。如果媒體編校人員對文本格式要求不高,可以選擇網頁端的軟件,這種版本無需下載安裝任何軟件,直接登錄瀏覽器輸入賬號密碼即可使用,靈活易用。對于稿件格式有較高要求的編校人員,可以選用WORD插件或WPS插件,避免修改文本錯誤后再次調整格式的重復工作。
無論是基于N-Gram統計語言模型的校對軟件還是利用深度學習技術的校對軟件,在編校工作中都發揮了重要的作用,幫助編校人員提高了審稿效率,降低了內容錯誤率,助力機構把好內容安全生產關,避免不良信息傳播,增強其公信力與權威性。但目前校對軟件只能輔助人工審稿,不能完全替代人工審稿,編校人員依然要不斷學習,增強自身專業能力和知識功底。