胡佩 李小青
摘要:當前計算機校對技術整體報錯率高,對整句的糾錯能力較差,對古籍的校對能力不足,對科技名詞的糾錯能力弱,對圖表、公式及版式的校對能力弱。人工智能技術應用于校對有望提高字詞校對的準確性、整句校對質量、校對結果的時效性、高科技名詞的校對能力和古籍校對能力。人機協作趨勢下,校對人員應熟悉機器特點,更新自身知識結構,增強自身工作創造性。
關鍵詞:人工智能;校對;人機協作;應用前景
人工智能是研究開發能夠模擬、延伸和擴展人類智能的理論、方法、技術及應用系統的一門新的技術科學,研究目的是促使智能機器會聽(語音識別、機器翻譯等)、會看(圖像識別、文字識別等)、會說(語音合成、人機對話等)、會思考(人機對弈、定理證明等)、會學習(機器學習、知識表示等)、會行動(機器人、自動駕駛汽車等)。①杰弗里·辛頓及其合作者完善了深度學習算法,為人工智能的商業應用奠定了基礎,由此帶動人工智能研究和應用的熱潮并持續至今。
由于人工智能廣闊的應用前景和強大的產業驅動力量,包括美國、日本、歐洲在內的世界主要發達經濟體紛紛從國家戰略高度引導,在產業政策上培育人工智能技術。中國也于2017年7月發布《新一代人工智能發展規劃》,制定了新一代人工智能發展“三步走”戰略目標。國家層面的扶植和投入,極大地推動了人工智能的基礎研究和商業應用,成為人工智能技術未來發展和普及的重要保障。
人工智能的應用領域十分廣泛。在新聞出版領域,人工智能在寫作、組稿等方面已有所嘗試,如騰訊的Dreamwriter、華盛頓郵報的Heliograf等。②校對是新聞出版領域中的一項基礎性工作,本身具有相對客觀化、規范化的特點,較之寫作或組稿等工作更易于人工智能技術的實施。在智能化編校方面,一些最新的文獻以及相應的數字出版產業年度報告均有提及,但未進行過深入分析,且未見實際應用。可見目前人工智能在校對領域的應用尚未普及。隨著人工智能研究的深入和應用的推進,未來計算機校對有望從目前的自動化階段提升到智能化階段,從而大幅度節省人力資源。
一、當前計算機校對技術的現狀和不足
當前市場上計算機校對軟件種類繁多,既有文字處理軟件自帶的簡單校對模塊,也有功能更為強大的專業校對軟件。中文校對方面,技術上較為成熟的主要是黑馬校對和方寸校對兩款產品。目前的校對軟件是以主要由人工維護的字詞庫或語法庫為依托,通過軟件進行比對識別,查找錯誤并給出修正建議的。這一模式主要圍繞字、詞展開,對整句的語義解讀和校對乏善可陳,且存在著字詞庫擴容之后誤報率上升的固有缺陷。因此,這只能稱為自動化,尚不足以稱為智能化。雖然黑馬校對和方寸校對兩款主流軟件在產品宣傳中都宣稱應用了人工智能技術,但筆者實際使用過程中的效果感受并不明顯,例如字、詞校對結果中并沒有將一些常見的誤報濾去,整句校對能力依然十分薄弱,數據庫的更新仍主要依賴于人工維護而使時效性顯得不足。現階段校對軟件普遍存在的不足主要有以下五點:
一是整體報錯率高。由于校對軟件對錯誤的檢查主要基于自身數據庫與待校文稿內容的比對實現,對發現的不一致之處缺乏進一步核驗機制,誤報的情況比較普遍。隨著軟件自身數據庫規模的不斷擴大,誤報率往往隨之上升。有人根據經驗評估,初次使用黑馬校對時報紅(軟件認為肯定存在錯誤)的準確率在50%上下,報粉(軟件認為疑似存在錯誤)的準確率在15%上下;經過手工添加針對性的專業字庫并添加常用詞維護后,報紅準確率在70%上下,報粉準確率在20%上下。③鑒于此,大多數出版社在實際工作中都釆用人工校對后輔以軟件校對的方式。
二是對整句的糾錯能力較差。軟件一般只能簡單地比對字詞庫,在語義層面并不能具體問題具體分析。比如在一篇關于資產減值方面的文章中,作者用五筆打字連續輸入時,某一處“計提的差值準備不低于監管標準”,其中的“差值”應為“減值”,但校對軟件無法根據上下文提示這一錯誤。又如,對于用拼音輸入法輸入的“曹操親統大軍與六倍的軍隊交鋒”,“六倍”為“劉備”之誤,校對軟件同樣沒有任何錯誤提示。而類似的輸入法錯誤在稿件中會經常遇到。
三是對古籍的校對能力不足。由于古籍中文言文用字較少、語法結構復雜,且涉及通假字等情況,目前的校對軟件基本無法有效識別文稿中存在的錯誤。
四是對科技名詞(即專業術語)的糾錯能力弱。科技名詞是漢語詞匯中比較特殊的、專業性很強的一部分詞匯,一般由西文翻譯而來,經常出現同一概念在同一書稿中有不同叫法的情況。黑馬校對對科技名詞幾乎無能為力;方寸校對有一定的術語識別能力,但仍十分薄弱。
五是對圖表、公式及版式的校對能力弱。目前校對軟件對圖表、公式等的校對僅停留在文本層面,而諸如圖文不符、圖(表)序錯誤、圖表設計不合理以及圖表或各級標題的版式等其他常見問題基本上只能依賴人工校對。
二、人工智能技術在校對工作中的應用前景
現階段的人工智能技術,主要建立在以深度學習算法為核心的理論基礎之上,借助于計算機并行運算能力的大幅提高,通過優化的算法對海量標準化數據進行處理和分析,得出一些有用的經驗或結論,從而幫助人類在一些基礎性的工作中提高決策效率。技術的邊界,決定了現階段的人工智能技術只能服務于一些簡單且具備大數據支撐的基礎領域。
人工智能校對,是人工智能技術在自然語言處理方面應用的一個分支。相對于新聞撰寫等主觀性更強的領域,人工智能在校對中的應用更為便利。一方面,校對工作的客觀性和規范性較強,這意味著人工智能在進行海量數據(語料庫)訓練后可以具備比人工更強的查錯糾錯能力;另一方面,校對工作中不可或缺的常識、分散化的專業知識、情感表達及審美等主觀性、創造性的能力,又是當前階段的人工智能不具備的。
1.人工智能有望實現的功能
一是提高字、詞校對的準確性。字、詞校對是校對軟件的基本能力,但目前其突出問題是錯誤識別率高的同時問題報錯率也高,因而校對的結果仍需人工進行大量復核確認工作,使用價值大打折扣。校對軟件有望借助人工智能技術對已出版的規范文獻或圖書內容進行訓練學習,以及對校樣文本進行語義識別,自主對校樣進行審核和糾錯,將報錯率降至可接受的水平。
二是提高整句校對質量。目前的校對軟件在文稿的整句校對層面較為薄弱,人工智能在語言處理方面的積累和進步有望在這方面提升校對質量。借助人工智能,可通過對文稿內容的解析以及對已出版的規范文獻或圖書內容的對比,評估待校語句可能存在的語義錯誤并給出可靠提示。
三是提高校對結果的時效性。以黑馬校對單機版軟件為例,其內含79個專業詞庫、8,000萬條海量詞匯。人工智能技術介入后,有望在數據庫更新時實現批量讀取和分析,及時淘汰過期或錯誤的數據庫內容,這對于一些時效性較強的政策語、流行語和新科技術語等的校對工作非常有幫助。
四是提高科技名詞的校對能力。通過將全國科學技術名詞審定委員會公布的科技名詞實時納入數據庫,并通過語義分析評判文稿中名詞使用的合理性,從而給出準確的校對結果。
五是具備古籍校對能力。人工智能有望發揮其在大數據訓練方面的優勢,通過對大量規范化處理后的古代文獻的解析,在語義層面更好地理解文言文的語法結構和表達方式,彌補當前軟件在古籍校對方面的短板。
2.人工智能短期內無法實現的功能
一是無法校對圖表、公式等非文本內容。一些專業圖書或文獻中會出現較多的圖表、公式,這些內容由于格式沒有統一的標準,也缺乏足夠數量的可比較樣本,無論是傳統的校對軟件還是人工智能軟件對此都無能為力,即使是可見的將來也仍然需要靠人工進行有效的校對。
二是無法校對常識。文稿中涉及的諸多常識,如歷史朝代、國家毗鄰關系、人物生平等,在編輯看起來非常簡單,但機器處理起來卻異常困難。目前的基于深度學習的人工智能技術,對此并無良策。
三是無法校對邏輯性錯誤。目前的人工智能技術在跨領域推理和抽象能力方面還不成熟,基本上無法識別文稿中可能存在的敘事先后、因果、并列不當等邏輯關系的錯誤。
三、人機協作趨勢下對校對人員的建議
在當前人工智能的技術條件下,放棄完全依靠人工智能的幻想,充分利用機器在基礎工作中的高效率和人工在創造性領域的獨有優勢,走人機協作道路,是兼顧校對工作效率和質量的現實選擇。在人機協作趨勢下,校對人員應注意從以下幾方面提高自身的職業能力。
一是熟悉機器的特點,做到揚長避短。就傳統的校對軟件而言,其對字、詞的校對是強項,對整句、語義的校對是弱項;就未來的校對軟件而言,在字、詞的校對上功能可能會更加強大,對整句、語義的校對也有可能取得突破,但對于常識、邏輯關系等的校對依然會是弱項。校對人員在使用軟件的過程中,可以結合具體的文稿,摸清機器校對的長處和短處,合理安排工作重點和軟件使用的時機,以人機互補的方式提高工作效率和工作質量。
二是關注前沿科技,更新自身知識結構。科學技術的更新迭代,可能讓人類引以為傲的傳統工作能力瞬間失去市場價值,例如計算器取代算盤、自動駕駛未來極有可能取代駕駛員等。在校對領域,新技術的出現也會使得一些過去積累的經驗或技能失去價值。校對人員在平時的工作中可以適當關注科技熱點,通過使用最新版本的校對軟件等方式了解新技術的特點,及時淘汰過時的工作方式,更新自身知識結構,以此適應新環境下的工作要求。
三是增強自身工作的創造性,積累有價值的工作經驗。就目前的人工智能技術而言,它的能力邊界不是無限的。在可見的未來,人類的創造性工作仍然是機器無法取代的。校對人員在日常的工作實踐及學習中積累的特定領域的常識、文本規范和語言邏輯等方面的知識,是機器難以掌握和取代的,也是校對人員價值的最有力體現。校對人員可以在日常工作中注重培養和提升此類創造性工作能力,打造專屬于人類自身的價值。
注釋:
①譚鐵牛.人工智能的歷史、現狀和未來[J].求是,2019(4).
②武菲菲.人工智能技術與出版行業的融合應用[J].出版廣角,2018(1):26-28.
③張淵.黑馬校對軟件應用當議[J].出版廣角,2018(3):58-60.