鐘遠薪,王 蕾,楊新涯,薛 玉
徽州文書是現存數量最多的民間歷史文獻[1],是歷史上徽州人在社會生產、生活與交往過程中形成的原始憑據、字據和記錄。徽州文書的大量發現和利用使得學者可以立足于徽州區域研究提供的豐富內涵,更好地解釋中國的大歷史[2],促使以徽州文書研究為中心、綜合研究社會實態、探尋中國古代社會后期發展變化規律的新學科“徽學”的出現[3]。
徽州文書數字化是其廣泛利用與研究的基礎。著名學者劉志偉認為“理想中的數字化是全文錄入,中山大學圖書館館藏徽州文書只有建立全文數據庫,才真正談得上數字化”[4]。提取全文文本、建立全文數據庫是輔助學者運用數字人文視角、方法和工具去鳥瞰、分析和挖掘徽州文書的前提,也是幫助學者更深入地掌握文獻、拓展研究和發現新知的必要工作。
Optical Character Recognition(OCR,光學字符識別技術)是圖像文字轉化為文本的主要技術,被廣泛地應用到古籍文本化工作中,取得了良好效果,《四庫全書》《中國基本古籍庫》等重大史料全文數據庫得以建成。徽州文書存在大量不規范手寫字、異體字、簡化字及相似字,且文字殘缺或模糊,排版復雜,形制各異,OCR應用效果不甚理想,其文本提取仍以手工錄入為主,全文數據庫建設進展緩慢。近年語音識別技術日趨成熟,已被廣泛應用到各種生活與工作場景。能否利用語音識別技術提高徽州文書文本轉化的效率,為其全文數據庫建設提供新方法,是一個具有探索意義和實際應用價值的問題。
迄今徽州文書數字化研究主要涉及數字化掃描、元數據標引、數據庫建設等內容。金再華探討了分步建立題錄數據庫、全文數據庫的數字化構想[5];俞乃華等介紹了徽州文書整理與建庫流程[6];秦楓等探討了徽州文書數字化路徑[7];張曉峰等從標識、內容和物理外觀等方面定義徽州文書的描述數據,歸納徽州文書元數據標準的內容和結構[8];張潔等介紹了契約文書描述性元數據的功能、設計原則與思路[9];王蕾等從數字人文視角討論徽州文書數據庫的建設思路和元數據體系,提出全文檢索與數據關聯的設計方向[10]。在實踐方面,1999年中國社會科學院歷史研究所率先建設宋至民國時期14,000余件徽州文書資料庫,2005年安徽大學開始建設“徽州文書書目數據庫”,2007年黃山學院建設“徽州文書特色文獻數據庫”,上海交通大學出版社隨后開發“中國地方歷史文獻數據庫”,目前安徽師范大學圖書館“徽州歷史文化特色數據庫”、中山大學圖書館“徽州文書數據庫”也在加快研發步伐。這些數據庫建設大致經歷了書目庫建設、特色庫建設和研究平臺3個階段[11]。已建成開放的徽州文書數據庫以圖像為主,僅“中國地方歷史文獻數據庫”提供9,000余件徽州文書的全文檢索。
文本化是徽州文書數字化的關鍵。從相關研究與實踐看,以手寫字體為主的民間歷史文獻、檔案文獻的文本提取,主要采取手工錄入為主、OCR識別為輔的方式。雖然手工錄入效率低、成本高,但長期以來是許多文本化項目得以切實開展的唯一手段,不少數據庫在耗時日久、歷經艱辛之后得以建成。近年眾包理論被應用到實踐[12],一定程度上提升了手工錄入效率。OCR很早就被用于文獻資源加工,孫承鑒等早在1993年就研究如何在圖書館中應用手寫文字識別技術[13],黃晨等介紹了CADAL項目中構建可持續發展OCR系統的實踐[14],王玲麗概述了上海圖書館近代文獻全文OCR過程[15],顧磊等探討了古籍全文文本化中OCR技術應用的若干問題[16]。在國外,“威尼斯時光機”“梵蒂岡秘密卷宗”等項目成功實現了大量歷史檔案手寫字母文字的識別[17-18]。OCR應用于民間歷史文獻領域最大的挑戰在于手寫漢字識別,雖然隨著深度學習技術的發展,手寫漢字識別在方法和性能上取得突破性進展,但大類別、無約束、文本行等問題仍有待解決[19]。對徽州文書而言,數量龐大、內容復雜、形制不一、字體多樣、字跡潦草等特性使得OCR的應用進一步受到了限制,目前尚未見徽州文書領域應用OCR的專門研究和實踐報道。
語音識別是讓機器通過識別和理解過程把人類的語音信號轉變為相應的文本或命令[20],其技術發展大致分為3個階段。1950-1960年代是初步發展階段,線性預測分析與動態規劃技術解決了語音信號的特征提取問題,使語音識別基本可用。1970年代至21世紀初是突破階段,高斯混合模型-隱馬爾科夫模型(GMM-HMM)被應用于大詞匯量連續語音識別,取得了良好效果,并與其他領域技術結合,提高了識別準確率,實現了產品化。近10年是成熟階段,2009年深度學習首次被應用到語音識別任務,相比于傳統GMM-HMM模型,獲得超過20%的性能提升。此后基于深度神經網絡的聲學模型逐漸成為語音識別聲學建模的主流,大大促進了語音識別技術發展,突破了某些實際應用場景下對語音識別性能要求的瓶頸,使語音識別技術走向真正實用化[21]。
隨著大數據的爆炸式增長和漣漪效應理論的深入應用,語音識別已成為人工智能領域最成熟、落地最快的技術[22],多種場景下的識別率逼近100%,針對不同行業需求的語音識別產品不斷涌現,并普遍應用于現代社會。語音識別技術主要有語音交互、語音翻譯、對象識別和語音輸入4種應用模式。語音交互應用最廣泛,包括各種指令系統、智能家居控制系統、智能語音助手、語音交互機器人、語音社交工具等;語音翻譯主要用于同聲傳譯等多語種場景;對象識別則包括物體識別、人物識別以及情感識別等方面;語音輸入更多用于各種文字處理與資料轉錄場景之中,如1994年有文獻提出應用語音識別技術進行手寫字體識別的方法[23],醫學領域也曾廣泛討論語音識別技術用于病歷檔案的處理。
圖書館與檔案領域對語音識別技術的研究集中在語音交互方面,如研究圖書館服務機器人語音指令系統[24-25]、描述圖書借閱證語音掛失系統的設計與實現[26]、探討圖書館應用語音識別技術開展信息無障礙服務的舉措[27]、探討語音識別在檢索系統中的技術方案[28-30]、提出小型語音交互移動數字圖書亭設計概念[31]。因為缺乏應用場景,幾乎沒有對語音翻譯與對象識別的應用研究。在語音輸入方面,2002年的一項研究提及語音識別用于文書檔案數字化的方法[32],但后續未見深入探討。近年智能錄音筆、檔案機、智能語音錄入系統等產品相繼面世,已有檔案館將其用于口述史收集、音視頻檔案數據轉換等實踐[33]。總的來說,利用語音識別來進行諸如文獻資源著錄、文本提取、內容轉換等資源建設方面,仍處于初步探索階段。
中山大學圖書館是收藏徽州文書數量最多的機構,正全面展開徽州文書數字化。現階段通過手工錄入提取數十萬件徽州文書的文本是一項成本巨大且耗時日久的任務,應用OCR提取文本仍存在前處理困難、識別率過低等技術障礙。當前語音識別的準確率已近乎100%,具有一定文化、經過簡單培訓的人員可以很好地識別并朗讀文本內容,通過語音識別技術將朗讀的語音轉化為文本,應該具有可行性,并且能夠大幅提高徽州文書文本提取效率,從而推動館藏徽州文書全文數據庫的建設。為此,本文進行手工錄入、OCR和語音識別的對比實驗,以求答案。
2.2.1 方法概述
通過不同層次和水平的實驗人員,利用相同的實驗設備,分別采用手工錄入、OCR、語音識別的方法,對若干徽州文書圖像的文本進行直接提取和校正提取,并記錄操作時間和提取結果,計算得出識別率及識別時間,從而進行比較分析,以驗證語音識別技術用于徽州文書文本化工作的可行性和適用性。
2.2.2 實驗對象
實驗選取10頁徽州文書作為研究對象,涵蓋歸戶清冊、黃冊、婚嫁禮單、家譜、賣契、書信、稅票、訴訟文書、魚鱗冊及賬單(見圖1)等主要類型,均以豎排、手寫漢字為主,部分文書內含有地圖、印章等圖形信息。污損情況包括涂改、污漬、模糊、缺失等,按嚴重程度分為無、一般和嚴重3種,注明客觀條件下無法識別的字數。文字內容特征分為白話文、半白話文和文言文3種。為建立相對一致的實驗條件,所有文書均掃描為數字圖像,并進行簡單的糾斜和裁邊處理,且文本內容已被準確提取用作標準答案,總字數包括無法識別的字數。實驗對象情況見表1。

圖1 徽州文書之賬單

表1 實驗對象信息表
2.2.3 實驗人員
實驗人員共5人,包括從事徽學研究的專業研究人員、從事徽州文書文獻處理的專業館員、普通館員和大學生。實驗人員信息處理能力是指經初步培訓后的錄入設備及數據加工系統使用能力,分一般、熟練和精通3類;識字能力是指對徽州文書中簡繁體字及異體字的識別能力,分一般和精通兩類;普通話水平分一般和良好兩類。具體人員信息見表2。

表2 實驗人員信息表
2.2.4 實驗設備
不同的實驗設備會對實驗結果造成影響。在確保實驗結果不會因實驗設備產生顯著性差異(P<0.05)情況下,選擇市場上可獲得的評價較高、效果較好的主流設備作為實驗設備。手工錄入實驗設備為高性能雙屏個人電腦,一個屏幕顯示圖像,一個屏幕顯示錄入工作區,并由實驗人員選擇其所熟悉的輸入法。OCR實驗設備為高性能雙屏個人電腦,經過多份徽州文書對比測試,漢王、書同文、百度云、騰訊云等多個主流OCR引擎的識別準確率相差在5%以內,其中騰訊云OCR識別性能較為穩定,總體識別準確率最高,因此基于騰訊云API開發識別軟件進行實驗①。語音識別實驗設備為高性能雙屏個人電腦與科大訊飛智能錄音筆SR701。
2.2.5 實驗步驟與要求
為避免實驗人員因重復操作而熟悉內容進而影響實驗結果,實驗設計每份文書僅被同一位實驗人員使用每種方法提取2次:第1次為直接提取,第2次為校正提取,分配見表3。實驗人員在實驗前均未接觸實驗對象及其標準答案。實驗以符合徽州文書數字化工作流程為基礎,遵循徽州文書數字化工作的相關標準和規范,并以現有條件下取得最高識別率為首要要求,兼顧錄入效率。每份文書共被提取2次,其技術要求見表4。

表3 實驗分配表

表4 實驗技術要求說明表
2.3.1 實驗結果
將每份文書的提取時間記為識別時間,單位為秒(s),識別結果與標準答案比對結果記為識別率,以百分比表示,實驗結果見表5。取各種方法識別率最低的結果為最低識別率,識別率最高的結果為最高識別率,并統計平均識別率和平均每100字的識別時間,實驗結果統計信息見表6。

表5 實驗結果一覽表
2.3.2 結果分析
表6表明,語音識別與手工錄入相比,直接提取識別率存在較大差距,但平均百字識別時間僅為手工錄入11.7%,校正提取后識別率相對手工錄入差距明顯縮小,識別時間約為手工錄入16.9%,顯著提高效率。語音識別與OCR相比,直接提取平均百字識別時間是OCR近22倍,但校正提取兩者在耗時方面已接近,二者平均識別率分別從39.50%上升到67.01%及從53.94%上升到80.22%,對中山大學圖書館徽州文書數字化工作而言,達到基本可用的水平。

表6 實驗結果統計表
手工錄入準確率最高,排除文字缺損無法識別的情況,理論上可以達到100%,但耗時較長。OCR耗時極少,但受版式、字體及異體字等客觀障礙影響,識別率最低。在實驗中OCR直接提取最高識別率為刻印類型文書的識別,達到86.84%,但大部分手寫文書的識別率僅15%~40%,實驗平均識別率為39.50%;經過前處理采用分塊提取的情況下,耗時較手工錄入仍低一個數量級,但其識別率僅53.94%,達不到規模應用要求,不過OCR對刻印型文書的識別表現出較好的處理性能。語音識別率主要受表達方式影響,徽州文書在語言表達、語詞運用方面均與現代漢語有很大不同,而當前主流語音模型是基于現代語音數據訓練出來的,因此容易出現錯誤,導致文言文和半白話文識別率較低。此外,同音字、偏僻字是影響識別率的另一主要問題。通過配置個性化熱詞表可以將語音識別的識別率從67.01%提升到80.22%。從實驗還發現不同專業層次人員語音識別錄入的識別率和時間差異并不明顯,表明該方法具有不錯的用戶適應性。
綜上,雖然語音識別用于徽州文書的識別率僅80.22%,仍需手工修改,但相較于OCR已有顯著提升,同時識別時間比起手工錄入明顯減少,可大幅提高徽州文書的文本提取效率,對館藏機構而言已達到基本可用水平。
文本提取只是語音識別技術的基本應用。通過設定語音指令,根據不同功能需求,定義不同的語音輸入與文本輸出規范,并結合語義網絡、知識圖譜等技術,語音識別在徽州文書數字化工作中具有多種潛在的應用模式。
如圖2所示,簡單文本化模式是直接利用手機、智能錄音筆等語音識別設備或各種語音識別系統來進行語音轉寫,從而提取文本的應用模式。這一應用模式已被實驗證明具有可行性,且實施靈活方便、成本低廉、可廣泛開展,其缺點在于僅完成了文本提取,圖像與文本對應、數據入庫等工作仍需后續處理。

圖2 簡單文本化模式架構圖
對文獻進行編目,建成數據庫以實現檢索和文獻獲取功能,是文獻數字化的基本需求。建庫模式通過設定語音指令或在錄入界面中進行字段拆分,將語音轉化為文本與題名、文書類型、錄文等數據庫對應字段,從而實現元數據標引,達到快速建庫的目的,已經成為各類檔案機、智能語音錄入系統的基本應用模式。這一模式在現有建庫系統上進行簡單擴展即可實現,具有實用性強、可行性高、系統改造成本低等優點。一種典型的建庫模式架構如圖3所示。

圖3 一種建庫模式架構圖
數字人文研究要求對文獻內容中的人物、地點、時間、事件等實體進行規范標注、形式化描述和聯系構建,以支持實體、實體屬性及實體關系的機器自動識別、關聯揭示和開放利用。當前主流的語義建庫一般分步開展,即先進行全文建庫,再通過人工或機器學習等手段,實現實體、屬性和關系的抽取、鏈接和入庫,其中利用人工干預提高建庫質量這一步驟不可或缺。語義化模式是一種在文本化過程中同步實現語義信息提取的設想,用戶通過二次朗讀,向語音交互系統發出語義語音指令,如“語義指令-人物-XXX-XXX”“語義指令-時間-XXXX年”,激發語音交互系統向語義數據服務系統發起查詢,并根據返回的數據,產生文檔的語義標注數據,進而實現語義建庫的功能,圖4為一種典型的語義化模式架構。

圖4 一種語義化模式架構圖
為提高建庫效率和質量,眾包理論被廣泛研究與運用。眾包不僅可以利用互聯網整合大眾力量來完成大規模的數據處理工作,還可以通過多重標記校驗數據并提升其準確性。當前眾包建庫實踐中主要以手工錄入為主,鑒于語音錄入的便捷性,開發在線語音知識化眾包平臺,面向大眾收割全文片段、元數據乃至命名實體的語音,進而實現數據提取的大規模多人在線知識化模式是徽州文書數字化工作深入推進的可選路徑之一。
大規模多人在線知識化模式要求系統具備錄入界面簡潔、錄入文本不宜太長、任務設計簡單并有一定的挑戰性、適合社交網絡傳播等特點,主要收割短語音,在此基礎上提供數據智能比對、知識抽取與融合等復雜功能。一方面利用同一份文書的多重標記數據、徽州文書規范數據和開放關聯數據,對用戶輸入進行比對和糾錯,累積校正數據以訓練機器,以提升系統的整體效率。另一方面,應用成熟的知識圖譜技術實現數據整合、信息抽取、數據鏈接和知識融合,將推進徽州文書數字化從數據庫向知識庫轉型。一種典型的大規模多人在線知識化模式架構見圖5。

圖5 一種大規模多人在線知識化模式架構圖
針對徽州文書數字化工作中文本提取的困境,本文提出一種可行的語音識別方法,具有多方面優勢。一是簡化全文建庫步驟,無需對徽州文書進行掃描、圖像優化等前處理即可開展文本提取和數據加工工作;依托于建庫系統,同步實現全文建設、字段標引和語義標注等功能,可進一步減少后處理步驟。二是提高工作效率并降低成本,識別時間僅為手工錄入16.9%,校正平均識別率超過80%,較OCR提升超過25%;對中山大學圖書館需求而言,達到基本可用水平,所用到的設備及系統均有成熟產品,價格低廉,易于在原有建庫系統上進行改造拓展,使得在現階段開展徽州文書全文建庫成為可能。三是降低對建庫人員的要求,具備一定識字能力且普通話相對標準的人員經過簡單訓練后均可取得比較理想的提取效果,從而使眾包具有應用優勢。
語音識別在徽州文書數字化工作中具有多種潛在應用模式,從最簡單的文本化到大規模多人在線知識化,語音識別均可發揮重要作用。不同收藏機構能根據資源規模、保障條件和技術水平,探索符合自身發展的應用模式。在市場上,智能錄音系統、智能檔案機等配套產品已出現,為應用落地提供了完善的支撐條件。在徽州文書文本化工作中,語音識別技術具有適用場景和重要的應用價值。
本文提出的方法還可以實現多維建庫功能,從而產生有價值的衍生品,即與文書內容相一致的語音檔案。這些語音檔案將來可以被用到無障礙服務、多媒體融合、語言研究及二次創作之中。
本文使用10頁不同類型的徽州文書作為實驗對象,雖然足以證明方法的有效性,但尚不能全面反映徽州文書的豐富性;實驗人員較少,總體專業性較強,在廣泛代表性上有所欠缺;實驗的設計也可以進一步優化。因此,實驗的結果可能存在一定的誤差。本文所提出的應用模式仍有待實踐的檢驗,目前中山大學圖書館正在研究開發相關小程序,更深入的數據分析與論證有待下一階段實踐工作的總結。
實驗中發現,語言表達方式和偏僻字、同音字是影響識別率的主要問題,但本文并未進一步展開研究。除應用熱詞表和提供候選詞外,如何針對徽州文書的用詞特點建立領域詞表,并逐步構建徽州文書深度神經網絡模型以提升識別率,是深入應用語音識別技術開展徽州文書文本化工作必須面對的挑戰。此外,單一技術的應用具有局限性,如何根據手工錄入、OCR等不同方式的特點與優勢,融合多種方法,構建更為合理的徽州文書文本化場景,也值得研究。
在語音識別技術發展成熟的背景下,本文研究了利用語音識別提取徽州文書文本的新方法。相較于手工錄入與OCR而言,該方法具有可行性,并且可以根據實際情況采取簡單文本化、建庫、語義化和大規模多人在線知識化等不同應用模式,具有適用性,是徽州文書數字化研究的一次有益嘗試。目前市場上已經出現可用于規模化生產的語音識別工業產品,因此在現階段及未來一段時間內,該方法具有應用價值,可為民間歷史文獻數字化工作帶來有益的參考。
本文提出的方法雖然簡化了徽州文書文本化工作的步驟、降低了成本并提高了效率,但作為一種間接應用,人的高度參與依然不可或缺,在開展大規模徽州文書全文建庫工作時仍需要付出較大的人力成本。隨著算法的進步和專業數據集的擴大,手寫漢字識別將會不斷取得突破。從技術發展趨勢來看,OCR仍是徽州文書文本化最有價值的技術。就當前實踐而言,如何融合語音識別、OCR等多種技術提升文本化工作的效率,仍是現階段迫切且重要的課題。
注釋
①實驗時間:2020年12月4日,接口域名:ocr.tencent?cloudapi.com,利用GeneralAccurateOCR和General?HandwritingOCR接口實現刻印字體和手寫字體識。