吳志勇,韓小荊
(1.湖北大學新聞傳播學院;2.武漢大學文學院)
詞匯是語言和語言學的基礎。房山石刻經文(以下簡稱“房山石經”)作為古籍的重要組成部分,其中的漢字與悉曇梵文為宗教學、漢語言文字學、藝術等領域提供了多種研究視角。根據古文字字形與現代漢字的對應關系,古文字大致可以分成三類:已識字、歧釋字和未識字。本文研究對象為第三種,即尚未得到考釋、無法隸定且沒有對應的現代漢字的古文字。[1]本文沿用臺灣學界整理古籍的慣用,稱其為缺字。在整理房山石經過程中,盡管有大量文字可通過現有字庫表現出來,但仍有一些缺字游離于各種字庫之外。本文以校勘、整理《大佛頂陀羅尼》個案為突破口,探討古籍缺字數據庫的內容建構與流程管理的一些思路與視角,期望引起學界對項目流程管理的更多關注。
學界和業界把漢字字庫和相應的輸入法認為是衡量古文字數字化處理水平的一項重要參考指標。古籍整理過程中會遇到大量生僻漢字,可通過方正超大字符集、SuperCJK超大字符集,或日本“今昔文字鏡”等字庫進行查詢,但異常現象時有發生。尉遲治平等根據《廣韻》《集韻》《漢語大字典》等古籍,對五千多個中文漢字字符進行了造字處理,并開發了漢字超大字符集輸入法,[2]彌補了ISO10646字符國際編碼標準與Unicode統一編碼方案中的缺陷。華中科技大學創建了13個甲骨文子字庫和24個金文子字庫的通用古文字字庫。[3]業界和學界的共同努力,為古籍數字化進程起到了重要的推動作用。
《說文解字》將9,353個正篆分別歸入540部首下,實現了漢字字形與字理的初步規范化管理。現代漢字構形學理論主張從部件功能和組合方式等方面來分析漢字的構造。李晶認為,基于字型結構的漢字造字數據庫中最基本的信息是漢字結構描述信息、部件描述信息以及漢字索引信息。[4]趙彤通過分析小篆的結構特征,按照設計的漢字構造的關系模型和部件位置與功能的描述方式,使用數據庫軟件Microsoft Acess嘗試建立一個漢字字形數據庫的樣本。[5]臺灣“中央研究院”提出以部件為基本構型單位的“漢字構型資料庫”,中華電子佛典協會CBETA提出用大五碼(BIG5)為構字部件,[6]這兩種“組字式”紀錄方式都在一定程度上完善了現有字庫。
項目流程管理主要涉及項目與任務的流程分配、進度跟蹤、人員安排等,同時也能對數字資產進行數據存儲、查詢、版本控制與安全管理。20世紀90年代起,CBETA開始佛典數字化,他們首創的佛典古籍的數字化流程[7]具有重要的指導意義。北京大學釋法幢[8]從作業流程、技術規范與技術研發角度對這個流程進行了拓展。北京大學葉少勇先生對梵巴文獻校勘中的信息處理提出了有意義的寫作規范。中華書局下屬的“籍合網”平臺被認為是目前國內權威的古籍數字化與古籍整理門戶網站,該平臺提供有標點、注釋、校勘、翻譯等在線編輯模塊,能極大提高項目管理的效率。
近年來,生產管線(pipeline)的理念在數字媒體行業中引起了極大關注,一些影視節目制作開始有意識地運用項目管理思維與相關技術組織生產,部分公司已經開始部署相關商業軟件平臺。[9]工作流按應用領域主要分為專業的Alienbrain(Avid)等商業流程處理系統,以及Taverna、Kelpler、VisTrails、DimStiller等科學工作流系統,也包括Project(微軟)、丁丁(阿里巴巴)等民用項目管理系統。工作流管理本質是多個用戶之間按照某種預置規則傳遞文檔、信息或任務的自動過程,[10]其需求目標是效率的最大化。對于小型工作室而言,在古籍缺字整理中,通過借鑒國外數字媒體行業中數字資產管理平臺以及流程管理平臺,完成項目流程的建構與相關的海量數字資產管理,能夠將所有的缺字建檔紀錄,將缺字的注音、筆畫、部首、通用字等相關信息,形成一個完整的缺字數據庫,最終匯集到“漢字資料庫”中。
《大佛頂陀羅尼》中的疑難漢字并不多,但是如果把整個房山石經中的未被收錄的漢字累積起來,將是一個較小型的數據庫了,因此需要采用更高效率的項目管理方式來完成這個龐大的任務。本項目主要基于云平臺的項目管理軟件Ftrack完成。

圖1 缺字造字的項目管理
圖1 所示是可視化項目管理中的計劃任務部分截圖,左邊列表部分可看到主要任務清單以及完成進度(工作狀態、人員分配、任務描述、到期日期、工作時間);中間任意的任務都可創建子項目、為項目組成員遠程審閱提供相關資源文件,也可調用本地的相關應用程序下載相關數字資產;表格的右邊是工作日程甘特圖等內容運用項目管理系統,可通過對數字資產、計劃任務、人員分工等主要目標的可視化跟蹤與調度,形成一個“資產更新,團隊銜接,任務迭代”的工作流。
古籍缺字數據庫建設可通過縱向和橫向兩個視角來完成。第一,橫向視角,或稱為數字資產管理視角。對拓本圖片、漢字缺字字體、悉曇缺字字體等每一種文件類型,都會從案例與規范、需求與原型、模板與設計3個管線步驟進行。收集學界、業界對于該拓片或字體的處理方法,通過借鑒,了解行業規范與標準,制定出適合本項目的規范。圖片或字體的需求確定后,形成一個原型草圖,并設計出該類文件制作的通用模板。用于進行后續的設計、開發等環節。如圖1中的“缺字登記表”,通過版本收集,獲得一手資料,在整理中研究、制定規范和標準,發現疑難,聯系相關專家進行解答,最終形成一個規范化的表格文檔。第二,縱向視角,或稱為流程管理視角。本數據庫以學界公認的487句的《大佛頂陀羅尼》為藍本,研究其文字、讀音,將正確的悉曇梵文與缺失的悉曇梵文字體以及字庫中缺失的漢字重新造字,還原完整的悉曇、漢字對照版本,提煉漢字、悉曇對照數據庫,以便于后續的查詢檢索。作為一種典型的過程管理,必然存在諸多管線環節的銜接與交替。從面向對象的角度來說,信息、文件夾、數字資產、任務、里程碑都是對象,存在著“新的”“進行中的”“審閱的”“暫緩的”“關閉的”“提醒的”“丟棄的”“完成的”“通過的”等工作狀態。對于不同的環節,設定有不同的任務,每個任務中分別由不同的管線組成,常見的設計、測試、除錯、討論與審核等等共同任務,也會有面對特定目標的具體任務,如數據庫開發部分,將任務分解為:數字資產分類、軟件界面設計、交互腳本設計、預覽發布等目標。同時每個任務又將不同的管線分配到不同的人,他們需要使用甘特表關聯到具體的日程等。
在研究過程中,通過提出問題、制定計劃、調研考察、信息反饋、專家論證、制定方案等途徑,對現有系統進行總結,提取合理框架,并對本系統架構、功能與接口等等進行合理化規劃。力圖用最接近目標需求的方法來規劃文獻整理工作與各項任務。以上項目完全通過Ftrack在線系統來完成,從用戶體驗的視角來看,該平臺能夠滿足古籍缺字整理的所有環節。
古籍缺字數據庫建設過程中元數據轉換涉及到圖文采集、元數據編目、數據存儲、信息發布等方面,必須嚴格遵循統一標準才能確保數據庫建設的質量和項目管理平臺的規范性和可用性。如,對于字庫,計算機編碼采用的是“一字一碼”的方法,無論采用何種字體,區位碼都是唯一的,如“子”的unicode都是uni5851,造字時將新造的不同風格的字體的序號保證與ISO10646字符國際編碼標準與Unicode統一編碼方案等一致。①檢索規范。吸取了各類漢語詞典與梵文詞典的優點,無論是漢譯,還是羅馬轉寫都必須可進行漢字檢索(按照悉曇18章次序進行檢索)或梵文檢索(按照Monier-Williams Sanskrit-English Dictionary、梵和大辭典等梵文詞典的次序進行排列)。本數據庫也配有專門的檢索表,用于快速定位到相關詞條。②圖文規范。本數據庫區別于傳統詞典的最大特色是收錄了拓本圖片,因此編寫規范與傳統的梵漢詞典有很大的不同。如圖4所示,在數據庫制作中,圖文的版式設計采用表格方式,并且數據庫第2列(石刻梵文)、第5列(石刻漢字),分別收錄了《房山石經》中石刻拓本中的漢字與梵文拓本,保留了原始石刻的雕刻風格的字跡風貌。為了節約版面,我們刪掉了重復的或者略有差異的字型。③詞語典型規范。在詞條制作規范上,本數據庫中第6列(所在例句),選用了《大佛頂陀羅尼》中的典型詞語,并采用“悉曇回譯—羅馬轉寫—漢語”三行上下對照,符合傳統古籍整理的規范。第7列(序號頁碼)給出了該詞語在原始石刻拓本中的序號和頁碼,便于查詢。④釋義規范。選用《梵和大辭典》中的釋義,個別未收錄詞語則選用《佛光詞典》的解釋,便于對照學習。
從大佛頂的記載來看,經文于公元898年由行琳大師收集,公元1147年刻經。石刻為梵漢對照,但主要是漢字音譯,梵文只有580多個。為了準確還原原始的漢字,古籍缺字數據庫的建設流程主要分為以下幾個步驟。
從字符范圍看,石刻中絕大部分字體都可以在宋體字庫、SuperCJK字庫中找到,少數偏僻的字體,上述字庫都沒有收錄。根據石刻拓本,通過檢索、核對,將石刻中超出SuperCJK超大字符集的27個漢字的拓片剪裁下來(如圖2),將這些文字匯總后作為造字的依據;從編碼方式看,對于同一文字不同寫法,劉根輝等人采用“不同的字形設立不同的字庫,建設不同的子字庫”的辦法。這種辦法符合“一字一碼”的基本要求,也可以形成一個容納同一個字的不同字形的古文字數據庫,從而便于后期的檢索和使用。從圖2中可以看到,有些文字字形略有不同,但基本可歸為同一字體,推測原因為本拓本為同一時期石刻,因此不必創建“子字庫”。

圖2 拓本疑難字符(部分)
由于漢字的獨特性,幾乎所有字庫建設都要對偏旁部首或者是部件進行事先規劃,從而為后續文字制作提供便利(即使是小型字庫也需要6,000多個漢字)并保持風格一致。目前的字庫都是以整個漢字為存儲單位的,不論是點陣字庫還是曲線字庫(如TTF字體),基本制作方法都是基于位圖的掃描、勾線兩個環節,即需要對每個漢字進行整體掃描,使用工具軟件對位圖文件進行描邊修整、調整結構、設置屬性、分配區位等。這里涉及到兩個關鍵的問題。①字體的存儲方式。林光明先生制作的悉曇字符,將20多位不同的書法家的作品統統放在同一個字庫下,這種方式雖然便于集中管理,但是給輸入法也帶來了諸多不便。本文主要采用劉志基先生曾提出的“將各個類別的古文字字形分出層次,依層次再建立較小的字庫”方案來完成,即對于同一unicode碼的異體字,另行做一個單獨的子字庫。②字樣選取標準,有專家以毛澤東書古詩詞手跡、題詞系列手跡為樣本,提取有效不重復字一千六百余個,再運用文字學研究中的構形理論、字源理論、字族理論和模塊理論,分離出草書偏旁符號和字根符號,并對其進行有機組合,形成6,000多個字符的“草檀齋毛澤東字體”。[11]圖2中的異體字,如何選用代表性的字符,需要從字形結構標準、筆形標準、筆畫標準、字形標準、字體演變、字符流通性等視角來考察。
基于以上考慮,最終確定使用造字程序,將圖2中的27個漢字中的24個字符制作成標準的ttf字體,命名為:大佛頂陀羅尼難字.ttf。為了交流的方便,我們采用標準的宋體部件。當然,如果有必要,也可以根據其他字體的已有部件完成相對應的字體。
將新造的“楞嚴咒難字.ttf”字體安裝或拷貝到c:windowsfonts中;在word等文本編輯器中使用新造的字體,若沒有正確拷貝造字文件,在doc文檔中對應的位置會顯示出一塊空白。
為了準確核對新造字體與原版拓本之間的差異,制作“新造缺字登記表”。在尚未拷貝造字文件到c:windowsfonts中的情況下,可通過bmp圖片(含新造漢字以及所對應的梵文)查看造字情況;在已經拷貝造字文件的情況下,可通過Word文本版,采用《大佛頂陀羅尼》中的例句作為案例,查看造字情況。二者內容完全相同。
在傳統的計算機領域,E-R模型往往用于描述數據結構和數據走向,對該模型的深入研究有助于古籍缺字數據庫的功能模塊設計。常見的字體信息包括:字體名稱、家族名稱、版本號、版權信息、創建時間、修改時間、版權信息。而對于拓本重建字符,還需要補充字體本身的一些信息,如:序號(unicode或id)、石刻梵文拓片(圖片)、新造悉曇字符、羅馬轉寫、石刻漢字拓本、新造漢字、所在例句、字符來源等等。數據表是古籍缺字數據庫建設和管理的基礎,通過合理規劃各種數據表的關聯關系,設計出項目管理平臺的功能模塊。
Ftrack部署在CentOS服務器上,使用MariaDB作為其數據庫。資產元數據采用多個具有實體、屬性、值(EAV)的傳統數據表(資產內容、編碼解碼方法、源文件出處、所有者、權限等等)來完成,既兼顧了固定流程,也留出了讓用戶自定義的余地。各種數據表多視角呈現工作流程,功能細分復雜。本文結合實踐設計的部分古籍缺字數據庫建設E-R關系模型見圖3。
對佛經文字中的生僻字、疑難字、同形字進行歸納,建立“異體字表”,[12]對匡正訂補部分缺字具有直接的借鑒意義。秉承此理念,本數據庫制作過程中將字形(漢字石刻拓本、對應的梵文拓本)、讀音、例句、詞義等按照數據庫的方式進行組織(見下表),形成詞典的原型,為后續相關研究提供圖像、文本等數字資產,其強大的檢索功能也可為后續研究提供更多便利。

圖3 古籍缺字數據庫E-R關系模型(部分)

表 缺字新造字數據庫(部分)
印刷出版、廣播電視、影視制片等行業正邁向以工作流管理為核心的數字化、網絡化的歷史新階段。文章通過可視化項目管理確保文件安全、計劃任務和小組分工的無縫融合,以《大佛頂陀羅尼》為案例,通過商業協同編輯平臺由項目組成員在教學科研過程中不斷積累、修改、完善,其流程中包含的各類子環節,通過成員的技術素養的融合與作業流程的規范化,可以形成高效率的流程管線,較好地對字體、圖片、文檔等數字資產進行系統化整理,形成完善的數據庫。古籍缺字新造字數據庫直接彌補了現有字庫與漢語詞典的不足。此外,從可視化項目管理視角對古籍數字化建設進行研究具有重要的實踐意義。可作為古籍數字化可視化的參照樣本,從而引起更多學者關注這個領域。