劉曉建 季擁政
(青海大學圖書館,西寧 810016)
藏醫藥古籍文獻是藏醫學術的載體,包括藏藥學、診斷、治療以及藏醫心理學和佛教中一些涵蓋醫學內容的部分書籍、古籍。據初步統計,藏醫藥古籍文獻數量不少于5 000部(函),具有歷史悠久、涉及地域廣、存儲地分散、數量眾多、載體多樣、版本眾多等特點。目前國內先后搶救挖掘藏醫藥古籍文獻2 000多部(函),整理出版800多部,完成《藏醫藥經典文獻集成叢書》(100部)、《藏醫藥大典》(60卷)、《四部醫典唐卡大詳解》(18卷)等重大古籍文獻整理出版工程等[1],在藏醫藥的傳承與保護中發揮了積極作用。
由于歷史和社會原因,以及印刷條件的落后,幸存下來的古籍文獻數量本就不多,且受時間流逝、風雨侵蝕和蟲蛀等因素的影響,現存的古籍逐漸遭到毀壞。如果不立刻采取有力措施進行搶救性搜集、整理和出版,用不了多少年許多文獻將會絕跡,造成永久遺憾[2]。只有通過現代信息技術進行數字化整理,才能使藏醫藥古籍長期保存和永久傳承。實現藏醫藥古籍文獻數字化,首要解決的問題就是標準規范。藏醫藥古籍文獻歷史久遠、載體多樣、分布廣泛、卷帙浩繁,致使藏醫藥古籍文獻數字化的標準規范工作顯得尤其復雜和非常重要,而且這項工作迫在眉睫、刻不容緩。
我國藏醫藥古籍文獻數字化建設起步比較晚,雖然取得了一些成果,相繼建立了不同類型的藏醫藥古籍文獻數據庫,但隨著藏醫藥古籍文獻數字化建設的深入,從系統性、專業性、規范性、科學性來看,數字化標準的問題日益顯現,如缺乏統一技術標準,共建共享難以實現;各類版本與書目分類不一致,缺乏存儲格式標準等。2007年,國務院辦公廳關于《進一步加強古籍保護工作的意見》中明確指出“制訂古籍數字化標準,規范古籍數字化工作,建立古籍數字資源庫”[3]。因此,構建藏醫藥古籍文獻數字化建設的標準體系勢在必行。
荷蘭國家圖書館保存部主任Weingarde曾表示,數字化產品能否長期保存和方便利用,需要在數字化開始時就考慮選擇什么樣的文件格式、制作標準和字型等[4]。藏醫藥古籍文獻數字化是以利用和保護藏醫藥古籍為目的,建立相關的書目數據庫、文摘數據庫和全文數據庫,用以揭示藏醫藥古籍文獻信息資源,使其得以長期保存和有效保護。目前,我國藏醫藥古籍文獻數字化標準現存問題如下。
技術標準各異是當前藏醫藥古籍文獻數字化過程中最突出的問題。技術標準是實現高品質藏醫藥古籍數字資源庫的重要保障,更是藏醫藥古籍文獻數字化標準體系的核心,其中包括古籍版本類型、元數據標準、數據庫標準、檢索標準等。目前我國古籍數字化相關的標準主要有國家標準、行業標準和文化行業標準,其中國家標準包括《古籍著錄規則》(GB/T 3792.7—2009)、《縮微攝影技術在16mm卷片上拍攝古籍的規定》(GB/T 7517—2004)、《縮微攝影技術在35mm卷片上拍攝古籍的規定》(GB/T 7518—2005);行業標準包括《古籍元數據規范》(WH/T 66—2014)、《數字資源長期保存元數據規范》(WH/Z1-2012)、《管理元數據規范》(WH/T 52-2012);文化行業標準包括《文本數據加工規范》(WH/T 45-2012)、《圖像數據加工規范》(WH/T 46-2012)等。但目前西藏自治區以及青海、四川等省各自開展藏醫藥古籍文獻數字化建設,并建立了各自不同類型的藏醫藥古籍文獻數據庫,這種狀況難免造成各地采用的藏醫藥古籍文獻數字化技術標準存在差異。
藏醫藥古籍文獻經過數千年的流傳,同一本藏醫藥古籍文獻可能先后出現了不同的傳世本、漢譯本和???,源于后期學者對藏醫藥古籍文獻多次翻譯、反復謄抄、修訂???、補充注釋等。藏醫學的主要醫典《四部醫典》(《居悉》),相傳為玉妥·云登貢布編著。但據《玉妥·云登貢布》記載,此醫典是白若雜納翻譯的作品,玉妥·云登貢布對它進行了補充和注釋[5]。經過歷史的傳承而產生多個版本,現在看到的幾種版本,已不是最初的版本。不同的版本不乏存在很多錯漏、訛傳以及異文歧義的地方。藏醫藥古籍文獻大部分以寫本和木刻本居多,手寫或手抄的形式為主,版本包括稿本、手抄本、木刻本、刻本、孤本、善本、金寫本、銀寫本、鉛印本、朱砂本、碑刻、摩崖等。藏醫藥古籍文獻在不同歷史時期,經過人工抄錄、刻印等,造成了不同程度的錯誤,而且古藏文、藏文字存在同字不同義、同義不同字等現象。目前,還沒有藏醫藥古籍文獻版本選擇標準,是藏醫藥古籍文獻數字化的一大障礙。
元數據是數據的數據,用來組織、描述、發現、檢索、索引、集成、瀏覽、保存和管理信息資源。元數據標準為各種形態的數字化信息單元和資源集合提供規范、普遍的描述方法[6]。為了藏醫藥古籍文獻數字化的目標,必須設計和制定藏醫藥古籍文獻數字化的元數據標準。統一的元數據標準缺乏,導致目前建成的藏醫藥古籍文獻數據庫相對獨立,數據格式不統一,數據值不規范,數據內容和數據交換不一致,制約了藏醫藥古籍文獻資源的深度開發和交流共享,造成大量的重復性建設,導致人力、物力和財力的嚴重浪費。
藏醫藥古籍文獻完全是通過藏文記錄和描述的,后期只有少量的翻譯成為漢文以及英文和其他語言文字。隨著時間的演進,藏醫藥古籍文獻中還存在大量的藏醫藥術語、符號、藏文文字字符集等。同一種疾病或藥物名稱在不同時期或不同地域的讀法、寫法或解釋均存在差異。這種情況給后期的整理加工帶來很大的困難。
目前,藏醫藥古籍數字化存儲格式種類繁多,如WORD、HTML、PDF、JPG、MP3、RMVB等格式。由于缺乏統一規劃、協作和共享,就形成了不同的藏醫藥古籍數字化存儲格式。這些不同格式的數據,只有專門的閱讀器才能進行瀏覽、下載,而且各個閱讀器是獨立的,相互之間無法兼容。
《中國圖書館圖書分類法》(以下簡稱《中圖法》)是國家級文獻分類標準,但是,《中圖法》(第4版)的分類體系已不能滿足學科發展的需要,分類類目的設置與實際分編工作存在比較大的距離[7]。以藏、蒙、維、壯、苗、彝、傣等為代表的各少數民族醫藥科學研究不斷深入,實踐能力逐步提高,研究成果日益豐富,并得到國家認可,也成為傳統醫藥的重要組成部分[8]。《中圖法》(第5版)的分類體系不能滿足民族醫藥學科分類要求。這種狀態致使藏醫藥學科體系不完善、學科分類不統一,缺乏標準,直接影響藏醫藥文獻,尤其是藏醫藥古籍文獻的收集、整理、開發和利用。
藏醫藥古籍文獻數字化的標準化建設立足藏醫藥古籍文獻自身的特點和規律,同時,需要考慮藏醫藥古籍文獻的文字屬性。因此,構建藏醫藥古籍文獻數字化標準體系應具備相應的原則。
建立藏醫藥古籍文獻數字化標準體系,首先要嚴格遵循國家古籍數字化相關標準以及行業標準,了解和掌握藏醫藥古籍文獻數字化現狀。依據藏醫藥古籍文獻數字化的現實需求,構建藏醫藥古籍文獻數字化標準體系的邏輯框架,保證藏醫藥古籍文獻數字化的標準體系規范、合理、科學、可行。數字圖書館標準與規范以及古籍數字化相關標準,為藏醫藥古籍文獻數字化建設提供了理論基礎,并有效保障藏醫藥古籍文獻數字化標準體系的實現。
藏醫藥古籍文獻數字化標準體系涉及多環節、多層面、多內容的全方位的標準或規范,即構成標準體系的各個標準并不是獨立的要素,而是相互聯系、相互作用、相互補充的[9]。例如,開發藏醫藥古籍文獻數據庫需要遵循各種標準,不同的內容、階段遵照不同的標準,而且藏醫藥古籍文獻數字化標準體系中各標準之間是相互關聯、協調統一,形成一個有機組合的整體性藏醫藥古籍文獻數字化標準體系。
藏醫藥古籍文獻具有民族醫學的學科專業屬性,其最重要的特點是藏醫藥古籍內容的原始性、地域性、歷史性、民族性、核驗性和現實性。所以,對藏醫藥古籍文獻數字化要充分基于上述特征,系統分析藏醫藥古籍文獻數字化現行標準的科學性、適用性、現實性和可操作性,著重研究藏醫藥古籍文獻數字化的技術標準、管理標準、工作標準等。
在制定古籍數字化標準時要考慮到標準能否順利實施,而且標準不是一成不變的,它要隨著實施過程不斷地完善和發展[9]。隨著藏醫藥古籍文獻數字化體系標準的應用和推廣,可以顯現出藏醫藥古籍文獻數字化標準的應用情況、適用程度、需求結構、運行模式、科學規范和實際效果等,從而可以靈活調整和拓展藏醫藥古籍文獻數字化標準。因此,隨著大數據、人工智能、區塊鏈等新技術的不斷發展與應用,藏醫藥古籍文獻數字化也要及時吸收和更新理論、技術、方法等,這樣,才能完善和拓展藏醫藥古籍文獻數字化標準體系,構建具有現代理念和技術方法的藏醫藥古籍文獻數字化標準體系。
本文以現代信息技術和古籍文獻數字化的研究與實踐成果為基礎,結合藏醫藥古籍文獻數字化過程中的相關性、特殊性、復雜性特征,制定以技術標準為核心、工作標準為手段、管理標準為保障的藏醫藥古籍文獻數字化標準體系[9](見圖1)。
3.1.1 管理標準
藏醫藥古籍文獻數字化是一項龐大、復雜的系統性工程,涉及各個方面的工作、相關責任主體和相關機構等。要將涉及的各個環節有機地結合起來,使藏醫藥古籍文獻數字化的業務處理達到統一,保證藏醫藥古籍文獻數字化的有序、順利開展,就需要高效、規范、科學的管理準則。管理標準是開展藏醫藥古籍文獻數字化建設的重要規則,也是藏醫藥古籍文獻數字化流程中實施技術標準的重要手段,藏醫藥古籍文獻數字化的管理標準包括選題與評估標準、藏醫藥古籍管理標準、數字化方案標準及標準化管理標準等。

圖1 藏醫藥古籍文獻數字化標準體系
3.1.2 技術標準
技術標準是開展數字化古籍作業的技術條件[10]。藏醫藥古籍文獻數字化包括信息轉換、信息承載和信息檢索,實現這種功能需要多種技術的支撐。技術標準是開展藏醫藥古籍數字化工作的技術條件,涵蓋工作對象、工作條件、工作方式等,包括藏醫藥古籍版本擇取標準、數據加工標準、設備標準、元數據標準、文檔存儲標準、數據庫標準、檢索標準、軟件標準等。
3.1.3 工作標準
工作標準是建設高質量藏醫藥古籍文獻數據庫、提高工作效率、實現各項技術標準的重要保障和手段。具體來講,工作標準就是項目建設機構、工作人員的職責,工作要求、考核辦法所作的規定,包括職責權利、工作程序、辦事細則、考核標準和相互關系準則等。
藏醫藥古籍文獻數字化就是對不同載體類型的藏醫藥古籍文獻采取抄錄、復印、翻拍、掃描、謄寫等不同的“再造”手段[11]。為了保證藏醫藥古籍文獻數字化有序、合理、規范、科學地開展,需要建立藏醫藥古籍文獻數字化標準體系,指導和規范藏醫藥古籍文獻數字化工作。鑒于藏醫藥古籍文獻自身的特征及文字屬性,藏醫藥古籍文獻數字化標準體系應包括版本擇取標準、藏文字處理標準、藏文字編碼標準、藏醫藥古籍分類標準、元數據標準、存儲格式標準、長期保存標準以及數據庫標準等。
3.2.1 版本擇取標準
由于藏醫藥古籍文獻版本眾多,不同版本的質量存在差異,而版本優劣影響藏醫藥古籍文獻數字化產品的質量和水平。古籍版本擇取標準為數字化古籍的內容質量提供保障,包括版本類型標準和版本細節標準兩部分[12]。版本類型標準是對古籍數字化項目中涉及的底本和參照本的版本選擇方式和要求進行規范,應指明版本的來源、數量、質量等性質,明確底本與參照本比對的具體模式,根據學界公認的版本鑒別方式進行善本和典籍的選擇,保證鑒定的準確性以及所選底本版本信息的正確性[13]。版本細節標準規定了各類型古籍數據庫對于古籍版本內容展現的細節程度,對于古籍的版刻工藝、裝幀、用紙、行款、字體、邊欄、墨色以及藏印、題跋等形態信息的展現必要性進行規范,要力求避免數字化成果可能出現的衍文、脫文、殘闕等現象[13]。藏醫藥古籍文獻版本擇取標準確保選擇高質量的藏醫藥古籍文獻版本,從而生產高質量的藏醫藥古籍文獻數字化產品。
3.2.2 藏文文字處理標準
藏文字的特殊性使藏文字處理必須遵循相關的文字處理標準。首先,制訂藏醫藥古籍文獻藏文字符集標準,應盡可能多地收集藏醫藥古籍文獻中出現的所有古藏文字、藏文字,建立全面、系統的異體字、候選字參照,力求藏文字符集全面和準確。其次,藏文字抓取標準,應針對藏文字符識別工具的選擇、識別字跡的候選字數量以及藏文字的準確度與容錯度等相關參數作出規范。要求采用國際通用的Unicode編碼的藏文字體進行錄入和編排。采用藏文視窗系統、藏文字處理軟件、藏文Internet技術等最新成果,進行藏文字與專用名詞術語的信息處理[14],并提供漢文、拉丁文、英文、藏文對照形式。
3.2.3 藏文字編碼標準
加工、重組后的藏醫藥古籍文獻經過掃描復制獲取數字信息后,還要進一步編碼處理,才能供用戶檢索與使用。對于數字化藏文字處理標準,可依據《信息技術 信息交換用藏文編碼字符集基本集》國家標準[15],作為文字處理的規范標準。該藏文字編碼和主要字體字符集,可為藏醫藥古籍文獻數字化標準體系構建提供支撐。由于藏文字符特征相對簡單,不同字符是根據形狀來區分的,因此本文推薦使用基于GIST全局特征的藏文字符識別方法。GIST特征是較好的全局特征之一,能快速描述文字在視覺維度上的結構信息,描述子相對簡單[16],能很好地表征藏文的結構特征,是藏文字識別的有效途徑。
3.2.4 藏醫藥古籍分類標準
藏醫藥古籍文獻的挖掘、整理及數字化建設的持續發展,需對藏醫藥學文獻進行細分。目前已有學者根據傳統的《晶珠本草》《四部醫典》等經典理論著作,劃分出藏醫外科學、藏醫內科學、藏醫兒科學、藏醫婦科學等18個分支學科,形成了獨具特色的藏醫藏藥體系[17]。隨著國家、政府對藏醫藥事業的重視和支持,藏醫藥科學研究的不斷深入,藏醫藥學的學科體系也在不斷豐富和擴展,學科分類體系日益完善、科學和標準。結合《中圖法》(第5版)“R29中國少數民族醫學”類目(藏醫藥學為R291.4),并依據藏醫藥自身的發展特征及學科特點,筆者將藏醫藥劃分為23個分支學科,形成藏醫藥學科分類表(見表1)。
3.2.5 元數據標準
資源加工標準分為數字化轉換與存儲標準和標引著錄標準,前者規定了數字化設備和參數設置以及數字資源的屬性,后者規定了元數據著錄規范和要求[18]。可通過對藏醫藥古籍數據的收集、加工、整理等流程,確定元數據標準。依據藏醫藥古籍文獻的自身特點,藏醫藥古籍文獻的元數據由16個核心元素組成,包括資源形式(版本)、題名、摘要、主要責任者、其他責任者、翻譯責任者、載體形態、出版者、主題、日期、標識符、來源、語種、關聯、時空范圍和收藏信息。

表1 藏醫藥學科分類
3.2.6 存儲格式標準
統一藏醫藥古籍文獻數字資源的存儲格式是當前藏醫藥古籍文獻數字化標準體系構建的重要目標。可將獲取的藏醫藥古籍文獻按照類型、載體、版本等進行整理,形成統一的數據存儲格式,并能直接用于數字化。根據藏醫藥古籍文獻的特點,數據存儲格式有4種,即文本數據(描述性資料)采用WORD、PDF、EXCEL或純文本文件格式存儲;圖像數據采用BMP、TIFF、JPEG、RAW、GIF、PNG等格式存儲;音頻數據采用MP3、WAV、FLAC、APE、ALAC、WavPack、AAC、OggVorbis、Opus等格式存儲;視頻數據采用RMVB、WMV、ASF、ASX、RM等格式存儲。數據格式不但要適合藏文字的存儲及使用,而且要兼顧古藏文字的兼容性,同時也要具備強大的加密功能,以保護藏醫藥古籍文獻的知識產權。同時,文檔格式還需要有利于進行漢語標注和人名、地名、藥名標記。此外,藏醫藥古籍文獻數字化需要處理大量的圖片、實物文件信息,將圖片、實物的存儲格式設定為無損圖片、無損實物,要保持圖片和實物的原始風貌。
3.2.7 長期保存標準
藏醫藥古籍文獻數字化的目的是藏醫藥古籍文獻數字化資源得以長期保存、永久傳承,其重點內容包括古籍數字化資源長期保存的基本構架,古籍數字化資源的開放存檔系統參考模型、戰略儲備和災備機制以及長期保存標準等。其中長期保存標準包括古籍數字化資源長期保存業務與管理框架、技術流程規范,以及特定條件下啟用長期保存的古籍數字化資源提供服務的觸發要件、服務方式、服務流程和服務管理等[12]。
3.2.8 數據庫標準
目前數字化主要有圖像數據庫、文本數據庫、音頻數據庫和視頻數據庫4種文獻數字化方式。結合藏醫藥古籍文獻的形式或類型,根據藏醫藥古籍文獻的特點,可以建立藏醫藥古籍文獻圖像數據庫、藏醫藥古籍文獻書目數據庫、藏醫藥古籍文獻文摘數據庫、藏醫藥古籍文獻音頻數據庫、藏醫藥古籍文獻視頻數據庫以及藏醫藥古籍文獻全文數據庫。
由于古籍數字化過程的特殊要求,其標準建設成為古籍數字化的一項重點工作內容[19]。因此,構建藏醫藥古籍文獻數字化標準體系是藏醫藥古籍文獻數字化建設的前期條件和重要保障。本文遵循規范性、系統性、現實性和拓展性原則,同時結合藏醫藥古籍文獻數字化建設現狀,嘗試針對相關流程和技術環節制訂共同遵守的準則和規范,統一數字化資源的版本和格式,形成一套完整的藏醫藥古籍文獻數字化標準化體系,以指導藏醫藥古籍文獻數字化工作,實現資源全面整合與交互共享。