尚文玲,張華敏,段 青,侯酉娟,蔣丁,孟凡紅
(中國中醫科學院中醫藥信息研究所文獻資源研究室,北京100700)
中醫古籍是中醫藥學信息資源的重要組成部分。也是祖國醫學的寶貴遺產和財富[1]。2007年由上海辭書出版社出版的《中國中醫古籍總目》共收錄全國56個省市150家大型綜合圖書館和中醫藥專業圖書館的中醫古籍藏書13 455種,包括影印本、復制本以及民國時期的出版物。其中約有4 000余冊是孤本。[2]近幾年國家非常重視中醫古籍的保護、開發與利用。并不斷加大投資力度開展中醫古籍數字化建設。從2002年始,中國中醫科學院圖書館對館藏中醫典籍進行了數字化再生性保護和利用研究,到目前為止,建成了“中醫藥珍善本古籍多媒體數據庫”和“中醫藥古籍資源數據庫”。[3]其目的就是要傳承中醫藥文化,加強中醫古籍的再生性保護,提升中醫古籍的利用價值。而做好中醫古籍的深度標引是引導專家學者實現快速檢索和提高利用率的關鍵。
中國中醫科學院中醫藥古籍資源數據庫現已收錄2 057種中醫古籍的元數據信息,其中有850種中醫古籍是原文圖像。在線深度標引:就是通過網絡直接登錄由中國中醫科學院自主研發的數字中醫古籍平臺—古籍資源數據庫,進入古籍在線編輯系統,通過對每一張原文圖像內容的閱讀及分析,將中醫古籍文獻的標題和主題相結合,以自然語言為基本詞匯,來對中醫古籍圖像文獻中的知識點進行標引。實際上是一種不依據詞表的主題標引方法。標引完成后,圖片無需上傳,用戶就可以通過中醫古籍閱覽系統,搜索所需內容,直接在線閱讀了。中醫古籍的在線深度標引,實現了對每一張圖片內容的檢索和快速定位,縮短了因數據轉換、上傳等工作環節使用戶等待的時間,中醫古籍在線標引是古籍標引的更高階段,為中醫藥古籍數字化的開發與利用開辟了新的篇章。
由于中醫古籍文獻數量龐大、收錄雜散。而現有的主題詞表均不適合做中醫古籍標引,要編制適用的詞表也比較困難,因此中醫古籍圖像的標引基本上屬于自由標引。[4]在做標引前,由中醫古籍專家組及古籍開發的相關人員制定了元數據的標引原則。首先以全書目錄中的各條內容作為標引內容,在此基礎上,將正文中明確寫到而目錄中沒有的各級標題也要進行標引,對各段主題如圖像中反映的病名、證名、方劑名稱和藥等,更要作為標引內容進一步予以標引。這種標引方法不僅可以全面反應每本古籍圖書的具體框架,更可以使用戶能夠通過快速瀏覽和快速定位,全面了解整本書的內容。標引原則的制定是為標引人員提供的標引依據,它不僅可以提高標引速度和標引質量,更有利于提高標引的一致性,對提升檢索效率,提供了高效便捷的服務保障。也為今后研究古籍深度標引提供了示范與參考作用。
做中醫古籍標引要根據中醫本身的特點,一般將理、法、方、藥、病、證(或癥)以及病案等這些關鍵詞作為標引用詞,而且要尊重原文,盡量使用原書中的詞語標引。標引人員還要把握好優先標注的原則,先將各級標題按順序標注出來,然后從每一張圖像中找出有記錄的病癥、有藥物組成的方劑名稱、描述每一味藥物的性味、歸經、作用的中草藥以及針灸書中記載的經絡穴位等等,都要標注出來。這種標引提煉出的詞語基本能夠反映出中醫古籍文獻的全部特征,也能夠確保中醫古籍標引的一致性,更便于準確檢索定位。因為標引與檢索密切相關,標引只是手段,目的是為檢索,而最終目標是促進利用,促進中醫學的知識發現與知識創新。
一般中醫古籍圖書都有封面、扉頁、序(敘)、跋、目錄、凡例或附錄等項,在標引時,只要將這些項的名稱,如“封面”“扉頁”序等分別標出即可。如本草類古

圖1
圖2是《醫門棒喝正續集》中的一葉,此頁陽明篇經病脈證治法是一級題目應標出,而陽明病脈浮無汗而喘者發汗則愈宜麻黃湯。麻黃湯是針對陽明病證脈浮無汗而喘而提出的治法方藥。下面是對陽明病證和麻黃湯的具體詮釋。如果只標麻黃湯,而后面很多篇幅都在論述什么證宜用麻黃湯或麻黃湯加減,就不能具體反映出脈浮無汗而喘的病證宜用麻黃湯。所以筆者認為應把陽明病脈浮無汗而喘者發汗則愈宜麻黃湯這句話全部標出。這樣提取的標引用詞是十分客觀的,既尊重原文,也符合中醫辨證用方的理論原則。不會存在標引人員由于主觀原因而對用戶造成的不便與誤導。
在做中醫古籍標引的過程中,經常會遇到兩個問題。一是有很多繁體字、異體字和通假字,按照標引規則都要用簡化字標引,如果不能確認正確讀音,可以借助逍遙筆輸入法先把字寫出來,然后再借助繁簡字體工具轉換,或通過對照異體字字典或古典漢語通籍圖像文獻的標引:完整本草書的正文結構一般先分卷(如卷一或卷上等)),再分大類(如草部、木部、果部等或上品、中品、下品),然后再列藥名(如丹參、當歸等),然后闡述藥物的性味歸經和功用等。在標引時,只要將“卷一”或“卷上”“草部”“木部”“果部”“上品”“中品”“下品”,單味藥等分別標出即可[4]。以《本草征要》一書為例。見圖1,圖2。

圖2
根據本頁內容,題目本草征要上卷,中草藥分部,單味藥人參,在標注時都要一一標注出來,即給:本草征要上、草部、人參等三個主題標引即可。但是有些論述性的古籍圖書,除了一般封面、扉頁、目錄、序(敘)、跋等,卷上、卷中、卷下等需要標引外,對于內容的標引要依據每張古籍圖片的具體內容而定,如圖2。假字大字典等工具書,將正確的簡化字標引出來。如果用上述方法還不能辨認,則需要由專家在進行斟校。如常見繁體字:“轉筋”的“轉”即“轉”,“證候”中的“證”即“證”,中藥“龜甲”即是“龜甲”等。異體字如:“例”即是“凡例”,是凡的異體字。“鵝口瘡”即“鵝口瘡”,“鵝”是“鵝”的異體字。目是“眥”的異體字。通假字如:“四支”即“四肢”,“支”通“肢”,“方齊”即“方劑”,“齊”通“劑”,“齒齦腫”即“齒齦腫”,“齦”通“齦”等;二是古籍文獻的寫作很不規范,如《辨證錄》一書,標注時一定要通讀全文才能完成準確標引,此書的著錄并不是把所有方劑名稱都作為標題先列出來,然后再敘述病癥或是辨證,而是在論述病癥的過程中提出什么證用什么方或什么方加減。如果只看標題標引,一定會漏標很多該標注的方名主題,所以一定要仔細通讀全文,才能完成正確的標引。
總之,作為中醫古籍標引人員,不但要具備一定的中醫藥學專業知識,醫古文知識。還要熟練掌握計算機操作技能、以及熟悉網絡系統性知識,還要具備嚴謹認真的工作態度,才能高質量地完成中醫古籍的在線標引。通過對每張古籍圖片文獻的標引,進一步挖掘中醫古籍內在的隱性知識。為加強中醫藥古籍研究,傳承中醫藥古籍文化,發展中醫藥事業,提供更高質量的古籍資源保障。
[1]趙宏巖,閆桂銀.中醫古籍CNMARC格式編目著錄之我見[J].長春中醫藥大學學報,2009,25(6):997-998.
[2]薛清錄.《中國中醫古籍總目》[M].上海:上海辭書出版社,2007:1347.
[3]李兵,劉國正,符永馳,等.從中醫古籍數據庫建設看中醫古籍數字化[J].中國中醫藥信息雜志,2009,16(3):92-93.
[4]張偉娜,劉國正,符永馳,等.試論自由標引在中醫古籍圖像文獻標引中的應用[J].國際中醫中藥雜志,2008,30(2):101-102.