周錄祥
(韓山師范學院 中文系,廣東 潮州 521041)
所謂廣東文獻數字化建設,是指將紙質的廣東地方文獻通過拍照、掃描、文本化,轉換成數字化的電子文獻資源(電子圖書或數據庫)。廣東文獻的數字化,是時代的趨勢,也必將是廣東文獻建設的主要方向之一,它使廣東文獻保存更加方便、傳播更加便捷、共享更加廣泛,必將使嶺南文化輻射力更強,影響力更大,也會進一步提升嶺南文化研究的水平。
廣東文獻從地域上講,包括廣府文獻、潮汕文獻、客家文獻等;從形態上分,包括圖書、報紙、期刊,還有地圖、圖片、傳單告示、票據、手稿、墨跡,拓片、唱片等;從時間上看,包括古代文獻、近現代文獻、當代文獻,至于館藏地,則既包括省內各公立圖書館、博物館、高校圖書館及其他藏書機構、私人所藏,也包括省外、國外所藏。廣東文獻不僅數量眾多,而特色明顯。廣東雖偏處南國,歷代人文、著述不算豐富,但也有唐張九齡、明湛若水、翁萬達、清屈大均等文化名人,他們都留下了豐厚的著述,而自清末、近代起,廣東得風氣之先,先后涌現出鄭觀應、康有為、梁啟超等政治家、黃遵憲、丘逢甲、吳沃堯等文學家、孫中山、胡漢民、廖仲愷等民國政治家,可謂才俊輩出,群星璀璨,對于中國現代化進程的推動,對中國文化的發揚光大厥功至偉,在全國各省市中也是首屈一指。他們的光輝著述,都是寶貴的人類精神財富,構成了極富特色的廣東文獻群組,是嶺南文化研究乃至于中國文化研究的重要材料。僅廣東中山圖書館特藏部(廣東地方文獻中心)就收藏有廣東地方文獻、孫中山文獻、粵人文庫、東南亞華僑史料、南海諸島資料以及清代史料、民國時期書刊等一大批史料價值高、學術性強的文獻資料。其中廣東地方文獻和孫中山文獻著稱尤為豐富,現收藏有廣東地方志、族譜、廣東史料、粵人著述、報紙、期刊、輿圖、圖片等地方史料8萬余種、30余萬冊,其中圖書約6萬多種,14萬多冊,報刊1萬多種,輿圖2千多種;孫中山著作、傳記、評論研究、手跡、圖片、唱片及有關辛亥革命資料等4000余冊(件)①。這些文獻資料,很大一部分都是國內其他館稀有罕見的,在提倡信息共享的今天,有必要以數字化的形式傳播。而散藏于省外的廣東文獻也為數不少,本省學者借閱不便,也有必要組織力量,進行數字化,以利閱讀與研究。
1.廣東文獻數字化可有效保護珍貴文獻。傳統紙質文獻的大量閱讀必然或多或少造成損傷。許多廣東文獻年代久遠,其狀態岌岌可危,即使是民國的圖書報刊,也多是或紙質脆化,或斷線散頁,翻閱稍有不當,便會帶來無法挽回的損害,亟需加強保護。而一味地提高借閱條件,設置借閱障礙,以減少借閱帶來的損傷,又違背圖書館文獻收藏的初衷。怎樣才能兩全其美?一個最佳的解決方案就是,將這些廣東文獻數字化,向讀者提供數字化的版本,則可減少對原件的借閱,既保護珍貴文獻,又不影響讀者的閱讀和研究,誠為一勞永逸。
2.廣東文獻數字化便于存儲、閱讀與共享。數字化文獻利用計算機技術進行存儲,占用空間很小,一塊硬盤,即可存儲G級數據、數以萬計的書籍。而電子數據的復制、傳播非常便捷,較之以往紙質文獻的掃描、復印、影印,都方便得多。且可利用網絡進行遠程傳輸,提供方便而及時的文獻服務(必要時,可以收取適當的費用),這樣異地讀者可以足不出戶,可以獲取相關的廣東文獻資料。文獻資源利用更加頻繁,充分發揮了其價值,客觀上也省去了讀者來往交通的時間、金錢,節約了大量的社會成本,同時提高了研究效率。
3.廣東文獻數字化有利于嶺南文化的傳播與研究。嶺南文化的核心是敢為人先、天下為公、開放多元,廣東文獻的數字化建設,與嶺南文化的理念頗有異曲同工之妙。廣東文獻研究和文化研究不能光靠省內學者,而是要面向全國乃至世界。數字化后的廣東文獻,其傳播與共享方式突破了空間與傳統介質的限制,具有傳統文獻載體無法企及的便捷性與發散性,直接面向受眾,而不是資料獨享,有利于打破閱讀壁壘,將廣東文獻迅捷地傳播開來,既可使海內外眾多研究者快速獲得大量文獻資料,進一步拓寬研究的范圍,提升研究的水平;又可以帶動數字化廣東文獻上所承載的嶺南文化、嶺南人自信、包容與開放的心態向全國乃至世界輻射傳播,擴大嶺南文化的影響力,將嶺南文化發揚光大,將嶺南精神彰顯無遺。
1.文獻數字化技術已經成熟。
經過多年的探索與發展,時至今日,文獻數字化技術已經相當成熟。電子古籍的掃描與制作方面,“中美百萬”可謂其代表。2000年12月中美兩國計算機專家共同發起了“中美百萬冊數字圖書館合作計劃(China-US Million Book Digital Library Project)”。該計劃由中美兩國共建達百萬冊中英文圖書的數字圖書館,以提供便捷的全球可訪問的全文圖書瀏覽服務。與中國高等學校文獻保障體系(CALIS)一起,構成中國高等教育數字化圖書館的框架。同時項目名稱定為“高等學校中英文圖書數字化國際合作計劃”(英文簡稱CADAL)。百萬冊圖書規模的數字資源建設主要服務于高校的教學和科研,同時兼顧到民族優秀文化遺產的保存與傳承。截至2007年10月,該數據庫里有古籍190405冊、民國圖書114202冊、民國期刊6578冊、現代圖書401550冊、學位論文136098冊、繪畫3427件、視頻69種、英文44338冊②。 文獻數據庫建設方面,上海人民出版社和迪志公司出品的文淵閣《四庫全書》全文電子版、愛如生公司的《中國基本古籍庫》可謂佼佼者。前者可收書3千多種,可實現7億字的全文檢索,后者總計收書約16萬卷,版本12800多個,全文約17億字,影像約1千萬頁,擁有強大的檢索系統、完備的功能平臺和靈活的糾錯機制,可通過多條路徑、采用多種方法進行快速海量檢索,可輕松實現古籍瀏覽、校勘、標注、分類、編輯、下載、打印的全電子化作業,并可隨時進行軟件升級和數據更新以確保在持續改進中日臻完善③。總之,各種方式的文獻數字化技術已經日臻成熟,廣東文獻的數字化建設在技術上沒有太多的難題。
2.廣東省財政可為廣東文獻數字化提供必要資金保障。
文獻數字化建設需要必要的資金、經費支持,主要是三個方面:一是購置設備所需費用,如掃描儀、相機等。二是勞務費,從事規劃、掃描、制作的工作人員報酬。三是底本費或信息費。使用某些圖書館、博物館的文獻資料,照例會要求付給一定的費用。這個費用應作統一規定,或統籌之后適當減免,或以交換文獻的方式抵充。數量眾多的廣東文獻,要全部實現數字化,必須有足夠的財政、經費投入作為支撐。廣東處于中國改革開放的前沿,三十年來經濟持續繁榮,社會各項事業蒸蒸日上。近年廣東省國民經濟持續、快速、健康發展,綜合經濟實力連續多年居全國前列,生產總值、社會消費品零售總額、工業增加值、居民儲蓄存款、稅收、財政收入、全社會固定資產投資額、貨運量、科技發明專利申請量等重要經濟指標均居全國第一。據《關于廣東省2011年度省級預算執行和其他財政收支的審計工作報告》,2011年“省級預算執行和其他財政收支情況總體較好,省級財政收入1220.86億元……加上上級補助、下級上解、債券收入、上年結余(結轉)、調入資金等,省級財政總收入3479.83億。”④在創建經濟強省的同時,廣東省也在爭創文化大省,不斷加大對科教文化方面建設的撥款力度。所以廣東文獻數字化建設所需的相關資金資金、經費完全可以保證。
3.大型文獻數字化項目可提供寶貴經驗。
除上述“中美百萬”項目外,國內外不少大型文獻數字化項目都已成功組織多個部門,匯集各方資料,建設海量文獻數據庫,可以為廣東文獻數字化建設提供寶貴經驗。如“IDP”(international dunhuang project,國際敦煌項目),“是一個開創性的國際性協作項目,目標是使敦煌及絲綢之路東段其他考古遺址出土的寫本、繪畫、紡織品以及藝術品的信息與圖像能在互聯網上自由地獲取,并通過教育與研究項目鼓勵使用者利用這些資源。”⑤它整合了中、英、法、俄、日、德等多國文獻資料,截止2009年10月7日,已存儲并開放247712幅圖片資料,極大地促進了國際敦煌學的發展。又如愛如生系列數據庫·地方文獻系列中的《浙江文獻》數據庫,網羅浙江區域相關之歷史文獻,包括記述浙江歷史地理之史籍志書,以及歷代浙江籍貫人之著述和在浙江建功立業人之著述,共計800種。每種皆據善本制成數碼全文,附以原版影像,配備可以進行條目檢索、全文檢索、高級檢索的快速檢索系統和可以進行版本對照、標點批注、分類收集、編輯下載、原文打印等作業的功能平臺,為浙江文獻研究提供了重要的資料保證⑥。此外,許多圖書館及高校藏書都已經數字化,如國家圖書館的部分方志、上海圖書館的部分善本古籍,都通過拍照等方式數字化,讀者可在其網站瀏覽閱讀,美國哈佛燕京圖書館、日本東京大學、早稻田大學等高校的古籍,都已經制成電子掃描本,發布于網站,可供讀者方便獲取。以上皆可為廣東文獻數字化建設提供借鑒。
一是鍵盤輸入,形成文本。將文獻內容,逐字通過鍵盤錄入,其優勢是以文本方式存儲文獻信息,一是形成的文本可方便進行復制等操作,二是所需存儲空間較小,三是檢索非常方便,可以逐字檢索,查全率、查準率高,且檢索速度快。但此種方式有明顯的缺點,一是轉換速度較慢,需要大量人力投入,二是錄入過程中會有較多的文字錯誤,需要較大的校對工作量。三是不能保留文獻的原貌以及原文獻的字體。這種方式比較適合一些部頭較小的廣東文獻,或散見于大部頭典籍中的單篇廣東文獻。
二是圖像掃描后制作成電子古籍。將每頁紙質文獻用掃描儀掃描成圖片格式保存,再合并,制作成PDG、PDF或DJVU格式的電子書籍,既可方便復制、傳輸與閱讀,也可保護紙本文獻。中美百萬等已經大量運作,某些電子文獻愛好者個人也可制作,比較方便易行。大量的嶺南文獻可通過這種方式化身億萬,出現在省內大小圖書館,乃至于供省外、國外機構使用。采用圖像格式的優點是可以再現其原貌,制作技術相對簡單,制作成本相對低。缺點是占用存貯空間較大,影響傳遞速度,不過隨著存儲技術、網絡寬帶的發展,這些問題將逐步解決。大多數廣東文獻,尤其是難以識別的手寫體文獻、圖表較多的文獻都適合采用圖像掃描的方式完成數字化。
三是圖像掃描后OCR識別。先以圖像格式保存數字化文獻,并通過OCR轉換成文本形式,并編制自動索引,輔以人工標引。尤其是全息文件技術的發展,以文件格式保存數字化文獻,能夠較為全面地將印刷型文獻的內容、版面版式信息都體現出來,可完成自動標引,并提供讀者摘錄功能,具有很強的優越性。缺點是制作難度很大,主要原因是各種文獻字體不一、大小迥異,掃描后難以識別,且古籍中用字復雜,異體字、繁難字難以納入普通字庫,所以制作過程中非常容易出現訛字,處理不好,文獻價值大打折扣。采用鉛字印刷的清末、民國廣東文獻和刻印比較工整、字體比較規范、易于識別的明清刻本,比較適合采用這種方式實現數字化,但后期的校勘復核工作需尤為仔細。
四是將多個文本整合成數據庫。通過OCR技術轉換大量文獻后,精心校勘,可按各種目的,整合成各種數據庫,能夠實現全數據庫的單字檢索、組合檢索,如陜西師范大學歷史文化學院袁林、張宇等開發的《漢籍全文檢索系統》,可實現千余種圖書的全文檢索與組合查詢,復制也很方便。而文淵閣《四庫全書》全文檢索版則更是典范之作,可實現7億字文獻的全文檢索,非常便捷。這種方式是文獻數字化的最高境界,也應是廣東文獻資源數字化的方向,目前廣東的歷代方志可以再全文掃描識別后,制成廣東方志數據庫;也可以整合部分民國圖書、報刊,制成民國文獻數據庫。
1.摸清家底,擬定目錄,避免重復。需將廣東文獻的具體情況先掌握清楚,具體可以《廣東文獻綜錄》⑦為基礎,再增加該書未收的報紙、期刊、碑帖等文獻。其中有些廣東文獻,已經有數字化版本的,則不必重復勞動。如收入《四庫》系列叢書(《四庫全書》、《續修四庫全書》、《四庫全書存目叢書》、《四庫禁毀書叢刊》、《四庫未收書輯刊》等)的粵人著述,都已有PDF或DJVU格式的電子版,不必再重新數字化。又如屈大均編《廣東文選》、明萬歷鄒守愚刻本翁萬達《東涯集》等,已收入《北京圖書館古籍珍本叢刊》,已有電子版,則不必重復勞動。凡此,皆需專人對網絡已有傳播的廣東文獻作詳細調查,屆時可避免重復勞動,這樣事半功倍,既能加快速度,又可節約成本。
2.精選內容,分清緩急,按期進行。廣東文獻數量眾多,具體數字化操作時,如果沒有統一規劃,而是隨機掃描、制作,必然雜亂無序,不成體系。所以分清輕重緩急,制定分期規劃很有必要。具體原則應有兩個,一是重要性原則,二是稀缺度原則。具體說,首先要精選出影響較大的、使用比較頻繁的、具有代表性的特色廣東文獻,優先掃描、制作、數字化,這樣短期內即可初顯廣東文獻的概貌。另一方面,部分廣東文獻非常稀缺,存世量極少,可以同時優先數字化。可先珍稀本、后易見本;先善本,后普本。往往普本存量較大,各地圖書館多有收藏,查閱相對方便。而善本、珍本、稿本、抄本等,存世數量較少,甚至僅有孤本行世,彌足珍貴,讀者查閱、研究不便,應優先進行數字化,以便化身億萬,既保護文獻原本,又滿足讀者借閱與研究需要。分清輕重緩急后,根據不同選擇,安排數字化的先后次序,制定具體時期,有條不紊地進行,可以充分滿足社會需要,既有鮮明的廣東文獻特色,又能面向全國、全球,有步驟、有計劃地建設,可使有限的人力物力發揮最大效果。
3.統籌安排,統一認識,調集書籍。政府文化部分和相關機構要充分認識到廣東文獻數字化對于保存廣東地方文獻、促進學術交流、弘揚嶺南文化的意義,積極牽頭,籌措資金,加大投入,并協調各館藏單位,統一調集圖書。圖書館、博物館等藏書單位要顧全大局,服從安排,不得壟斷資源,而應該革除以往某些圖書館將館藏的古籍視為本館私有物品,甚至囤積居奇,或收取高昂閱覽費的現象,方不至于妨礙文獻流通和學術研究的開展,違背了公共圖書館設立的本意。當然,是調集圖書集中數字化,還是分配任務,各收藏單位分別進行,需視具體技術力量和文獻數量而定,收藏文獻較少較為零散的單位,技術力量不足,可統一集中數字化;而收藏文獻較多較集中的單位,有條件的話,可通過培訓,在本館完成,以免大規模調書造成散失與損傷。
4.認真制作,查漏補缺,實現提升。文獻逐頁掃描與OCR識別過程是艱巨而枯燥的任務,稍一疏忽,就容易造成漏掃缺頁、誤掃重復的現象,所以在制作過程中,需認真仔細,每件文獻掃制完成后,要認真查漏補缺,力求盡善盡美。如人力物力充足,可以投入編輯力量,進行二次文獻、三次文獻的創作與組合,根據具體需要,將零散的多個文獻整合成專題數據庫或大型數據庫,這樣才能夠進一步提升紙質文獻的利用價值,而不是單純的把紙質文獻轉為數字信息。
5.創建平臺,提供下載,促進傳播。最終數字化形態是電子圖書或數碼照片格式的廣東文獻,可存儲于服務器中,并建立相應的網站,提供下載,并鼓勵下載者發表研究成果,互相討論、交流。如將部分廣東文獻制成數據庫形式,也應面向互聯網開放,提供遠程檢索功能,最好既能提供文本格式,又能提供對應的圖像格式,以便檢核。當然也可講數據庫制作成光盤形式,提供給相關的科研機構,以便于廣東文獻的研究與嶺南文化的傳播。
總之,廣東文獻的數字化對于文獻的保藏、傳播、共享,對于嶺南文化的傳播、弘揚與研究,都有著積極而深遠的意義。作為經濟強省、文化大省的廣東,完全有能力,也有責任,積極推行廣東文獻數字化建設,為信息共享工程作出應有的貢獻。
注釋:
①詳見廣東省立中山圖書館介紹:http://www.zslib.com.cn/html/lib_jianjie/20081014/67.html.
②詳見http://www.cadal.zju.edu.cn/Index.action.
③詳見愛如生網站介紹:http://www.er07.com/article/notice.jsp?typeId=23.
④藍佛安.關于廣東省2011年度省級預算執行和其他財政收支的審計工作報告[N].見網頁:http://www.rd.gd.cn/rdgz/jdgk/201207/t20120731_125789.html.
⑤詳見其網站:http://idp.nlc.gov.cn/.
⑥詳見http://www.er07.com/article/notice.jsp?typeId=378.
⑦駱偉.廣東文獻綜錄[M].廣東:中山大學出版社,2000.