




摘要:目的:文章對比中日古籍數字化情況,聚焦中國國家圖書館中華古籍資源庫與日本國立公文書館內閣文庫,探究二者在古籍數字化數量、質量及版權水印方面的情況,旨在為我國古籍數字化發展提供參考。方法:收集兩館公開數據,統計相關數量;依據標準文件對比圖像和拍攝規范;從法律視角剖析著作權問題,追溯水印根源。結果:中華古籍資源庫公開約10萬部(件),種類多且數量增勢快,但存在早期數字化精度不高、水印大等問題,2023年新錄入有改善。內閣文庫漢書數字化任務幾近完成,善本多、水印小,具有訪問便捷等優勢,但語言選擇有限。在圖像規范上,二者相近,中國國家圖書館部分標準更高,拍攝規范原則近似且實踐靈活。在法律層面,古籍數字化各環節著作權歸屬不同。中國國家圖書館早期水印不佳,后有改進。圖書館經費受財政制約,部分創收手段影響古籍數字化利用。結論:中日古籍數字化各具特色,中國技術細節和移動端適配佳,日本數字化完成度高和服務體驗優,雙方應相互借鑒。明確著作權歸屬、平衡機構權益與讀者使用、完善經費保障政策,對推動古籍數字化發展意義重大。
關鍵詞:古籍數字化;中華古籍資源庫;內閣文庫;水印
中圖分類號:G255.1;G250.7 文獻標識碼:A 文章編號:1004-9436(2024)17-0-05
1 中華古籍資源庫與內閣文庫中文古籍數字化數量比較
1.1 中華古籍資源庫與內閣文庫介紹
中國國家圖書館中華古籍資源庫是“中華古籍保護計劃”的重要成果,也是2007年首次由政府主導的國家級重要文化工程的成果之一。于2016年正式上線,采取邊建設邊服務的方式[1]。
日本國立公文書館內閣文庫是一所收藏漢文與日文古籍的專門圖書館,現為日本國立公文書館的一部分。明治十七至二十四年(1884—1890年),內閣下屬各官廳的藏書都集中到內閣文庫。
1.2 兩者中文古籍數字化數據分析
1.2.1 中華古籍資源庫中文古籍數字化種類與數量
依據國家圖書館官網公示的信息,目前公開的總量約10萬部(件),其中包含的數據庫有館內整合的13種和館外購買內容整合的7種。筆者統計了能公開查閱的數量,詳情見表1。
中國國家圖書館(以下簡稱“國圖”)對自己和合作的數據庫作了本土化整改,使其規范基本統一。讀者使用中華古籍資源庫,就像使用互聯網搜索引擎一樣便捷,并且其支持高級搜索。除了傳統的PC端,其還能很好地支持現在的移動端。但其存在兩個缺點:一是響應速度很慢,甚至不如服務器在日本的內閣文庫;二是部分古籍的數字化并不符合新標準,直接將早期精度較低的微縮膠片上傳使用。對國圖自有的數字古籍進行統計,因其并沒有公開的具體信息,筆者目前只能從過往的論文中分析,并對國圖的古籍進行簡單統計,見表2。
受限于國圖的信息不透明,從總體數據來看,其自有數字化內容正快速增加,2017年到2022年多出了3829件,2022年到2024則增加了驚人的4060件。當然,中國國家圖書館作為亞洲規模最大的圖書館,實際收藏肯定遠不止這些,尤其是善本部分的內容還遠遠不夠。其自身的數據庫除了上述兩個缺點,還有一個問題是2022年前后錄入的古籍圖片的水印非常大,可以說幾乎覆蓋了整張圖片。對一般的研究者或是希望用圖片開展教育工作的使用者來說,這些水印極大的圖片達不到理想的展示效果,這是需要改善的一點。值得肯定的是,在2023開始的新一輪數字化工程中,國圖優化了備受爭議的水印,新錄入的古籍數字化體驗非常好。
1.2.2 內閣文庫中文古籍數字化種類與數量
內閣文庫所藏漢書整體數量基本不會變動。從表3可以看出,內閣文庫對書目在線化的任務已基本完成。對于那些還沒有完成最新高清掃描的書籍,可以利用官方的申請系統收到以前的掃描版;對于那些已經完成高清掃描的書籍,直接在線瀏覽下載圖片即可。
表4為2014年和2022年內閣文庫漢書數字化百分比對比。從中可以看出,內閣文庫對于所藏書目的漢書古籍數字化即將完成,當然這也有其所藏書目相對較少的緣故。內閣文庫目前有幾點優勢:一是沒有“墻”,中文互聯網使用者可以直接瀏覽,無須注冊,且打開速度比國圖快;二是圖片拍攝規范,每冊頭圖均配有色卡和標尺,方便讀者參照;三是在線書目多為善本且水印小,方便讀者使用。當然,網站只提供英語和日語兩種選擇,需要額外學習才能更好地使用其功能。
2 中華古籍資源庫與內閣文庫古籍數字化質量對比
2.1 古籍數字化標準
古籍數字化的呼聲由來已久,但各大機構通常有自己的數字化方式。受限于已往各館的數字化條件,很多古籍的數字化水平參差不齊。如今用相機和掃描儀對古籍進行數字化已成為主流。關于數據格式和媒體記錄的指導方針雖然存在,但在實踐操作中受限于書目種類品相的不同,不可能完全按照模糊的規范操作。日本于2013年9月出臺了《古典籍、古文書、西洋珍本等的數字化指導方針V1.0.0.0》(以下簡稱《方針》)。此《方針》包括帶有具體實踐內容的樣本為日本各圖書館的數字化提供了參考。國圖也于2016年編寫了《古籍數字化工作手冊》,但由于具體內容未曾對外公開,本文以國圖出版的《古籍數字化規范數據采集實踐》與日本的《方針》進行簡單比對,以期有所增益。中國現行部分古籍數字化標準見表5。
2.2 圖像規范和拍攝規范對比
2.2.1 圖像規范
在古籍數字化早期,受硬件條件限制,古籍圖像數據以二值圖像和灰度圖像為主,分辨率低于300 dpi。在這一時期,古籍圖像的主要用途是文獻提供,包括網絡瀏覽、打印件提供(替代復印)、黑白影印出版等。文獻提供的目的是傳遞文獻內容,對大部分古籍(插圖本、彩繪本等除外)而言就是文字清晰,對圖像的品質要求不高[2]。但進入互聯網時代以來,隨著各項技術的發展,古籍數字化色彩精準和圖像清晰度高成為可能。
從表6可以看出,兩館對圖像要求差不多,國圖得益于后發優勢,標準更高。
在圖像規范方面,兩館在掃描色彩標準、分辨率、存檔和發布格式上存在差異。國圖采用RGB 24 bit色彩模式,相比日本的RGB 16 bit,能呈現更豐富的色彩;國圖的掃描分辨率為400 dpi,存檔格式均為無損壓縮TIFF(LZW)格式;國圖的發布格式為JP2和PDF(400 dpi),這些格式在行業內廣泛應用且各有優勢。
值得注意的是,微縮膠片在保存方面具有多個優點:一是長期可靠,在備災條件下仍有500年的壽命。二是長期保存相對便宜,磁盤或云盤的開銷費用往往10年就要數百萬元,而微縮膠片的開銷主要是倉儲費用;三是微縮技術不需要聯網,無須擔心信息泄露或來自互聯網的病毒攻擊,更加安全私密。因此,各圖書館往往會額外用微縮膠卷來保存資料,但其在色彩和分辨率的精確度上不夠,并不適合作為在線圖片的選項之一。
目前,古籍數字化一方面是館藏單位購置機器,配備專門的工作人員掃描,另一方面是通過外包的方式,優選具備一定資質和能力的單位來掃描。
2.2.2 拍攝規范
在實踐操作方面,中日兩國的原則近似,在不傷害書籍的情況下,盡可能地追求圖像的準確性。下面列舉兩種裝幀形式的拍攝要求。
對卷軸裝古籍的拍攝,內閣文庫通常不拍攝卷軸的外部容器,從卷首封面開始拍攝。為了準確性,前一頁最后一句話作為下一頁句首出現在鏡頭中。為保持連貫性,卷軸的接口處或蟲蛀痕跡等也要如此連續出現在前后兩個鏡頭中[3]。而中華古籍資源庫拍攝卷軸裝前會檢查書籍本身情況,對可以掃描的書籍進行數據測量,即對三維進行測量,在至少兩人的協同下展開掃描,并在當前頁完成后留三列以上切入下一個畫面,最后回歸原樣保存。
對冊頁裝這一形式的拍攝,內閣文庫和中華古籍資源庫的方案類似,都是不拍攝外部容器,將有字的封面記為第一頁,將以厘米為單位的刻度尺和比色表放于紙張外側進行對比。
當然,在實踐操作中,往往會出現殘頁或破損,這時就需要依據古籍保護和采錄的相關原則靈活記錄。
2.3 小結
從技術標準看,中國古籍數字化并不比日本落后,甚至得益于后發優勢,在很多細節方面做得更好。同時,在實際體驗中,中華古籍資源庫與手機、平板這類移動端設備的適配性更強,并且對自有的數據庫和第三方數據庫進行了統一的格式編輯,讀者檢索起來更方便。
美中不足的是,中華古籍資源庫的數字化信息資料并不完全對公眾開放,而內閣文庫則會定期更新技術標準,并公開下一階段的書目。
3 古籍數字化中的水印之爭
不管是國內還是國外,任何經過勞動產生的圖像產品,作者都有權且應該加上水印來保護自己的成果。但古籍數字化的內容主體是前人的創作,機構大多只是進行了簡單的掃描,而古籍數字化水印問題的實質是數字化后著作權的歸屬。在2023年之前,國圖往往在圖片上加很厚的水印,但2023年開始全部取消了。
3.1 從法律角度看著作權問題
常規的古籍數字化完整流程分為幾個環節:采集側—數字化生產側—應用側。這幾個環節都涉及著作權的問題。采集側的關鍵在于是否有新內容產生,數字化生產側的關鍵在于利用何種復制手段,而應用側的關鍵在于是否對內容進行二次整理。
3.1.1 采集側的著作權問題
已經被修復和整理過的紙質書,用拍照或掃描的方式進行電子化保存與流轉。其核心問題在于照片和掃描這兩種行為會不會產生著作權,以目前通說和過往案例來看,這是不產生著作權的。
著作權的根本在于作品,附加了著作權人創造美感的照片才能上升為作品。而圖書館或者是被授權拍攝的公司對紙質書的拍照,只不過是更換了文學作品的載體,并沒有新的作品產生。因此,采集者沒有著作權。
在一種情況下,圖書館等機構是擁有著作權的,即原有古籍不完整,采集人不僅采集,還會收集殘片、整理修復、批注增刪,由于附加了新的創造,考慮到篇幅的比例,在一些情況下是有新的著作權產生的。比如《紅樓夢》,多種版本存世,都是有著作權的。因為各個版本之間的不同已經構成實質性的區別。
3.1.2 數字化生產側的著作權問題
生產側對圖像處理大致有兩種方式。第一,AI古籍識別系統,通過單字識別的形式,算法生成單字版本。對于此生成版本,無論是AI本身還是AI系統的開發者,都不享有著作權。當然,該算法本身可申請發明專利,但與古籍本身的著作權毫無關系。第二,靠人力,通過手敲的形式出單字版本。對于此人力版本,或該人力所在公司,都不享有著作權。
總的來說,數字化生產側就像把一篇文章譯為盲文,完全復制只是轉換了外在形象,沒有著作權。
3.1.3 數字化應用側的著作權問題
基于現有數字化作品制作的檢索系統、字典、知識圖譜都有著作權,分別歸屬于檢索系統開發者、字典編纂人、知識圖譜繪制人。例如,國圖對多本古籍進行了圖片拍攝,并進行了數字化掃描,對于拍攝后的圖像,國圖仍然不具有著作權,但數字化后對于這類書的檢索系統和相關文字的識別,國圖依法享有著作權。
3.2 從研究者和使用者的角度看水印問題
3.2.1 古籍數字化后向公眾開放的必要性
所有可以稱為古籍的書,其誕生至今肯定已遠遠超過50年,其內容早過了法律保護時間,其要成為一個公共性的文化產品,最終目的肯定是促進文化繁榮,加深人們對相關知識的認識。絕大多數古籍因年代久遠,都需要專業的保護和修復,這類需求則應由圖書館和博物館等專業機構來實現。那些在博物館、圖書館而非在私人藏家手中的古籍,其所有權歸根到底屬于集體、屬于人民。這種承載著中華優秀傳統文化的古籍毫無疑問應該被全國乃至全世界人民所欣賞。但遺憾的是,受限于以往各館發展水平和保護能力的不同,很多應被展現的古籍在庫房不見天日,哪怕有學者提出申請要原件或影印本,往往也困難重重。基于社會的實際需求,國家組織力量建成了聚合類平臺——中華古籍資源庫,其是“中華古籍保護計劃”的重要成果。
3.2.2 國內古籍數字化水印的矛盾
水印存在的根本意義是保護創作主體的勞動成果,其應遵循四個基本原則。第一,安全性。在保護圖像創作者主體的同時,應對內容發生改變時減少誤測。第二,不可感知性。圖片水印或多或少都會造成一定的圖片信息損失,好的水印算法就是要盡量避免對圖片造成干擾,同時放盡量多的身份證明。第三,魯棒性。圖像在分發使用過程中不可避免會受到破壞,但也應盡量保證圖片水印的完整性。第四,敏感性。圖像在分發后,水印可以保證后來者對那些篡改后的內容有判斷。
2023年,國圖對這方面的欠缺進行了改善,參考圖1、圖2。2023年前國圖對已經規范了的標準依然執行不到位,圖片水印非常大,而且添加的水印并不專業。依據《古籍數字化規范數據采集實踐》,國圖目前使用的方法是用PS多加一圖層,并調整其透明度。目前看來,這種方法不僅對于那些濫用圖片的人來說沒有什么障礙,反而對那些正常使用圖片的人造成了阻礙。其水印雖然覆蓋整個圖片,但安全性和敏感性依然無法保證。2023年后,新錄入的圖片取消了水印,雖然依舊不開放下載,但對一般的研究者而言,體驗已然有了明顯的提升。
作為圖片的使用者和受益者,讀者應尊重這些機構的勞動成果,在使用這些圖片時注明文獻來源。
3.2.3 國內圖書館水印問題根源探究
《中華人民共和國公共圖書館法》于2018年1月1日起實施,為圖書館經費來源提供了法律保障。其以第4條為經費保障的主要條款,即“加大對政府設立的公共圖書館的投入,將所需經費列入本級政府預算,并及時、足額撥付”;以第6條的“鼓勵捐贈”和第7條的“國家扶持特定地區圖書館發展”作為第4條的補充,主要確立了提供經費的責任主體。但只有責任主體,缺失其他內容,使得經費條款的操作性較弱[4]。
在實際操作中,圖書館受限于各地財政,往往會推出各種創收手段來保證運營。最常見的即出租土地一類固定資產,這種方式往往收益穩定,但不一定符合當地政策。另一種方式則是聯合市場推出文創產品,這類項目往往因圖書館不熟悉市場而導致收益不穩定甚至虧損。在這些手段中,有一種特殊手段,即利用圖書館館藏的珍貴內容,向有需要的人群收費,這種行為會在一定程度上阻礙古籍的數字化及其利用。
應正視圖書館內部的創收需求,但圖書館作為事業單位,其人員編制屬于事業編,其根本任務是為國家創造或改善生產條件,增進社會福利,滿足群眾文化需要。其創收行為不應違反自身宗旨和任務。在市場經濟條件下,應鼓勵圖書館采取合理合法的創收手段來為自身謀求經費和福利。
4 結語
本文通過對中華古籍資源庫和內閣文庫公開數據的統計和技術標準的分析,展現了兩國古籍數字化的進程,并通過圖片和實際使用從法律的角度分析了數字化后的著作權問題。
在新設備新技術的加持下,各國的古籍數字化進程快速推進,如日本內閣文庫基本完成了對善本的數字化,中國國家圖書館也在這些年增加了萬冊內容。兩館數字化的方法與標準有許多可以相互參考和借鑒的地方,雖然它們在細節上尚不能盡善盡美,但取得的進步依然令人欣喜。同時,本文對古籍數字化的著作權問題提出了與以往研究不一樣的理解,為古籍數字化著作權提供了法律解釋,認為機構在沒有深度處理文獻的情況下不享有著作權,古籍數字化在保障機構勞動成果的同時,不該對一般的讀者和研究者提高使用門檻。相信隨著時間的推移,我國的古籍數字化會越來越完善。
參考文獻:
[1] 趙文友,林世田.“中華古籍保護計劃”成果:以“中華古籍資源庫”建設為中心的古籍數字化工作[J].新世紀圖書館,2018(3):12-15.
[2] 肖禹,王昭.論色彩管理在古籍數字化中的應用[J].圖書館學刊,2013,35(9):20-22.
[3] 建欣茹,張文亮.日本《古典籍、古文書、西洋珍本等的數字化指導方針》標準解讀[J].圖書館學研究,2015(24):14-20,26.
[4] 張一博.《公共圖書館法》經費條款的立法論評析及改進建議[J].圖書館論壇,2019,39(2):80-85.
作者簡介:高山 (1999—) ,男,研究方向:博物館典藏。
本文引用格式:高山.中國國家圖書館中華古籍資源庫與日本國立公文書館內閣文庫古籍數字化比較研究[J].藝術科技,2024,37(17):-.