記者︱張競艷
從2003 年成立古籍資源部,到2018 年推出古籍整理與數字化綜合服務平臺——籍合網,再到2022 年推出“3D 超寫實數字人蘇東坡”,中華書局經過不懈探索,逐步奠定了其在古籍數字出版行業的領先地位。

“起舞弄清影,何似在人間。”正如蘇東坡在《水調歌頭?明月幾時有》中所寫的那樣,這位大才子對世俗人間充滿了無限深情。“我們想,對人間予以深情的東坡、被人們深愛的東坡,也一定愿意重返人間。”為此,中華書局古聯公司聯合元宇宙生態鏈企業北京諦聽視界文化科技有限公司,基于古籍文獻和數字技術進行了為期一年的認真研發,歷經幾十次研討打磨及版本迭代,最終將全國首位“3D 超寫實數字人蘇東坡”送到了大家的面前。中華書局110 周年局慶大會之際,“數字人蘇東坡”得到了讀者的熱情反饋。
如何推動中華優秀傳統文化創造性轉化、創新性發展?把握好數字化機遇,做好古籍數字化工作,無疑是讓中華優秀傳統文化展現出新時代風采的重要手段。從2003 年成立古籍資源部、2015 年改組為古聯(北京)數字傳媒科技有限公司(簡稱古聯公司),到2018 年古聯公司推出古籍整理與數字化綜合服務平臺——籍合網,這些年中華書局經過不懈探索,逐步奠定了其在古籍數字出版行業的領先地位。在中華書局執行董事周絢隆看來:“中華書局過去10 年最大的突破就是古籍數字化。我們成立了古聯(北京)數字傳媒科技有限公司,打造了包括中華經典古籍庫在內的多個專業數據庫,現在處于全國前列水平,在業內非常有影響力;還研發了古籍文字識別、自動標點等專利技術,搭建了古籍整理與數字化綜合平臺‘籍合網’,這些已經成為中華書局重要的品牌支撐。”
近日,國家新聞出版署發布通知,公布了2022 年度出版融合發展工程入選名單。中華書局“籍合網”入選“2022 年度數字出版優質平臺遴選推薦計劃”。
早在2003 年,中華書局就成立了古籍資源部,著手布局古籍數字化工作。2012 年起,中華書局決定將數字化內容做成數據庫。2014 年,中華書局首款數據庫產品——“中華經典古籍庫”問世,該庫匯集了中華書局歷年出版的整理本古籍資源內容,是國內首個大型整理本古籍全文數據庫。“中華經典古籍庫”目前共上線9期資源,資源總量超20 億字,匯聚了鳳凰出版社、巴蜀書社、齊魯書社等20 多家出版機構的優質古籍整理本資源,數據準確,內容權威,得到了學界的一致好評。
2015 年8 月,中華書局將古籍資源部改組為古聯公司。此后的三年時間里,古聯公司研發了在線古籍整理與發布系統,開啟了全新的線上資源生產和出版模式。2018 年,古聯公司整合現有數字產品,推出“籍合網”。隨后在線眾包平臺、古籍整理培訓平臺、古籍智能整理平臺等創新產品與模式不斷發展成形。近幾年,古聯公司發展迅速,在古籍數字化專業服務上,逐步形成了數據庫建設、在線編校、技術服務、人才培養、校企合作的產業服務矩陣。
“籍合網”在成立之初,就得到古籍辦的大力支持,目標是建成國家級古籍整理與數字化綜合服務平臺。平臺將專業內容和智能技術相結合,聚合了以古籍整理為核心,以知識服務為脈絡的各類數字化產品。旗下專題數據庫主題多樣,資源體量達40 億字,涵蓋古籍文獻、學術研究、文化藝術等各種類型,全面滿足當下多元化、專業化的用戶需求。
除了“中華經典古籍庫”,以知識服務為主旨的條目型數據庫——“中華古籍書目庫”“歷代進士登科數據庫”“歷代石刻專目總目數據庫”等,發揮結構化數據優勢,為用戶提供完備、準確、實用的信息服務;以各類型石刻文獻為主體的石刻數據庫——“中華石刻數據庫”及系列子庫,與整理者通力合作,打造集歷史資料與學術研究成果于一身的石刻專題數據庫;專業文化藝術類數據庫——“中華書法數據庫”“中華木版年畫數據庫”等,全面收錄歷代書法作品及木版年畫資源,圖像清晰,并輔以文字著錄,能夠為相關研習者提供有價值的研究資料。
此外,“籍合網”還與學者合作,打造了包括“殷墟甲骨文數據庫”“現代漢譯文學編年考錄數據庫”等在內的多款專題性數據庫產品,以數字出版形式發揮學術成果優勢,彌補紙質出版的不足。
迄今為止,“籍合網”平臺已擁有國內機構用戶100余家、海外用戶40 余家、個人注冊用戶22 萬人。
字符類型多樣、字際關系復雜、終端需求不同、生僻字繁多是古籍數字化工作時時面對的問題,主動開展字符集整理與規范工作,是解決古籍排版、數據庫字符呈現、智能處理工具研發等系列問題的必要措施。為此,在古籍資源建設的同時,古聯公司專門開發了“中華書局宋體字庫”及“梵文悉曇體字庫”“甲骨文摹寫字庫”等專門字體,收錄超過15 萬字符,用于解決古籍中各類楷書生僻字及甲骨文、金文、小篆、梵文等特殊字符的在線檢索和顯示問題。
為了更好地保證古籍數字化的質量,古聯公司制定了《數據加工流程總規范》《XML 數據整理工作規范》《元數據規范》《圖像采集規范》《文字采集規范》等26 種數據加工及技術開發標準,規范業務生產流程。2020 年10 月,古聯公司“古籍數字化標準體系的建設與應用”榮獲中國質量協會頒發的質量技術獎二等獎。
這些標準已經成為多家出版社古籍數字化出版的應用標準,為后續國家古籍數字化工程的開展提供了支持。
古聯公司擁有專業的古籍數字化技術與研發能力,設立了專門的技術部門和大數據中心,研究古籍整理、編輯、出版的自動化問題。
為改善傳統古籍整理工作大量消耗人力、時間成本等問題,古聯公司以古籍整理和古籍數字化的基礎工作為線索,研發了數款古籍智能在線整理工具。目前已經投入使用的技術包括:面向古籍整理和專業出版的自動標點、繁簡轉換、命名實體識別、引文核對及融合多技術于一體的文達編校系統;應用于古籍數字化生產的古籍OCR、在線XML 編輯器、元數據著錄編輯器等。結合“籍合網”數據庫使用場景,平臺還提供了包括字符查詢、紀年換算、字庫、輸入法一系列輔助研究的專業工具,向用戶免費開放。
為解決古籍數據編校工作量大、專業化程度高的問題,古聯公司建立了專門的古籍整理眾包平臺及“i 編纂”小程序。自2018 年上線服務以來,積累了近5000 人的在線古籍編校隊伍,發布任務42976 個,處理14.84 億字,為多個大型古籍整理出版項目、地方文庫編纂項目提供編校力量支持,極大地加速了項目進展。
古聯公司總經理洪濤表示:“這些技術工具與眾包平臺相結合,在古籍數字化整理和編輯過程中爆發出巨大能量,極大地提高了古籍工作效率。”
古聯公司2022 年加快了發展的步伐,通過一系列新的嘗試,大力推進出版融合發展,促進古籍內容普及傳播。
2022 年1 月,古聯公司推出了專業的古籍整理培訓平臺——籍合學院提供視頻資源庫、在線學習及教學、題庫、考試、項目管理、認證等多場景功能。籍合學院的建立初衷,一是希望將籍合網的古籍數字化整理的工作機制與培訓業務深度整合,解決線上整理的人才培養問題。二是為高校提供線上課程資源,輔助教學,同時發力職業教育,響應業界呼聲,為古籍編輯提供繼續教育服務。目前籍合學院累計策劃課程已超過300 課時,課程數量超過60 門,已上線100 余課時,參與洽談合作的教師有上百位,均為古籍整理及出版界成績卓著的學者、編輯。同時,籍合學院還發布了兩期中華書局古籍整理訓練營,得到了眾多古籍整理愛好者的積極響應,報名學員遍及高校教師、學生、職業編輯等各行各業。
此外,古聯公司打造的中華優秀傳統文化經典音頻——中華書局經典之聲,目前已逐步在喜馬拉雅上線,為讀者增添了一個學習古代經典的新渠道。而通過數字科技實現千年歸來的“3D 超寫實數字人蘇東坡”,未來將會逐步參與到數字出版創新、文化普及教育、城市文化宣傳、數字形象代言、數字文旅賦能、數字虛擬演藝、沉浸場景構建乃至國際傳播等全新場景中去。
“路漫漫其修遠兮”,如何讓古籍活起來,如何讓中華優秀傳統文化傳下去?古聯公司正在融合創新之路上奮力書寫新篇章。■