葉延春
在數字化轉型升級過程中,中國建筑工業出版社實現了全媒體形態的預期目標。轉型升級內容覆蓋了從選題策劃、內容組織建設到產品研發、產品銷售的全業務、全流程,開發了涵蓋電子書、網絡課程、數據庫和移動閱讀App等產品。數字產品包括,已上線的“中國建筑出版在線”、工具書在線、“建筑文庫”移動閱讀、數字期刊平臺等,另外還完成了英文圖書元數據的推送等工作。這些多形態的數字產品,是建立在本社海量的資源庫的數據基石之上的。利用資源庫現有的資源,可以對圖書內容實現結構化、碎片化、富媒體化;通過元數據標引、數據挖掘、數據關聯,可以實現個性化、定制化服務,以便適應不同終端用戶的個性需求。所以,資源庫的數據建設、維護和管理是數字出版的重中之重,否則,前端多形態數字產品就將成為無源之水、無本之木。資源庫工作龐雜繁復,如何讓資源庫的數據建設完善、規范有序,是數字出版中心相關人員必須不斷思考的問題。
資源庫的數據建設:要有獨有的加工標準
資源庫的數據建設從前期規劃到具體實施是一個復雜的系統工程,也是一個從摸索中不斷走向完善的過程。在這個過程中,我們致力于數據建設逐步趨向規范化和標準化。
資源庫數據形式按內容可分為原始數據和基于原始數據的再加工數據;數據處理按加工手段可分為數據采集、審核、分類加工、發布等。
原始數據主要分為,從ERP和在線編纂系統采集到的圖書信息,排版廠提交給出版社的排版文件和鏈接圖,在線編撰的過程文件及最終文件等。
再加工數據包括:可帶鏈接的、用于在線發布的PDF文件;結構化的WORD文檔;EPUB文件;CEB文件等。
資源庫的數據建設,按流程順序,可分為圖書詳情信息采集、排版文件、圖片、PDF、EPUB的采集(該采集是用定制的采集工具在內網批量上傳)、標引、加工、審核、發布等。這些流程經過兩年多的運行和經驗積累,已形成建工社自身特色的加工標準:
⑴采集信息的唯一性。定期從在線平臺或ERP系統讀取已正式出版發行的紙質圖書、電子圖書。該階段主要是讀取圖書詳情信息,諸如:社書號,叢書名,書名,裝幀,開本,定價,ISBN,圖書銷售分類,中圖分類號等。讀取的全部信息在庫中留存,主要信息用于外網發布。采集時需要注意的是,出版資源庫要堅持“一書一號”原則,即同一本書所有信息都能最直接地從一個入口找到相關的信息,同一個社書號,無論版次只能有一個建檔。本書所有信息操作都是基于這個唯一的建檔號。不僅如此,還要做到系列叢書能夠有效關聯,甚至后臺資源之間、前臺的不同站點之間也要能有效關聯。
⑵采集信息的準確性。從ERP采集到的信息因各種原因,會存在信息不完整或有錯漏的情況,需要人工標引。
要素標引完畢,還有“精編”項目:內容提要和目錄內容。該內容可從ERP或排版文件讀取,如不能讀取則需人工錄入。為保證采集到的圖書信息準確,標引之后多人審核是必要的,審核無誤后才可發布到外網。
⑶排版文件、圖片、PDF、EPUB的采集。由排版廠提交到本社的排版文件和圖片一般滯后于信息發布1-3個月。數字出版部門收到排版文件后,要對文件做兩項必要的檢查。一是要保證內容的正確性。二是檢查排版文件的完整性。
內容檢查無誤后,可以用采集工具來按類型分門別類地批量采集。在采集工具中,不同數據類型如同一個個“盒子”,啟動批量采集時可自動歸入到相應的“盒子”中去。同一書號、不同版次的文件,不可采用批量方式,標明版次后需人工逐個插入到相應的資源文件夾中??晒┎杉臄祿校悍饷婕罢呐虐嫖募?、PDF、EPUB、CEB、插圖、經典資源包等。
PDF文件在采集之前,要嚴格區分高精度(用于內網存檔或內部職工因需調用)、低精度(用于外網售賣的電子書)、正文樣張(用于外網讀者的10%免費翻閱),批量上傳。EPUB文件直接批量上傳即可。
⑷數據加工。分基本加工和深度加工兩種。
基本加工:是將排版文件加工成CEB,PDF,EPUB等格式。必須注意的是,PDF文件用于外網發布時,使用低精度,同時還要批量拆分10%的PDF文件用于PC端客戶的免費瀏覽;用于資源庫留存的PDF文件則應生成高精度。既有圖書中,如果沒有排版文件的電子版,可將紙質圖書經過掃描生成PDF文件,整合成一個文檔,通過OCR識別,掃描的PDF中的文字內容可以識別,可視為“字符”形式,以便內容檢索和查找。
深度加工:主要是指將PDF文件、EPUB文件、由自動引擎版面回寫的WORD文檔,在已有的結構化基礎上,按需進行深度碎片化、富媒體化。以建工社為例,經過深度加工成功推出了數字期刊平臺,終端用戶可通過檢索期刊的欄目、標題、作者、文獻,訂制自己需要購買的文章。
⑸審核和發布。紙質圖書的“編、校、印、發”有其完備的運作方式和標準,數字出版則不然。雖然數字出版早已不是什么新生事物,但在“審、校、發”方面,業界并沒有形成統一的標準。出版社在轉型初期都會面臨審校過程操作性不強、嚴謹性欠缺、重視度不夠等情況。
經過多年實踐和摸索,建工社的數字出版物在正式發布之前的審校,已初步形成保障質量的運作方式和標準:一是不同流程由不同人員定崗負責。二是堅持全面檢查、兼顧重點的制度。三是在無紙化的條件下,人機界面交互的同時與紙質樣書核對。
審核無誤的信息,定期由專人發布。資源庫的數據是動態的,每天都會有變化。需要發布的信息,堅持定期、分批發布的原則。不是零散處理而是以時間段來加以區分,易于批量處理,也方便前后臺的數據比對和查詢。另外,需要提前發布的紙質圖書或電子書,也有應急響應措施。
資源庫數據的維護和更新:“看不見”的后續工作尤為重要
如果說數據建設是資源庫的基礎性的工作,那么資源庫的數據維護和更新則是“看不見”的后續性工作。無論是內部人員在后臺的數據調用還是終端用戶在前臺的數據訪問,都要保證數據的時效性、準確性。因此,資源庫數據的日常維護和更新就顯得尤為重要。
⑴定期采集、發布新書。新書是指已出版發行的新版、再版、重印的紙質圖書。每周由發行部門提供新書列表,數字出版部門根據列表,利用ERP與資源平臺的接口讀取相應字段,采集圖書詳情;掃描紙書封面并上傳封面圖片,標引,審核,發布。發布新書之前,由專人查看是否有前版,如有前版則從后臺撤下,發布后“圖書在線”只保留最新版。
⑵不定期整理需要深度加工的現有資源。資源庫中數據龐大,為了避免過度加工、盲目加工,造成人力和物力的浪費,須由專門人員將資源庫中需要再加工的、有市場前景的圖書資源,根據其性質、特點,分別導出需要結構化、碎片化的圖書列表,交由有關人員作相應的拆分,并將內容對象導入到相應的資源庫,滿足新的數字產品和商業模式的需要,提高內容的利用率。數字出版資源庫里的出版資源可能會有多種類型,針對不同性質的圖書資源采用不同的反解方式,并建立不同類型的資源庫,如標準規范庫、按篇章節拆分的期刊庫、按條目拆分的匯編及專業詞典庫、職業資格考試的視頻庫、供終端用戶有償下載的圖片庫等。
⑶內外網已發布資源數量的定期核對。建工社的數字出版資源管理系統與發布管理平臺處于同一個庫中,出版資源管理平臺的數據變動直接反映到發布平臺,再由發布后臺正式發布到前臺的“圖書在線”。在“中國建筑出版在線”上線初期,因為種種原因發布新書時偶有前后臺數量不能完全對應的情況,需要按圖書銷售分類人工核對。為保證這些數據完全正確,分類核對做法沿用至今。主要核對內容:各分類下已發布新書數量;電子書總數;POD數量。三個平臺的圖書分類方式完全對應。
⑷“丟書”情況的查缺補漏。丟書情況分兩種:一種是有庫存的、從ERP里無法讀取的,另一種情況是營銷中心因種種原因沒有提供樣書的。定期核查營銷數據中有庫存的圖書,只要庫存非零,在“圖書在線”前臺必有在線銷售;紙質書庫存為零則自動納入POD。每月由營銷中心提供銷售數據,正式出版發行的新書如因某種原因在前臺沒有在線銷售信息,兩個月內必須由人工補錄。
⑸資源數據的導出和調用。資源庫內的數據不僅是用來加工各種數字產品的,更重要的一個功能是本社圖書資源的“倉儲”。庫內可調用的文件類型很多,導出時根據實際需要可按圖書狀態、入庫時間、銷售類型下載。編輯出版部門因圖書的再版或重印需要調用原始文件時,可在資源庫平臺說明用途并在線申請,由部門領導在線核準、數字出版中心的相關人員授權后方可下載。授權時指定下載人員、可下載的內容、下載的時間限制等。嚴格“申請、審批、核發、授權、下載”程序,以策庫內資源的信息安全。
⑹未雨綢繆,著眼于將來未知形態數字產品的資源建設。為適應市場變化和需要,數字出版資源庫的建設都是為后續數字運營平臺和自適應的動態出版系統服務的。為了保證將來的可擴展性,必須要求元數據內容的自定義和可擴展,加工處理的方式,也應向著智能化、自動最大化、標準化的方向發展。
總之,無論是資源庫的數據建設還是數據維護更新,資源庫相關人員都是面向社內外的用戶服務;無論后端數字產品將來的形態如何變化,做好服務都是資源庫團隊的本職。以“一個團隊、一個標準”的不變,應對數據服務內容的不斷變化,是數字出版資源庫業者孜孜以求的目標。
(作者單位系中國建筑工業出版社)