摘要:出版融合發展正面臨從以圖書(產品)為主體的資源建設向以內容(知識)服務為主體的轉變。一方面繼承原有以圖書為主體的內容組織和傳播方式,滿足圖書產品的生產及銷售需要;另一方面逐漸形成以知識為主體的內容組織和傳播的集合形態,形成知識庫等分類資源庫,以滿足復合出版和不斷發展的內容服務需求。本文對專業出版資源建設的相關問題進行探索。
關鍵詞:出版資源建設;碎片化;內容深加工;資源體系
中圖分類號:G239.22 文獻標志碼:A 文章編號:1674-8883(2020)21-0215-02
一、引言
對專業出版社而言,專業出版資源建設是核心任務。出版融合發展第一階段資源建設是圍繞以圖書(產品)為主體的資源建設,當前階段的資源建設則應該是以內容(知識)服務為主體。即一方面繼承原有以圖書為主體的內容組織和傳播方式,滿足圖書產品的生產及銷售需要;另一方面逐漸形成以知識為主體的內容組織和傳播的集合形態,形成知識庫等分類資源庫,以滿足復合出版和不斷發展的內容服務需求。
對于出版社來說,資源包括兩個方面:存量資源平高低不一。
(三)資源庫組稿
企業/機構在多年的發展中,有的企業建立了自己的資源庫,包含企業的文化、規范、標準、案例、培訓內容等,又或者其他相關出版社形成的出版資源庫。對于這種資源,可采用數據庫購買、合作等方式獲取使用。這種資源一般通過信息技術手段管理,在內容的分類性、體系性等方面相對較好。這種資源的獲取通常與相關的企業、出版單位合作,合作的對象很少。
下表是幾種組稿方式對比。

和新增資源。存量資源指出版社已出版的內容(圖書、音視頻等);新增資源指當下還不屬于出版社的資源,通過組稿、資源購買等方式進入出版社。
二、新增資源建設
新增資源建設的目的是使新內容不斷進入出版社,保證出版社的生命力。新增資源的組稿方式在出版融合發展新階段可能包含:
(一)圖書組稿
通過組織專業的作者群體,編寫內容,形成整書,進入出版社。圖書內容相對豐富,內容具有一定體系性,創作需要一定時間,組稿周期相對較長。作者隊伍需要慢慢積累,不斷發掘。出版社在傳統的出版過程中,都集聚了有一定規模、專業水平較高的作者隊伍。
(二)微內容組稿
在數字、網絡環境下,內容的組織、表現、傳播方式發生了變化。微內容(知識點、短視頻、圖片、表格、案例、流程、數字模型等)也可以作為出版社組稿的對象。微內容的創作相對簡單,內容描述的問題相對單一、具有針對性,但單個內容的體系性較弱。作者隊伍不再顯得那么專業化,任何人在某一點具有專業性或者權威性,即可以成為碎片內容的創作者,是一個泛化的作者群體,作者隊伍的水
針對新增資源在內容組稿期間盡可能完成資源數字化建設工作,避免將新增資源變成存量資源后,再開展數字化工作。
三、存量資源建設
存量資源數字化建設包含兩方面內容:圖書數字化和資源增量數字化[1]。((如下圖))

(一)圖書基礎數字化工作
對圖書掃描識別或電子文件格式解析,提取圖書元數據,制作PDF文檔、結構化XML文檔,形成圖書庫。PDF文件能保留原書版式,可滿足圖書印刷、按需印刷等需要;XML文檔適合于數字環境下傳播,易于與通用電子圖書格式轉換及在通用平臺上實現解析、顯示。
(二)資源增量數字化工作
資源增量數字化包括兩個方面:內容碎片化與資源深加工[2]。根據需求對內容進行組合、編輯形成新的數字化產品,達到現有資源內容增值和產品增值的目的。
1.內容碎片化
(1)拆分規范。在拆分時,根據內容是否有損失可分為可逆拆分和不可逆拆分。可逆拆分不損失原書內容,拆分的內容碎片可回組成原書;不可逆的拆分只提取書中重要內容碎片或知識點,對于銜接性、重復性的內容則剔除掉。
根據拆分的顆粒度不同,可以劃分為3個拆分等級:
一級拆分:最粗粒度、最基本的拆分規則。按照書中固有的內容組織形式來拆分,如按章節、按條目等[3]。拆分的結構在一定程度上可保持內容描述的完整性,但一個拆分結構不一定能詳細說明一個大的邏輯問題。通常這種拆分的內容用于后續內容加工參考、調用或者原材料。這種方式拆分具有內容的可逆性,即拆分的內容通過拆分時建立的聯系,可回組成原書內容。
二級拆分:在一級拆分規則之下進行拆分,為次一級拆分粒度。具體拆分是按照圖書內容表述方式來拆分,如圖片、表格、公式等。基本原則就是將一級拆分的基本內容作為拆分的源進行細化拆分。
三級拆分:屬于定制拆分,在一級、二級拆分規則之下進行拆分,是更細一級拆分粒度,如知識點拆分,有時龐大的表格也可進一步拆分。
在碎片化過程中,所采用的拆分方式通常都是幾種方式的組合,可根據圖書內容的不同以及個性需要進行選擇。
(2)碎片及元數據。在資源庫中描述這些碎片資源需注重兩個方面:碎片內容本身、碎片內容的元數據。
一是碎片內容本身,最基本的為名稱、內容,以及根據使用和傳播需求選定的數據格式,如XML、PDF、Word等。
二是碎片內容元數據,是描述碎片內容的數據,其完備性直接影響后續內容深加工、使用的便捷性。在碎片化過程中可從以下幾個方面提取元數據:
主題信息:描述內容的主題、關鍵字、著錄等信息。
分類信息:多維度的分類信息。在拆分時通常只有從屬于書的一個分類信息,在資源深加工中可構建其他維度分類信息。
版權信息:記錄碎片內容的版權信息。
來源信息:來源于哪本圖書、所在圖書頁碼以及與拆分自同一本圖書的其他碎片的前后關系信息等。
格式信息:圖片、表格、視頻等,不同數據格式都有特定格式描述信息。
通過碎片化處理形成不同專業分類庫。
根據內容表達方式不同,拆分的分類庫有:文字碎片庫、圖片庫、表格庫、公式庫、音視頻庫等。
根據圖書內容性質不同,拆分的分類庫有:條目(知識點)庫、案例庫、操作流程庫、論文庫、試題庫等。
2.資源深加工
(1)內容深加工。以資源庫為基礎,對碎片內容進一步深加工形成知識點,構建知識庫[4],為后續知識體系建設、知識服務供給儲備內容;通過對文字、圖片、音視頻資源的重新組合可形成多媒體資源庫;對現有內容進行新的載體構造,可形成3D模型、動畫、仿真等培訓、考試資源庫。
(2)資源體系建設。一個完善的資源庫,除了要有豐富的專業內容資源,還需構建各庫之間、庫中內容之間的關聯性。資源建設中除保持知識內容的個體性外,還需形成知識之間的網絡、層次的鏈路,保證知識的系統性、相關性。資源體系建設可從以下幾個方面著手:
第一,資源的專業分類。不同學科、不同行業都具有不同的專業分類體系,這些分類體系體現了內容的體系性、層次性、前導后繼性。在資源庫建設中,應將資源內容歸到相應分類下。在不同的應用場景,每一個資源通常都有多個維度的分類。比如中國鐵道出版社在資源建設中涉及的分類有鐵路學科分類、鐵路專業分類、中圖分類、出版社ERP(Enterprise Resource Planning,企業資源計劃)分類、鐵路工種分類、鐵路百科分類等。
第二,專業詞庫。建立學科、行業的專業詞庫,基于詞義、語義的分析,從單個內容的角度構建內容之間的網絡鏈路。可從專業名詞表、專業百科、資源內容的名稱、主題詞、關鍵詞等提取,輔以相關拆分、提取算法進一步深加工形成。
第三,拆與組的關聯。拆的關聯是指進行存量圖書碎片化處理時,形成不同內容碎片之間的相關性,如前后關系、來源于同一本圖書等;組的關聯性是指在知識點加工、課程和仿真內容制作時與原始碎片內容/知識點的關聯性。
第四,人工關聯。根據內容的關鍵詞、專業分類、專業詞庫等,通過計算機的聚類算法、挖掘算法等建立資源的體系性。但是這種關聯性、體系性存在一定的偏差,需要人工根據內容的行業或應用特性調整內容的關聯,再輔以算法不斷調整、糾正這種偏差。例如道岔、轉轍機在詞意上無相關性,但在鐵道工務上卻是兩個聯系緊密的設備。
四、結語
在專業出版資源的建設過程中,不僅要考慮資源內容本身的建設,還要綜合考慮后續其他的應用。如:一是復合出版產品生產的需要;二是數據連通與對接,需充分考慮資源管理平臺的擴展性;三是標準的建設,便于出版社內容生產流程的規范,也便于出版行業的數據交換與共享。
參考文獻:
[1] 江波,袁澤軼,項翔.專業社數字出版平臺建設實踐與階段分析[J].海南廣播電視大學學報,2014(3):154-158.
[2] 高蝴蝶,張志林.基于知識元的內容組織對數字出版的啟示[J].北京印刷學院學報,2009(5):33-36.
[3] 張國強,林江發,繆萍.圖書內容資源結構化方法[J].出版參考,2010(27):15-16.
[4] 由佳鑫.數字出版資源庫建設中的知識管理[J].出版參考,2014(24):28-29.
作者簡介:張磊(1983—),男,湖北鐘祥人,碩士,編輯,研究方向:數字出版、數字地圖。