傳統出版單位要在現代出版中勝出,關鍵在于對優質內容資源的占有和整合,誰占有優質的出版資源并具有整合的能力,誰就占據行業的制高點。數字出版業務最為核心的工作就是內容資源的積累與整合,缺乏海量內容資源的支撐,數字技術與網絡技術帶來的便捷性就無法實現。國內大多數出版社自主發展數字出版業務面臨的最大困難之一,就是結構化的內容資源有限,無法滿足數字出版對海量內容的重組和多方面應用的要求。
獲得結構化的內容后,可以以多種形式復合發布作品:
* 保持作品原有內容直接進行各種形態的數字出版,比如以章節為單位的內容的銷售、圖片的銷售。
* 根據不同的用戶群體抽取不同的內容進行針對性的出版,最直接的就是教輔類圖書的教師用書和學生用書。
* 對作品進行深度加工,對內容進行重新編排組織,形成新的內容形式,如交互性更強、更合適的閱讀體驗,為讀者提供更方便合適的閱讀服務。如依不同標準、篇幅等對工具書的條目重新抽取,形成針對不同媒體、不同讀者對象的新的工具書。
* 海量內容資源庫的知識服務。
在數字出版時代,新的出版模式將不可避免地給現有出版格局帶來新的挑戰,這些挑戰要求跨媒體、跨部門更緊密地合作,要求部門產品線融合、細分、互補,要求摸索出制度化、程序化的運營新思路和管理新模式,建立起可重用的結構化內容資源庫,最終形成跨媒體、專業性、分層次的數字復合出版發展格局,使出版產品資源配置更趨于合理化、規模化,為出版單位的內容產品樹立扎實、長期的市場競爭優勢,而可重用的結構化內容資源庫的基礎是傳統圖書內容的結構化。
圖書內容資源結構化考慮的要點
目前,我國絕大部分出版社的編輯、審稿過程依然在紙面上進行,因此,數字化的出版內容資源往往要到成書時依靠排版文件才能獲得,而此時的排版文件中,書稿內容已經被排版指令所“污染”,書稿的知識體系或邏輯結構也很難被識別,所以,排版文檔除了用于書稿的再次印刷外,能直接被作為數字化資源而利用(如數字出版)的幾率非常低,這使得出版社想通過數字化技術對已出版的內容進行重新組合、再次使用幾乎不太可能。這就要求出版單位研究以下問題。
第一,合作伙伴的選擇。考慮到目前出版社大部分的排版文件是方正“書版”文件,所以項目的研發團隊的研究重點是:由計算機系統對當下數字出版內容資源的主體——方正“書版”的排版文件進行較高程度的自動化分析并完成結構化工作,實現將排版文件中的書稿內容數據與排版指令分開,還原書稿的知識體系或邏輯結構(不同類型的圖書分別表現為不同的形式,如章節結構、詞條結構、習題結構等)的目標,以便將數字出版內容資源在新的介質上進行發布傳播,或根據出版要求重新組合,產生新的出版價值。
以上所述的“還原書稿的知識體系或邏輯結構”的過程,被稱為“反解”。
第二,內容結構化反解時對內容正確性的要求。
文件版本處理:只需指定排版文件的版本,統一版本的工作由后臺規范化引擎自動完成。
圖像格式轉換:對舊格式的圖片如EPS進行統一處理,轉換為當前流行的圖片格式,如TIFF、JPEG等。
補字處理:將歷史資源中的補字轉換對應到新的編碼體系中,并解決在一般環境下對補字的正常顯示和輸出。
特殊符號:將歷史資源中特殊符號進行提取和轉換,以達到入庫及重用的目的。
數學公式、表格的處理:可提取數學公式和表格進行內容的轉換,不僅僅要求達到入庫查看的目的,而且將來可以再被編輯。
第三,內容結構化反解的完備性和易用性。
* 提供由智能標注及少量人工輔助標注兩部分功能組成的圖形化的交互式標注工具,可以方便地從中間文檔格式提取要標注的章節、知識點、圖片、公式、表格等內容,組織成結構化的XML格式。
* 識別各種用于編排標題的書版標記,形成結構化文檔中的各級標題,文字內容自動按各級標題切分,每個標題對應結構樹上的一個節點,各級標題按照所屬級別構成分層結構。
* 支持通過規則映射的方式對一些采用不規范方式描述的標題內容進行智能識別。
* 支持大樣與小樣、結構與小樣之間兩種不同模式的互動操作。
* 支持大樣的分頁預覽以及針對公式、圖片、表格的劃區標注。
* 支持跨欄或跨頁內容的標注,并允許結點及其結點內容的合并。
第四,內容結構化反解后語義的準確性。
* 辭書條目類拆分后語義的準確性。
* 教材教輔類拆分后語義的準確性。
* 論著類拆分后語義的準確性。
根據以上分析的要點,我們選擇了幾本非常有代表性的圖書進行研究,分別是論著類的《收入和財富分配不平等:動態視角》、教育類的《教育大詞典》、辭書類的《英漢大詞典》作為驗證的標準,并通過較大規模的實際運用來驗證研究成果。
圖書內容資源結構化的基本思路與實踐
雖然說排版文件中,書稿內容已經被排版指令所“污染”,書稿的知識體系或邏輯結構也很難被直觀識別,但仔細分析排版指令、排版后的版式和內容等,我們認為,自動化分析和完成結構化還是可能的,所以在研究中我們提出了自動化拆分與少量交互式的人工標引的目標。
圖書結構化反解的思路可以分為以下幾個方面:
第一,通過排版的特征來進行分析
一般來說,排版文件中關于篇、章、節、正文等字體字號是有差別的,通過這個差異性來進行圖書結構化的特征分析與提取。

在圖中,段的首字大寫和腳注等信息,這在做結構化處理過程中希望能通過程序自動處理和判斷。
第二,通過文字特征進行反解,比如序號、特殊標記等
除了字體字號的差異以外,對于篇、章、節等內容來說,還有一些規律是可以去分析的,比如序號和特殊標記等。配合字體字號的差異方法,我們對于大部分的圖書內容就可以提取出來了。下圖就是圖書比較典型的序號標記。

在上圖中的章節序號標記比如:5.1,5.1-1,5.1-2等標識,其中5.1下有一個橫線將節標題與內容分開,這通過智能判斷是很難區分的,需要提供交互式的操作進行人工調整。
反解結果如下:

第三,通過正則表達式的方式進行細粒度的拆分
通過排版的特征和文字特征進行反解,對于論著、教材教輔類的圖書內容拆分就能基本滿足應用的需求,但對于辭書類圖書來講,細粒度還有些不夠,需要拆分到段內。

在上圖中:“阿波提(Aporti,1791—1858)”“阿伯茨霍爾姆學校(Abbotsholme School)”“阿部重孝(1890—1939)”等內容不一樣,但在整本書中中文名、括號、逗號這些特殊標記表達的是不同的意思。對于以上類型的條目,前兩種方法組合起來也解決不了段內反解的要求。所以我們就想到了通過正則表達式來進行邏輯分析和提取內容。反解的結果如下:

對于更加復雜的一些段內拆分,正則表達式的設置更加專業,左下圖是《英漢大詞典》中一個典型的條目:

右上圖是通過更復雜的正則表達式反解出來的結果。
圖書內容資源結構化方法的研究只是成功的將圖書反解,這就帶來了另外一些話題,比如在數字出版時代,出版社怎么規范排版文件格式、如何建設可重用的結構化內容資源庫、加工流程的探索以及與動態出版系統的結合等。
圖書內容資源結構化方法的研究,為傳統出版向數字出版轉型的戰略要求提供了一個高效率、低成本的編輯通道。為圖書內容在數字出版時代重新組織進行多渠道發布提供了一個基礎的方法。
(作者張國強單位系上海數字世紀網絡有限公司,林江發、繆萍系北京北大方正電子有限公司)