初探出版企業數字內容加工方法
——以數字內容出版服務云平臺為例

2018-12-25 08:08:06馬嵩武漢大學信息管理學院

數碼世界 2018年4期

馬嵩武漢大學信息管理學院

1 研究意義

現階段出版企業對自身開展的數字戰略仍然基于傳統出版思維，注重內容，而數字出版產品形態單一，服務模式單一。出版企業生產的數字化產品不能是簡單的直至內容數字化，而應該注重產品內容結構的改變，充分利用信息技術的優勢對內容資源進行集成化、知識化處理，形成的數字化產品要致力于滿足用戶的個性化和非線性的需求。注重媒體與用戶的交互性，注重智能推薦與推送。

2 研究現狀

2.1 國內研究現狀

對數字內容的加工處理技術，以前的研究者主要采用的方法有信息抽取、信息拆分以及信息標注三類，研究對象主要集中在單獨的文本、圖片或視頻。其中，基于Web的語義標注方法應該最為廣泛，被廣泛應用于Web服務的語義標注問題，但這種方式不能很好地對不同類型關聯描述和富內容標記進行標注。針對這種情況，尤其隨著語義網技術的快速發展，越來越多的學者開始引入語義網技術到標注技術中，實現語義標注的智能化。語義標注技術是數字出版知識化處理的核心技術，通過對數字出版知識庫中的知識片段進行合理標注，不僅能清晰地描述不同內容片段間的相互關系，實現不同數字內容的快速檢索與重構，而且還能為出版者提供授權標注查看、添加、修改等各項增值服務。但是，從目前的相關研究成果來看，數字內容資源的標注僅限于對簡單圖形指示的文本標注，這對于日益豐富的多媒體信息來說是遠遠不夠的。如何實現對同一個數字出版內容片段可以分別使用文本、圖形、語音進行標注，且在同一個標注點可以同時使用文本、圖形、語音進行標注，以及實現同一個標注點的多用戶協作標注和多用戶獨自標注，是語義標注技術研究的最大難點和關鍵點。

數字出版的需求，開始發生從注重內容到更加注重展現的轉變、從記錄到快速而廣泛的轉變、從統一到個性化的轉變。讀者期待可以提供所需的一幅畫、幾張圖或是一個自然段，期待可以重新組裝不同的圖書內容，整合形成個性化出版物。而現階段的出版技術，還主要以內容數字化為特征，將內容以數字化的各種電子文件存儲在網絡服務器或電子閱讀器等，通過多種方式對數字內容進行編纂和開發，并由此形成不同形式的數字出版物，已經遠不能滿足數字出版新的需求。

2.2 國外研究現狀

在國外，國內外學者主要從信息抽取、信息拆分以及信息標注等方面展開研究。同時學者們進行了大量關于數字內容標注方面的研究。谷歌公司通過比較媒體文件的第一實例和該文件中第二實例的特征，建立兩個實例之間的映射，實現了傳送與媒體文件相關聯的用于視頻的標注系統和方法。美國學者利用H.264/AVC中每一個視頻流的視頻幀的NAL單元記錄標注信息，實現對視頻的標注。在智能標注研究方面，國內外學者主要關注于幀標記、圖像標記技術的研究。其中幀標記技術主要應用于對視頻標記，而圖像標記技術主要應用于對文本內容進行標記。目前，全球許多著名的出版機構、學術組織和研究中心紛紛涉足該領域，如美國公共科學圖書館、英國皇家化學學會、勵德愛思唯爾、施普林格、維基百科等。

3 數字內容加工技術主要研究內容如下：

3.1 內容標注技術：將數字資源碎片化以后，利用標引工具，對碎片化結構化的數字內容資源進行標注。根據不同的內容類別，按照不同的標注體系進行標注。

3.2 自適應發布：研究各類閱讀終端設備特性和使用特性，設計硬件設備特性提取算法和終端設備信息數據庫模型，引入多屬性決策理論，根據已設計的出版格式和硬件設備信息數據模型設計自適應跨終端適配模型，構造數字出版樣式渲染的模型。

4 平臺數字內容獲取與結構化加工模塊功能分析

通過對資源進行結構化加工(標引)、管理、審核以及產品包組建的功能，提供資源提供商資源上傳入口、標注資源屬性的功能。主要包括了四個模塊的內容：

4.1 機構資源上傳

使用主體：機構用戶。資源提供商實現資源的上傳的入口。提供機構進行資源上傳以及標注資源屬性功能和機構銷售結算數據。主要功能包括：資源入庫、資源標注、資源庫管理、資源銷售/結算管理、系統管理等功能。

4.2 待加工資源庫

使用主體：數字編輯。待加工資源庫為“分享資源”和“機構資源”匯集點，作者分享的資源和資源提供商上傳的資源匯集成為“數字資源庫”，基于此庫，能夠進行下一步的資源加工。

4.3 編輯加工模塊

使用主體：數字編輯。包括了“任務分配”、“資源加工”、“資源審核”三個主要部分，是編輯人員對資源進行加工和審核模塊，審核通過形成的資源庫稱為“出版庫”，是一個結構化的資源庫，能夠供二維碼等進行資源的讀取和使用。“出版庫”包括了“分享資源庫”和“碎片化資源庫”，前者能夠進行分享資源的查詢，后者則是標引完成的“碎片化資源庫”。

4.4 產品組建模塊

使用主體：數字編輯。包括了“產品包組建”和“產品包審核”。基于“出版庫”中的“碎片化資源庫”，編輯按照審核通過的資源建設策劃報告，組建能夠運營的產品包，審核通過后能夠將資源發布至平臺；“分享資源庫”則經過“編輯加工模塊”審核通過后，進入“出版庫”和“產品庫”中，在“出版庫”中進行查詢，在“產品庫”能夠發布至平臺。

5 數字內容多終端自適應技術分析

5.1 內容與版式分離

內容與版式分離，即在數字內容發布前，內容的編輯生產與版式的制作生成分離。一方面，內容以XML語言的形式存儲于知識庫中，擺脫終端對內容編輯生產的桎梏，使內容提供商可以專注高質量、高需求內容的創造。另一方面，另行構建版式模板庫，并基于終端特性與用戶需求偏好的分析，從中自動選出匹配的版式，從而將終端屏幕尺寸適配與用戶偏好契合的求解過程轉換為匹配版式的自動生成過程。內容與版式分離，是數字內容多終端自適應發布的重要功能特征，也是數字內容“一次制作，多元發布”的主要實現途徑。當前，方正自主推出的CEBX格式正是在內容與版式分離的基礎上，通過結構化版式文檔技術將包含的結構化信息實現內容呈現時的實時排版，以及內容呈現時的屏幕自適應效果。

5.2 閱讀終端設備適配

多終端自適應發布，是為了尋求一種能夠針對不同終端特性的有效的適配方案，實現發布內容以恰當的頁面比例、恰當的分辨率、恰當的內容格式以及合理的設備資源占用，輸出至終端。否則，多終端自適應無從談起。具體來說，PC等大屏幕、性能強的終端，能夠實現內容呈現效果媲美印刷出版物；小屏幕終端，則能按照顯示屏大小自動換行、重排；支持智能操作的終端，能夠提供更多交互功能提升用戶體驗、增強用戶黏性。

5.3 兼顧用戶偏好需求