在技術快速發展的今天,數字內容產品的格式層出不窮,對于開展數字出版工作具體業務的傳統出版機構而言會面臨很多困惑,困惑于哪些才是核心要存儲的格式;困惑于當有新的技術產生,以前數字內容產品存儲的格式未來無法應用怎么辦;困惑于格式是否有通行的標準滿足于未來應用的拓展等等。數字內容產品格式的選擇問題猶如懸在數字出版工作之上的“達摩斯之劍”一直困擾著大家。
文件格式是什么
文件格式是指電腦為了存儲信息而使用的對信息的特殊編碼方式,用于識別內部儲存的資料。任何一種類型的信息都可以一種或多種文件格式保存在我們的計算機中。比如同樣一段文字加圖片的信息,我們既可以存為word格式,也可以存為PDF格式等。每一種文件格式通常會有一種或多種擴展名可以用來識別。擴展名可以幫助應用識別文件格式。
有些文件格式被設計用于存儲特殊的數據,文本類的文件有:Text文件一般僅存儲簡單沒有格式的ASCII或Unicode的文本;HTML文件則可以存儲帶有格式的文本;PDF格式則可以存儲內容豐富的,圖文并茂的文本。
傳統出版模式下以呈現的紙質產品為終極目標,電子文件僅僅是出版過程中無關輕重的一環,格式問題不存在任何困惑。
數字內容產品則不同,因為用戶獲得產品的終端不同、平臺不同、應用的模式不同,導致數字內容產品在分發時都存在著與軟硬件對接與兼容的問題,適應不同平臺、不同應用模式的問題,格式的困惑也由此而生。
格式的分類
數字內容產品在終端并未形成規范的標準,所以相關的格式品種也極其繁多。如下表:
不同格式的對比:
通過以上兩個表,我們對市面上主流的數字內容產品的格式有了一個總體的把握,其中所列舉的格式也有一定的代表性。綜上,XML文件做為數據存儲、數據交換的基礎性文件格式,在數字出版領域已經成為數據格式標準,廣泛應用于數字出版案例中。
另外眾所周知的PDF格式文件能達到具有紙版書的質感和閱讀效果,并且可以“逼真地”展現原書的原貌。由于其普及率高已成為了數字化信息事實上的一個工業標準。
EPub于2007年9月成為國際數位出版論壇(IDPF)的正式標準,以取代舊的開放Open eBook電子書標準,它代表了未來數字內容產品的方向,最關鍵的在于,EPUB元數據是XML,EPUB內容是XHTML,所以它與XML有天然的聯系。
由此,傳統出版機構在進行數字出版時,需要存什么格式的數字內容文件,就有一個基本的思路及方案了。
我們需要什么樣的格式
首先,數字內容產品的元數據進行結構化加工后以XML格式存儲。正文內容有兩種存儲方案,一種依然存成XML(優勢:結構化、應用廣泛、拓展性強;劣勢:數字化成本高);另一種存為PDF格式(優勢:現在的事實上標準、PC端應用廣泛;劣勢:在小尺寸的終端應用效果差)。具體實施中,結構化程度高且有價值的數字化內容建議加工為XML格式;對于結構化程度偏低的數字化內容建議制作為PDF格式。
雖然技術發展很快,但依然有其規律可循,那就是選擇通用的、覆蓋面較大、開放的格式作為存儲格式的依據。做到這一點,傳統出版機構的數字出版工作的開展才能事半功倍,不至于走彎路。在數字出版工作中,技術始終起到引領作用,需要保持對最新技術的敏感,新的格式就是新技術應用的體現。比如,2011年,5月23日International Digital Publishing Forum(以下簡稱 IDPF)正式確定 EPUB3 標準:支持多媒體格式,可在電子書里面播放視頻、音頻內容;支持現實數學格式等復雜的文本內容;支持文字朗讀技術;支持非羅馬文字格式,比如日語、漢語和阿拉伯語,讓這幾種語言格式的電子書內容被檢索;更好地支持 DAISY 有聲書標準,為盲人提供聽書服務。綜上,可以看出這個新的格式標準(EPUB3)的推廣與應用將能夠顯示更豐富的內容,給讀者帶來更多交互體驗。
總之,新格式將會對作者生產內容、讀者消費內容的方式產生深遠的變化。只有我們保持開放的心態,追隨科技的腳步,我們才能拋開懸在我們頭上的“達摩斯之劍”,讓新技術及其帶來的格式成為我們不斷前行的加速