[摘 要] 圖書在線信息交換標準是國際圖書供應鏈上廣泛應用的書業貿易標準。我國也在采用該標準制定《中國出版物在線信息交換(CNONIX)圖書產品信息格式》?!吨袊霭嫖镌诰€信息交換(CNONIX)圖書產品信息格式》制定的重點和難點是如何消化吸收再創新,文本如何轉換。本文主要從采標的主要目的、標準編制原則、專業用語轉換規范、標準版本選擇、內容取舍和文本轉換幾方面進行探討并提出建議。
[關鍵詞] 圖書在線信息交換標準 圖書產品信息共享 元數據
[中圖分類號] G235 [文獻標識碼] A [文章編號] 1009-5853 (2013) 03-0065-07
國際圖書在線信息交換標準(ONIX for Books,其中,ONIX是Online Information Exchanger的縮寫,下文簡稱“ONIX”)是一個國際書業電子商務標準化的組織(Electronic Data Interchange to Europe,縮寫為EDItEUR)。 2000年推出的,是ONIX標準簇中的第一個標準,同時是該標準簇中應用最廣泛的一個標準,經過十幾年的發展,已成為一個在世界范圍交換豐富產品元數據的圖書貿易標準,被稱為是自ISBN之后最重要、最成功的書業貿易標準。圖書ONIX標準通過規范標準數據格式,可使出版者按標準將豐富產品信息傳遞到書業供應鏈上,給經銷商、批發商、零售商、數據集成商及其他參與方,還通過提供產品記錄內容和結構標準,促進出版者采用更好的內部信息系統;也可使書業供應鏈下游客戶快速下載最新產品信息,而較少需要人工干預,大大降低差錯風險。迄今已有英國、法國、德國、意大利、西班牙、瑞典、挪威、芬蘭、荷蘭、比利時、俄羅斯、美國、加拿大、澳大利亞、日本、韓國和埃及17個國家書業供應鏈在應用這一標準。
2007年新聞出版總署啟動科技項目“國際圖書流通通用ONIX標準預研究”的研究工作。2009年根據該項目階段性成果,向全國出版物發行標準化技術委員會(以下簡稱“發行標委會”)提出采用圖書ONIX標準制定我國出版物在線信息交換(CNONIX)國家標準項目立項建議。該建議得到發行標委會、新聞出版總署、國家標準化管理委員會的采納,CNONIX標準制定項目被批準列入當年國家標準制修訂項目計劃。
CNONIX標準涉及出版發行產業鏈上全媒體圖書產品全生命周期信息,對我國出版發行業信息化、數字化、國際化、標準化將產生深刻影響,在我國出版物發行標準體系乃至新聞出版業標準體系建設中占有十分重要的位置,其質量至關重要。CNONIX標準采標是發行專業領域的第一次采標,由于圖書ONIX標準是一個國外先進標準,其文本格式不同于我國國家標準,且由于內容多,專業性、技術性強,如何消化吸收再創新,文本如何轉換是CNONIX標準制定的難點和重點。
1 采用國際圖書ONIX標準實現我國圖書產品信息共享的目標
國際圖書ONIX標準成功解決了互聯網環境下圖書產品信息在全球范圍的共享問題。圖書產品信息不能共享一直是制約我國出版發行產業信息化發展的一個瓶頸。發行標委會第一屆主任委員、新聞出版總署柳斌杰署長曾在2006年4月18日第一期《圖書流通信息交換規則》行業標準宣貫班上作主題講話“加快推進出版行業的標準化”時指出,“新聞出版業本身是信息化的一個組成部分……出版業是一個很長的產業鏈,已不是簡單的手工勞動,上下鏈條要有機銜接。從出版環節到發行、到市場、到消費者手中,今后還可能有售后服務,整個鏈條需同一個標準來進行。……我曾設想,從總署條碼開始、到在版編目、一直到流通領域,如能有一個準確的標準信息系統,一次出去,全程共享,那么就不會給大家帶來這些麻煩?!F代化、自動化的高技術設備裝備,必須要有標準化的產品來保證,如果沒有標準化產品,這些先進的設備就要放空,生產力就會極大浪費,對我們的發展很不利?!ㄟ^使用現代傳播技術,通過加速行業的標準化、信息化建設,千方百計提高中國新聞出版業發展的水平,為國家的現代化、為我們的新聞出版產品走向世界做貢獻”。采用國際圖書ONIX標準目的正是為解決產品信息標準化加工,“一次出去,全程共享”,實現我國圖書產品信息共享的目標。
信息數據共享與標準之間是互為表里的關系。信息數據共享的前提是信息數據標準化,實現信息數據標準化的基礎是標準?!秷D書ONIX產品信息格式規范》(以下簡稱《圖書ONIX規范》)通過對消息高層結構,保證一致性的XML屬性、數據驗證、字符集和特殊字符、ONIX 文本字段中XHTML、 HTML 或XML 的用法,消息頭和產品記錄的全面規范,來支持數據標準化及其共享的實現,其中數據元定義在數據共享方面起著非常關鍵的作用。這一點可從通用元數據標準,等同采用國際標準的ISO/IEC 11179-4:2004的國家標準GB/T 18391.4-2009《信息技術 元數據注冊系統(MDR)第4部分:數據定義的形成》和等同采用國際標準ISO/IEC TR 20943-1:2003的國家標準GB/T 23824.1-2009《信息技術 實現元數據注冊系統(MDR)內容一致性規程 第1部分:數據元》闡述的數據元定義的目的作用來理解。GB/T 18391.4在引言中明確數據元“定義的目的在于確定、描述、解釋和澄清數據的含義,以促進數據元的標準化和可重復使用,并促使信息系統的數據共享與集成”。在正文中指出“準確、形式完好的定義是獲得數據一致理解的一個關鍵條件。形式完好的定義對于信息的交換也是必要的。只有每一位用戶對數據有共同和準確的理解,其交換才能是無障礙的”。 GB/T 23824.1在附錄B.1《數據元定義》中明確“數據元定義的目的在于用字或短語定義數據元,以便描述、解釋數據元,或使其含義明確或清晰。準確而不含混的數據元定義是保證數據共享最必要的方面之一”。
2 修改采用國際圖書ONIX標準的編制原則
我國采標有三種形式,即等同、修改和非等效,CNONIX采標定位為修改采標。對于修改采標,我國國家標準GB/T 20000.2-2009《標準化工作指南 第2部分:采用國際標準》明確規定:“對國際標準進行修改時,應把與國際標準的差異減少到最小,并應清楚地標示這些差異和說明產生這些差異的原因?!?雖然CNONIX標準所采用的圖書ONIX標準是國外先進標準而不是國際標準,不在GB/T 20000.2明確的適用范圍之內,鑒于國內還沒有專門針對采用國外先進標準的指南,CNONIX標準制定可以參照GB/T 20000.2的有關規定和要求來做。
采標形式確立后,需要確立標準編制原則。
首先需要了解并遵循標準制定和編寫的通用原則。我國標準化法和標準化工作導則對標準制定和編寫的原則有明確規定。這些原則不僅標準編寫時要遵循,標準評價時也要考慮。具體體現在我國標準化法的第八、九、十、十一條有關標準制定的原則,要求制定標準應當有利于保障安全和人民的身體健康,保護消費者的利益,保護環境;應當有利于合理利用國家資源,推廣科學技術成果,提高經濟效益,并符合使用要求;應當有利于產品的通用互換,做到技術上先進,經濟上合理;應當做到有關標準的協調配套;應當有利于促進對外經濟技術合作和對外貿易。
GB/T 1.1-2009《標準化工作導則 第1部分:標準的結構和編寫》在第4章總則中規定了標準編寫的六項基本原則,即目標性、統一性、協調性、適用性、一致性和規范性。在目標性原則方面要求,標準要規定明確且無歧義的條款,以促進貿易和交流;標準應該在其范圍規定的界限內按需求力求完整;清楚和準確;充分考慮最新技術水平;為未來技術發展提供框架;能被未參加標準編制的專業人員所理解。在統一性原則方面要求,每項標準或一項標準的不同部分內,標準的文體和術語應保持一致;類似的條款應使用類似的措辭來表述;相同的條款應使用相同的措辭來表述;每項標準內,對于同一個概念應使用同一個術語。在協調性原則方面要求,出于所有標準整體協調的目的,標準的編寫應遵守現行基礎標準的有關條款。在適用性原則方面要求,標準的內容應便于實施,并且易于被其他的標準或文件引用。在一致性原則方面要求,如果有相應的國際文件,起草標準時應以其為基礎并盡可能保持與國際文件相一致。在規范性原則方面要求,預先設計,遵守制度程序和編寫規則,起草標準時,還需要遵守與標準制定有關的法律、法規及規章,如國家標準管理辦法。
在遵循上述原則基礎上,對于修改采標,主要需要明確對標準的取舍原則,即明確標準增刪改留的原則。就CNONIX標準而言,建議考慮以下幾條原則。
⑴對圖書ONIX標準中的技術性內容應基本上等同采用。
⑵標準編寫兼顧修改采標國家標準編寫有關規定要求和圖書ONIX標準內容描述形式特點。
⑶對原標準內容的取舍兼顧國內國際書業貿易信息交換需求,既考慮滿足國內出版物供應鏈上中下游各參與方間信息交換需求,又考慮滿足我國出版發行單位開展出版物國際貿易時的信息交換需求。
⑷對原標準內容的增刪改要結合我國國情及技術條件,增加中國特色需求內容,刪除不適合我國國情和技術要求的內容,對原標準中涉及的國際標準,如果已經被等同、修改或非等效轉換為我國國家標準,則在CNONIX標準中采用相應國家標準。
⑸原標準中的專業用語的轉換兼顧本專業領域及相關專業領域專業用語,同時要考慮與現行相關國家標準和行業標準相協調。
采標內容修改有三種形式,即結構修改、技術性修改和編輯性修改。對什么是編輯性修改內容,GB/T 20000.2-2009規定,只有“納入國際標準修正案或技術勘誤的內容,改變標準名稱,增加資料性附錄,增加單位換算的內容等”為編輯性修改,其他則不是。
3 對國際圖書ONIX標準中元數據技術規范的理解轉換
從元數據角度來說,圖書ONIX標準是一個基于XML的應用元數據標準。 出版發行領域應用元數據雖然時間不短,如大家日常業務接觸到的CIP數據、ISBN元數據、MARC數據等都是元數據,但對元數據技術在出版發行領域應用的理論研究基礎卻相對比較薄弱,這無疑會制約對圖書ONIX標準的認識。從字面上雖然能了解圖書ONIX標準的大致內容,但如果缺乏元數據方面的相關通用技術規范方面的了解,其中內在的技術要求和特點在轉換時有可能會被忽略掉。圖書ONIX標準基本遵循ISO/IEC 11179《信息技術 元數據注冊系統(MDR)》和ISO/IEC TR 20943《信息技術 實現元數據注冊系統(MDR)內容一致性規程》的相關規定和要求,這兩個國際標準已分別轉換為我國國家標準GB/T 18391和GB/T 23824,它們對數據元命名、定義和代碼表都有嚴格的技術規定和要求。以數據元的定義為例, GB/T 18391.4對其形式和內容有嚴格要求和建議,明確數據(元)定義應該“用單數形式闡述;要闡述其概念是什么,而不是僅闡述其概念不是什么;用描述性的短語或句子闡述;僅可使用人們普遍理解的縮略語;表述中不應包括其他數據或基本概念的定義”。同時建議,數據元定義宜“闡述概念的基本含義;準確而無歧義;簡練;能單獨成立;表述中不應加入理由、功能用法、領域信息或程序信息;避免循環定義;對相關定義使用相同的術語和一致的邏輯結構;適合被定義的元數據項的類型”。同時還特別指出,“元數據中數據元定義要求與建議并不總是適用于在詞匯和語言字典中出現的術語定義。應用在語言字典和元數據注冊系統中的要求之間存在差異。元數據注冊系統中定義要求比自然語言字典的要求有更多的限制”。也就是說元數據中數據元定義的要求比一般語言字典的要求限制要多。
按照上述規定,在圖書ONIX標準轉換時,以《圖書ONIX產品信息格式規范》中的“P.19.5 Publishing role code(出版角色代碼)”的定義“An ONIX code which identifies a role played by an entity in the publishing of a product. Mandatory in each occurrence of the
數據元定義用單數形式闡述是由元數據的特點決定的,這一點對標準的理解非常重要。
4 國際圖書ONIX標準中專業用語的轉換規范
由于圖書ONIX標準篇幅長,最新修訂版的兩個子文件共有400多頁,內容多,有20多萬字,專業性特別強,不僅涉及傳統出版印刷發行,也涉及現代數字出版,包含大量專業用語。由于國際書業貿易上的精細化和技術上的先進性,其中不少專業用語看起來比較陌生,所以專業用語的轉換是圖書ONIX標準轉換的一大難點。在轉換中要考慮用語規范的問題,按照目標性和協調性原則,既要充分考慮本專業領域和相關專業領域的專業用語,也要考慮信息技術、數字技術和其他相關技術應用方面的專業用語。為保證轉換過程中專業用語的規范性,首先考慮采用本專業和相關專業或通用的現行國標行標中可找到專業用語,其次利用權威工具書和參考資料,再則上網查找。
4.1 盡量采用本專業及相關專業現行國標或行標已有的專業用語,便于業內外交流
例如:“identifier”一詞在圖書ONIX標準中出現頻率比較高,在 GB/T 18391.1-2009《信息技術 元數據注冊系統(MDR)第1部分:框架》術語和定義中它對應的中文是“標識符”,其定義為“在一個規定的語境中,能夠用來唯一標識與其關聯的事物的字符序列”。
“composite(data element)”一詞在圖書ONIX中出現頻率也比較高,在GB/T 15635—2008《行政、商業和運輸業電子數據交換復合數據元目錄》中對應的中文為“復合數據元”,在《電子商務標準化指南》(中國標準出版社2004年出版)的術語定義中也可查到對應的中文“復合數據元”,其定義為“一個已標識、命名和結構化的、在功能上相互關聯的簡單數據元組成的集合”。需要解釋的是,在國際圖書ONIX標準中,也許是為了表述的簡便,composite后面省略了“ data element”。如果將之轉換為“復合元素”,因“復合元素”的英文對應詞為“composite element”,與“composite data element”表述不一致。
“serials”和“Series”在第一個發行國家標準GB/T 27936-2011《出版物發行術語》已有中文對應術語,分別為“連續出版物”和“系列出版物”。在實踐中出現把這兩個英文詞意思弄混的現象,如把“serials”看作“系列出版物”,把“Series”看作“連續出版物”,這點要注意。
“contributor”一詞在GB/T 23732-2009《中國標準文本編碼》術語和定義中的中文對應詞為“貢獻者”。現在有的將之轉換為“提供者”,根據圖書ONIX的配套使用指南《圖書ONIX標準實施最佳實踐指南》(ONIX for Books Implementation and Best Practice Guide Release 3.0 rev.1 January 2012)附錄詞匯表中給出的該詞定義“Person or organization responsible for creating the intellectual or artistic content of the product.(參考譯文:負責創作產品知識或藝術內容的個人或組織。)”,轉換為“貢獻者”會更確切,因“提供者”的內涵外延太寬泛。
CBQ,是Committed backorder quantity的縮寫,其中“backorder”在GB/T 27936中的中文對應詞為“拖欠訂單”,照理 “backorder quantity” 意思為“拖欠數”,表示供應商庫存雖暫無現貨,但是會保證供應的訂單數量。由此,“Committed backorder quantity”如果轉換為“已確認拖欠數”,相對轉換為“可用庫存數”準確規范些。
4.2 利用權威工具書和參考資料的解釋
例如:“reference name”一詞,單從字面上理解容易將之轉換為“參考名稱”,但從“reference name”在圖書ONIX標準中的作用來看,它和短標簽(short tag)一樣,是分配給數據元的唯一標識符,在《牛津高階英漢雙解詞典(第7版)》(商務印書館2009年出版)中也可查到該詞有“標記”和“標識”的意思,這樣如果轉換為“標記名”會更準確簡練。
“Imprint”一詞,有的將之轉換為“版權說明”或“版權頁”。 根據該詞在圖書ONIX標準的意思,即出版者在市場銷售產品時用的商標名稱或品牌,可以發現在《牛津高階英漢雙解詞典(第7版)》中查到的 “出版商名稱(通常印在第一頁的書名下面)”意思較為貼近。另外“版權說明”或“版權頁”兩個的英文對應詞分別為“copyright statement”和“copyright page ”,顯然不合適。
4.3 上網查找
圖書ONIX標準轉換中會發現,有不少詞在現行標準、傳統工具書或參考資料中都難查到,這種情況下,可上網查找答案。例如“Text-to-speech”(縮寫為TTS)在圖書ONIX代碼表“List145: Usage type(表145:使用類型)”中以代碼值“05”的英文標簽(Label)形式出現,上網可查到中文多解釋為“文本轉換語音”。TTS是語音合成技術應用的一種,它可將儲存于電腦中的文件轉換成自然語音輸出,幫助有視覺障礙的人閱讀計算機上的信息?,F在有的將之轉化為“文本朗讀”,相比之下意思不太準確,也不便交流。
5 對采標中國際圖書ONIX標準最新修訂版3.0.1的應對
CNONIX標準制定項目是2009年立的項,當時圖書ONIX標準的版本是3.0版,在2012年1月,圖書ONIX標準又推出了新修訂版3.0.1版。最新修訂版的主要變化如下。
5.1 標準組成由四個子文件改為兩個子文件
3.0.1版將原來的兩個子文件《圖書ONIX產品信息格式 XML技術說明》(ONIX for Books Product Information Format XML Technical Note)《圖書ONIX 產品信息格式 數據元一覽表》(ONIX for Books Product Information Format Data Element Summary)(以下簡稱《數據元一覽表》)的內容歸并到另一子文件《圖書ONIX 產品信息格式 規范》(ONIX for Books Product Information Format Specification)(以下簡稱《圖書ONIX規范》)中,《圖書ONIX產品信息格式 XML技術說明》改作《圖書ONIX規范》正文第2部分《圖書ONIX消息》(ONIX for Books message),《圖書ONIX產品信息格式 數據元一覽表》改作《圖書ONIX規范》的附錄A.1《圖書ONIX數據元一覽表》(ONIX for Books data element summary),《圖書ONIX代碼表》子文件不變,只是版本更新升級。
5.2 《圖書ONIX規范》的主要變化
(1)正文由三個部分擴展為四個部分,即《導言(Introduction)》、《圖書ONIX消息》、《圖書ONIX消息頭》(ONIX for Books Message header)和《圖書ONIX產品記錄》(ONIX for Books Product record),其中《圖書ONIX消息》為新移植的內容,主要規范消息的高層結構和一致性。另增設《附錄》,包括《圖書ONIX數據元一覽表》《樣例消息》(Sample message)和《圖書ONIX XML標簽全表》(List of all ONIX for Books XML tags)。
(2)復合數據元和數據元描述新增基數(Cardinality)表示。基數曾在3.0版的《數據元一覽表》中出現,主要表示復合數據元和數據元(data element)在文件交換中的約束條件和出現次數,用 “1”、“1…n”、“0…1”、“0…n”分別表示“必備且不可重復”“必備且可重復”“可選且不可重復”“可選且可重復”。
(3)部分數據元描述新增XML屬性(Attributes)表示。XML屬性曾在《圖書ONIX產品信息格式 XML技術說明》中說明,并在3.0版的《數據元一覽表》中出現,主要用來細化數據元內容方面的信息,用以限定數據本身及其表示。XML 屬性包括整理關鍵詞(collationkey)、日期格式(dateformat)、語種(language)、版本(release)、文本形式(textcase)、文本格式(textformat)或文本文字名稱(textscript)等。
(4)示例(Example)例證加帶標記名或短標簽標記,例如:
示例
(5)“出版狀態(Publishing status)”和“產品可供狀態(Product availability)” 兩個數據元及“地域復合數據元(Territory composite)”的描述增加了圖示及備注,形象直觀地展示了數據元與代碼表的關聯及其基本內容。“圖書ONIX產品記錄”“塊4:出版細目(Block 4: Publishing detail)”中的數據元“P.20.1 出版狀態”,其描述新增的“出版狀態”圖示及備注,結合《圖書ONIX代碼表》“表64:出版狀態”的內容,形象直觀地展示并簡要說明了貫穿產品生命周期的出版狀態,從預告到絕版的發展變化?!癙.21地域權和其他銷售限制數據元組( Territorial rights and other sales restrictions)”中的“地域復合數據元”主要說明產品適用的地域性權利,其目的是為提供準確和可靠的地理性權利信息,用于計算機系統中確定某種產品能否在特定地域銷售,對出版產品國際貿易有用,其描述新增的“地域內國家和地區的嵌套”圖示及備注,說明產品銷售指定地域內包括的國家和地區和不包括的國家和地區?!皦K6:產品供應塊(Block 6: Product supply)”中的“P.26.17 產品可供狀態” 數據元描述新增的 “產品可供狀態”圖示及備注,結合《圖書ONIX代碼表》“表65:產品可供狀態”的內容,形象直觀地展示并簡要說明了產品從初始預告到某種形式的“不可供”狀態的發展變化。
(6)新增的附錄A.1《圖書ONIX數據元一覽表》以表的形式展示《圖書ONIX規范(3.0.1)》中出現的所有數據元、復合數據元及其分組分塊,包括數據元編號、標記名、短標簽、代碼表表號、XML屬性和基數等。
(7)新增的附錄A.2《樣例消息》提供了標記名和短標簽兩種標記形式的消息樣例。通過結構化樣例,可幫助理解標準正文描述的XML產品記錄規范內容。
(8)新增的附錄A.3《圖書ONIX XML標簽一覽表》提供了分別按標記名和短標簽排序的標記名與短標簽的對照表。
5.3 《圖書ONIX標準3.0.1版代碼表》的主要變化
(1)代碼表從第16版更新至第20版,新增了4個代碼表,即“表197:套書序列類型(List197:Collection sequence type )”、“表198:產品聯系人角色(List198: Product contact role)”、“表203:ONIX成人讀者對象評級(List 203:ONIX Adult Audience rating)”、“表204:ONIX退貨條件代碼(List 204:ONIX Returns conditions code )”。
(2)部分代碼表內容進行了更新。例如,有的表增加新代碼,及時反映書業新的技術應用、新的業務需求,同時中國特色需求也有反映。例如第17版代碼表“表5:產品標識符類型代碼(List5 :Product identifier type code)”新增代碼“26”,代碼標簽為“ISBN-A”,體現數字對象標識符DOI中可互操作的ISBN,新增代碼“28”,代碼標簽為“OLCC編號(OLCC number)”由全國圖書館聯合編目中心分配,體現了中國特色需求;在第18版代碼表“表163:出版日期作用(List163:Publishing date role)”新增代碼“25”,代碼標簽為“出版者預訂日期(Publisher’s reservation order deadline)”,反映了新業務需求。
綜上所述,相對圖書ONIX標準3.0版,新修訂版3.0.1版無論內容、結構和編排都更加科學合理,更加完善實用,更易于理解和應用。按標準編寫的一致性原則,參照《標準的編寫》(中國標準出版社2009年出版)第六章第一節《采標國際標準的原則》中講的“采用國際標準制定我國標準,應盡可能與相應國際標準的制修訂過程同步,包括一項標準的立項、發布、修訂、修正案、技術勘誤等各環節和步驟”, CNONIX標準制定需要同圖書ONIX標準版本變化進行相應調整。
6 對國際圖書ONIX標準內容的取舍
在標準內容的取舍前要充分了解每部分內容在標準中的作用及實際用途。內容取舍要根據標準制定和編寫原則,考慮國內外書業貿易需求,考慮用戶使用方便,考慮方便國際交流,考慮與國際接軌,考慮兼顧現實和長遠,考慮提升我國書業標準化水平。在標準內容舍棄時要慎重。
例如短標簽,它是圖書ONIX標準中的一個重要的技術規范性要素,是實現跨語種、跨地區信息交換的重要手段和橋梁。世界上最大的圖書產品信息服務商Nielsen的數據庫現擁有1620萬條產品記錄,它收集了70多個國家的圖書信息,定期接收160多家出版者的ONIX形式的信息,向世界上100多個國家提供市場領先的數據服務,其中短標簽起了關鍵作用。因此,短標簽是不能舍棄的。
又如,圖書ONIX標準中復合數據元應用示例和《樣例消息》。在圖書ONIX標準正文部分“復合數據元”后例舉了典型應用示例,這些示例能幫助標準用戶理解復合數據元內容和用法。附錄A.2 《樣例消息》是一個典型的消息示例,能幫助理解標準正文內容,也能指導消息文件編寫。這也正是圖書ONIX標準實用性的一個重要體現。
7 對國際圖書ONIX標準文本的轉換
圖書ONIX不是國際標準,其編排格式沒有硬性規定,相對靈活,而我國國標編排格式有嚴格規定。按一致性原則,考慮在文本轉換過程中哪些內容能改,哪些內容不能改。原則上,在交換文件中會出現的技術規范性要素內容不改,在交換文件中不出現的非技術性要素內容可根據需要轉換。
7.1 標準內容編號轉換的問題
圖書ONIX標準內容編號體例不同于我國國家標準內容編號體例。在圖書ONIX標準中,除頂層標題有數字編號外,其他層級標題有的有編號,有的無編號,形式比較復雜。比如:
在“3.圖書ONIX消息頭”中,數據元編號采用“H.”加數字序號的形式,其中“H”是標頭“Header”的首字母縮寫。
在“4.圖書ONIX產品記錄”中,內容按數據元組塊、數據元組、復合數據元、數據元等逐層劃分。數據元組塊編號用“block(塊)”加數字序號的形式,數據元組編號用“P.”(P是產品“Produet”的首字母縮寫)加數字序號的形式,數據元編號用數據元組編號加數字序號的形式,復合數據元沒有編號。復合數據元與數據元的嵌套關系,主要通過版式呈現,復合數據元所包含的數據元內容結束用提示語“***復合數據元結束”標示。
由于我國國標正文章條號均采用數字編號,這樣在轉換過程中就需要重新設計編號。在設計編號時,需要考慮以下幾種情況:1)無編號標題需加編號,如復合數據元;2)復合數據元內容結束提示語“***復合數據元結束”在我國國標中無法呈現,復合數據元與數據元的嵌套關系需要直觀呈現;3)復合數據元多層嵌套關系需要直觀呈現。加之數據元組類號和數據元編號是非技術性要素,在文件交換中不出現,這樣就需要考慮采用層次編號體系替代原編號體系。這種層次編號能較好地體現復合數據元和數據元、復合數據元與復合數據元的嵌套關系。不過層次編號也有缺陷,就是當嵌套層級較多時,編號會顯得比較長,但總體看,層次編號利大于弊。
對于兩種形式的編號的聯系,可通過在附錄“A.1 ONIX for Books data element summary(圖書ONIX數據元一覽表)”中增加對應的國標章條號關聯。
7.2 數據元描述格式轉換的問題
7.3 英文標記名能否轉換為中文標記名的問題
圖書ONIX提供了標記名和短標簽兩種標記形式。其中標記名是用英文表示的,那么英文標記名是否可轉換為中文標記名呢?GB/T 18793-2002《信息技術 可擴展置標語言(XML)1.0》第9章“中文處理”中明確規定:“除了缺省支持GB 13000(《信息技術 通用多八位編碼字符集(UCS)》)之外,XML應支持多種字符集,包括GB 18030(《信息技術 中文編碼字符集》)和GB 2312(《信息交換用漢字編碼字符集 基本集》)等,所以XML 可以處理中文,即可以使用中文的元素名、屬性名以及中文的元素內容等?!备鶕艘幎ǎ瑯擞浢强梢杂脻h字表示,英文標記名稱