□王文清 劉春彤 張月祥 陳凌
?
PUBO:面向出版的數字資源本體建模
□王文清 劉春彤 張月祥 陳凌
隨著信息技術的高速發展,出版業在出版載體和出版方式等方面都發生了很大變化。對于出版機構而言,出版物不再是單一的資源,不僅包含文字、圖片、音頻、視頻、光盤、附件、元數據等多種資源的集合,還包含出版過程中的相關資源,如結構信息、排版信息、設計信息、字體信息等。如何對所有這些資源及其關系進行建模,以實現這些出版資源的統一表示和復用,是數字出版面臨的問題。文章詳細介紹了基于OWL-DL標準的出版物數字內容資源本體模型PUBO,包括內容結構、內容特征、表現形式、載體方式以及資源之間的關系,最后介紹了該模型的應用方式和應用前景。
出版物數字出版本體 OWL 對象復用
隨著互聯網技術的發展和數字出版技術的逐步成熟,傳統出版與信息科技融合的步伐加快,傳統出版機構陸續應用信息技術開展數字出版[1]。很多出版社將自有的紙本圖書、期刊等資源進行了數字化加工,對新的出版物直接進行數字出版。出版社大量出版物的數字加工任務大都委托給專業加工公司完成,而由于出版行業缺少統一標準,不同的出版社、加工公司以及電子書城所用的出版物數字資源格式彼此不同,許多資源格式之間難以有效轉換。這使得資源的交換、復用和共享存在很大困難,轉換成本很高。
在出版過程中,出版單位所出版的普通圖書、期刊等內容資源不僅包括可交付印刷或電子出版的數據文件(如整書、章節等PDF文件)、排版或加工過程中產生的數據文件(如書刊排版文件、媒體資源文件等),還包括封面、篇章節、參考文獻、術語表等文檔構件和內容單元。對于所有這些出版內容資源,出版行業需要建立一個統一的數字資源模型,以表示和記錄這些資源的內容結構、內容特征、表現形式、載體方式以及資源之間的關系,并能按不同粒度進行封裝、復用和交換。
本體(Ontology)技術針對上述問題提供了一個有效的解決方案。本體最初是個哲學概念,是對世界上客觀存在物的系統地描述。在計算機科學領域,本體被定義為概念化的明確的規范說明[2]。本體的使用可以使人與人之間、計算機系統與計算機系統之間、人與計算機系統之間的知識處理和知識交換更加方便和順暢。與元數據技術相比,本體具備以下優勢:1. 強大的詞匯、術語、實體和關系的描述能力,可以對不同知識體系、不同粒度的資源進行描述;2.提供了不同元數據之間的相互映射機制,可實現異構系統之間的互操作;3. 靈活性高,擴展方便;4. 支持推理,以獲取新的知識。
筆者參與制定的新聞出版行業《數字內容對象存儲、復用和交換標準》[3](Specification of digital content object storage, reuse and exchange,OSRE)采用本體技術,制定了多層次的出版物內容資源本體模型(PUBlication Ontology,PUBO),能對普通圖書、叢書、多卷書、雜志、期刊、多媒體電子書等出版物的數字內容資源予以統一建模和描述,使得同一本圖書和期刊中的各個階段的數字資源構成一個有機的整體,支持出版內容資源在不同出版社、加工公司、印刷公司、電商等機構之間的資源交換和復用,支持面向數字出版的數字內容管理系統和相關工具的開發和應用,以便實現對多種類型資源全生命周期的統一的語義化管理。
在PUBO本體提出之前,國內外數字圖書館領域、數字出版領域已有很多針對電子圖書、數字對象、圖書目次等方面的數據標準研究。較有代表性的有電子出版物表(Electronic publication,EPUB[4])、基于混合XML的公共電子文檔(Common e-Document of Blending XML,CEBX[5])、元數據編碼和傳輸標準(Metadata Encoding and Transmission Standard,METS[6])、圖書本體(Bibliographic Ontology,BIBO[7])、Schema[8]、開放存檔計劃-對象復用和交換標準(Open Archives Initiative-Object Reuse and Exchange,OAI-ORE[9])等。
EPUB是由國際數字出版論壇提出的標準。它針對數字出版物元數據制定了一系列的規范:EPUB Publications 3.0規定了與包裹文檔相關的內容,包括電子書元數據、資源清單、結構順序;EPUB Content Documents 3.0對電子書的內容予以說明,包括電子書的章節、CSS樣式表、圖像嵌入等;EPUB Open Container Format 3.0規定了文件存儲格式;EPUB Media Overlays 3.0規定了媒體層的建立,描述了媒體的播放方式,并支持文字的語音朗讀功能。EPUB標準在國內外的平板電腦、手機等移動閱讀終端上有著廣泛應用。
CEBX標準是由北大方正阿帕比公司提出的一種獨立于軟件、硬件、操作系統、呈現/打印設備的文檔格式標準。它建立在一個概念性的成像模型上,使上層數據獨立于平臺。同時,它具有原版原式的呈現特點,即閱讀顯示與印刷一致。這使CEBX文件可以在不同的平臺上呈現同樣的版式效果。CEBX標準在國內電子書領域得到廣泛應用,支持多種終端,包括個人電腦和移動終端。
EPUB和CEBX主要用于描述電子書的組成和封裝,支持在線閱讀,不能對出版過程中所涉及的各類數字內容資源及其各種元數據進行封裝和管理。
METS規范用于描述由元數據和對象文件組成的復合數字對象,它規定了數字對象的描述性元數據、管理性元數據、文件組、結構關系等方面的內容,為數字對象的組織和封裝提供標準。但METS所能描述的結構關系較為簡單,沒有完整的語義關系,所描述的文件對象本身也缺乏屬性信息。這難以表示復雜的數字內容對象的屬性、組成結構及其關系。
BIBO是由加拿大一家公司提出的面向書目信息的本體,在2009年11月推出1.3版后不再更新。BIBO定義了類和屬性,用于描述圖書、期刊、文章等資源,并側重于描述出版物之間的關系,如不同版本關系、引用關系等。BIBO的描述對象為出版物成品,且重點描述各個出版物之間的關系。Schema給出了一組常用的本體定義,共業界參考。但針對出版領域而言,BIBO和Schema都沒有考慮出版加工過程中所涉及到的各類資源。
OAI-ORE是由開放存檔計劃組織OAI提出的用于開放存檔對象的復用和交換的標準,其目標是建立標準的、可互操作的、機器可讀的機制來表達復合數字對象資源,描述復合數字對象內部組件之間的邏輯關系以及網絡信息空間中復合對象與其他資源之間的關系。但對于資源的具體屬性,沒有給出具體定義。
中國科技出版傳媒股份有限公司(原科學出版社)與中國高等教育文獻保障系統管理中心合作,基于OAI-ORE標準,對圖書、期刊等資源制定了統一封裝格式[10],建成了基于OAI-ORE標準的出版資源內容管理系統,對各類數字資源進行統一存儲和管理,并具有資源的驗證、展現、審核、發布等功能。該系統初步解決了圖書、叢書、期刊等出版物數字內容資源的加工驗證、存儲和管理需求,但并未建立完整的數字內容對象模型,對出版過程中涉及到的其他類型的數字內容資源也缺少完整的語義描述。其他出版社所采用的面向數字出版的內容管理系統以及面向數字出版內容的各個數字化加工公司也都存在類似的問題。
出版機構所涉及的數字內容資源既包括出版過程中的各類資源,也包括正式出版的相關資源。
出版過程中的數字資源包括以下四種劃分角度:①從媒體格式角度,分為音頻、視頻、圖片、字符貼圖、文本文檔、光盤映像等資源;②從設計排版過程角度,分為音視頻的設計文件、文本排版文件、圖像設計文件等資源;③從出版物內容角度,圖書可拆分成目錄、前言、序、章節、跋、參考文獻、索引等內容單元,期刊可以拆分成篇章、參考文獻等資源;④從出版物構成角度,圖書和期刊可拆分為封面、外包裝、隨書光盤等資源,電子版出版物還包含樣式表文件等資源。
圖書和期刊等正式出版物所涉及的各類數字資源包括以下三類:①紙版和電子版出版物所涉及的完整的數字內容資源包,以供紙質書印刷出版或電子書的發布;②用于描述出版物的各類元數據,如中國機讀目錄(CNMARC),中國出版物在線信息交換元數據(CNONIX),圖書流通信息交換規則元數據(CY/T 39)等。③集合類出版物。比如,一種期刊由多期組成,一期由多篇文章組成;多卷書由多本圖書構成。這些關系也需要描述。
針對上述各類資源,需要建立統一的數據模型,不僅支持出版機構內部資源的復用,也支持出版機構之間、出版機構與加工公司之間的資源交換和共享。PUBO本體應運而生。
本體是共享概念模型的明確形式化規范說明[2],是在語義層次上解決領域內信息共享、復用和交換的基礎,其標準化和形式化的表示方式能很好表達領域中的復雜知識和資源的組織方式,有效解決領域中各個異構資源之間的互操作。Web本體語言(Web Ontology Language,OWL[11])是由萬維網聯盟于2004年提出的一種網絡本體描述語言。OWL 2于2009年發布,具有更多的元語和更豐富的語義,更好地支持推理。OWL分為三個子語言:OWL-Lite、OWL-DL、OWL-Full,其表達能力由弱到強;其中,只有OWL-DL(描述邏輯)支持推理,能保證計算的完全性和可判定性。
PUBO本體采用OWL-DL描述,其完整定義包括類、屬性、枚舉類、約束等方面的內容,具有嚴謹的驗證和推理能力。本章著重介紹前3個方面的內容。
4.1 類
PUBO本體將出版過程和出版結果所涉及的數字資源歸納為3個大類:集合類、文檔資源類、代理者類,具體共定義了60個類,同時,為了規范某些屬性的取值,PUBO還定義了8個枚舉類。PUBO本體中各個類的層次關系如圖1所示。

圖1 PUBO 類層次圖
4.1.1 集合類
集合類包括文檔容器和文檔集兩個類。其中,文檔容器類用于將已出版的各類數字資源和加工過程中的相關資源聚合為一體,形成一個完整的出版物數據包,文檔集是對圖書等文檔內容的邏輯聚合,如由多期期刊組成的期刊集、由多本圖書組成的多卷書等。
文檔容器類用于將正式出版的圖書或期刊(文檔產品)及其相關的所有資源(包括媒體文檔、內容單元、文檔構件、設計排版文檔、元數據文檔等)聚合起來,以便對相關資源實現統一管理和交換。
文檔集類用于表示有一定聯系的多個出版物的集合,如叢書、多卷書、期刊等。每個文檔集由多個文檔產品構成,如叢書由多個圖書產品構成,期刊由多個期構成,每期由多篇文章構成。如圖2所示。

圖2 文檔集的邏輯結構
4.1.2 文檔資源類
文檔資源類由文檔類及其子類構成。文檔類用于表示各個出版環節所涉及的各類資源,根據這些資源的不同用途和媒體格式,文檔類被進一步劃分為一系列不同層次的子類,分別代表不同類型和不同粒度的數字資源,由此形成分類體系。文檔類包括以下子類:
媒體文檔類用于表示以計算機文件格式(如mp3, mp4, pdf, doc, ceb, indd, psd等)表示的各種資源。這些資源都是出版物必不可少的,一般都有相應的數據文件(用MIME編碼),并采用專用的元數據對其描述和管理。媒體文檔類又分為以下幾個子類:文本文檔、音頻、發音文檔、視頻、圖形、圖像、字符貼圖、動畫、光盤映像。
文檔構件類用于表示文檔印刷或發行所必要的構件。文檔構件一般都有對應的編碼文檔對象,用于關聯至媒體文檔,如一個封面類個體,關聯至一個圖像類個體,表示該圖像即為該封面。文檔構件又分為以下幾個子類:封面、包裝、光盤、網頁、單頁、附件、插圖、字體文件、腳本程序、樣式表文件。
文檔內容單元類,用于表示用于內容復用的文檔內容片段。內容單元類分為以下幾個子類:摘要、章節、輔文、參考文獻、參考文獻項、導讀、精彩篇章、目次、目次項、注釋、術語表。
設計排版文檔,用于表示生成文檔產品的設計或排版文件。如用InDesign工具排版好的排版文件、用PhotoShop設計制作的圖像設計文件等。這些文件可以與對應的文檔產品有機關聯,表明二者之間的生成關系。
元數據文檔,用于單獨存放與圖書和期刊出版物配套的元數據信息,如CNMARC, MARC21,中國出版物在線信息交換圖書產品信息格式規范CNONIX,圖書流通元數據標準,保存元數據標準PREMIS和都柏林核心元數據標準DC等。
文檔產品類用于表示可用于印刷或在線服務的出版產品,比如一個完整的CEBX文件包。文檔產品可以嵌入或關聯音頻和視頻文件,形成有聲圖書或多媒體出版物。文檔產品類又分為以下幾個子類:圖書產品、圖書章節產品、文章產品、圖片產品、期刊產品。
4.1.3 代理者類
代理者類由代理者類及其子類構成,用于描述與出版物相關的各類作者信息,包括個人作者、機構作者或團體作者等信息,也用于表示出版內容資源的加工者和管理者等信息。從兼容性和復用性角度,該代理者類等同采用了國際互聯網社區中主流的“朋友的朋友”本體(Friend of a Friend,FOAF)[12],以此作為基礎性的作者規范檔,并支持該類的進一步擴展。
4.1.4 枚舉類
枚舉類是指該類的所有個體均被聲明。當某個屬性的值域是某枚舉類時,表示其取值只能是該枚舉類的個體之一。枚舉類的使用可以約束并規范某個屬性的取值。
在PUBO中,定義了8個枚舉類:
元數據類型用于描述元數據類型,包含CNONIX、圖書流通元數據、Marc21、CNMarc、DC、METS等類型。
文檔狀態類型用于描述文檔的各種狀態,如收錄、審核、拒絕、出版、草稿、即將出版、未出版、未審核等文檔狀態。
輔文類型用于描述各種輔文類型,如縮略詞表、致謝、跋(后記)、附錄、版權說明、獻辭、版本記錄、編輯委員會、勘誤表、凡例、前言,卷首語、索引、內容簡介、插圖列表、圖表列表、導航、緒言、符號表等。
封面類型用于描述封面類文檔的類型,如封一、封二、封三、封四、勒口、書脊等。
包裝類型用于描述包裝類文檔的類型,如腰封、護封、環襯、外包裝、套盒、封套。用于描述包裝類文檔的類型。
單頁文檔類型用于描述單頁類文檔的類型,如扉頁、版權記錄頁、襯頁、插頁、附書名頁、口號頁等。
類型用于描述參考文獻的類型,遵循GB/T 7714 文后參考文獻著錄規則,如計算機程序(CP)、會議錄(C)、數據庫(DB)、學位論文(D)、電子公告(EB)、匯編(G)、期刊(J)、普通圖書(M)、報紙(N)、專利(P)、報告(R)、標準(S)等。
產品類型用于描述文檔產品的用途,如電子圖書、按需出版。
對于上述各個枚舉類中的具體類型,可以根據需要對其擴展,以滿足實際需求。
4.2 屬性
屬性可以分為對象屬性和數值屬性兩大類。對象屬性負責描述資源之間的關系,數值屬性負責描述資源本身。對象屬性的定義域及值域都為對象。在形式化表示中,按照關聯數據的表示方法,各個對象實例的唯一標識符均采用統一資源標識符統一表示。數值屬性的取值為文本,具體分為字符串型、整數型、實數型,日期等文本類型。
4.2.1 對象屬性
PUBO中定義了48個對象屬性,從多個方面描述資源對象之間的關系。
文檔容器負責封裝與出版物相關的資源,文檔容器包含兩個導航類屬性,一個是productManifest屬性,描述出版物的具體構成,其取值為文檔構件的有序列表,表示出版物的組成部分,如一個簡單的圖書出版物由封一、封二、封三、扉頁、第二頁、插圖頁……封四、隨書光盤組成;另一個是readingOrder屬性,描述出版物閱讀順序,其取值為內容單元的有序列表,表示出版物內容的閱讀順序,如一本簡單的圖書出版物,其內容單元包括序、目次、第一章、第二章……后記。同時,文檔容器還應包括一個可直接用于按需出版或電子書發布的文檔產品。文檔容器與這些文檔構件、文檔產品、內容單元之間,均存在contains關聯,以便于通過簡單的檢索得到所有與某出版物相關的資源。
媒體文檔類負責管理物理文件,當其他資源使用了某物理文件時,如圖書的正文為一個文本文件,或圖書的封面為一張圖片,需要建立該資源到相應的媒體文件的關聯。這種關聯用屬性associatedMedia來表示。特別的,對于電子書的內嵌音頻、視頻、字體文件,可以通過屬性embeddedAudio,embeddedVideo,embeddedFont來關聯至相應的媒體文檔。
文檔內容單元的個體會與文檔構件和文檔產品類個體產生關聯,如一個單頁類個體,其內容可以通過某個內容單元個體描述,則可利用isContentSection屬性關聯這兩個個體。
當一個文檔構件構成了一個文檔產品時,可以通過isComponentOf屬性關聯文檔構件及文檔產品。
設計排版展現文件利用屬性generates關聯通過其生成的文檔。
資源類個體間的關系可以用圖3來描述。圖3中的方框代表大類,連線代表類的個體之間的關系。
4.2.2 數值屬性
PUBO標準共定義107個數值屬性。對部分屬性,采用子屬性方式表示屬性之間的繼承或派生關系。
日期屬性,包含與出版物相關的版權年、創辦日期、首版年月、本次印刷年月、本版年月、出版日期、修改日期;以及與代理者相關的生年、卒年、創辦時間。
文件格式屬性,用于描述文件信息,包括校驗值、校驗方法、影音文件時長、排版軟件版本、文件大小、文件高度、軟件版本、播放器類型、精度、比特率、是否雙層pdf、是否內嵌字體、是否包含邏輯結構信息。
標識符屬性,用于描述圖書或期刊的標識符,包括ISBN和ISSN等;

圖3 文檔類之間的關系
位置符屬性,用于描述順序關系,如章節的起始頁碼,目錄的順序號,期號和卷號等;
產品格式屬性,用于描述文檔產品的特征,如重量和厚度等;
標題屬性,用于描述文檔的標題,如并列題名、叢書名和交替題名等;
代理者信息屬性,用于描述人、機構、團體的名字、地址和聯系方式等;
其他屬性,如摘要和描述等。
4.2.3 學科分類、語種的表示方法
在對象屬性中,學科分類、語種兩個屬性比較特殊。由于有多種學科分類方法和語種分類方法,所以這兩個屬性的取值需要提供分類法和分類號兩方面信息。PUBO中規定,學科分類和語種兩個屬性的取值均使用簡單知識組織系統(Simple Knowledge Organization System,SKOS)標準來表示[13][14]。如:表示使用杜威分類法,分類號為296.67,其OWL/RDF代碼如右。

使用SKOS表示學科需要使用skos:inScheme和skos:notation屬性,前者的取值為分類法(用URI表示),后者的取值為分類號。
我國出版行業已有的分類法和出版機構內部的分類表,在用于PUBO本體之前,需要將其SKOS化,即將分類法中的概念及概念之間的上下位關系利用SKOS表示,并為每個概念分配統一的URI標識,這樣就能應用于PUBO的學科分類。

圖4 一個圖書產品的示例
PUBO本體可以表示多種出版物,如普通圖書、叢書、多卷書、雜志、期刊、多媒體電子書等。經過類和屬性的擴展,PUBO還可以表示百科全書、工具書等。
將出版機構現有資源轉換成本體是PUBO的最基本應用。以某圖書產品為例,文檔容器負責將與該圖書產品相關的資源組織起來,如圖4所示,橢圓形代表個體,灰色橢圓是PUBO中定義的枚舉類個體。文檔構件(圖4左側)負責出版物的組裝,內容單元(圖4右側)負責出版物的內容管理,還可用于內容復用。為了簡潔,圖4中省略了associatedMedia屬性,大部分內容單元類、文檔構件類、圖書產品類個體均會具有該屬性,以關聯至某物理文件。
出版機構可以根據需要對PUBO的類和屬性進行擴展??蓴U展的內容包括:類、對象屬性、數值屬性、枚舉類個體、約束。通過對類、屬性和個體的擴展,進一步豐富PUBO的表達能力,滿足出版社的個性化需要。通過對約束的擴展,使PUBO的推理機制更加完善,自動校驗能力和推導新知識的能力更強。

圖5 基于 PUBO的數字內容管理系統參考架構
關聯數據[15]是本體的一種應用,如可將出版社的本體數據與現有的本體庫通過異構本體映射算法進行關聯,以獲得新的知識。現有的本體庫有DBPedia,CYC,YAGO等。除了關聯現有的知識庫,出版社與圖書館、網上書店之間均可進行數據關聯,以降低人工處理數據的成本,并為用戶提供更多的數據或知識服務。
PUBO本體可以與OAI-ORE結合,用后者對本體實例進行數據封裝。PUBO提供了一個聚合類屬性列表,在本體到OAI-ORE轉換的過程中,可利用聚合類屬性生成OAI-ORE圖,進一步用于數據交換。有文獻采用OAI-ORE對PUBO本體實例進行系統封裝,給出針對出版領域各種數字對象的封裝、存儲和交換的格式和規范[15]。
基于PUBO本體,可以設計和開發下一代數字出版資源內容管理系統(如圖5所示)。出版社可以通過該平臺實現碎片化數字出版,如按篇章印刷出版、圖片印刷出版、文章印刷出版等。通過提供可視化等輔助工具和管理手段,用戶無須掌握復雜的詞匯、術語,更加便捷地進行本體或知識加工,通過PUBO服務器來維護本體數據的一致性。PUBO服務器可以實現代理者信息管理(作者、出版社、圖書館、書店等)、出版物信息管理(題名、分類、ISBN、頁數、版次、印次等)、出版物構件管理(封面、單頁、隨書光盤、樣式表文件等)、出版物內容單元管理(摘要、輔文、正文章節等)、多媒體文件管理(文檔構件與內容單元關聯文件、多媒體出版物內嵌文件等)、元數據文件管理、設計排版文件管理、出版物資源封裝等多方面的功能。
數字出版是當前出版業的重要發展方向。支撐數字出版的核心是建立數字資源的形式化描述方法。本文所介紹的PUBO本體模型具備更加完整的語義,具備邏輯推理能力——可自動驗證模型的邏輯完整性,具有可擴展。這使得PUBO可以很好地描述圖書、期刊等各類出版物,為出版機構更方便地實現資源的管理、關聯和復用奠定了統一的基礎。
在PUBO本體基礎上,OSRE標準的第2部分[16]給出了基于開放檔案信息系統(Open Archive Information System,OAIS)標準的面向出版過程的數據交換信息包的具體封裝規范,第3部分[17]給出了基于OSRE標準的數字對象驗證規范。OSRE標準的三個部分[3][16][17]共同構成了較為完整的OSRE系列標準。
國家新聞出版廣電總局于2014年底正式啟動了國家復合出版工程項目建設工作?;赑UBO本體及其數字內容對象封裝交換標準(即OSRE標準)[2][16]的數字資源交換池系統被列入了該項工程的核心系統之一,支持一對一和一對多的交換方式,具有對OSRE信息包的攝取、驗證、預覽、抽取、重組、映射、轉換、傳輸、加載等一系列功能,用于實現出版機構內部和出版機構之間的各類數字資源的交換。PUBO本體將會隨著該工程的實施得到進一步完善和深入應用。
參考文獻
1 中國新聞出版研究院中國數字出版產業年度報告課題組. 2012~2013中國數字出版產業年度報告(摘要)[J]. 出版參考,2013,21:15.
2 鄧志鴻,唐世渭,張銘,楊冬青,陳捷. Ontology研究綜述[J]. 北京大學學報(自然科學版),2002(5):730-738
3 新聞出版行業標準CY/T102.1-2014. 數字內容對象存儲、復用與交換規范 第1部分:對象模型[S]
4 Electronic Publication[EPUB][EB/OL]. [2009-7-4]. http://idpf.org/epub
5 CEBX標準[EB/OL]. [2009-7-4].http://www.apabi.cn/download/index.html
6 Gartner R. METS as an’Intermediary’Schema for a Digital Library of Complex Scientific Multimedia[J]. Information Technology and Libraries, 2012, 31(3): 24-35
7 Bibliographic Ontology[BIBO][EB/OL].[2013-3-12]. http://bibliontology.com/
8 Schema.org [SCHEMA][EB/OL].[2013-3-12]. http://schema.org/
9 Open Archives Initiative Object Reuse and Exchange[OAI-ORE][EB/OL].[2009-7-3].http://www.openarchives.org/ore
10 陳鵬飛,王文清等. 針對科學出版社的基于OAI-ORE標準的圖書和期刊相關格式規范 [R]. 北京:北京大學中國高等教育文獻保障系統管理中心, 2010.
11 Web Ontology Language[OWL][EB/OL].[2008-4-15].http://www.w3.org/TR/2012/REC-owl2-syntax-20121211
12 FOAF Language[FOAF][EB/OL].[2013-3-15].http://xmlns.com/foaf/spec/
13 Miles A, Bechhofer S. SKOS simple knowledge organization system reference[R]. Technical report, W3C, 2009
14 段榮婷. 基于簡約知識組織系統的主題詞表語義網絡化研究——以《中國檔案主題詞表》為例[J]. 中國圖書館學報,2011(03):54-65
15 Bizer C, Heath T, Berners-Lee T. Linked data-the story so far[J]. International journal on semantic web and information systems, 2009, 5(3): 1-22
16 新聞出版行業標準CY/T102.2-2014. 數字內容對象存儲、復用與交換規范 第2部分:對象封裝、存儲與交換[S]
17 新聞出版行業標準CY/T102.3-2014. 數字內容對象存儲、復用與交換規范 第3部分:對象驗證換[S]
PUBO: Construction of Publication Ontology of Digital Resource
Wang Wenqing Liu Chuntong Zhang Yuexiang Chen Ling
With rapid development of information technology, the medium, forms and means of publication have changed greatly. For publishing organizations, publication is not a single resource, but a combination of multiple resources not only including text, images, audio, video, CD data, attachments, metadata, etc., but also including publishing process related resources such as structures, typesetting, layout design, font, etc.. How to design a unified data model of these resources in order to realize the unified representation of their attributes and relation is a key issue of digital publishing. This paper introducesPUBlication Ontology (PUBO) based OWL-DL standard, details its structures, content features, forms of representation, media types, and relations among them. At last, the application and prospect of PUBO are discussed.
Publications; Digital Publishing; Ontology; OWL; Object Reuse
王文清,ORCID:0000-0003-2038-1659,wangwq@calis.edu.cn。
北京大學圖書館CALIS管理中心,北京,100871
2014年12月25日