王曉光 宋寧遠
[摘 要] 語義出版物是科學交流和學術出版領域一種新興的數字出版物模型,適應了機器讀取和理解文獻內容的需要。本文以科學交流理論、文本功能理論和修辭結構理論為基礎,在系統論視角下重點關注語義出版物內容組織架構中兩個核心基本要素:組件單元和語義關系,并以語義出版物發展過程中的兩個關鍵模型——納米出版物模型和微型出版物模型為例,從模型架構、核心組件、語義關系、論證模式四個角度對語義出版物的內容組織架構進行探索性分析。研究表明,微型出版物模型具有明顯的模塊化、結構化、形式化和網絡化特點,但在知識表示能力和內容組織架構上仍存在不足。揭示和形式化表示敘事性論文中的潛在知識是語義出版物內容組織架構設計面臨的挑戰。
[關鍵詞] 語義出版 納米出版物 微型出版物 內容組織架構 比較研究
[中圖分類號] G254 [文獻標識碼] A [文章編號] 1009-5853 (2017) 04-0020-08
Content Schema of Semantic Publication:A Comparative Analysis Based on NanoPublication
and MicroPublication
Wang Xiaoguang Song Ningyuan
(School of Information Management, Wuhan University,Wuhan,430072)
[Abstract] Semantic Publication(SP) is a new kind of digital publishing model for scientific communication and academic publishing, suitable for machine reading and understanding. This article is based on the scientific communication theory, textual function theory, and rhetorical structure theory. From the view of system theory, we focus on two core elements, which are article component and semantic relations. And two key SP models, Nanopublication and Mircopublication are chosen as the two instances to conduct a comparative analysis from four lens, in order to figure out the knowledge organization architecture of SP models. The results demonstrate that MicroPubilcation is more powerful than NanoPublication in knowledge representation and knowledge organization structure, and has four special features, which are structuralization, explicitness, formalization, and networking. But these SP models are still not enough detail on the granularity of knowledge organization, and the free transformation from traditional narrative text to machine-readable is still a challenge along with the development in semantic publishing.
[Key words] Semantic publishing Publication model NanoPulication MicroPublication Comparative analysis
1 引 言
科學交流是科研活動的重要環節。自1865年第一本學術期刊出版以來,代表正式科學交流形式的科學論文的結構基本上沒有改變過。作為印刷時代的產物,論文在內容組織與知識表示上一直受到紙張媒介的天然約束,比如版式結構固定、內容難以重用、閱讀方式單一、結果難于驗證等。近年來,隨著語義出版的快速發展,傳統論文的固有缺陷正在被消除[1],威利(Wiley)[2]、愛思唯爾(Elsevier)[3]、美國科學公共圖書館(PLoS)[4]等知名出版機構和SWJ [5]、Cite4Me [6]、DOMEO [7]、Reflect [8] 等語義出版項目的實踐都表明對論文進行語義增強,如結構化處理、添加語義標簽、增加實體鏈接等可以改進讀者的信息獲取效率[9]。語義增強后的論文常被稱為增強型出版物(Enhanced Publication),其內容形式的豐富性和互動性都有較大提升[10],但還是沒有從根本上改變科學論文的內容組織架構。
在增強型出版物快速發展的同時,全新的語義出版物也悄然浮現。2009年以來,多個語義出版物模型陸續出現,如納米出版物模型(NanoPublication)[11]和微型出版物模型(MicroPublication)[12]。與增強型出版物模型不同,這兩種出版物模型并非傳統論文的內容增強版,而是具備全新內容組織架構的語義出版物模型。
為了分析語義出版物的特點,本文以納米出版物與微型出版物兩類語義出版物模型為代表,通過比較分析深入探索語義出版物模型在組件單元、語義關系和組織模式上的特征及其演化邏輯,并以此為基礎,對出版物內容組織架構的發展方向進行展望。
2 語義出版物的產生與定義
2.1 語義出版物的產生與發展
從出版物模型的發展歷程來看,出版物內容組織架構的創新與XML語言的應用關系密切。正是在XML語言支撐下,科學論文可以被表示成樹狀的有序分層內容對象(OHCO)[13],基于這種思想,語義出版物模型日益浮現。此外,論文內容模塊化的思想也促進了語義出版物的提出與發展。1998年,克爾茲(J. Kircz)提出模塊化論文模型,將科學論文拆分為摘要、研究現狀、研究方法等獨立模塊,認為不同模塊可以按照一定邏輯關聯進行重組[14]。2008年,亨特(J. Hunter)等人提出了科學出版物包裹(Scientific Publication Packages)的概念[15],同樣強調科學論文的模塊化結構。
近年來,科學交流領域“超越PDF”的呼聲漸起,增強型論文開始出現[16],并逐漸得到主流學術出版機構的認可。增強型論文借助可交互的圖表和外部資源的鏈接實現論文可理解性(Understandability)的增強,但主要還是面向讀者的內容增強,而非面向機器可讀性(Readable)的增強,所以本質上屬于數字環境下科學論文內容組織模型的優化。
2009年以來,較為成熟的語義出版物模型逐漸浮現,如巴瑞安德·蒙斯(Barend Mons)和楊·維爾特隆(Jan Velteron)提出的納米出版物模型;2010年,吉安奇格里安(Giunchiglia)等提出的液體出版物模型(Liquid Publication)[17];2013年,艾莉森·卡拉漢(Alison Callahan)等提出的 (Ovopub)模型[18];2014年,哈利德·貝哈伊姆(Khalid Belhajjame)等提出的研究對象套件模型(Research Object Suit)[19]、克里斯蒂安·波爾林(Christian B?lling)等提出的語義證據模型(Semantic Evidence)[20]以及蒂姆·克拉克(Tim Clark)等提出的微型出版物模型。這類語義出版物通過關聯數據、RDF、本體、知識表示等技術與思想,優化出版物知識組織模式,提高機器可讀性,是一種新型的出版物知識組織架構。
作為一種人工產物,不同的語義出版物模型設計思想不同,注重解決的問題也不一樣,從而造成內容對象及關聯方式的差異。比如液體出版物模型側重于動態重組不同粒度的知識對象;研究對象套件模型側重于提供一種結構化的容器,用于封裝研究數據、研究方法及元數據信息;語義證據模型借助RDF對論證框架下的科學論斷、證據、支撐材料等進行關聯;Ovopub模型設計了對數據及相關信息的結構化描述方案,側重于對科研數據的整合與應用;納米出版物形式化表達并關聯了科學論斷;微型出版物則表達了科學論文內容的論述過程。
納米出版物模型和微型出版物模型一經提出就受到學界的強烈關注,因為它們具有全新的知識組織架構,是兩種面向未來的、具有實用價值的語義出版物模型。
2.2 語義出版物的定義
語義出版物是借助語義技術實現的,能夠揭示概念、命題、論證等顯性和隱性科學知識,有利于知識重組和再利用的新型出版物模型,具備結構化、模塊化、網絡化等特征。語義出版物能夠提高出版物的機器可讀性,有利于機器代理(Agents)操作知識單元,實現更高級的知識服務[21]。
設計新型的語義出版物需要從提升出版物知識結構化水平和表現能力兩個方面入手。近年來出現的大部分語義出版模型都圍繞這兩方面進行了創新設計。知識結構化的目的是提高知識對機器的可理解性。結構化可以分為兩個層次,第一個層次是對構成論文的顯性章節、段落、語句等邏輯單元進行置標,形成帶有結構化標簽的論文,例如使用期刊標注標簽集(JATS)表示的論文。第二個層次是要對論文內的知識單元、論證結構等潛在知識進行顯性化和形式化表示,借助RDF表示論文內各種類型的知識單元及其相互之間的關系,以此讓機器“讀懂”論文。知識表現性增強是為了提高知識對人的可理解性,包括提高內容的可視化程度、增加實體鏈接(Entity Linking)以便于讀者理解關鍵術語和概念等。
圖1展示了不同語義出版物模型的差異。液體出版物模型側重于揭示論文內的不同知識單元,語義證據模型側重于表示論文的論證結構,帶有結構化標簽的出版物側重于揭示論文的章節結構,增強型出版物側重于提高知識表現能力。與這四種語義出版物模型相比較而言,納米出版物模型和微型出版物模型具有更優秀的知識組織架構,特別是在內容結構化維度上有較大改進,十分有利于機器讀取內容。下文我們將對這兩種模型進行比較分析,以期發現語義出版物模型中知識組織架構的基本特征、演化邏輯和發展趨勢。
3 語義出版物的內容組織架構分析框架
科學論文是知識的容器,具有不同語義功能的內容組件包含了大量知識實體,并通過組件間的關聯關系進行組織。語義出版物內容組織架構針對語篇邏輯結構,主要考慮出版物內容的組件單元及組件單元間的語義關系,通過形式化語言對組成語篇的內容組件單元及關系進行建模,進而實現對出版物內容的組織與關聯。
3.1 組件單元
出版物組件單元的設計必須考慮其所承載的科學交流功能。從現有科學論文組件單元的相關研究來看,論文是由情報功能各不相同的各種粒度形式的組件單元組成,包括細粒度的術語、實體、公式、圖像,中粒度的句子和段落,以及粗粒度的章節、數據集、附加資料等。這些不同粒度的組件單元之間相互組配形成論文的各個模塊和有機整體。明確定義和劃分組件單元的類型雖然十分重要,但是學界對組件單元的分類一直缺乏完整的框架,而且不同的學科看待論文內容的視角不同,導致對組件單元的分類也有較大差別。
在情報學領域,研究者側重于從出版物內容的功能屬性進行組件單元的定義。國內學者提出知識單元的概念,并自頂向下(Top-down)地探討了知識單元的概念和類型。王子舟等人曾將知識單元定義為客觀知識系統中有實際意義的基本單位[22],溫有奎等人[23]、趙蓉英[24]、文庭孝[25]等人采納類似的觀點,他們側重于分析知識單元的特征,但沒有提出更為具體的知識單元分類框架。國外的研究并不強調知識單元,使用了更為具體的概念,如核心科學概念和功能單元,而且在方法論上更側重于自下向上的(Down-top)枚舉式定義。列卡塔(Liakata)在核心科學概念(Core Scientific Concept)框架中定義了假設(Hypothesis)、動機(Motivation)、目標(Goal)等11種科學概念[26][27]。張蕾(Zhang Lei)以體裁分析(Genre Analysis)為基礎,對科學論文中的41類功能單元進行定義,包括研究回顧(Review Previous Research)、結果總結(Summarize Results)、陳述發現(State Findings)、提出猜想(Present Hypothesis)、實驗步驟(Experiment Procedures)等[28]。
在學術出版物研究領域,研究者側重于從修辭功能的角度對出版物組件單元進行規范化定義,形成了適用于不同目的的科學論文內容本體。具有代表性的內容本體諸如篇章要素本體(Discourse Element Ontology,DEO)[29]、修辭塊本體(Ontology of Rhetorical Block,ORB)[30]、文獻組件本體(Document Ontology,DoCO)[31]等。修辭塊本體定義了科學論文內容的修辭框架,在將科學論文內容分為頭部(Head)、主體(Body)和尾部的同時,結合IMRD模型將主體部分定義為引言(Introduction)、方法(Method)、結果(Result)、討論(Discussion)四個部分。篇章要素本體借鑒了修辭塊本體,詳細定義了諸如數據(Data)、材料(Materials)、方法(Methods)、模型(Models)等論文內容組件。文獻組件本體在篇章要素本體的基礎上,從結構特征和修辭功能兩個角度定義了文獻組件。
總之,科學論文是知識型內容的容器,不同粒度的知識單元是構成論文組件的基礎。
3.2 關聯關系
科學論文是一種語篇類型,關聯關系是將論文中的組件單元聯結形成一個有機整體的關鍵。傳統的語篇研究主要從修辭結構理論視角展開。在此理論視角下,科學論文由各具功能的文本塊(Text Span)組成,較小的文本塊組合成較大的文本塊,直至生成整個語篇[32]。語篇具有整體性和連貫性,它們源于各個文本塊都服從于語篇的中心思想這一原則。語篇的修辭結構有三種類型,分別是類型結構、句法結構和關系結構,其中關系結構是多語句語篇的主要結構。關系結構揭示了句子之間的關系,英語語篇中大約包含20種非對稱性修辭關系[33]。這些修辭關系揭示了語篇的結構性知識,或者說是句子型知識單元之間的關聯關系,對于語篇整體意義的形成具有十分重要的價值。修辭結構在任何由自然語言形成的多語句語篇中都是天然存在的。只要語義出版物支持自然語言,并包含多語句形成的文本塊,就必然包含修辭結構和修辭關系。語義出版物的知識組織模型設計要在可計算性上強于傳統出版物模型,就必須對修辭結構和修辭關系進行顯性化編碼處理,而且編碼越清晰越便于機器閱讀和“理解”內容間的語義關系。
論證結構是傳統的科學論文內容必備要素之一。科學論文的論證系統由論證要素、論證過程與論證結構組成,它是保障論文內容可信性的關鍵。圖爾敏(Tou Lmin)[34]曾提出論證的六要素,分別為斷言(Claim)、數據(Data)、保證(Warrant)、反駁(Rebuttal)、支援(Backing)和修飾語(Qualifiers)。此外,還定義了諸如支持(Support)、證明(Prove)、挑戰(Challenge)等論證關系。維爾哈吉(Verheij)在圖爾敏的論證理論基礎上,使用形式語言對論證框架進行重構,并引入人工智能領域,進而得到廣泛應用[35]。
對任何形式的科學論文而言,命題、觀點、論據和結論都是論證系統的必備要素,常以語句或圖表數據的形式存在,但論證過程和論證結構常常隱藏在語篇之下,難以被發現,而它恰恰是一篇論文被學界同行接受的關鍵。任何語義出版物內容組織結構的設計都不能忽略論證系統的內嵌和自洽性設計,即使它不體現語篇的敘事邏輯,也要為論文觀點和結論的可信性提供足夠的和必要的支撐。
4 納米出版物模型與微型出版物模型的比較
4.1 納米出版物模型
納米出版物模型是巴瑞安德·蒙斯和楊·維爾特隆[36]在2009年提出的一種新型科學文獻模型,也是一種全新的科學知識表示與組織模式。隨后,保羅·格魯斯(Paul Groth)[37]對納米出版物的結構進行更深入的剖析,提出概念關聯及構建納米出版物的具體方式。納米出版物模型是一種以陳述為基礎(Statement-based)的模型。其中,Nano代表“具有科學意義的、機器可讀的、最小的出版信息單元”。從整體結構上看,納米出版物包括內容性和功能性兩個部分。內容性部分又分為結論(Assertion)、出處(Provenance)、支持性信息(Supporting Information)三部分,其中結論是納米出版物的基礎,包括作者得出的科學事實、實驗結果或結論,以及實驗得出的有效性指標等。出處即結論的出處和起源,包括結論的發布時間、發布者、版權所有者等信息。支持性信息提供了結論的背景和語境信息,包括實驗條件、實驗室環境,以及結論的引用情況、其他人對結論的觀點、同行評議信息等。功能性部分包括納米出版物ID和完整性秘鑰(Integrity Keys)。納米出版物ID是用于識別納米出版物的唯一標識符。完整性密鑰則提供納米出版物作者身份的認證以及納米出版物版本的控制。
目前,納米出版物模型在自然科學與人文領域都有應用,如蛋白質知識平臺neXtProt項目[38],哲學事實集成項目EMTO項目[39]。納米出版物模型最知名的應用是開放醫學概念三元組庫(Open Pharmacological Concept Triple Store,Open PHACTS)項目[40],該項目以納米出版物模型為基礎,集成了多種藥物信息,用于支持藥物發現研究。
4.2 微型出版物模型
微型出版物模型(MircoPublication)是由哈佛大學的蒂姆·克拉克等人在2014年提出的一種新型語義出版物模型,該模型以圖爾敏論證理論為基礎,在吸收維爾哈吉的相關研究成果后,完成了對科學論文論證框架的建構,不僅適應機器讀取和“理解”內容,也適合被人閱讀。相較于其他形式的語義出版物模型而言,微型出版物模型結合科學論文的具體語境,突出了論證結構在科學論文知識組織中的重要地位。
從整體上看,微型出版物的構成要素分為兩大部分。一部分是概念,分為基礎類,包括實體(Entities)和代理(Agent)。實體是現實存在或想象中的事物,代理指人和機構。人工產物(Artifacts)是一種實體,由代理創作,擁有特定的屬性;還有表達類(Representation),表達是一種人工產物,說明(represents)了某種實體,主要形式包括以句子形式存在的聲明(Statement)、情景(Context)、限定(Qualifier),此外還有作為證據存在的數據(Data)、方法(Method)、材料(Material)等。另一部分是概念之間的關系屬性,包括支持關系(Supports)、挑戰關系(Challenges)、討論關系(Discusses)、子類關系(isA)、限定(Qualifies)關系、有屬性(HasAttribution)關系等;微型出版物的核心模型結構如圖3所示。
微型出版物是另一種以陳述為基礎(Statement-based)的模型,主要用于生物醫學領域,因其支持對證據、資格、斷言的建模,所以解決了納米出版物模型知識組織結構過于簡單的不足,將證據和支持關系引入模型,使得模型更為強大,為構建跨文檔的支持圖譜(support graph)和斷言圖譜(claim graph)等不同形式的復雜知識網絡奠定了基礎。
4.3 兩者的差異與發展邏輯
納米出版物和微型出版物作為兩種典型的語義出版物模型代表,其發展過程能體現語義出版物模型發展的邏輯,為了分析這種演進邏輯,筆者對這兩個模型進行細致比較,如表1所示。
表示方式的規范化。語義出版物模型表達方式的選擇取決于其構建目標與知識組織方式。納米出版物用于關聯不同的命題及斷言,強調知識實體間的聯系,沒有過多涉及對不同納米出版物之間語義關系的定義,所以使用弱語義的RDF作為模型表示語言。微型出版物側重對論證結構的表示與關聯,定義了更為豐富的組件單元與關系類型,需要復雜的條件約束與推理機制,因而選擇更為規范的OWL 2做為模型構建語言。
表達方式的規范化程度決定語義出版物語義表達能力的強弱。相較于納米出版物,微型出版物使用OWL 2準確地定義更復雜的語義關系,揭示文獻的論證結構,語義表達能力更強。
組件類型豐富。從知識表示和組織的角度來看,出版物模型中的組件單元定義越細致,意味著出版物模型越強大。語義出版物中的組件單元都有其明確的定義和語用功能,并且具有較高的獨立性,在出版物自洽性形成過程中扮演著不可獲取的角色,所以組件單元類型越多,意味著出版物的模塊化屬性越明顯。
圖2和圖3分別描繪了納米出版物和微型出版物的本體結構,由此可以看出納米出版物核心部件是結論,它是納米出版物所要表達和傳播的核心知識,支持信息和出處信息為結論提供了支撐作用,但沒有受到足夠重視。微型出版物模型中類的定義和分類更為豐富和準確,如大類實體、子類人造物、子子類陳述等。這種詳細的組件類型定義意味著微型出版物的知識組織模式更為精細,知識組織模型的描述能力更強。
論證知識的顯性化。科學論文作為科學知識的一種容器,內部隱含了很多類型的知識。論證過程是一種隱藏在文字符號表面之下的知識類型。從表現形式來看,納米出版物借助RDF三元組生成的命名圖(Named Graph)作為出版物的基本表現形式,形式化表示與發布知識。雖有結論、支持信息和出處三個部分,但是論證知識的表示不明顯,這就無法解決論文閱讀過程中的可信性判斷問題,屬于明顯的知識組織模型缺陷,無法承擔科學論文數據化處理的重任。
微型出版物模型強化了論證這種隱性知識的表示,通過組件定義的豐富,明確定義論點(一種特定類型的敘述)、論據(包括數據、方法、材料等形式的敘述)、論證結構(由論點和論據構成的論證過程和論證方式)。相比較而言,微型出版物模型借助本體技術和OWL語言在知識類型的形式化和明確化表示上更進了一步。
語義關系的明確化。語義關系指的是知識單元之間的聯結關系,分為兩大類,一類是論文內部各類細粒度知識單元之間的關系,另一類是論文整體之間的關系。由于組件單元定義的豐富,組件單元之間的語義關系也可以更加明確地定義,所以在新開發的微型出版物模型中知識單元之間的關系定義更加清晰,如論文內部各知識單元之間的屬類關系(isA)、表示關系(represent)、支持關系(support)、挑戰關系(challenge)、情景關系(hasContext)等。論文之間的關系得到明確,出現了有元素關系(hasElements)、聲明關系(asserts)、引述關系(quotes)、支持關系(supportedBy)、質疑關系(challengedBy)等關系。這一進步意味著我們可以在跨論文層面進行知識組織,構建諸如支持圖譜(support graph)和質疑圖譜(challenge graph),這為知識融合和整體性知識網絡構建提供了支撐。
5 討 論
5.1 面向機器和面向讀者目標之間的平衡
語義出版物的設計目標顯然是增強論文中各種知識,包括隱性知識和顯性知識的表示能力,提高機器“理解”和操作出版物組件單元的水平,便于各種智能代理高效地抽取、集成和再利用科學知識,最終形成可挖掘的知識資源數據集。為了實現這一目標,語義出版物徹底改變了傳統出版物利用線性的敘事型文本進行科學知識記錄與表達的模式,轉而利用以RDF和XML為基礎的結構化文本實現科學知識的記錄和表示。
從語義出版物知識組織架構的演進過程來看,早期的納米出版物是一種中間形態的出版物類型,它難以被讀者直接閱讀,但十分適合機器讀取,所以該類型出版物主要用于知識存儲和知識資源間的關聯,以支持溯源、探索、推理等知識發現活動。面向讀者閱讀時,納米出版物需要在表現形式層上做轉換。微型出版物比納米出版物更加強大,它滿足了文字敘事與內容計算兩種需求,既支持自然語言,又支持形式語言;既適合機器讀取,又適合人類閱讀,是一種調和型數字文獻形式。這種發展變化顯示,語義出版物并非完全面向機器讀取的文獻形式,而應該結合人工閱讀和機器讀取雙重目標,并在雙向選擇中尋找一種兼容和平衡機制,以滿足科學知識被科研工作者理解的終極目的。
5.2 語義出版物在科學知識網絡構建過程中的角色
在修辭結構理論、論證理論和功能單元理論基礎上,語義出版物實現了科學知識表示與組織模式的創新,應用了謂詞邏輯表示法和語義網絡表示方法[42]。在這些方法支撐下,出版物內部以觀點、假設、事實、結論等科學陳述為基本形式的陳述型語義元素和以文字、圖片、數據為代表的多模態數據型語義元素都得到形式化表示與組織[43]。從傳統出版物向語義出版物轉換過程中,大量開放性的主題詞表和領域本體用于概念消岐、映射和關聯,由此實現不同知識單元的互聯與序化,進而形成可追溯的和可擴展的語義網絡。這使得傳統的以論文發表為主的科學交流過程,變成協作式的知識網絡構建過程,使得語義出版物模型從一開始就為實現“情報組織從文獻層面向知識單元層面過渡”的宏偉目標奠定了基礎[44]。
5.3 語義出版物對科學交流系統的影響
科學交流系統以學術文獻為核心,包括創作、評審、出版、集成、檢索等任務。近年來,隨著科學研究活動進入數據密集型研究范式時代,科研數據呈現爆發式增長。數據密集型研究范式要求更高的數據透明性與可驗證性,更加注重科學數據的溯源與重用、實驗方法的開放、文獻知識的關聯和融合[45]。語義出版物模型從一開始就將科研數據與學術文本進行統一的表達與組織,使得數據和科學論斷之間建立較為明確的語義關聯,這在一定程度上克服了傳統論文結論難以重復和驗證的天然缺陷,提高了科研數據可用性以及科學交流系統整體的有效性。
從科學交流系統的發展走向來看,科研領域存量論文的結構化處理與語義化編輯工作是一項長期任務,短期內語義出版物并不會取代傳統的出版物。隨著結構化知識資源的積累、數字知識基礎設施的完善和語義出版平臺的創新,語義出版物的創作門檻和加工成本將大大降低,智能化的編寫軟件與各種“語義插件”將支持科學論文從寫作一開始就以語義出版物的形式存在。由此產生的網絡效應將加速語義出版物對傳統出版物的替代步伐,所以從整體上看,隨著語義網的發展和普及應用,新型的語義出版物可能會最終替代傳統的論文模型,成為科學交流系統中的主流知識組織模式。
5.4 現有語義出版物模型的不足
目前,語義出版物模型仍然存在一定的不足,主要表現在四個方面:(1)語義出版物內容組織架構中的內容單元定義不夠細致,無法揭示和規范化表示對于科學交流必要的各種潛在知識,比如命題論證過程。(2)語義出版物內容與傳統的敘事性內容如何協同工作考慮不周。現有模型突出了內容的機器可讀性,但也導致人工閱讀不夠方便,如何實現兩類內容的協同工作以及自由轉換還需考慮。(3)論文內容的驗證問題仍未解決。盡管語義出版物模型能夠將數據集作為證據用于論證網絡的構建,但囿于模型本身的推理機制缺失,導致論文內容特別是各種科學論斷仍難以由機器自動驗證,如何與領域本體協同支撐科學知識的推理驗證是一個難題。(4)適用領域有限。相比較而言,現有的語義出版物模型更適用于自然科學領域,較難用于人文社會科學領域。如何開發適用于人文社科領域的模型,也需要進一步研究。
6 總 結
語義出版物是語義網時代的新型數字出版物形式,對于實現語義出版系統和高級知識服務具有重要意義。從語義出版實踐進展來看,增強型出版物已經被出版商和讀者接受,但新型語義出版物的實例應用仍不多見。
本文從模型架構、組件類型、語義關系、論證結構四個角度對納米出版物和微型出版物進行比較分析,以此探索語義出版物的知識組織架構。研究表明,語義出版物內容組織架構在發展過程中體現出明顯的演化邏輯,即表現方式的規范化、組件類型的豐富化、論證知識的顯性化以及語義關系的明確化。盡管語義出版物模型仍有許多不足,可以肯定的是,隨著語義網的普及應用和科學交流系統的發展,語義出版物的內容組織架構會進一步得到優化和改進。
注 釋
[1]Shotton D. Semantic publishing:the coming revolution in scientific journal publishing[J]. Learned Publishing, 2009, 22(2):85-94
[2]The Smart Article [OL]. [2016-09-10]. http://as.wiley.com/WileyCDA/Section/id-817760.html
[3]Aalbersberg I J, Heeman F, Koers H, et al. Elseviers Article of the Future enhancing the user experience and integrating data through applications[J]. Insights, 2012, 25(1):33-43
[4]Creative ways to semantically enrich an Open Access PLoS research article [OL]. [2016-09-10]. http://blogs.plos.org/everyone/2009/04/27/creative-ways-to-semanticallyenrich-an-open-access-plos-research-article/
[5]Hu Y, Janowicz K, Mckenzie G, et al. A Linked-Data-Driven and Semantically-Enabled Journal Portal for Scientometrics[C]// The International Semantic Web Conference(ISWC 2013). 2013:114-129
[6]Nunes B P, Fetahu B, Dietze S, et al. Cite4Me:a semantic search and retrieval web application for scientific publications[C]// The International Conference on Posters & Demonstrations Track. 2013:25-28
[7]Ciccarese P, Ocana M, Clark T. Open semantic annotation of scientific publications using DOMEO[J]. Journal of Biomedical Semantics, 2012, 3(S1):1-14
[8]Reflect [OL]. [2016-09-10]. http://reflect.ws
[9]Shotton D, Portwin K, Klyne G, et al. Adventures in Semantic Publishing:Exemplar Semantic Enhancements of a Research Article[J]. Plos Computational Biology, 2009, 5(4):e1000361
[10]Breure L, Voorbij H, Hoogerwerf M. Rich Internet Publications:‘Show What You Tell[J]. Journal of Digital Information, 2011, 12(1)
[11][41]吳思竹,李峰,張智雄. 知識資源的語義表示和出版模式研究——以Nanopublication 為例[J]. 中國圖書館學報, 2013,39(4):102-109
[12]Clark T, Ciccarese P N, Goble C A. Micropublications:a semantic model for claims, evidence, arguments and annotations in biomedical communications[J]. Journal of Biomedical Semantics, 2014, 5(1):1-33
[13]Derose S J, Durand D G, Mylonas E, et al. What is text, really? [J]. Journal of Computing in Higher Education, 1990, 1(2):3-26
[14]Kircz J G. Modularity:the next form of scientific information presentation? [J]. Journal of Documentation, 1998, 54(2):210-235
[15]Hunter J. Scientific Publication Packages–A selective approach to the communication and archival of scientific output[J]. International Journal of Digital Curation, 2008, 1(1):33-52.
[16]Bardi A, Manghi P. Enhanced Publications:Data Models and Information Systems[J]. Liber Quarterly the Journal of European Research Libraries, 2014, 22(4):240-273
[17]Baez M, Mussi A, Casati F, et al. Liquid journals:scientific journals in the Web 2.0 era[C]//Proceedings of the 10th Annual Joint Conference on Digital libraries. ACM, 2010:395-396
[18]Callahan A, Dumontier M. Ovopub:Modular data publication with minimal provenance[J/DB]. arXiv preprint arXiv:1305.6800, 2013
[19]Belhajjame K, Zhao J, Garijo D, et al. The Research Object suite of ontologies:Sharing and exchanging research data and methods on the open web[J/DB]. arXiv preprint arXiv:1401.4307, 2014
[20]B?lling C, Weidlich M, Holzhütter H G. SEE:structured representation of scientific evidence in the biomedical domain using Semantic Web techniques[J]. Journal of Biomedical Semantics, 2014,5(S1):1-22
[21]Schmidt N. Tackling complexity in an interdisciplinary scholarly network:Requirements for semantic publishing[J]. First Monday,2016,21(5)
[22]王子舟,王碧瀅. 知識的基本組分:文獻單元和知識單元[J]. 中國圖書館學報, 2003, 29(1):5-11
[23]溫有奎,焦玉英. 基于范疇論的知識單元組織與檢索研究[J]. 情報學報,2010,29(3):387-392
[24]趙蓉英. 知識網絡研究(Ⅱ)—知識網絡的概念、內涵和特征[J]. 情報學報, 2007, 26(3):470-476
[25] 文庭孝, 羅賢春, 劉曉英,等. 知識單元研究述評[J]. 中國圖書館學報, 2011(5):75-86
[26] King R D, Liakata M, Lu C, et al. On the formalization and reuse of scientific research[J]. Journal of the Royal Society Interface,2011,8(63):1440–1448
[27] Liakata M, Saha S, Dobnik S, et al. Automatic recognition of conceptualization zones in scientific articles and two life science applications[J]. Bioinformatics, 2012, 28(7):991-1000
[28] Zhang L. A study of functional units for information use of scholarly journal articles[D]. Vancouver:University of British Columbia, 2011
[29] The Discourse Element Ontology [EB/OL]. [2016-09-15] .http://www.sparontologies.net/ontologies/deo/source.html
[30] 馬雨萌, 祝忠明. 科學篇章修辭塊本體標準及其應用分析[J]. 情報雜志, 2012, 31(10):112-116
[31] Contantin A, Peroni S, Pettifer S, et al. The Document Components Ontology(DoCO)[J]. Semantic Web, 2016,7(2):167-181
[32] Mann W C, Thompson S A. Rhetorical structure theory:Toward a functional theory of text organization[J]. Text-Interdisciplinary Journal for the Study of Discourse, 1988, 8(3):243-281
[33] 王偉. “修辭結構理論”評介(上)[J]. 當代語言學,1994(4):8-13
[34] Toulmin S E. The uses of argument[M]. London:Cambridge University Press, 2003:25-27
[35] Verheij B. The toulmin argument model in artificial intelligence[M]//Argumentation in artificial intelligence. Springer US, 2009:219-238
[36] Mons B, Velterop J. Nano-Publication in the e-science era[C]//Workshop on Semantic Web Applications in Scientific Discourse(SWASD 2009). 2009:14-15
[37] Groth P, Gibson A, Velterop J. The anatomy of a nanopublication[J]. Information Services and Use, 2010, 30(1-2):51-56
[38] Gaudet P, Argoud-Puy G, Cusin I, et al. neXtProt:organizing protein knowledge in the context of human proteome projects[J]. Journal of proteome research, 2012, 12(1):293-298
[39] EMTO Nanopub [OL]. [2016-09-10]. http://nanopub.org/wordpress/?page_id=644
[40] Williams A J, Harland L, Groth P, et al. Open PHACTS:semantic interoperability for drug discovery[J]. Drug discovery today,2012,17(21)1188-1198
[42] 徐寶祥, 葉培華. 知識表示的方法研究[J].情報科學,2007,25(5):690-694
[43] 李楠, 孫濟慶, 馬卓. 面向學術文獻的語義出版技術研究[J]. 出版科學,2015,23(6):85-92
[44] 馬費成. 情報學的進展與深化[J]. 情報學報,1996(5):337-343
(收稿日期:2017-04-10)