牛麗慧
〔摘 要〕本文對(duì)語義出版中的一種代表性出版模式——微出版(Micropublication)進(jìn)行了介紹和分析。首先介紹了微出版物的概念及其本體;然后對(duì)微出版的應(yīng)用現(xiàn)狀進(jìn)行述評(píng);最后,嘗試將微出版應(yīng)用于心理學(xué)領(lǐng)域,以一篇心理學(xué)科學(xué)文獻(xiàn)為例對(duì)其利用微出版模型進(jìn)行語義化描述,并在此基礎(chǔ)上對(duì)微出版的應(yīng)用特點(diǎn)進(jìn)行了分析。研究結(jié)果表明:微出版模型是一種以論證為基礎(chǔ),對(duì)科學(xué)文獻(xiàn)中以文獻(xiàn)結(jié)論為論點(diǎn),以陳述、數(shù)據(jù)、方法等作為證據(jù)的論證過程進(jìn)行語義化表示的語義出版模型,但微出版模型無法表示對(duì)科學(xué)文獻(xiàn)內(nèi)的具體組塊,需要結(jié)合其他概念模型實(shí)現(xiàn)對(duì)科學(xué)文獻(xiàn)不同程度的語義化描述。
〔關(guān)鍵詞〕微出版;語義出版;知識(shí)表示
DOI:10.3969/j.issn.1008-0821.2018.06.013
〔中圖分類號(hào)〕G254 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2018)06-0086-07
〔Abstract〕Micropublication,a representative semantic publishing mode,was introduced and analyzed in this paper.It first introduced micropublications concepts and micropublication ontology,then it reviewed micropublications current applications.Finally,it applied the model to represent a psychology document and analyzed the characteristics of micropublication.The research showed that as an argument-based semantic publishing mode,micropublication semantically represented the processes of argumentation that took one documents conclusions as argument,takes statements,data,methods,etc.as evidences,but it could not semantically represent concrete chunks,so it was needed to combine other concept models to realize semantic representation for scientific documents in different degrees.
〔Key words〕micropublication;semantic publishing;knowledge representation
在當(dāng)今大數(shù)據(jù)時(shí)代,隨著學(xué)術(shù)文獻(xiàn)的大量增長(zhǎng),科學(xué)研究人員需要花費(fèi)大量時(shí)間閱讀文獻(xiàn)、理解文獻(xiàn)內(nèi)容、抓取文獻(xiàn)中的關(guān)鍵信息,難以快速發(fā)現(xiàn)科學(xué)文獻(xiàn)間的知識(shí)關(guān)聯(lián)并獲得領(lǐng)域概覽。這種傳統(tǒng)的期刊文獻(xiàn)出版方式不但降低了科學(xué)信息傳播的效率,而且難以滿足科研人員對(duì)科學(xué)信息共享和重用的需求。2009年牛津大學(xué)的D.Shotton教授首次正式提出了“語義出版(Semantic Publishing)”概念,受到學(xué)術(shù)界和出版界的廣泛關(guān)注。D.Shotton認(rèn)為語義出版是一種語義增強(qiáng)的期刊出版形式,采用語義網(wǎng)技術(shù)對(duì)期刊論文中的信息進(jìn)行語義標(biāo)注和語義關(guān)聯(lián),豐富出版物的內(nèi)容,增強(qiáng)論文的語義,促進(jìn)知識(shí)傳播和學(xué)術(shù)交流[1]。在語義出版思想的推動(dòng)下,一系列語義出版模型被提出,譬如用于描述生物醫(yī)學(xué)領(lǐng)域中論述過程的SWAN(Semantic Web Applications in Neuro-Medicine)本體[2]、用于描述科學(xué)事實(shí)和實(shí)驗(yàn)結(jié)論的納米出版(Nanopublication)[3]、用于語義化描述論證證據(jù)的SEE(Semantic Evidence)本體[4]、用于描述整個(gè)出版流程的SPAR(Semantic Publishing and Referencing)[5]系列本體等。其中,實(shí)踐應(yīng)用最成熟的語義出版模型是納米出版模型,它將文獻(xiàn)中的科學(xué)觀點(diǎn)、科學(xué)事實(shí)和科學(xué)結(jié)論等斷言性信息采用RDF三元組形式進(jìn)行語義化表示,并獨(dú)立于科學(xué)文獻(xiàn)本身進(jìn)行出版。雖然納米出版實(shí)現(xiàn)了細(xì)粒度知識(shí)內(nèi)容的獨(dú)立出版,能夠被引用和追蹤,但是讀者卻無法判斷納米出版物的有效性和價(jià)值,譬如,它是否是新的實(shí)驗(yàn)結(jié)論性知識(shí),它是引用知識(shí)還是單純的假設(shè)性陳述。在科學(xué)文獻(xiàn)中,作者通常是以論證的方式,即通過引用其他文獻(xiàn)中的支持或通過實(shí)驗(yàn)和數(shù)據(jù)來證明所提出的科學(xué)觀點(diǎn)或科學(xué)結(jié)論,而納米出版忽略了這種論證過程。在此背景下,哈佛醫(yī)學(xué)院的T.Clark等人于2014年面向生物醫(yī)學(xué)領(lǐng)域提出了一種新的語義出版模型——微出版(Micropublication)[6],引入了表示論證過程的論證框架,增加了支持圖譜(Support Graph)和反對(duì)圖譜(Challenge Graph),支持證據(jù)與斷言關(guān)系的建構(gòu),實(shí)現(xiàn)了科學(xué)文獻(xiàn)論證結(jié)構(gòu)的形式化表示,彌補(bǔ)了納米出版在知識(shí)表示方面過于簡(jiǎn)單的不足。本文首先介紹微出版物的概念及本體內(nèi)容;然后對(duì)微出版的應(yīng)用現(xiàn)狀進(jìn)行述評(píng);最后,嘗試將微出版應(yīng)用于心理學(xué)領(lǐng)域,以一篇心理學(xué)科學(xué)文獻(xiàn)為例對(duì)其利用微出版模型進(jìn)行語義化描述,并在此基礎(chǔ)上對(duì)微出版的應(yīng)用特點(diǎn)進(jìn)行分析,為學(xué)者研究科學(xué)文獻(xiàn)知識(shí)資源的細(xì)粒度語義化表示提供參考。
1 微出版物及其本體
微出版物是一個(gè)以英國哲學(xué)家S.Toulmin的推理論證理論為基礎(chǔ),語義化描述科學(xué)文獻(xiàn)論證過程的語義出版物。T.Clark采用OWL2本體語言構(gòu)建了微出版物本體,該本體對(duì)微出版物進(jìn)行了規(guī)范化說明[7]。在該本體中,核心類是微出版物(Micropublication)、屬性(Attribution)、聲明(Claim)、陳述(Statement)、數(shù)據(jù)(Data)、方法(Method)和材料(Material)。這些核心類均屬于表達(dá)(Representation)類,表達(dá)類是人工產(chǎn)物(Artifact)類的子類,人工產(chǎn)物類屬于實(shí)體(Entity)類。在這些核心類中,微出版物(Micropublication)表示整篇科學(xué)文獻(xiàn)的論證過程,屬性(Attribution)用于說明微出版物、論斷等人工產(chǎn)物類的元數(shù)據(jù),包括它們的創(chuàng)建者、創(chuàng)建時(shí)間和機(jī)構(gòu)等;陳述(Statement)表示科學(xué)文獻(xiàn)中表述實(shí)驗(yàn)結(jié)果的陳述句,或引用參考文獻(xiàn)的引文句;聲明(Claim)是陳述的子類,表示科學(xué)文獻(xiàn)的科學(xué)結(jié)論或?qū)嶒?yàn)結(jié)果,是微出版物主張的核心論斷;數(shù)據(jù)(Data)表示科學(xué)文獻(xiàn)中描述實(shí)驗(yàn)結(jié)果的表格或圖,是用于支持或反對(duì)陳述的論據(jù);方法(Method)是科學(xué)文獻(xiàn)中的實(shí)驗(yàn)方法,用于說明使用何種材料以及如何獲得數(shù)據(jù),是實(shí)驗(yàn)過程的具體呈現(xiàn);材料(Material)即科學(xué)文獻(xiàn)中表示實(shí)驗(yàn)過程中使用到的實(shí)驗(yàn)材料的表達(dá)。這些核心類以及核心類之間的支持(mp:Supports)和挑戰(zhàn)(mp:Challenges)關(guān)系共同構(gòu)成了微出版物的支持圖(Support Graph)或挑戰(zhàn)圖(Challenge Graph),屬性有支持圖元素(mp:hasSupportGraphElement)和有挑戰(zhàn)圖元素(mp:hasChallengeGraphElement)用于表示微出版物與構(gòu)成支持圖和挑戰(zhàn)圖的一系列表達(dá)之間的關(guān)系。
此外,為了進(jìn)一步論證陳述以及規(guī)范化表示陳述的內(nèi)容,T.Clark在微出版本體中定義了限定符(Qualifier)類及其兩個(gè)子類:參考文獻(xiàn)(Reference)類和語義限定符(Semantic Qualifier)類。參考文獻(xiàn)(Reference)類用于表示陳述中引用到的參考文獻(xiàn),用支持(mp:Supports)和挑戰(zhàn)(mp:Challenges)關(guān)系表示參考文獻(xiàn)與陳述之間的關(guān)系;語義限定符(Semantic Qualifier)類用于表示為陳述中的實(shí)體添加的唯一標(biāo)識(shí)符,即采用相關(guān)本體或詞表對(duì)陳述中的實(shí)體進(jìn)行規(guī)范化語義表示,譬如,將論斷中的實(shí)體“Rapamycin(納巴霉素)”用生物相關(guān)的化學(xué)實(shí)體本體(Chemical Entities of Biological Interest Ontology,簡(jiǎn)稱CHEBI Ontology)表示為〈CHEBI:68481〉,屬性“mp:Qualifies”用于表示語義限定符與陳述之間的關(guān)系。微出版物本體的主要類和屬性如圖1所示。
2 微出版的相關(guān)研究
目前有關(guān)微出版的文獻(xiàn)中大部分是對(duì)微出版模型本身的討論。美國南加州大學(xué)的RE.Schuler,美國倫斯勒理工學(xué)院的G.Nagy認(rèn)為微出版是描述論述和證據(jù)的語義模型[8-9]。荷蘭阿姆斯特丹自由大學(xué)計(jì)算機(jī)系的T.Kuhn等從語義表示的組件類型、出版層級(jí)、核心元素這3個(gè)方面將微出版物與納米出版物、研究對(duì)象(Research Objects)、可執(zhí)行文件(Executable Papers)、學(xué)術(shù)化HTML網(wǎng)頁(Scholarly HTML)、結(jié)構(gòu)化數(shù)字摘要這6類科學(xué)出版物進(jìn)行了比較,比較結(jié)果顯示:在語義表示的組件類型方面,研究對(duì)象和可執(zhí)行文件二者均可語義化表示元數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)和程序代碼,納米出版物可語義化表示元數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)和論斷,學(xué)術(shù)化HTML網(wǎng)頁可語義化表示元數(shù)據(jù),結(jié)構(gòu)化數(shù)字摘要可語義化表示元數(shù)據(jù)和論斷,微出版物可語義化表示元數(shù)據(jù)和論證過程;在出版單元方面,可執(zhí)行文件、學(xué)術(shù)化HTML網(wǎng)頁、結(jié)構(gòu)化數(shù)字摘要和微出版物均以文章為出版單元,研究對(duì)象以項(xiàng)目為出版單元,納米出版物以陳述句為出版單元;從這6類出版物所包含的核心元素方面分析,它們均包含形式化語義數(shù)據(jù),除此之外,可執(zhí)行文件、學(xué)術(shù)HTML網(wǎng)頁、結(jié)構(gòu)化數(shù)字摘要和微出版物還包含自然語言文本[10]。武漢大學(xué)信息管理學(xué)院的王曉光等對(duì)微出版模型和納米出版模型作了比較分析,分析表明:從二者的核心架構(gòu)方面分析,納米出版模型的核心是論斷,微出版模型的核心是論證框架;從組件類型方面分析,納米出版模型包含論斷、出處信息和出版信息,微出版模型包含實(shí)體、表述、句子、聲明、方法、數(shù)據(jù)、參考文獻(xiàn)方法等;從知識(shí)單元的語義關(guān)系類型方面分析,納米出版模型包含出處和歸屬關(guān)系,微出版模型的語義關(guān)系類型相對(duì)比較豐富,包含屬類關(guān)系、表示關(guān)系、引用關(guān)系、支持和挑戰(zhàn)關(guān)系等,從兩類語義出版物的表示形式方面分析,納米出版物由形式化語言表示,微出版物由形式化語言和自然句相結(jié)合表示[11]。
相對(duì)于關(guān)于微出版的理論研究,目前微出版的實(shí)踐應(yīng)用非常少,典型的微出版應(yīng)用只有兩個(gè)。一個(gè)應(yīng)用是法國南特大學(xué)醫(yī)院的A.Gaignard于2016年將微出版物模型應(yīng)用于實(shí)驗(yàn)過程的語義表示,通過將微出版模型與出處本體(PROV Ontology)、出處—計(jì)劃本體(Ontology for Provenance and Plans)、Web標(biāo)注數(shù)據(jù)模型(Web Annotation Data Model)和相關(guān)領(lǐng)域本體相結(jié)合,構(gòu)建了一個(gè)挖掘科學(xué)工作流中產(chǎn)生的原始實(shí)驗(yàn)數(shù)據(jù)出處的框架——PoeM,該框架旨在將標(biāo)注的工作流模式和實(shí)驗(yàn)標(biāo)注模板半自動(dòng)化改寫成出處挖掘規(guī)則,通過出處挖掘規(guī)則將實(shí)驗(yàn)過程中產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù)發(fā)布為關(guān)聯(lián)性的實(shí)驗(yàn)報(bào)告,以促進(jìn)實(shí)驗(yàn)過程中產(chǎn)生的原始數(shù)據(jù)的開放獲取和重用。如圖2所示為生命科學(xué)領(lǐng)域RAN序列實(shí)驗(yàn)中實(shí)驗(yàn)標(biāo)注模板的一部分,A.Gaignard利用實(shí)驗(yàn)因素本體(Experimental Factor Ontology)語義化表示實(shí)驗(yàn)過程中的樣本序列(Sample-Sequence)和基因表達(dá)檢測(cè)(Gene-Expression-Measurement);利用微出版本體表示該實(shí)驗(yàn)過程中的樣本序列(Sample-Sequence)、基因表達(dá)檢測(cè)(Gene-Expression-Measurement)、假設(shè)(My Biological Hypothesis)及其邏輯關(guān)系;利用開放標(biāo)注模型將樣本序列標(biāo)注為實(shí)驗(yàn)流程的輸入數(shù)據(jù)(Wf-Input)[12]。通過該實(shí)驗(yàn)標(biāo)注模板,可語義化表示RAN序列實(shí)驗(yàn)過程中涉及到的聲明、數(shù)據(jù)、材料和方法。
另一個(gè)代表性的微出版應(yīng)用是伊利諾伊香檳分校的J.Schneider等利用微出版物模型和開放標(biāo)注模型(Open Annotation Model)對(duì)美國國立醫(yī)學(xué)圖書館資助的藥物相互作用知識(shí)庫(Drug Interaction Knowledge Base,簡(jiǎn)稱DIKB)中關(guān)于藥物之間相互作用的聲明及其證據(jù)進(jìn)行了語義化表示和標(biāo)注。圖3所示為J.Schneider等采用微出版模型表示的一個(gè)科學(xué)論證鏈。科學(xué)論斷C1“Escitalopram Does Not Inhibit CYP2D6(艾司西酞普蘭(一種抗抑郁用藥)不會(huì)抑制CYP2D6(一種由人類CYP2D6基因編碼的酶))”是微出版物的核心,陳述S1支持論斷C1,陳述S3反對(duì)論斷C1,數(shù)據(jù)D1和方法M1支持陳述S3。通過這種語義化表示方式,對(duì)指向同一聲明的不同證據(jù)作了有效整合,提高了聲明的可信度和知識(shí)庫的利用率[13]。
從微出版的應(yīng)用現(xiàn)狀來看,一方面微出版主要應(yīng)用于生物醫(yī)學(xué)領(lǐng)域,目前還沒有在其他學(xué)科領(lǐng)域中展開應(yīng)用。鑒于許多學(xué)科的科學(xué)論證過程都具有很大的相似性,這為微出版模型在其他學(xué)科領(lǐng)域的應(yīng)用擴(kuò)展提供了可能,有必要在此方面進(jìn)行研究探索。另一方面,在對(duì)科學(xué)出版物進(jìn)行語義化表示時(shí),微出版物模型常常要與其他概念模型或本體聯(lián)合使用,譬如,基因本體、Web標(biāo)注數(shù)據(jù)模型等。微出版物模型與領(lǐng)域本體結(jié)合使用,可實(shí)現(xiàn)對(duì)科學(xué)文獻(xiàn)的論證過程以及文獻(xiàn)中領(lǐng)域術(shù)語的語義化描述;微出版與Web標(biāo)注數(shù)據(jù)模型結(jié)合使用,可實(shí)現(xiàn)微出版物與原文獻(xiàn)位置的關(guān)聯(lián),方便讀者對(duì)微出版元素在原文位置的定位。
3 微出版應(yīng)用特點(diǎn)分析
基于上述對(duì)微出版的結(jié)構(gòu)與相關(guān)研究現(xiàn)狀分析,我們利用微出版物模型對(duì)德克薩斯農(nóng)工大學(xué)的LE.Krueger于2010年在期刊《Personality & Individual Differences》(個(gè)性與個(gè)體差異)中發(fā)表的一篇題為《Differences in Acquisition,Not Retention,Largely Contribute to Sex Differences in Multitrial Word Recall Performance》(獲取而非保留詞匯的差異導(dǎo)致在多試驗(yàn)詞匯記憶表現(xiàn)中的性別差異)的心理學(xué)領(lǐng)域科學(xué)文獻(xiàn)[14]的論證過程進(jìn)行語義化描述,以具體說明微出版是如何語義化表示科學(xué)文獻(xiàn)的,同時(shí)為了將微出版物中的元素與科學(xué)文獻(xiàn)中的內(nèi)容進(jìn)行對(duì)應(yīng),我們采用Web標(biāo)注數(shù)據(jù)模型對(duì)微出版物中的實(shí)體進(jìn)行標(biāo)注,添加其在原文中的上下文信息,以方便快速查詢和定位微出版物元素在原文獻(xiàn)中的位置。Web標(biāo)注數(shù)據(jù)模型(Web Annotation Data Model)是一個(gè)關(guān)于資源標(biāo)注的元數(shù)據(jù)模型,主要用于為信息資源(稱為標(biāo)注對(duì)象)添加評(píng)論、注釋等標(biāo)注信息(稱為標(biāo)注體)[15]。
心理學(xué)科學(xué)文獻(xiàn)的語義描述示意圖如圖4所示,該文獻(xiàn)的論證過程對(duì)應(yīng)的微出版物為MP1,從文獻(xiàn)中抽取出結(jié)論作為該微出版物論證過程中的聲明C1,文獻(xiàn)結(jié)論一般位于文章的結(jié)論(Conclusion)部分,在摘要(Abstract)中也有所體現(xiàn)。我們?cè)谡糠殖槿〗Y(jié)論,其具體內(nèi)容及上下文為:
聲明的上文[prefix]:“…Even when Controlling for the Influence of Other Individual Difference Variables,Being a Male was Still Associated with Fewer Gains Across the Majority of Trials.”
聲明[:C1]:“These Results Suggest that one Factor Contributing to Sex Differences in Recall Performance are Differences in Acquiring New Items Rather than Differences in Retaining Information Across Trials.(結(jié)果表明在記憶量中表現(xiàn)出的性別差異的一個(gè)因素是獲取新詞匯的差異,而不是在試驗(yàn)中保留信息的差異。)”
聲明的下文[suffix]:“Many Researchers Have Demonstrated that Females Tend to Outperform Males on Verbal Memory Tasks…”
我們采用微出版物本體中的屬性“mp:Argues”表示微出版物MP1與聲明C1之間的“主張”關(guān)系。采用Web標(biāo)注本體中的屬性“oa:hasSource”標(biāo)注聲明C1源自于文章的“摘要(Abstract)”章節(jié),采用數(shù)據(jù)屬性“oa:Exact”標(biāo)注聲明C1的文本內(nèi)容,用“oa:Prefix”標(biāo)注聲明C1的上文,用“oa:Suffix”標(biāo)注聲明C1的下文。
對(duì)聲明C1論證支持的證據(jù)有:
3.1 實(shí)驗(yàn)方法M1
實(shí)驗(yàn)方法M1位于文獻(xiàn)中的“方法(Method)”章節(jié),其具體內(nèi)容及上下文為:
實(shí)驗(yàn)方法[:M1]:“The Participants Completed the Word List Recall Test of the WMS-III(Wechsler,1997b)Along with Other Cognitive Ability Tests in a Two Hour Session.Vocabulary Ability Was Assessed with the WAIS Vocabulary(Wechsler,1997a),Picture Vocabulary(Woodcock & Johnson,1990),Antonym Vocabulary(Salthouse,1993),and Synonym Vocabulary(Salthouse,1993)Tests.Verbal Episodic Memory Ability Was Assessed with a Story Recall Task(WMS-III Logical Memory,Wechsler,1997b)and a Paired Associates Task Involving Unrelated Words(Salthouse et al.,1996).(參與者兩個(gè)小時(shí)內(nèi)完成韋克斯勒記憶量表III的詞表記憶測(cè)試以及其他認(rèn)知能力測(cè)試。詞匯能力用韋氏成人智力量表詞匯、圖片詞匯、反義詞詞匯和近義詞詞匯評(píng)估。言語情景記憶能力用故事記憶任務(wù)和包含不相關(guān)詞匯的聯(lián)對(duì)任務(wù)評(píng)估。)”
實(shí)驗(yàn)方法的上文[prefix]:“…Because the Scaled Scores Have a Mean of 10,and a Standard Deviation of 3,the Sample Can be Inferred to Consist of High Functioning Participants,and this Was Evident Both in the Entire Sample and in Each of the Three Different Age Groups.”
實(shí)驗(yàn)方法的下文[suffix]:“Z-Scores Were Computed for the Paired-Associates and Logical MemoryTtests,and These Scores Were Averaged to form a Composite Verbal Episodic Memory Ability Variable…”
我們采用Web標(biāo)注本體中的屬性“oa:hasSource”標(biāo)注實(shí)驗(yàn)方法M1源自于文章的“方法(Method)”章節(jié),采用數(shù)據(jù)屬性“oa:Exact”標(biāo)注實(shí)驗(yàn)方法M1的文本內(nèi)容,用數(shù)據(jù)屬性“oa:Prefix”標(biāo)注實(shí)驗(yàn)方法M1的上文,用數(shù)據(jù)屬性“oa:Suffix”標(biāo)注實(shí)驗(yàn)方法M1的下文。
3.2 數(shù)據(jù)D1
數(shù)據(jù)D1以表格形式呈現(xiàn),即原文中的Table2。數(shù)據(jù)D1是通過實(shí)驗(yàn)方法M1得出的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)方法M1與數(shù)據(jù)D1之間存在支持(mp:Support)關(guān)系。采用Web標(biāo)注本體中的屬性“oa:hasSource”標(biāo)注數(shù)據(jù)D1源自于文章的“結(jié)果(Result)”章節(jié)。
3.3 論據(jù)S1
論據(jù)S1位于文獻(xiàn)中的“結(jié)果(Result)”章節(jié),其具體內(nèi)容及上下文為:
論據(jù)[:S1]“These Results are Therefore Consistent with the Conclusion that Sex Differences Appear to be Largely Manifested Through Differences in Gaining New Items Across Trials.(因此,這些結(jié)果與以下結(jié)論一致:性別差異似乎主要通過在試驗(yàn)中獲得新詞匯的差異表現(xiàn)出來。)”
論據(jù)的上文[prefix]:“…the Qualitative Pattern Was Similar to that with the Proportion Measures and There Was Still a Significant Female Advantage in the Absolute Number of Gains from Trial 3 to 4 and no Significant Sex Differences in the Absolute Number of Losses Across any Trials.”
論據(jù)的下文[suffix]:“A Final Analysis Was Conducted in Order to Assess Whether Sex Differences are More Pronounced Among Individuals at Different Levels of Performance.”
我們采用Web標(biāo)注本體中的屬性“oa:hasSource”標(biāo)注論據(jù)S1源自于文章的“結(jié)果(Result)”章節(jié),采用數(shù)據(jù)屬性“oa:Exact”標(biāo)注論據(jù)S1的文本內(nèi)容,數(shù)據(jù)屬性“oa:Prefix”標(biāo)注論據(jù)S1的上文,數(shù)據(jù)屬性“oa:Suffix”標(biāo)注論據(jù)S1的下文。論據(jù)S1是對(duì)數(shù)據(jù)D1的分析結(jié)果表述,所以,數(shù)據(jù)D1與論據(jù)S1之間存在支持(mp:Support)關(guān)系。
通過數(shù)據(jù)D1、實(shí)驗(yàn)方法M1和論據(jù)S1共同論證出該論文的結(jié)論性聲明C1。這些證據(jù)與聲明C1之間存在支持(mp:Support)關(guān)系,如此,文獻(xiàn)中的聲明C1、論據(jù)S1、數(shù)據(jù)D1和方法M1就作為支持圖元素與它們之間的支持關(guān)系共同構(gòu)成了微出版物“MP1”的支持圖(SupportGraph),采用微出版本體中的屬性“mp:hasSupportGraphElement”表示微出版物“MP1”與其支持圖元素之間的“有支持圖元素”關(guān)系。在原文獻(xiàn)中不存在反對(duì)聲明的表達(dá),所以在微出版物MP1中沒有挑戰(zhàn)圖(ChallengeGraph)。
根據(jù)上文微出版在心理學(xué)科學(xué)文獻(xiàn)中的應(yīng)用,我們總結(jié)出微出版的3個(gè)應(yīng)用特點(diǎn):
第一,微出版的核心是將科學(xué)文獻(xiàn)中的論證過程進(jìn)行顯性化和形式化表示。微出版通過豐富的概念類型和語義關(guān)系類型明確定義了論點(diǎn)(即科學(xué)文獻(xiàn)中的結(jié)論)、論據(jù)(即論證結(jié)論的數(shù)據(jù)、實(shí)驗(yàn)方法、材料、引文等證據(jù))以及論證方式(即論點(diǎn)和論據(jù)之間的邏輯關(guān)系),將隱含在科學(xué)論文內(nèi)的邏輯論證過程顯性化和明確化,這種表示方式豐富了科學(xué)文獻(xiàn)的信息內(nèi)容解讀方式,增強(qiáng)了讀者對(duì)科學(xué)文獻(xiàn)的閱讀理解能力,實(shí)現(xiàn)了科學(xué)文獻(xiàn)在語義層面的形式化出版,是一種有效的科學(xué)文獻(xiàn)語義增強(qiáng)方式。
第二,微出版實(shí)現(xiàn)了跨文獻(xiàn)層面的細(xì)粒度知識(shí)組織。當(dāng)一篇科學(xué)文獻(xiàn)中的論據(jù)是其他科學(xué)文獻(xiàn)的結(jié)論時(shí),通過論點(diǎn)和論據(jù)之間的支持或挑戰(zhàn)的關(guān)系,能夠形成微出版物之間的聲明網(wǎng)絡(luò)(Claim-Network),該網(wǎng)絡(luò)將不同科學(xué)文獻(xiàn)中的結(jié)論相互關(guān)聯(lián),有助于知識(shí)推理和發(fā)現(xiàn)。當(dāng)論據(jù)是對(duì)參考文獻(xiàn)的引文時(shí),不同的微出版物之間可構(gòu)成一個(gè)引文網(wǎng)絡(luò)(Citation-Network),相對(duì)于傳統(tǒng)引文網(wǎng)絡(luò)而言,該引文網(wǎng)絡(luò)可以深入到句子之間的引用以及識(shí)別引用功能(譬如,引用方法、引用結(jié)論等)。
第三,微出版模型與其他概念模型的結(jié)合使用可實(shí)現(xiàn)對(duì)科學(xué)文獻(xiàn)不同程度的語義化描述。微出版主要用于對(duì)科學(xué)文獻(xiàn)論證過程的語義化表示,但無法對(duì)文獻(xiàn)的篇章結(jié)構(gòu)及領(lǐng)域術(shù)語等的語義化表示,因此需要與其他語義模型相結(jié)合使用以結(jié)構(gòu)化表示科學(xué)文獻(xiàn)。例如,上文中將微出版模型與Web標(biāo)注數(shù)據(jù)模型結(jié)合使用,實(shí)現(xiàn)了微出版物中的元素與原文獻(xiàn)中的內(nèi)容與位置的關(guān)聯(lián)。此外,微出版物中的科學(xué)陳述均是采用自然語言句來表示,這種方法有利于作者以微出版物模式表達(dá)自己的科研成果,但不利于機(jī)器的理解和處理,而納米出版模型采用RDF三元組形式表示科學(xué)論斷,可將微出版物中的陳述進(jìn)行形式化表示,正好可彌補(bǔ)這一缺陷。所以,將微出版模型和納米出版模型結(jié)合利用,將陳述用自然語言和機(jī)器可理解的形式兩種方式表示,不僅有助于科研用戶閱讀理解,而且可以更有效地語義描述科學(xué)文獻(xiàn)。
4 結(jié)論與展望
微出版實(shí)現(xiàn)了從論證角度對(duì)科學(xué)文獻(xiàn)進(jìn)行語義化描述,將科學(xué)文獻(xiàn)看作以作者觀點(diǎn)為論點(diǎn),以陳述、數(shù)據(jù)、方法等作為論證的證據(jù)的論證過程,是語義出版中具有代表性的一種出版模式。但微出版也存在一些缺陷,它無法實(shí)現(xiàn)科學(xué)文獻(xiàn)中具體組塊的語義化表示,如單個(gè)陳述句、數(shù)據(jù)集、圖片等,同時(shí),單獨(dú)使用微出版物模型無法與原文進(jìn)行關(guān)聯(lián),所以在利用微出版物模型對(duì)科學(xué)文獻(xiàn)語義表示時(shí),通常要與其他概念模型相結(jié)合使用。
在下一步工作中,我們擬設(shè)計(jì)一個(gè)綜合語義出版框架對(duì)科學(xué)文獻(xiàn)的觀點(diǎn)、假設(shè)、證據(jù)、事實(shí)等陳述型語義元素和文字、圖片、數(shù)據(jù)等數(shù)據(jù)型語義元素進(jìn)行語義化描述,以實(shí)現(xiàn)對(duì)科學(xué)文獻(xiàn)從整體論證過程到局部具體組塊的全方位語義化表示。
參考文獻(xiàn)
[1]Shotton David.Semantic Publishing:The Coming Revolution in Scientific Journal Publishing[J].Learned Publishing,2009,22(2):85-94.
[2]Ciccarese Paolo,Wu Elizabeth,Wong Gwen,et al.The SWAN Biomedical Discourse Ontology.[J].Journal of Biomedical Informatics,2008,41(5):739-751.
[3]Netherlands Bioinformatics Cenre.Concept Web Alliance[EB/OL].https://www.nbic.nl/about-nbic/affiliated-organisations/cwa/introduction/index.html,2017-10-07.
[4]Blling Christian,Weidlich Michael,Holzhütter Hermann-Georg.SEE:Structured Representation of Scientific Evidence in the Biomedical Domain Using Semantic Web Techniques[J].Journal of Biomedical Semantics,2014,5(S1):1-22.
[5]Peroni Sivio.The Semantic Publishing and Referencing Ontologies[M].Semantic Web Technologies and Legal Scholarly Publishing,2014.
[6]Clark Tim,Ciccarese Paolo N,Goble Carole A.Micropublications:A Semantic Model for Claims,Evidence,Arguments and Annotations in Biomedical Communications[J].Journal of Biomedical Semantics,2013,5(1):1-33.
[7]Micropublication Ontology[EB/OL].http://purl.org/mp,2017-10-07.
[8]Schuler Robert E,Kesselman Carl,Czajkowski Karl.Accelerating Data-Driven Discovery with Scientific Asset Management[C]//IEEE,International Conference on E-science,2017:31-40.
[9]Nagy George.Disruptive Developments in Document Recognition[J].Pattern Recognition Letters,2016,79:106-112.
[10]Kuhn Tobias,Michel Dumontier.Genuine Semantic Publishing[J].Data Science Preprint,2017:1-16.
[11]王曉光,宋寧遠(yuǎn).語義出版物的內(nèi)容組織架構(gòu)研究——基于納米出版物和微型出版物的比較分析[J].出版科學(xué),2017,25(4):20-27.
[12]Gaignard Alban,Skaf-Molli Hala,Bihouée Audrey.From Scientific Workflow Patterns to 5-Star Linked Open Data[C]//InProceedings of the 8th USENIX Conference on Theory and Practice of Provenance,2016:44-48.
[13]Schneider Jodi,Ciccarese Paolo,Clark Tim,et al.Using the Micropublications Ontology and the Open Annotation Data Model to Represent Evidence Within a Drug-Drug Interaction Knowledge Base[C]//InProceedings of the 4th International Conference on Linked Science,2014:60-70.
[14]Krueger Lacy,Salthouse Timothy A.Differences in Acquisition,Not Retention,Largely Contribute to Sex Differences in Multitrial Word Recall Performance[J].Personality & Individual Differences,2010,49(7):768-772.
[15]W3C.Web Annotation Data Model[EB/OL].http://www.w3.org/TR/annotation-model/,2017-10-07.
(責(zé)任編輯:郭沫含)