?
科技出版資源組織方式及其創新
李弘
電子工業出版社,北京100036
摘要分析了當前科技出版資源組織方式及其存在的問題,歸納探討了科技出版資源組織方式創新的兩種趨勢——基于本體的資源組織模式、納米出版物和知識元出版模式,并闡述了其意義。
關鍵詞科技出版;內容組織;本體;知識元;納米出版物
20世紀90年代末以來,在互聯網技術與現實需求的雙重推動下,科技出版經歷了一輪數字化變革。但從本質上講,科技出版的數字化變革并未改變其資源組織方式,主流學術出版商所提供的HTML網頁或者PDF文檔資源除了將傳統紙質印刷版本搬運到數字環境中來以外,改變很少。與此同時,互聯網技術的進步也在改變著科學知識交流的環境,科學知識資源呈幾何級增長態勢,高效、快捷地獲取和利用知識資源成為了科研人員日益迫切的愿望和要求。然而,當前科技出版資源組織方式卻存在著語義匱乏、線性組織、非結構化數據等問題,使得科研人員較難從海量無序的相關資源中分析歸納出一條科學創新的線索,嚴重影響了科學交流的效率。為解決這一問題,滿足科研人員的需求,科技出版機構正在醞釀著一輪出版資源組織方式的變革。
科技出版資源組織方式,是科技出版機構在開展科技出版活動中所采用的內容資源組織和存儲的方式。當前主流的科學資源組織方式可以從兩個維度來看。從個體內容的組織來看,當前的科技出版資源主要以文獻為單位進行組織。HTML網頁資源或是成為了事實標準的PDF格式文檔資源,改變的都是科技出版資源的載體,而其內容組織方式則仍是以傳統的專著或者論文形式存在。從海量內容的組織方式來看,當前的科技出版資源組織方式是基于信息的組織方式,即以知識的某些屬性特征,如題名、著者、摘要、關鍵詞、出版者、出版時間、參考文獻等內容特征為基本單元的組織。
在信息資源規模及其增速尚未呈現爆炸式發展之前,基于文獻和信息的科學資源組織方式能夠較好地滿足科學交流的需要。但是隨著技術環境的改變以及科學知識更新換代的加快,科研信息已經越來越呈現出爆炸式增長的趨勢,傳統的科技資源組織方式顯然已經無法適應科研人員方便、快速獲取科研信息的要求,以及科學交流發展的需要。這主要表現在以下幾個方面。
1)缺乏足夠的語義揭示。當前,學術期刊數據庫普遍采用元數據,如都柏林核心元數據(DC),來對出版資源進行標識。但這些元數據僅僅只是一個個孤立的詞匯,相互之間沒有建立語義關聯,論文中大量的實體中蘊含的語義關系及其屬性,也沒有被標識出來。計算機在面對這些沒有進行語義標注的信息時,就像人類面對一門用幾乎看不懂的語言擬寫的文本,是難以處理的。當讀者(特別是非領域專家的普通讀者)查找相關的資源時,計算機很難提供精準的檢索信息,更不用說通過數據挖掘等技術從這些信息中發現隱含的科學創新點。語義信息的匱乏還使得當前出版資源的組織方式停留在靜態的水準,無法滿足個性化重組和動態更新的需要。
2)組織粒度過粗,難以滿足碎片化知識獲取需求。在實際研究過程中,研究人員為了深入研究,往往需要完整地閱讀某篇文獻,但研究人員也很可能只需要了解論文中的某一部分,如其中的一個圖表、一個結論或者相關數據等。當前,基于文獻的科技信息組織使得研究人員借助搜索工具得到的只能是一篇篇完整的文獻資源,研究人員想要獲得細粒度的知識信息,必須逐一瀏覽文獻。而且在搜索工具搜索能力不高的情況下,很可能讀完搜索到的所有文獻還是沒能找到所需的信息。由此,不僅影響了科學研究的進度,也降低了科學交流的效率。
3)僅關注內容的線性層面。當前,科技出版物內容呈現的線性化特征較為明顯。一般而言,單個科技出版物的內容往往分為若干章,每一章又分為若干節,節里面還有若干段落、句子,其中還會插入圖表和公式等。如此,文章的邏輯結構往往隱藏在文章內容中,使得讀者很難獲取內容深層次的語義信息及內容本身之外的補充信息。但事實上,讀者在閱讀過程中很多時候需要跳出內容本身的框架,查找相關信息,如論文中相關術語的解釋信息、某個觀點的補充論證等。這些很可能是這種線性結構的內容本身無法提供的,需要讀者自身花費大量的額外時間查找。這不僅增加了科研人員獲取科研信息的時間成本,也降低了科學交流的時效。
良好的資源組織能夠極大促進科研人員快捷高效地獲取所需的科研信息,當前科技出版資源組織方式的諸多不足阻礙了高效的科學交流的形成,這也促使部分知名科技出版機構思考、探索種種改進之法。在這些探索的過程中,一些新的出版資源組織方法也得以嘗試和實驗,其中,基于本體的出版資源組織方式、納米出版物和知識元出版等全新出版模式,得到了極大關注,并顯現出了未來廣闊的發展前景。
2.1基于本體的資源組織模式
數據的語義匱乏,計算機不能準確識別用戶的需求,是致使科研人員無法快速準確找到所需資源的重要原因。這就需要將內容的組織由信息的線性結構層面深入其語義結構層面,從而使得計算機可以像人腦一樣理解信息的準確含義,甚至進行自動的推理計算,提升信息的獲取效率及精度。而本體則能夠描述某一領域范圍內的核心概念及這些概念之間復雜的語義關系和屬性,為人機交流(對話、互操作、共享等)提供一種語義基礎[1]。通過本體來標識資源,建立資源的本體化描述,計算機就能夠準確識別內容資源的相關語義信息,進而能夠實現對資源的自動化處理。正因此,近年來本體技術被引入到出版資源尤其是科技出版資源的組織過程中來,并取得了積極進展。如英國皇家化學會(RSC)已經將本體技術納入其語義出版工作計劃之中,通過引入生命科學領域的本體對其旗下雜志《分子生物系統》的論文中的重要術語進行標注,實現了當點擊論文中出現的這些術語時,就會自動鏈接到這些術語在本體中的定義等,有效地提高了研究人員資源查找和吸收的效率[2]。
基于本體的資源組織模式,能夠推動內容組織由信息深入到信息的語義。通過本體來組織資源,能夠賦予資源計算機可以理解的語義信息,建立不同系統、不同應用程序、人與計算機之間相互溝通理解的橋梁,信息與信息之間、信息與人的需求之間可以自動地形成多方位的語義關聯。如此,計算機對海量資源找到用戶真正所需資源的能力將會極大提高,并進而提高科學交流的效率。正如有學者指出,語義標記之于科技出版,就如同基礎設施對于城市未來發展的作用。而本體則是語義標記得以實現的基礎工具。因此,探索基于本體的語義標引手段和出版資源組織模式必將是科技出版資源組織模式革新的一個方向。
2.2納米出版物和知識元出版模式
當前,基于文獻的資源組織方式是一種線性的、粗粒度的方式,計算機很難根據人們的偏好自動地完成對它們的重組和復用,嚴重制約了科學交流的效率。為此,知識管理學界與學術出版界均在嘗試打破資源粗糙、線性的組織方式,實現文獻資源的細粒度分割與非線性重組。
其中,概念網絡聯盟(Concept Web Alliance,CWA)就于2009年提出了一種“納米出版物”(Nanopublication)的新的資源組織形態的概念構想。所謂納米出版物,按照nanopub網站的定義,是指最小單元的可出版信息:一個可以唯一識別和擁有作者歸屬的斷言[3]。它主要以概念或實體作為基本元素,描述科學文獻中的基本結論、科學事實或大量實驗數據中的實驗結果,并提供唯一標識,描述結論的出處、原文作者、納米出版物的創建者等背景及語境信息,是科學文獻在細粒度上的語義表示、組織和出版形式[4]。納米出版物可以單獨出版、引用、采用標準的格式表示,還可以用RDF圖和本體進行序列化表示,由此叩開了機器可讀數據和互操作的大門,使得基于海量、異構、分散數據的關聯發現變得簡單,獲得遠遠超過人類的推理能力。也正因此,納米出版物自提出之后,已在一些項目中得以應用。如Open PHACTS項目將納米出版作為用于表示實驗數據和科學結論的標準格式;Queralt-Rosinach采用現有本體及可控詞匯集將基因疾病數據庫DisGeNET的數據由關系數據庫轉換為納米出版模式的RDF數據;等等。
目前,對納米出版物的研究應用主要集中在國外,國內鮮有相關的研究發表,但另一種同樣致力于實現細粒度資源表示的方法——知識元出版模式在國內得到了重視。
按照溫有奎等人的定義,知識元是具有完整語義的最小的知識組成單位,是構造知識結構的最小元素(基元)[5]。如一段文字、一幅圖表、一個公式、一章或一節等。基于知識元的資源組織方式,能夠對現有數據中的細粒度知識單元進行表示和抽取,同時建立不同知識元之間以及知識元與原始文獻之間的語義鏈接。這一方面,目前,CNKI已經構建了一個具有一定規模的基于知識元庫的知識元搜索平臺,能夠實現對學術定義、新概念、表格、圖片、數字等知識元的直接搜索,并且提供翻譯助手、學術趨勢、分析、熱點統計分析等功能,較好地滿足了科研人員碎片化、個性化需求。
納米出版物模式和基于知識元的資源組織模式突破了文獻組織方式粗粒度、線性化的局限,試能夠在更細粒度上實現資源的有效組織,提供全方位知識服務。在此種模式下,科研人員將不僅可以獲得基于文獻的粗粒度資源,也可以獲得基于知識元或者納米出版模式的細粒度資源,極大的增加了信息的可發現性與計算機可讀性,增強了知識交流高效率。
從手寫到印刷再到在線,人類科學交流的形式幾經變革。但是從內容組織的角度來看,過去的幾百年來,科研成果一直都是以文獻的方式呈現在科研人員面前。數字化浪潮下,信息越來越豐富、內容越來越龐雜,科研人員獲取科研信息的過程卻變得繁冗不堪。突破紛繁信息的遮蔽,讓有價值的信息更精準地被挖掘和發現,成為一個日益凸顯價值的新課題。而改變傳統線性的、靜態的、語義匱乏的文獻組織方式,實現內容組織方式的創新正是回答這一問題的關鍵。有志于此的出版機構已經先行在路途上,盡管長路漫漫,但至少它們已經向我們指明了方向。
參考文獻
[1]杜小勇,李曼,王大治.語義Web與本體研究綜述[J].計算機應用,2004(10):45-48.
[2]Shotton D,K Portwin,K Graham,M Alistair. Adventures in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article. PLoS Computational Biology,2009.
[3]Nano-Publication in the e-science era. http://www.w3.org/wiki/images/4/4a/HCLS$$ISWC2009$$Workshop$Mons.pdf.
[4]吳思竹,李峰,張智雄.知識資源的語義表示和出版模式研究——以Nanopublication為例[J].中國圖書館學報,2013(7):102-109
[5]溫有奎.基于知識元的知識發現[M].西安:西安電子科技大學出版社,2009:120.
作者簡介:李弘,電子工業出版社副總編。
基金項目:本文系文化產業發展專項資金項目“面向信息技術領域的動態出版平臺研發與應用”的研究成果之一。
文章編號2096-0360(2015)06-0069-03
文獻標識碼A
中圖分類號G2