孫 翌 胡 愛(.上海交通大學圖書館,上海 200240;2.上海旅游高等專科學校圖書館,上海 2048)
我國于2004年簽署了旨在支持開放存取的《柏林宣言》。2014年全球研究理事會(Global Research Council,GRC)在北京召集各國科技界領袖共同推進開放獲取,國務院總理李克強在大會上的致辭中指出:“各國應采取多種方式,促進知識科學的廣泛傳播與共享……。中國奉行互利共贏的開放戰略……,支持建立公共財政資助的科學知識開放獲取機制,促進中國和世界科學事業共同發展”[1]。這從國家層面提出了國家支持的科技成果最大限度全民共享的要求[2]。機構知識庫是開放獲取中的重要知識服務基礎設施,稱為開放獲取運動中的綠色OA模式,對各種數字化產品(尤其是學術機構中專家、教授、學生的知識成果)進行收集、保護和傳播[3],是科研人員跨機構傳播知識、交流知識,科研機構管理知識的重要平臺,它消除了利用學術資源的價格壁壘和許可壁壘,在促進學術信息免費獲取、自由使用中發揮了重要作用。
機構知識庫經過多年的建設,在高校等科研機構開放獲取資源的數量日益增多,并呈海量增長的態勢。然而,隨著資源數量激增,相關問題也逐漸涌現,主要表現在如下幾個方面:
1)數據的大量涌現給人們利用機構知識庫查找和利用知識增加了難度,“信息超載”和“信息孤島”問題越來越嚴峻。學科館員和學者向機構知識庫存繳的學術資源逐日增加,從數據海洋中獲取有用資源如大海撈針。
2)機構知識庫內部存儲的科研成果數據在建設時缺乏標準,組織方式不完善。縱觀近些年的機構知識庫研究,關注重點是開放獲取、長期保存、機構知識庫政策等[4],對于知識組織架構的研究較少,以科研與教學角度出發的系統架構相關研究則更少,從而,無法為用戶提供深層次的知識服務。
3)機構科研環境的變化也對機構知識庫提出了新的要求。機構知識庫已由最初的教育、科研機構存儲本機構成果的工具,轉變為重要的知識管理和傳播平臺。機構知識庫的建設逐漸以資源收集為中心到以利用為中心的轉變,這要求機構知識庫建設人員轉變理念,深度整合資源,重視知識產出之間語義關聯關系管理[5]。
機構知識庫建設環境的變化指明了機構庫發展的新模式。為滿足科研人員日益增長的知識需求,機構知識庫建設者需要提出系統的資源組合方式,積極探索知識對象間的多維關聯組織。
科研領域的開放關聯環境促使機構知識庫向促進學術成果廣泛傳播、利用轉變。機構知識庫越來越強調科研成果內容單元的深度揭示與關聯組織。然而,學者對機構知識庫的知識組織方面關注尚缺,研究多集中在開放獲取、長期保存、機構知識庫政策和建設實踐的探討上。目前,從科研成果的深層次關聯角度進行研究的,有開放獲取知識庫聯盟的Eloy Rodrigues[6],在2012年的中國開放獲取推介周國際研討會上他強調,要發揮機構知識庫的最大價值需要實現機構庫間的互操作性。郎慶華[7]于2011年提出機構知識庫多注重數字對象本身的聯系,對知識之間關聯揭示不足,無法實現對知識關聯形成的知識網絡進行瀏覽,極大地阻礙了機構知識庫知識的再創造。李春秋[8]指出機構知識庫的建設過程中,知識組織十分必要,唯有健全的知識組織方法,才能讓更多的用戶使用IR。梁娜[9]等提出機構知識庫應不斷加強對內容的結構化語義化組織,拓展與其他服務內容的動態關聯。解金蘭[10]等認為有效的數據管理和分析,有利于機構庫進一步實現知識發現、數據融合與語義檢索。王思麗等[11]在建設CASIR過程中,探索利用關聯數據實現了機構知識庫的語義擴展。侯瑞芳等[12]設計了一個數據轉換模型,以實現文獻實體與高校實體間的精準關聯。李晨英等[13]組織內容時以人為中心,將教師與學術成果信息關聯起來,使IR內容形成網狀組織結構。周宇等[14]提出一種面向關聯數據的機構知識庫構建方法,用于支持機構知識的資源整合。知識組織的精髓在于揭示知識及知識間的關聯[15]。面對全新的科研環境,需要提出一個多維知識聚合模型的組織架構,進一步揭示知識間細粒度的關聯關系,為科研成果的廣泛傳播服務。而國內學者對機構知識庫數據組織的研究多停留在對組織知識的必要性的探討,由此可見,機構知識庫建設對資源整合尚缺乏完善的標準。
數據模型搭建的標準化資源描述框架,集成組織異構資源,對文本與非文本的科研成果進行信息揭示、描述、組織,提高了資源的可見性和檢索性。本文對目前應用較廣的Dspace系統和Fedora系統的數據模型進行了分析。
2002年,美國麻省理工學院和惠普公司開發了DSpace@MIT,CALIS成員館的機構知識庫大部分基于DSpace來構建[17]。Dspace構建的機構知識庫以促進知識資產的長期保存為主要目標,數據模型組織數據的方式是映射機構的組織結構。Dspace6.x系統的數據模型主要由Community(社區)、Collection(合集)、Item(條目)、Bundle(數據包)、Bitstream(數據流)、Bitstream Format(數據流格式)這幾個實體組成。單個的機構知識庫組成一個社區,每個社區能根據機構的組織架構進一步劃分為小社區。社區由合集組成,合集可以在多個社區呈現。合集由若干條目構成。每條條目由一個合集唯一擁有但可以在若干合集中呈現。一條條目由多個數據包組成,數據包內包含多個數據流。每個數據流都與獨一無二的數據流格式相聯系。其中,社區包含Handle屬性,唯一標識一條社區記錄。條目是歸檔的基本存檔單元,包含Handle屬性以唯一標識一條記錄;Dublin Core屬性使每個資源有一條Qualified Dublin Core元數據記錄,用于實現互操作和自由獲取;Withdrawn屬性用于移除一條條目記錄,移除后的條目雖然還存儲在庫中但不能被用戶查看。大多數條目包含了原件、縮略圖、許可等信息。數據流格式包含Support Level屬性,表明機構未來保護知識內容的能力。
Fedora是康奈爾大學在美國國家科學基金會和美國國防部高級研究項目機構共同資助下進行的關于復合數字對象模型的研究項目[18]。為了長期保存和傳遞各種類型的數字內容的本質特征,Fedora定義了一個通用數字對象模型。數字對象的基本組成包括數字對象唯一標識符、對象屬性和數據流。一個數字對象可以包含一條或者多條數據流,數據流的內容可以是數據、元數據、關系描述等信息。通過使用數據流,數據和元數據統一封裝。為了有效管理數字對象,模型定義了4種數字對象類型,包括Data Object(數據對象)、Service Definition Object(服務定義對象)、Service Deployment Object(服務配置對象)和Content Model Object(內容模型對象)。在Fedora3.0以后,引入了內容模型框架(Content Model Architecture,CMA)的管理方式,CMA為數字內容的管理對象化、服務化,提供了一個更加高效、靈活的管理模式[19],但主要的管理還是關注在數字資源上。
Dspace和Fedora構建的資源存儲結構以知識資源為中心,能較好地實現保存資源的任務,并且具有一定的擴展性。隨著機構知識庫的建設逐漸成熟,機構知識庫的目標向促進資源機構內外傳播、助力知識發現創新的應用方向發展,關注點應跳出資源本身,對資源存在的環境和關聯關系及時捕獲。Dspace和Fedora模型對科研情境的關注不夠,因此,無法完全適應機構知識庫進一步發展的需要。故在對這兩種模型進行深入分析后,本文針對它們科研環境揭示不足、關聯關系維度單一等問題,設計了一個多維關聯科研成果及其科研環境的靈活可拓展的數據模型,以完善資源組織方式,促進機構資源的全面利用。
維度是具有某一相同特征數據的集合,多維度則是從不同層次、不同角度呈現數據,數據之間可以有交叉。多維數據模型中的數據是以多維邏輯方式組織,數據在各個維之間相互交叉,形成立體的數據視圖[20]。本文所述的多維度關聯研究就是研究高校機構知識庫資源之間的相互關系,從客觀角度挖掘潛在的知識信息。
從支持科研與教學的角度出發,尋找機構成果資源間、成果與人員、成果與機構、成果與團隊的關聯關系,并進行合理組織來滿足科研工作者日益增長的知識發現的需求。針對高校機構知識庫構建過程中普遍存在的知識組織、知識整合難題,通過設計數據模型,將科研機構的各類研究成果保存到機構知識庫中,從而在機構知識庫平臺的建設實踐中實現研究成果對象間深層次、多維度的數據關聯。
機構知識庫面向機構內所有的用戶,包括科研人員、學生、管理人員,收集、存儲他們的研究成果。由于高校的科學研究存在學科類型多樣,資源類型豐富等特點,機構知識庫在對多學科成果構建模型時,無法使用通用的概念去描述全部多學科異構資源,因此,本研究設計一個通用的機構知識庫數據描述框架,建立一個可供多種元數據標準共存的模型[21],為科學成果的集中、規范化組織管理與服務。
為了總體了解機構知識庫數據模型的邏輯框架,本文首先給出概念結構圖,以期能簡要呈現數據模型的面貌。這個概念模型模擬機構知識庫的全部業務,羅列出機構內的科研對象以及對象間的關系。這一概念結構作為便于理解模型的工具,并不存在于數據模型中,它只是用于組織本文的虛擬結構,如圖1所示。其中圓角矩形代表科研對象(圓角矩形內的詞組即科研對象名稱),直線代表科研對象間存在著聯系。圓弧表示科研對象間的遞歸關系,即同一個科研對象間的關系。

圖1 數據模型實體間關系圖
在構建的模型中,客觀世界中的科研對象被抽象成由一系列描述特征的屬性構成的科研實體。為了便于理解,本文采用了一套配色方案以表現數據模型中涉及的不同實體類型以及特征,并用一套表示方法讓計算機可識別,具體如表1所示。
在概念上,數據模型由一系列實體類型和特征組織而成。實體類型分為核心實體、二級實體、鏈接實體和虛擬實體。在特征上具有多語言、語義和附加特征。這一概念模型的部分將會在下文持續以抽象圖的形式呈現。物理層的技術細節則會以ERM(實體—關系—模型)子模型的形式呈現。抽象圖中,實體名是以完整名來描述概念(Person),在物理圖中則是以ir做前綴的簡稱(irPers)。

表1 數據模型類型及表示方法
為了更好地理解模型,表2具體列出了機構知識庫數據模型實體分類的詳情表,實體名后是實體在數據模型中的名稱表示。表中列舉了所有的核心實體和二級實體,由于鏈接實體含義相似數量龐大,為避免贅余故此處只列舉出部分。
核心實體是機構知識庫的主要組成部分。二級實體以核心實體為基礎拓展,對研究的語境進行呈現。鏈接實體確立了實體以及實體之間的關系,實現語義關聯。為了降低模型的復雜性,本文建立了多種成果類型的虛擬集合,即成果實體(irDocumentX),方便對多種類型的資源進行統一管理。它是數據模型中的唯一一個虛擬實體,也屬于核心實體。成果實體的成果類型根據需求調研中研究人員的期望選出,包括學術論文、學位論文、專著、報告、標準文獻、專利、數據集、音視頻、課件、圖片這11種資源。與成果實體關聯的各類資源繼承它的屬性并且擁有各自的屬性。把機構內的數據實體劃分為核心實體、二級實體、鏈接實體這3種類型,使模型結構更加清晰,這3類實體對具有相同特征的實體歸類,并不描述機構的任何科研對象。

表2 機構知識庫數據模型實體分類表
此外,每個實體對應具有特定屬性,用于描述該實體。下面以人員實體、機構實體以及人員與機構的鏈接實體為例呈現實體對應的屬性描述。
1)irPers實體屬性
為了唯一識別一條人員記錄,提供了irPersId屬性。任何人員都可以在數據庫中建立一條記錄。

表3 irPers實體屬性
2)irOrg實體屬性
主要描述的是人員所屬的機構信息,此處所述機構表現的是高校內部的層級架構,機構的信息相對固定。

表4 irOrg實體屬性
3)irPers_Org實體屬性
人員與機構之間存在歸屬關系,一個人可以歸屬于某個機構,也可以歸屬于多個機構,這個關系表表示的是人員與機構內部組織的從屬關系。開始時間和結束時間表示人員與機構的關系在某個時期內存在。

表5 irPers_Org實體屬性
4.2.1 核心實體
核心實體是機構知識庫的主要組成部分,傳統的機構知識庫以典藏的角度演變而來,主要以成果資源為核心實體,而本研究以成果實體(irDocumentX,其中X代表多種文獻類型)、團體實體(irGroup)、人員實體(irPerson)和機構實體(irOrganization)4個核心實體組成,以滿足從團隊、人員、機構3個角度進行研究成果的深度分析。如圖2所示,表現了實體之間的連接關系,每個核心實體不僅自身內部數據需要進行關聯,同時也需要與其他核心實體相關聯。圖中的圓圈表示實體之間的遞歸關系,即同一個實體間的關系。機構、團體、人員實體都存在遞歸關系。由于irDocumentX是作為虛擬實體存在的,它的遞歸關系在多種資源實體中得以體現,并且每一種類型的資源實體都能與機構、人員、團體相連。此處使用虛擬實體是用irDocumentX實體來指代各種類型的資源實體,便于管理的同時使模型關聯關系更加簡潔,同時讓成果類型可以根據機構需要任意添加,具備擴展性。

圖2 數據模型中的核心實體(抽象圖)
圖3以ERM視角展示了成果、團體、機構、人員4個核心實體以及一些與它們相關的實體。在圖3中的遞歸關系是指單個實體間的聯系,即Person間、Group間、Organization間和DocumentX間。在圖中,這些實體的遞歸關系以鏈接實體(irPers_Pers、irOrg_Org、irGro_Gro)的方式體現。由于成果實體是虛擬實體,其多種類型的資源間的遞歸關系在此不詳細呈現,其與其他實體之間的鏈接關系在圖中呈現。圖中名稱為irPers_DocX、irPers_Gro、irPers_Org、irGro_DocX、irGro_Org、irOrg_DocX的實體也叫做鏈接實體,主要闡述兩個實體之間的關聯意義,其作用將會在鏈接實體部分做具體介紹。
4.2.2 二級實體
除了核心實體外,數據模型中還添加了很多的二級實體,名稱分別是irMetrics、irCite、irIndicator、irFund、irProject、irPrize、irQualification、irPAddress、irEAddress、irEdition。如圖4所示,二級實體圍繞著4個核心實體展開,通過與核心實體連接以實現對研究語境的呈現。
二級實體與核心實體相關聯。每一個二級實體都有一些共同的屬性特征,例如至少都有ID和URI屬性。二級實體之間的聯系以及它們的多語言特征在圖中并沒有完全呈現出,這部分內容將在模塊分析時逐一介紹。二級實體與其他實體關聯生成的鏈接實體具有的語義通過ClassId和ClassSchemaId屬性在語義層中定義。
4.2.3 鏈接實體
鏈接實體的是本模型表現多維度關聯的重要環節,數據模型中用于表示實體與實體之間的聯系或者關系的實體為鏈接實體,通常將兩個實體連接起來。圖5為核心實體之間的聯系抽象圖,圖中展現出核心實體之間關聯產生的鏈接實體(Person_Organization、Person_Group、Person_DocumentX、Group_Organization、Group_DocumentX、Organization_DocumentX)。其中,表示人員發表各類成果、人員隸屬于高校的某個機構、幾個歸屬于某個團隊、團隊產生成果、團隊可能屬于某個部門之下、機構是成果的擁有者等。
數據模型中所有的鏈接實體的結構和功能在物理層面上是一致的,表6從元數據的角度展現了鏈接實體的結構和功能。

圖3 核心實體、核心實體間的遞歸以及其他鏈接關系(物理視圖)

表6 數據模型元數據視角的鏈接實體圖
鏈接實體的物理名稱由兩個相連的實體的物理名稱共同組成,并且包括機構知識庫的前綴ir,表示方法如下所示:irEntity1Name_Entity2Name。鏈接實體名稱的順序意味著它們的兩個唯一標識符屬性的順序,第一個(irInheritedEntity1Identifier)繼承于irEntity1Name;第二個(irInheritedEntity2Identifier)繼承于irEntity2Name。在鏈接實體中所有的標識符在元數據層面都會標記為繼承,因為它們并不來自于鏈接實體,而是從其他實體中繼承的,例如從irEntity1、irEntity2、irClass、irClassScheme繼承。所有的鏈接實體在兩個實體間建立聯系都是通過繼承兩個實體的唯一標示符irInheritedEntity1Identifier和irInheritedEntity2Identifier(即ID)建立起來的。除此之外,通過irInheritedClassIdentifier和irInheritedClassSchemeIdentifier映射到語義層以及通過irFraction屬性給分類(角色或類型)引用指派部分值,鏈接實體攜帶了語義。Classification和ClassificationScheme引用是強制要求的,但是Fraction屬性不是必須的。同時,每個連接記錄要求有起始時間和結束時間,以清楚說明鏈接作用的時間范圍。繼承的標識符屬性和日期屬性一起構成鏈接實體的主鍵。
4.3.1 多語言特征
在學術環境下,許多學術信息在記錄時需要不止一種語言去表達。多語言特征對于用多種語言保存學術信息的機構具有重要意義。圖7展示了部分具有多語言特征的實體。它們的標識符(irProjId、irOrgId、irGroId)指向了它們原來的實體。存儲在irLangCode屬性之下的編碼語言有兩種值,中文(irLangCode=ch)和英文(irLangCode=en)。名字、標題、描述、關鍵詞、研究興趣等以特定的語言存儲文本。

圖4 數據模型的二級實體(物理視圖)
4.3.2 語義特征
數據模型的語義特征是對應鏈接實體中關聯關系的表現,也是通常所指的語義層。它利用Classification Schema來存儲實體與實體、實體與屬性之間的關聯內容,在此語義特征部分提供了語義類型、扮演的角色、專業分類或映射等多個語義方式。語義特征層存儲鏈接實體描述的語義值,通過ClassSchemaId屬性,把每個語義值指派到特定的Classification Schema中。數據模型的語義層由Class和ClassSchema兩種class類型的實體組成。另外,它允許對多語種的術語(irClassTerm)和術語描述(irClassDescr)的說明。這兩種class類型的實體(irClass和irClassSchema)用兩種遞歸實體(irClass_Class、irClassScheme_ClassScheme)內連接以說明結構和Classification和Classification Schema間的映射。數據模型語義層的遞歸實體始終支持Classification參考的小數部分的值[22]。
4.3.3 附加特征
根據機構知識庫的建設環境,可建立不同的附加特征。例如將機構知識庫的數據字段與Dublin Core等各類元數據模型進行字段映射,方便數據共享與交換。

圖5 數據模型鏈接實體關系圖(抽象圖)

圖6 數據模型的鏈接實體樣例(物理視圖)
人員實體指的是所有成果資源的人員信息,包括創建者、申請人、受益人等。如圖8摘錄了部分Person實體與其他實體的連接關系,Person實體與其他核心實體的關系已在前文中介紹,在此不贅述。每個Person實體創建一個irPersID,由此ID與所有的外部實體以及屬性進行關聯,例如一個人可能有多個姓名的表達方式并且可能會變化,因此構建irPersName與irPers實體關聯,關聯后生成一個新的實體(irPers_PersName),通過實體的irClassId和irClassSchemeId屬性映射到語義層對人名進行說明。

圖7 部分有多語言特征的數據模型實體(物理視圖)

圖8 數據模型核心實體irPerson(物理視圖)
如圖8所示,人員實體與其它實體也建立了關聯,進行關聯的實體包括irPerson、irPrize、irQualification、irPostAddress、irElectronic Address、irExpertiseAndSkills、irPersonName、irCurriculumVitae、irClassification,所建立的關系分別為irPers_Pers、irPers_Prize、irPers_Qual、irPers_PAddr、irPers_EAddr、irPers_ExpSkills、irPersName_Pers、irPers_CV、irPers_Class。每個關系或者鏈接實體使用time-stamped屬性通過irClassId和irClassSchemeId映射到語義層。此外,人員實體的人員關鍵詞(irPersKeyw)、人員研究興趣(irPersResInt)具有多語言特征。個人與個人進行合作。個人有獲獎經歷、職稱、電子郵箱和通訊地址、強項、名字等信息。
本模型所闡述的機構指的是相對較穩定的學術團體,例如學院、研究所、實驗室等。與Person實體的創建方式類似,在每個irOrg提供了id屬性(irOrgId),機構實體與其他實體建立聯系,包括Organization、Person、Prize、Expertise and Skills、Post Address、Classification,可分別表示為irOrg_Org、irOrg_Pers、irOrg_Prize、irOrg_ExpSkills、irOrg_PAddr、irOrg_Class。每個關系或者鏈接實體使用time-stamped屬性通過irClassId和irClassSchemeId映射到語義層。另外,機構實體的機構名(irOrgName)、機構關鍵詞(irOrgKeyw)、機構研究活動(irOrgResAct)具有多語言的特征。
跨學科和跨機構的合作交流頻繁,涌現出許多跨地區跨領域的科學研究。A機構人員研究成果可能B機構人員也參與其中,這類情況在項目合作、論文合作、專利合作等諸多方面均有體現。這樣的團隊合作信息可以被科研人員使用,用于尋找合作伙伴、追蹤競爭對手。在此背景下,本模型設計了團體實體并將其作為核心實體,以記錄團隊合作產生的成果以及團隊情況。此類科學研究涉及多家機構,除了本機構的科研人員參與外,也有其他科研人員做出貢獻。本模型所闡述的團隊實體相對機構實體而言較為松散,指的是非正式的創造出科研產出的科研人員的合集。
核心實體irGro提供了id屬性(irGroId)。機構實體的通用屬性還包括首字母縮寫詞、統一資源標識符以及團體成立和解散的時間(irAcro、irURI、irStartDate、irEndDate)。團體實體與許多其他實體可建立聯系,包括:Group、Organization、Person、DocumentX、Classification,可分別表示為irGro_Gro、irGro_Org、irGro_Pers、irGro_DocX、irGro_Class。每個關系或者鏈接實體使用time-stamped屬性通過irClassId和irClassSchemeId映射到語義層。另外,團體實體的團體名(irGroName)、團體關鍵詞(irGroKeyw)、團體描述(irGroDes)也同樣具有多語言的特征。
成果資源的收集、建設是機構知識庫生存、發展的關鍵。在傳統的學術交流體系中,期刊論文是最重要的研究成果,也是研究人員獲取學術信息的重要途徑。在E-science環境下,信息化的科研環境得以建立。期刊論文作為科研過程中的最終產出,伴隨著科研同時產生的數據集、圖片、手稿等成果類型,對于重現科研流程、供研究人員研究學習同樣具有極高的價值。在此環境下,科學研究開始向數據密集型科研轉變:越來越多的科學研究不再從頭開始,而是建立在對已有數據的重新認識、組織、解析、分析和利用的基礎上,用不同的工具或方法、不同的時間段對同一組科學數據進行分析可以產生不同的結果[23]。在機構知識庫中對多種類型資源進行保存、管理,使科研成果能為今后的科研人員獲得對科研創新意義重大。
成果實體(irDocumentX)是四大核心實體之一,用于存放學術成果和數據資源。在此概念結構中irDocumentX是唯一的虛擬實體,它不作為實體存在而是用于指代機構知識庫中不同類型的成果。機構知識庫的成果資源中常用類型包括:學術論文、學位論文、專著、報告、標準文獻、專利、數據集、音視頻、課件、圖片等。為了識別一條成果記錄,成果實體irDocX提供了id屬性(irDocXId)。如圖9所示,本模型用irDocX指代了所有類型的資源,通過irDocXId與其他類型資源進行關聯,生成例如irDocBook_DocX、irDocArticle_DocX、irDocPat_DocX等關系,既表明了資源與自身之間的關聯,又表明了資源與其他類型資源之間的關聯。以irDocBook_irDocX為例,當irDocX指代的是irDocBook時,表明了irDocBook與自身相關聯(irDocBook_DocBook);當irDocX指代除irDocBook以外的資源時,表明了irDocBook與其他資源存在關聯(如irDocBook_DocArticle、irDocBook_DocPat、irDocBook_DocImage)。資源自身的相互鏈接以及與其他類型資源的鏈接所生成的實體稱為鏈接實體。資源實體之間鏈接實體的存在,指明了不同資源之間存在著或多或少的聯系。期刊論文、會議論文、學位論文、專著、專利等傳統文獻出版物系由科研人員創作,經過同行評議出版發布,因此,這些出版物類型的文獻知識產出由科研人員最初創作的研究手稿變化而來,文獻出版物之間具有引用關系[24]。另外,在數據驅動的時代,科學數據集與科學文獻的關系越來越密切。科學文獻中為佐證結論形成過程,往往也包含文本格式的科學數據[25]。因此,為了數據模型的可擴展性,對不同資源間存在的相關關系會在irDocX與資源關聯生成的鏈接實體中使用time-stamped屬性通過irClassId和irClassSchemeId映射到語義層去定義。
5.5.1 Metrics(irMetrics)
Metrics在機構知識庫中的主要作用是機構評估,不同的機構知識庫可以對其進行不同的定制,并且可以設置多個相關屬性,以用來對科研人員、科研機構、科研團隊和科研成果的評估,從而管理人才、選擇優勢學科、比較與競爭者的差距。
5.5.2 引用實體、貢獻度實體(irCite & irIndicator)
Indicator和Cite都是針對成果(即DocumentX)的測量實體。Indicator在本模型中指的是對文獻的貢獻度,主要是對不同的人給予不同的貢獻度的屬性,以便對成果進行深入分析預評估;Cite在本機構庫中指的是文獻的引用情況。
5.5.3 項目實體、基金實體(irProject & irFund)
Project在本機構庫中指的是產生成果輸出的科研項目;Fund指的是科研成果所屬的科研基金。
根據多維度關聯的機構知識庫數據模型進行數據模擬,從上海交大學者王如竹的部分成果進行分析。他所屬的研究領域為制冷及低溫工程,在上海交大的制冷與低溫研究所工作。他與吳靜怡、王麗偉、郭開華、孫志高有科研協作關系。產出的大量論文中,《制冷技術發展與全球環境問題》為個人研究產出,《低品位熱能驅動的高效熱化學吸附式制冷研究》與王麗偉合作產出,另外6部作品分別是參與的團隊A、團隊B的共同產出。

圖9 成果實體內各資源類型的關系(物理視圖)

圖10 學者成果關聯示意圖
通過成果關聯示意圖可以看出,數據關聯可實現以下功能:
1)關聯發現學者個人信息:將個人履歷、電子郵箱、通訊地址、獎項、職稱與王如竹關聯,通過王如竹可以直接獲取與他相關的個人信息。王如竹的研究歸屬于制冷及低溫工程研究所,通過機構實體將王如竹與王麗偉聯系起來。
2)發現合作者:王如竹與王麗偉共同發表了《低品位熱能驅動的高效熱化學吸附式制冷研究》這篇論文,通過資源實體可認定他們是合作者關系。王如竹與吳靜怡同樣都是團隊A的成員,那他們也具有合作者關系。通過是否擁有共同成果來鑒別,可以有效識別發現合作者關系。共同成果越多,合作關系越緊密。合作關系可用可視化圖表來表示,某位學者與其他學者距離的遠近,即代表合作關系的親疏。
3)個人成果聚合:可以對各個學者的成果聚合,集中展示,其中包括個人作品、合作產出作品。
4)關聯檢索合作團隊:王如竹除了存在于上海交大的制冷與低溫研究院,還與其他學者組成相對松散的科研團隊。將研究人員與團隊也進行綁定,可以找到合作團隊信息以及衍生作品。
5)個人評估:使用一套個人評價體系,分析科研人員的學術成就,從而進行個人評估。
從機構、團隊、成果資源、項目等多個角度均可進行如圖10相似的關聯關系分析,經過分析發現,模型能較好地組織與聚合知識資源,實現關聯知識,使科研人員更快、更完整地了解到相關信息。
1)關聯檢索:支持由一條成果記錄,從作者、團隊、機構、基金、主題等方式進行關聯檢索,發現相關知識;由一條研究人員記錄,關聯檢索其個人信息(包括個人履歷、電子郵箱、獲獎經歷等),從研究領域、合作者、團隊、機構關聯檢索,發現相關知識。由一條機構記錄,關聯檢索機構學者、團隊等內容;由一條團隊信息,從團隊成員、所屬機構等方式進行關聯檢索,發現相關內容。
2)聚合知識:提供從機構、院系、團隊、研究人員、基金方式聚合的成果目錄和聚類;根據文本間的引用與被引關系,揭示成果集合內蘊含的關系,進行成果引證關系的聚合;將內容上具有關聯性和相似性的成果整合分析,聚合結構不同、表現形式不同的成果;提供語種、發布時間的知識聚合。
3)識別各類協作關系:支持通過數據挖掘和統計分析,識別研究人員間的協作關系、機構科研協作關系、成果引證關系。
4)科研產出力分析:統計個人、學院、團隊每年成果產出量,通過比較個人間、學院間、團隊間的投入和產出,從而進行績效分析。
5)學科貢獻度分析:統計屬于某學科各類科研成果的個人、團隊、院系貢獻度,與其他機構比較,從而識別出機構具有學術競爭力的學者,發現優勢學科,為人才評估、學科評估服務。
隨著開放存取運動日趨深入人心,機構知識庫建設也逐漸成熟,從最初長期保存知識資產為目標轉變為向提供科研、教學服務的應用方向發展。不同于反映機構的等級結構的Dspace數據模型和將所有數字對象使用統一方式揭示的Fedora通用數字對象模型,本模型明確定義了人員、機構、團隊、成果四類核心實體和具備一系列操作的二級實體,實體內容與行為操作分離使得數據模型具有拓展性。在以結構固定的機構架構組織的同時,學術團隊的引入也是本模型的一大特色,團體相較于機構結構松散,在以往的數據模型中往往被忽視,但對于研究人員發現知識和尋找學術合作具有一定的意義。機構知識庫作為機構知識基礎設施,促進知識的長期保存,促進知識內外傳播從而促進學術信息交流與評價的目標將會逐步實現,機構知識庫也會朝著支持文本與多媒體知識、支持教育科研活動、支持機構知識管理方向發展,進而成為一個知識服務平臺。