高遠心
(北京市電子科技情報研究所,北京 100009)
機構知識庫(Institutional Repository,IR),作為科研單位知識收集、管理、利用的平臺近年來得以迅速建立與發展[1]。本文基于元數據研究應用方法,結合情報所建設特點進行自定義擴展,建立了適用于情報所現階段科研管理可視化模型,實現了科研數據及成果存取及科研經費可視化功能的實現。
在對科研單位IR建設需求調查中,調查對象分為用戶和管理者,問卷下發分別為100和80(份),回收有效問卷分別為61和49(份),有效率分別為89.7%和89%。
由圖1可以看出,“保存機構研究成果”成為科研機構最為迫切的需求之一。以北京市電子科技情報研究所為例,該研究所屬于市屬獨立研究機構,科研人員及科研成果體量不大,在歷年科研活動進行中產生了如:課題/項目信息(如立項申請書、中期報告、項目過程數據、科研經費、結題/項報告)、期刊論文、匯編、研究報告等各種科研成果和數據資源;科研經費的管理與使用目前還處于原始的EXCEL表格存儲階段,課題/項目負責人、科研管理部門以及財務部門還無法實現三方共享、互參。此次機構知識庫模型建設,解決適應該所科研能力范圍內的科研成果存儲管理的小型科研機構知識庫模型,實現機構知識庫存儲、調用,以及科研經費可視、可查等功能的實現[2]。
(1)要解決該所科研信息存儲問題,首先要分析該所知識元數據類型。通過對情報所2016-2020年內、外部課題/項目整理得出,該所涉及知識元數據分為匯編、期刊論文、會議論文、科研項目、研究報告、獲獎成果、軟件著作權七類。
(2)在梳理情報所科研涉及多領域多類型資源基礎上,建立了一系列與知識庫建設目標模型相適應的元數據標準規范,借鑒和參考國內外如:《都柏林核心元數據元素集》、《NSTL文獻資源加工規范》等著名標準規范,結合情報所知識庫建設特點及需求進行自定義擴展,同時面向人和計算機多場景應用需求,研究制定知識庫的元數據規范體系,并描述情報所知識庫所需要涉及的元數據的規則[3]。對其模型開發考慮幾個特點:1)模塊化。模塊化是元數據最重要特征,其關鍵是根據實際使用需要,將資源對象區分為若干個實體,對資源的描述即是對多個不同實體的組合和描述。在對知識庫各類資源進行調研分析和綜合對比基礎上,將其分為通用容器、數據集元素集、資源元素集模塊和規范編碼體系四個部分。2)可復用可擴展性。支持對通用容器的組裝復用,也可在規范制定的元數據基礎上,進行相關通用容器和元集的復用、繼承和擴展,支持根據各個資源和個性化應用需求,進行其他類型資源元數據規范的擴展。3)計算機可識別可理解。面向計算機和網絡化應用, 將元數據規范文本轉化為X M L Schema形式化描述文件,并基于XML Schema將各類資源元數據轉化、封裝為XML文件,支持計算機對XML文件的自動識別、理解和驗證。

圖1 科研類機構知識庫建設需求分析Fig.1 Demand analysis of knowledge base construction in scientific research institutions

表1 元數據標準規范的術語定義Tab.1 Definition of terms in metadata standard specification

表2 附件通用容器簡表Tab.2 Annex general container list
對該所知識庫各類資源抽象和歸納基礎上,建立了適應于情報所知識庫資源描述元數據領域模型。包括[4-5]:
(1)元數據標準規范(描述性元數據):用來描述數字對象的存儲資源,可以添加多種元數據格式。元素和屬性定義中借鑒了ISO/IEC 11179-3:2013標準,以“元數據標準規范的術語定義”為例,如表1所示。
(2)結構性元數據:用來表達元數據最終展示的條目、順序等結構及各組成部分之前的關系。以“附件通用器內容結構描述”為例,如表2。

表3 附件列表描述細則Tab.3 Annex list description details

表4 附件存放路徑編碼表Tab.4 Code table of attachment storage path
(3)資源元素集描述性規范:以通用容器結構中“附件列表”為例,按照元數據標準規范的術語定義對其進行細則的描述,如表3。
(4)元數據規范編碼體系:用來存放描述性元素相應屬性,及取值等信息。以“附件存放路徑編碼表”為例,如表4。
在此模型基礎上,共設計了包括管理、主題、責任者、責任機構、國別(地區)、會議、收錄類別、基金/資金項目、成果產出、參考文獻、附件和擴展等12類容器元素(“容器類元素”是包含其他元素的元素,與其他元素的關系為父子或祖先/后代的關系),以及7個資源元素集包括:匯編、期刊論文、會議論文、科研項目、軟件著作權、獲獎成果、研究報告等專業資源的描述關聯模型。通用容器均可被各類資源元素引用,各類資源元素之間的關系如圖所示:一個科研項目可以有一個或多個責任者/責任機構;可產出一篇或多篇論文/研究報告;可獲得(參與)一個或多個獲獎成果或軟件著作權。如圖2 所示。

圖2 情報所領域資源關聯模型圖Fig.2 Information Institute domain resource association model
目前國內多數大學及研究機構的機構知識庫在運管過程中,在建立機構知識庫的同時,科研管理系統也成為了發展的主流,隨著我國科研經費的不斷調整與力度的加大,對應各單位項目開展的科研經費信息化和可視化工作也面臨著一些挑戰。由于機構知識庫系統與科研管理系統的建設規范不一致,導致了機構知識庫與科研管理系統不能集成管理。目前情報所對科研經費的信息化手段,僅為科研過程文件的電子化存儲,科研經費的管理與使用還處于原始的EXCEL表格存儲階段,課題/項目負責人、科研管理部門以及財務部門無法實現三方共享、互參等問題。此次情報所利用互聯網技術,將機構知識庫與科研經費集成于開放門戶。科研經費獨立展示于單獨網頁,可通過數據庫、批量倒入等模式互聯操作。利用市面上主流的可視化軟件,將涉及科研經費的課題/項目導入軟件,利用基本統計、方差分析、多變量分析、質量分析等數理方法以圖文交互的方式實現數據源連接、數據加工和處理、將數據分析和結果展現直觀的展示于網頁上,最終發現經費在使用中的變化趨勢。網頁訪問可以不受訪問地點限制,利用權限管理分配該單位主管領導、科研管理人員、財務人員、研究員的控制和訪問權限。隨著數據量累計至一定程度時,將為該所下一步數據挖掘分析提供支撐。
未來將在該模型基礎上對機構知識庫開展本體建設,本體搭建完成后提供了服務的可用性,主要服務于科研人員及科研管理人員,對科研人員主動提交其產生成果、提高參與性;科研管理人員在保護知識成果、科研績效考評等方向提出了要求。這也是該模型后續開展“科研過程”“科研評價”模塊設計、輔助科研管理的急迫性所在。隨著情報所機構知識庫應用于知識管理工作體系中, 真正實現全過程和全流程科研管理、多維度知識管理,并具互通、開放的靈活功能,將IR系統真正用于情報所科研管理工作中。