包晗

摘 ?要:該文首先介紹了什么是機構知識庫,現階段國內機構庫的建設現狀;其次結合沈陽航空航天大學的實際情況,提出該校自己的機構庫建設思路及建設原則;最后列舉了該校機構知識庫的部分建設內容,包括數據倉儲、成果認領、成果檢索與展示、成果關聯挖掘與統計等平臺模塊建設,并詳細說明如何進行數據去重、切分、關聯及后期的數據管理。
關鍵詞:機構庫 ?沈陽航空航天大學 ?資源服務
中圖分類號:G250 ? 文獻標識碼:A 文章編號:1672-3791(2019)07(a)-0203-03
機構知識庫(Institutional Repository,簡稱IR)的概念最早由Raym Crow在2002年提出[1],后來受到圖書館界的廣泛關注。機構庫是開放獲取的重要組成部分,是教育與科研機構存儲本機構學術研究成果和智力資產的服務平臺。圖書館通過機構知識庫建設和服務進一步促進服務轉型,在助力科研以及支持決策管理等方面,逐漸開始呈現信息集合和利用,以及跨部門信息共享與協作等問題,實現服務的拓展和轉型。
1 ?高校機構知識庫建設現狀及存在的問題
從2016年11月11日在Open DOAR上收錄的機構知識庫分布情況來看,我國被收錄的機構知識庫共有103個,其中大陸地區共有34個,港澳地區有9個,臺灣地區有60個。在大陸地區被收錄的34個中,有26個是中國科學院系統的機構知識庫,6個是大學機構知識庫[2]。
實際上,近年來我國的機構知識庫發展迅速,數量遠不止這么多,但由于Open DOAR是國外機構建立的英文網站,對中國很多以中文為基礎語言搭建的機構知識庫的發現能力有限,導致很多已經建立且功能完全的機構知識庫未能被統計進去。
2 ?建設機構知識庫的思路與原則
機構知識庫可以實現機構的知識資產管理、傳播以及利用知識資產開展拓展性服務,采取自下而上的建設模式,由圖書館作為主導發起并具體實施建設。結合機構中有特色或有代表性的資源或部門,作為試點和示范,著重建設、宣傳和推廣,獲得機構內相關職能部門的認同(如科研管理部門、研究生院等),贏得機構管理層和決策層支持,在職能部門的政策要求和引導下,建設具有本機構特色的機構知識庫系統平臺(見圖1)。從保障系統架構完整性的基礎上,系統建設需遵循如下原則。
2.1 全面系統性原則
機構知識庫作為一個機構知識資產的儲存平臺,需要對機構產生和擁有的各類知識資產全面系統地保存、組織、揭示,以促進知識資產的保存、傳播、利用和管理。同時,從系統性考慮,機構知識庫要實現對不同格式、不同版本、不同類型、不同來源知識資產的長期保存。
2.2 開放拓展性原則
該項目機構知識庫在保存知識資產的同時,更重要的是促進機構知識資產的傳播利用和管理,提升機構影響力和學術聲譽,為此,機構知識庫需要以開放性為原則,確保機構知識庫自身數據和信息的順利訪問、檢索、瀏覽與獲取。實現與外部數據和信息的整合,以及相關系統的數據和信息共享。同時,機構知識庫應具備拓展性,能夠根據用戶需求不斷完善和豐富機構知識庫的資產類型、表現形式和服務功能,實現功能自定義或模塊化,確保其開放性、靈活性和先進性,實現可持續發展。
2.3 權威規范性原則
機構知識庫作為學校的信息基礎設施之一,要實現對機構知識資產的保存、傳播、共享和利用,在建設過程中,需要確保內容的真實性、準確性,確保數據的權威性。同時,從規范性的原則出發,結合法律、法規及政策規定,對涉及的各類資產進行規范化存儲、描述、組織、管理,既保障機構知識庫內容建設質量,實現高效利用,又確保機構知識庫內容和成果得到法律政策的保護,實現成果權益最大化普及。
3 ?沈陽航空航天大學機構知識庫內容建設
按照筆者設想,該校機構知識庫內容建設包括數據倉儲平臺、成果認領平臺[3]、成果檢索與展示平臺及成果關聯、挖掘與統計。
3.1 數據倉儲平臺
針對該校各類知識資產進行收割、管理與共享,數據倉儲功能是機構知識庫的基本功能,可存儲不同類型、不同格式的學術成果資源,作為系統服務的基本要素,需建設具有可拓展性的數據 倉儲系統,并收割本機構的相關數據資源。
3.2 成果認領平臺
系統應支持自動收割方式,支持來自主流信息源的數據庫自動收割和自動清理,并建立成果認領機制確保成果收割的準確率,主要包括以下功能。
自存繳方式:作者可根據元數據模板補充存繳其他成果,支持批量導入。
第三方存繳:作者可以通過系統委托他人存繳成果,同一成果類型支持批量導入。
成果去重:制定完備的去重策略并自動實現,同時也允許少量成果由人工審核清理并去重(至少到院、系;所級別等)。
3.3 成果檢索與展示平臺
作為機構知識服務系統的前端服務平臺,成果檢索與展示需以檢索便利、成果展示多元化為設計與開發原則,具體需具有以下功能。
分面與瀏覽:支持主要定義字段的數據分類管理,對于各類知識資產,實現多維度、多途徑、多方式瀏覽。
類型檢索:支持簡單檢索、高級檢索、二次檢索等檢索方式,支持根據不同的條件對結果進行多種維度、多種方式的篩選、排序和導出。
多維度展示:除按出版物各字段展示外,還需要提供學者學術履歷、學術軌跡展示、院系機構學術展示、科研活動展示等。除此之外,能夠靈活組合各類描述字段,根據需要進行多維度、多視角的統計分析,自動完成基本的學者/院系/團隊的學術統計、學術貢獻、趨勢判斷等基本分析功能并可視化呈現。
個性化資源定制:用戶可根據個人專注的研究領域進行成果資源定制,定制模式包括RSS等。
數據可視化:具有可視化數據表現形式,并支持文本格式導出;支持多維度統計分析并可視化展示學者、機構、學科相關學術信息。提供可視化數據分析工具,支持自定義數據字段拖拽分析挖掘,支持自定義圖標展示方式。
3.4 成果關聯、挖掘與統計
在數據基礎上,系統應提供有創新性的成果關聯功能,并可對成果數據進行數據挖掘與統計,以期為學校的科研發展、成果統計提供權威評價基礎。
3.4.1 數據去重
流程為,勾選數據后,按照之前設定的不同來源庫中的去重規則進行數據去重,去重規則設可由館員自行設置,并且目前能夠支持數據的多流程去重,即按照不同的數據去重規則分別去重。勾選數據后,默認將數據進行補丁,合并之后的字段保留也是按照既定的模板進行字段的替換。
數據去重分為同源數據去重與異源數據去重。去重規則可由館員進行配置,配置完成后形成類似于公式的去重準側,在配置有限級時直接調用即可。
3.4.2 數據的切分
數據可切分的字段很多,比如說作者位次信息,通過讀取數據中每個作者之間的分隔方式,進行作者位次的輸出,排名第一的默認為第一作者,數據切分后自動將信息歸并到數據表中。平臺應持切分規則定制與輸出字段的定制開發。需要新增的切分字段包括:單篇發文人數、單篇發文機構數等。
3.4.3 數據關聯
成果數據關聯:基于成果數據,兼容CERIF模型,提供豐富的資源表現形式,包括人與出版物信息、人與機構、人與各類教學研究活動等之間的動態關聯。通過數據挖掘或統計分析,體現機構、團隊以及個人的成果目錄和聚類,同時,能夠為作者科研協作關系、機構科研協作關系、課題協作關系、成果引證關系、特定領域研究發展軌跡等提供關聯。
3.4.4 數據管理
系統管理模塊以系統模塊間數據交換、角色定義、權限控制等功能。分為集成統一認證、角色設置、數據共享管理。
4 ?結語
基于以上的內容建設描述,涉及子系統及功能模塊,需要根據館內實際情況及未來需求,詳細論證各平臺子系統的實施。而未來隨著機構知識庫向數據化、語義化、關聯化和智能化的方向不斷發展,將打破自身資源建設的局面,使之在整個科研環境之中,成為支撐科研機構科研過程監控和績效管理的重要平臺和手段。
參考文獻
[1] Crow R.The Case for Institutional Repositories:A SPARC Position Paper[M].ARL Bimonthly Report,2002:1-37.
[2] 朱立祿,宋世俊,王琳.國內外機構知識庫建設現狀及建議[J].現代情報,2017,37(3):109-115.
[3] 王序文,李軍蓮,黃利輝,等.機構知識庫建設實踐研究[J].醫學信息學雜志,2018,39(7):54-59.