趙冬香 朱巧玲
(凱里學院圖書館,貴州 凱里 556011)
機構知識庫,很多文獻上又稱之為“機構庫”、“機構存儲”等,是一個學術機構在網絡環境下建立的一個開放共享數據庫,該數據庫對機構內各種數字化學術成果獲取、存儲、管理、發布[1],最終目標是實現可開放資源的共享,并借此提高本機構的學術影響力。自2002年俄亥俄州立大學建立第一個機構知識庫以來,機構知識庫已被越來越多的國內外科研院所與高等院校關注并加以應用。目前,機構知識庫已經逐步成為知識共享的重要內容,同時也是大學、科研院所等機構傳播學術作品的重要交流平臺。
根據國際著名開放存取名錄OpenDOAR的實時統計[7],在 OpenDOAR 網站注冊的機構知識庫從2005年的79個,迅猛發展到2020年9月1日的5391。但是,數據顯示各國知識庫的發展分布很不平衡,5391個機構庫中,中國大陸地區只有57個,僅占總數的1.06%。瀏覽這57個機構庫所涉及的高校,發現地方高校寥寥無幾。盡管中國機構知識庫建設相關理論研究和實踐探索連年增長,但是關于地方高校機構知識庫建設研究和實踐仍遠遠滯后于國內大趨勢[1]。凱里學院作為新建地方本科高校,率先克服困難建設了機構知識庫,在建庫過程中既有艱辛也有喜悅,現希望通過本文和其他地方高校分享整個建庫過程。
為適應信息資源的共享發展,構建學術研究資源收集、共享、展示、管理和存儲的平臺,全面揭示學校的學術研究成果資源,促進校內科研成果的傳播、共享與交流,凱里學院(以下簡稱凱院)機構知識庫從2016年底月正式開始建設,采用的是同方知網(北京)技術有限公司的軟件平臺。經過1年的建設,截止2017年11月,完成了全校所有分院、研究所及行政、教輔部門的機構知識庫建設工作,實現了學術資源收集、整理、上傳[2],收集了學校教師自建校以來發表的論文元數據9000余條,以及1100多條學者數據,至2020年9月22日,數據訪問量已達到142000余次,成果下載量達7200多次。由于凱里學院在2006年才升本,對于這樣升十多年的新建地方本科院校來說,這個數據訪問量是頻為驚人的。
我們在建設機構知識庫時主要考慮了服務對象、實現功能、選用軟件、用戶元數據的設計及導入、資源元數據的設計及導入、數據更新及維護、后臺管理等因素,而其中最為重要的就是用戶元數據和資源元數據的設計及導入,這也是機構知識庫建設的核心部分。本文也將針對這兩項進行介紹。
凱院機構庫的服務對象為本校的教師、博碩士研究生、科研人員/行政人員等凡在本校工作或學習的人員。服務對象可以向系統中提交多種類型的數據資源,具體內容包括教學與學科科研活動中產生的正式出版成果和非正式出版的灰色資源,類型有期刊論文、學位論文、會議論文、圖書、專利、標準、科技成果、研究報告、音視頻、演示課件、圖片、預印本等[3]。以上沒有的類型可以添加到“其他”這一類別中。同時,在機構知識庫中,服務對象提交學術成果之后,還能享受以下服務:
1)管理個人在科研教學中產出的各種成果;
2)可查看自己成果的收錄引用情況;
3)可以查看個人成果的傳播情況;
4)管理自己的學術簡歷;
5)可查看自己成果的引證、合作、分布等可視化分析。
主要要求實現以下功能,如圖1所示:

圖1 凱院機構知識庫實現功能
從圖一可以看出,凱院機構庫主要從機構知識庫展示、建設、系統設置/用戶管理三方面實現了其功能在機構庫展示部分,主要是提供給訪客瀏覽、檢索的界面,包括資源導航、情況統計、成果展示等功能;機構庫建設部分,是數據庫的核心區域,主要實現的是數據提供方或成果擁有者對數據或成果的錄入、認領、審核、編輯、補充、統計、導出等。系統設置/用戶管理部分主要為系統管理員進行后臺管理準備,這部分功能是否能順利實現關系著建庫后系統維護、管理、推廣的效果與該庫的可持續性發展問題.
確定了機構庫要實現的功能后,重點要考慮的就是建庫軟件的選用。通常有兩個選擇,其一是選用開源軟件,如高校機構知識庫常用的DSpace、Eprints和Fedora等,其中DSpace因功能成熟,適合國情,國內機構知識庫建設大部分采用了該系統。
其二則是選用商業軟件。很多高校機構選擇開源軟件,多半是迫于經濟壓力,但是,例如DSpace軟件的問題就是當對其系統擴展功能進行修改時,需要更改系統的核心組件,這必然會影響系統的兼容性及穩定性。因此,為了規避以上問題,更是為了方便今后的維護工作,凱里學院申請了專項建庫資金,購買了清華同方的軟件系統,由其幫助建立系統構架及進行數據導入服務。
清華同方的建庫軟件系統優勢如下:
1)CNKI海量數據支持機構知識庫的便捷、規范建設。表現為:公開發表成果資源收錄完整;數據更新持續、及時;支持歷史數據回溯;數據加工嚴格、規范;提供中文成果引文數據服務。
2)平臺擴展性強,安全性高。支持資源類型豐富:期刊論文、會議論文、報紙、著作文集、專利、標準、科技成果、軟件著作權、音像出版物、研究報告、演示文稿、音視頻圖片、預印本等。
3)功能模塊化,支持按需選配模塊。模塊化管理,可靈活控制用戶功能權限、數據權限,內容開放策略自定義設置。
4)豐富的展示與應用服務,促進機構知識庫推廣。系統整理、呈現學者、團隊的研究成果;通過學者關注與分享、成果引用與傳播分析等服務,吸引作者提交內容;增加成果傳播度,提高學術論文引用率;提供多維度統計圖表,為科研考核與評估提供客觀的數據 支撐[4]。
確定了合作對象為同方知網并選擇其軟件建庫后,開始著手創建機構知識庫。從圖2機構知識庫建設流程可以看出,創建機構知識庫,首先要確定機構內成員個人基本情況,如院系、用戶姓名、部門、職稱、學位、聯系方式、獲獎情況、研究方向等,并估算下數據規模,提出數據質量要求。有關人員基本情況數據是請凱院人事部門以行政命令的形勢發文向各分院、部門收集,之后提供給知網技術人員,由其在建設初期利用Excel模板整理導入機構基本信息,并且對于已知詞典信息進行補充,對重點人員補充作者代碼信息。在收集整理人員信息的過程中不可避免的存在錯漏及需更改情況,故在機構庫建成以后,該部分信息交由用戶自行登陸進行補充、修改。

圖2 機構知識庫建設流程
用戶個人數據導入后,由圖二可以看出接下來要進行機構庫資源數據的收集及導入。在遴選機構資源數據前,要進行機構字段拆分詞標引、碩博士專業字段標引,再對院系、人員字段機器標引,慎重起見,對院系、人員數據字段再次檢查手工標引,將經過標引后的機構元數據導入機構成果庫,將元數據發布到UI系統,經過UI數據檢查沒有問題后,最后進行數據部署,即提取數據全文。這一部分是機構知識庫內容建設最重要的組成部分,因資源數據量龐大且每年遞增,所以在機構知識庫初步建成后[2],后續最重要的工作內容就是資源數據的持續更新。
對于凱院這種單一的高校機構庫,資源數據獲取主要采用建設者批量導入方式,即由機構知識庫管理者或建設者向機構知識庫提交該機構成員的成果內容,這是機構知識庫建設初期最主要的內容建設方式,這種方式可快速提高機構知識庫數據量[2]。很多高校有自建的論文庫、科研成果庫等,也可以做為資源數據的來源。但是,凱院之前沒有這方面的儲備,故請CNKI公司以建設者的身份數據批量導入凱院教師論文、專著等各項科研成果數據,因為凱院購買了CNKI的相應數據庫,所以在導入數據方面沒有什么障礙。而且CNKI本身有龐大的歷史數據庫作支撐,其提供的資源數據無論在準確性還是完整性上,都比較令人滿意,但大批量的數據導入過程中,難免會出現錯抓、漏抓數據等情況[2],這時可以由機構成員主動向機構知識庫系統提交個人成果,以輔助形式來查缺補漏。
在機構知識庫建成并且運行趨于穩定后,我們關注的重點將轉向機構數據的維護、更新及推廣等方面。凱院由于是購買的清華同方(知網)公司的軟件使用權,并委托其建庫,所以在軟件使用有效期內,都是由知網公司負責機構庫的維護等工作。但知網作為第三方機構,首先不能隨時跟進凱院的人員變動情況,即時更新相關數據;其次一旦到達軟件使用有效期,機構庫的后續工作將完全交付回凱院,而凱院只能將這個學術型數據庫交給圖書館管理,盡管圖書館管理機構庫有天然的資源優勢和服務優勢,但卻無法彌補其巨大的人員和技術缺陷。以凱院為例,作為一個地方本科院校,其圖書館根本沒有能力和權限引進碩士及以上專業人員,而本科生更連進入招聘計劃的機會都沒有。自2013年至今的七年時間,凱院圖書館沒有引進一位專業技術人員,不是不想,而是引進不來。今年是軟件使用期限的最后一年,凱院將面臨著是繼續交錢續費由CNKI管理、更新,還是收回來自己管理的問題,無論是哪一種結果,都將面臨著許多問題。
在凱院機構知識庫建庫過程中,遇到了一些問題,具體情況 如下:
目前,凱院的機構庫提供的服務比較單一,僅局限于基本的成果檢索、瀏覽、下載等淺層功能,只初步實現了“成果典藏”的功能,并且缺乏個性化服務,用戶體驗度不高[5]。同時,做為高校的單一機構庫,沒有和其他高校結成聯盟,無法在最大范圍內實現資源的共享,不能充分體現機構庫的功能。
機構知識庫在建庫時一般都有專項資金,所以在建庫時感覺不到資金壓力。但一旦建庫完成,其運行階段的資金出處問題就凸顯出來了。沒有資金的具體出處,那機構庫軟件的續費,機構數據的維護、更新以及對機構庫的推廣、功能擴展等工作都不能順利進行。如何使機構庫保持持久的生命力,真正長期的服務于教學和科研,而不是淪為“形象工程”、“面子工程”,最終導致其成為“雞肋”,這些都是機構庫持續發展面臨的難題。
凱院機構知識庫在建成之初,曾在學校網站上發布了新聞,之后就沒有進行過正式的宣傳,導致只有少部分老師知道學校機構庫的存在及作用,后期的推廣應用也沒有跟得上,這些都極大限制了機構庫的持續發展和潛力開發。
凱院機構庫在建立的過程中,雖然遇到了一些困難,在后期運行過程中也逐步發現了不足,但不可不否認的是,其日益增長的訪問量證明了學校師生已逐步認可了機構的科研價值,相信其在以后的發展中會出現更令人滿意的結果。
而凱院在建庫中遇到的困難,同樣也困擾著許多其他高校,要解決這些問題,不是單獨的一個高校或科研院所能做到的,而是需要多個機構組成聯盟全力解決,即所謂的機構知識庫聯盟。國外機構知識庫聯盟的實踐較為成熟,國內也日益重視機構知識庫聯盟的建設。 聯盟合作協調的形式,將參與其中的每個成員的信息資源與科研成果進行整合,構建出具有共享性質的機構知識庫群,統一提供相應的數字化服務,最終實現不同機構間知識資源的共享與使用[6]。聯盟化將成為今后機構庫發展的一大趨勢。