毛堅菁

摘 要:如何才能可持續發展,體現應有的價值,是全球機構知識庫普遍關注并研究的熱點。音視頻資源是一種特殊的信息資源,上海音像資料館音視頻資源庫是一個以數字化音視頻資源為核心內容的機構知識庫。本研究從機構知識庫本體視角出發,發現了影響音視頻資源再利用的六大影響因素,并嘗試分析尋找可持續發展的途徑。
關鍵詞:機構知識庫;再利用;影響因素
機構知識庫(Institutional Repository,IR)的概念最早在大學中開始出現,英國南安普頓大學和美國麻省理工學院最早開始機構知識庫的實踐,美國網絡信息聯盟的常務董事Clifford A.Lynch對機構知識庫的定義是:“大學中的機構知識庫是大學為其員工提供的一套服務,用于管理和傳播大學的各個部門及其成員創作的數字化產品”。隨著機構知識庫的發展,不再局限于大學范疇,SPARC(Scholarly Publishing AcademicResources Coalition,學術出版與資源聯合會)事業部主任Richard K.Johoson認為機構知識庫是“一個數字化資源集合,捕獲并保存單個或多個團體中的智力產品”。綜合學者們的不同表述,機構知識庫可以定義為“一個機構建立的,以網絡為依托,以收集、整理、保存、檢索、提供利用為目的,以本機構成員在工作過程中所創建的各種數字化產品為內容的知識庫。”上海音像資料館的數字化音視頻資源庫就符合這些基本特征,是一個以數字化音視頻資源為核心內容的機構知識庫。
上海音像資料館是上海市的專業音像資料館,致力于音視頻資源的收集、購買、整理、保存、研究、制作、交流及數字化生產與管理。通過多年的不懈努力,已形成了以音視頻資源為館藏特色的知識庫,數字化音視頻資源館藏量已超過70萬小時。這個音視頻知識庫,主要面向廣播電視、新媒體及學術團體的節目制作、開發與研究提供服務。
當前全球各類機構知識庫都普遍面臨一個問題,即如何才能可持續發展,這已成為業界普遍關注的熱點和無法回避的現實命題。黃純艷認為IR可持續發展的核心是“信息資源的可獲得性、可存取性和可利用性”;龔亦農認為“IR不是一個簡單的倉儲設施,而是一個復雜的‘生命體”。如何能夠讓機構知識庫真正發揮作用,體現它應有的價值,是知識庫建設者和運維管理者的一個核心課題。機構知識庫可持續發展影響因素的研究,主要有四種視角:生命周期視角、IR本體視角、外部環境視角、內外因綜合視角。其中,IR本體視角的研究指出,要充分考慮信息平臺及相關數據庫平臺的數據共享集成和再利用問題[1]。從這個視角出發,筆者將研究聚焦在機構知識庫資源再利用上,通過對上海音像資料館音視頻資源核心用戶的深度訪談及結果數據分析,嘗試揭示機構知識庫資源再利用的影響因素。
訪談對象包括記者編導、音視頻資源研究人員和數字化編目人員,此三類訪談對象都同時具備數字化資源創造者和使用者的雙重身份。訪談過程中,要求每一個訪談對象結合使用資源庫的經驗和感受,總結他認為影響知識庫資源再利用的因素,數量不限,經過對訪談結果的系統整理、歸納與分析,共得到十二個影響資源再利用的因素,其中集中度較高的機構知識庫再利用影響因素分別為:檢索效率、資源量、響應時間、流程效率、標引質量以及版權屬性。由此也可以看出,隨著版權意識的強化,資源的版權屬性對再利用的影響也很大。表1為訪談分析結果中涉及的影響因素及被提及的頻次占比。
以下針對訪談結果,尤其著重對六大因素以及針對這六大因素如何提升知識庫的再利用做概述和思考。
1 機構知識庫資源再利用六大影響因素
1.1 質量因素,標引質量是再利用的生命
標引指通過標記指引人們方便、快捷地找到所需要的信息。通過對資源的分析,選用確切的檢索標識,用以反映該資源的內容的過程。標引的質量,對資源的檢索效果有直接的決定性影響。標引的窮舉度影響資源查全率,一致性則影響資源查準率。
標引質量是資源質量的核心要素之一,不論是人工標引還是現在越來越熱的自動標引,如何提升標引質量都是核心議題。標引沒做好,檢索結果的有效性就大打折扣,再好的資源也很難充分再利用,發揮長尾效應。可以毫不夸張地說,標引質量就是資源再利用的生命。
1.2 數量因素,資源數量是再利用的根基
資源數量是應用的根基,歷史資源與冷門資源的積累是資源積累的兩個難點。同時,應用場景的變化產生對資源需求的變化,隨著移動端的應用越來越廣,對資源需求的面也越來越廣,因此要求資源管理部門進一步拓展資源涉及面。存在的就是合理的,互聯網時代的需求是無極限的。隨著數字化存儲介質飛速發展,存儲成本已越來越不是問題,盡可能把資源留下來是當前應當采取的合理模式。
有意識地做地標性空鏡的時間軸積累也很有必要。同一地標在時間軸方向上的數量積累在經過歲月的積淀后能凸顯出效果,尤其適合用于反應今天日新月異的城市發展與變遷。
1.3 三大效率因素,檢索效率、響應時間、流程效率是再利用的保障
檢索效率、響應時間、流程效率是影響資源獲取效率的三大因素,直接影響用戶的體驗與滿意度,從而對資源的再利用產生巨大影響。
檢索效率要從查出率和查準率出發,搜索引擎和冗余信息是知識庫發展到現階段必須突破的卡點。搜索引擎的能力直接影響用戶體驗與檢索效率。搜索引擎的中文分詞能力、結果排序策略等都對檢索效率產生直接影響。冗余信息降低查準率,增加獲取難度。
響應時間指計算機系統對用戶的輸入或請求作出反應的時間[2]。系統響應時間的計算要考慮到用戶的數目,用戶數目越多,響應時間必須越快,不然就難以保證每一個用戶都有可以接受的響應時間。
流程效率主要受內部資源共享策略的影響,流程周期時間是非常重要的效率指標。資源獲取所需要的流程越長,資源獲取意愿和資源獲取滿意度就越低。