中圖分類號:G254.1 文獻標識碼:A DOI:10.13897/j.cnki.hbkjty.2025.0034
隨著新技術不斷進步,信息資源不斷膨脹,公共圖書館服務對象對圖書館提供的服務不斷提出新的要求,促使圖書館不斷創(chuàng)新發(fā)展模式、服務模式,推動傳統(tǒng)圖書館向數(shù)字圖書館,向智慧圖書館轉型。視頻資源主要包含實體視頻資源、視頻數(shù)據(jù)庫和線上視頻資料三個方面,具有總量大、載體形式多樣、更新速度快等特點,其中實體視頻資源、視頻數(shù)據(jù)庫是圖書館館藏資源的主要存儲形式2,線上視頻資料是圖書館館藏資源的重要補充。高效標引視頻資源,精準揭示視頻內(nèi)容,充分發(fā)揮視頻功能,基于關鍵詞和基于內(nèi)容的視頻傳統(tǒng)標引方式已經(jīng)無法滿足讀者多樣化、個性化的知識需求,精細化標引視頻就顯得尤為重要。視頻資源標引和標識的精細化、標準化、規(guī)范化,同時也是實現(xiàn)圖書館信息資源共享的基礎[3]。
1圖書館視頻精細化標引研究現(xiàn)狀
目前學界對圖書館文獻標引及相關技術使用的研究比較豐富,蔡迎春等4認為標引是對文獻的內(nèi)容特征進行分析、描述,從而揭示文獻的過程,提出圖情領域文獻標引研究應該結合其他學科的研究成果,讓傳統(tǒng)文獻標引技術符合時代發(fā)展要求,并產(chǎn)生溢出效應。陳潔薇5提出基于視頻資源內(nèi)容和文本的著錄與標引信息的獲取是視頻資源規(guī)范著錄和準確標引的基礎。單驊、邵波、劉婷6以浙江省知識資源細顆粒度建設和標簽標引項自為例,研究智慧圖書館體系下的知識資源建設問題,提出知識資源細顆粒度和標簽標引項目建設發(fā)展策略。章良[以深圳圖書館“古籍細顆粒度標簽與標引”項目實踐為例,研究了古籍細顆粒度建設的智慧化加工框架和智慧化服務方式。王彥君[8]對智慧圖書館文獻數(shù)字資源建設內(nèi)容、流程及特點進行了概括性介紹,并對精細化標引中涉及的部分關鍵技術進行了分析。從目前研究來看,學界對圖書館資源精細化標引主要還是集中在圖書、期刊、報紙、古籍等文本資源,對圖書館館藏量巨大的視頻資源尚未涉及,這也是我們選擇對圖書館視頻資源精細化標引進行研究的主要出發(fā)點,以期通過本文的研究,為圖書館開展視頻資源精細化標引提供一些借鑒。
2圖書館視頻資源精細化標引的價值
精細化標引又稱為細顆粒度標引,是智慧圖書館標引建設的新發(fā)展形態(tài)。做好圖書館視頻資源精細化標引工作,可以彌補傳統(tǒng)視頻標引方法不足,提高視頻資源檢索效率,推動圖書館資源專題化建設,提升圖書館服務效能。
2.1彌補傳統(tǒng)視頻標引方法不足
傳統(tǒng)視頻標引方法主要是基于關鍵詞的方式和基于內(nèi)容的標引方式。關鍵詞的多義性決定了不同的使用者可能會有不同的理解,形成理解偏差,基于關鍵詞的標引結果不一定就是使用者所要查找的信息。基于內(nèi)容的標引,需要對視瀕進行逐幀甄別,提取視頻中的內(nèi)容特征,與使用者需求信息進行匹配,費時費力,且標引效果不好。精細化標引,是對視頻資源中析出的各個組成要素進行元數(shù)據(jù)著錄,形成著錄粒度。通過著錄粒度內(nèi)容標識、關鍵知識點的標簽和標引,對資源內(nèi)容、知識體系進行深度揭示,從而彌補傳統(tǒng)視頻標引方法存在的不足。
2.2提高視頻資源檢索效率
視頻資源精細化標引,通過人工智能等現(xiàn)代科技,全面優(yōu)化視頻檢索算法,分析視頻語義,精確分類和技術處理建立視頻資源數(shù)據(jù)庫,使得視頻在資源庫里得以實現(xiàn)有序組織,大大提高視頻資源的檢索與利用效率,讓用戶能夠快速準確找到所需資源,以最小的代價捕捉到最有價值的信息。
2.3推動圖書館資源專題化建設
專題化建設一直是實現(xiàn)圖書館發(fā)展模式創(chuàng)新,開展高效服務的重要途徑。圖書館專題化建設包括文獻專題化、資源專題化、服務專題化。根據(jù)內(nèi)容、形式、語義對視頻資源進行精細分類和整合,形成一個個視頻專題。這些專題不僅可以覆蓋不同學科領域,還可以關聯(lián)整合視頻所反映的不同主題和年代的資源,實現(xiàn)專題聚類,形成專題群,增加視頻專題的數(shù)量和容量,增加視頻資源的可見度,推動圖書館資源專題化建設。
2.4提升圖書館服務效能
圖書館服務的創(chuàng)新發(fā)展都是通過一定的媒介來完成的,不管是傳統(tǒng)圖書館,還是數(shù)字圖書館、智慧圖書館,都需要通過文獻借閱、知識提取來實現(xiàn)。深度挖掘和分析視頻資源,發(fā)揮著錄粒度精準管理視頻資源的能力,通過搜集、記錄、分析用戶行為、偏好,為讀者提供更為精準的視頻信息服務。精細化標引后形成的視頻資源庫可以與其他圖書館或數(shù)據(jù)庫互聯(lián)互通,實現(xiàn)資源共享,進一步豐富圖書館的服務內(nèi)容,擴大圖書館的服務范圍和服務能力,提升圖書館服務效能。
3圖書館視頻資源精細化標引的技術分析
人工智能在圖書館標引領域的使用,一定程度上代表著自動標引的未來。圖書館視頻資源與圖書、期刊、古籍等文本資源在存儲形式、資源特點、表達方式、信息處理等方面存在較大差異,常用于文本資源標引的光學字符識別技術(OCR識別技術)則無法應用于視頻資源標引,標引過程中對相關技術使用需要加以選擇。
3.1 深度學習
深度學習(DeepLearning)是機器學習(Ma-chineLearning)的一個子類。深度學習在視頻資源處理中,主要通過卷積神經(jīng)網(wǎng)絡基本模塊建立從輸入到輸出的函數(shù)關系,組合視頻圖像中的人臉輪廓等顯著的低層特征形成抽象的高層表示屬性類別或特征,發(fā)現(xiàn)數(shù)據(jù)的分布式特征,從而識別視頻中的圖像和聲音等數(shù)據(jù),完成視頻的分類、解析等學習任務。
3.2 知識圖譜
知識圖譜(KnowledgeGraph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發(fā)展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯(lián)系[9]。知識圖譜將分散在視瀕中各個位置的分布式信息概念聯(lián)系在一起,并將這些信息(信息孤島)進行相互連接、整合、匯聚,組成一個龐大的信息網(wǎng)絡數(shù)據(jù)庫,以結構化的形式描述視頻中各個知識點的復雜關系,將數(shù)據(jù)粒度從視頻級別降到知識點級別,實現(xiàn)針對知識的檢索和推理。讀者檢索視頻時,知識圖譜技術對檢索目標展開分析,進行知識發(fā)展和知識推理,把與讀者檢索用的“關鍵詞”相關的其他視頻進行成體系地展示。讀者根據(jù)檢索目標“相關性\"進行選擇,實現(xiàn)多重檢索需要。這也是目前各地圖書館開展各類資源標引的重要技術手段之一。
3.3大數(shù)據(jù)
大數(shù)據(jù)(BigData)是通過信息檢索、文本挖掘、數(shù)據(jù)處理以及平臺內(nèi)容管理等技術實現(xiàn)信息發(fā)布、內(nèi)容管理、數(shù)據(jù)自動化處理等[10]。大數(shù)據(jù)技術掌握著龐大的數(shù)據(jù)信息,通過專業(yè)化處理實現(xiàn)數(shù)據(jù)“增值”。用戶搜索次數(shù)越多,搜索的范圍越廣,搜索引擎就能獲取越多信息和內(nèi)容。大數(shù)據(jù)技術會對用戶的檢索需求、檢索行為進行匯總分析,構建用戶畫像,賦予讀者“需求”新的意義,即時對現(xiàn)有視頻檢索條件進行調(diào)整,對目標視頻資源進行重新切割,幫助讀者更快更精準地檢索到所需要的內(nèi)容。
人工智能技術的發(fā)展為圖書館視頻精細化標引提供了便捷。但是也要認識到技術是實現(xiàn)人的目的的一種手段,它是一種裝置、一種方法或一個流程[11]。使用人工智能相關技術時,要注意技術的工具屬性,不能完全依賴技術數(shù)據(jù)分析,而忽視了用戶的現(xiàn)實需求,同時還應考慮多種技術互相兼容問題[12]。
4圖書館視頻資源精細化標引實踐
當前,全國各地圖書館,尤其是省級圖書館,都把信息資源精細化標引作為智慧圖書館體系建設的重要內(nèi)容。國家圖書館和圖書館視頻資源精細化標引實踐,為各地圖書館開展視瀕資源精細化標引工作提供了思路。
4.1國家圖書館視頻資源精細化標引實踐
國家圖書館是世界最大、最先進的國家圖書館之一,在國內(nèi)率先開始精細化標引建設,并在2021年依據(jù)《全國智慧圖書館體系建設方案》和《全國智慧圖書館體系中央轉移支付經(jīng)費重點支持建設內(nèi)容的說明》,制定發(fā)布《智慧圖書館知識資源數(shù)據(jù)建設指南》,該指南成為全國各地圖書館開展視頻資源精細化標引工作的重要參考。
國家圖書館通過智能算法和語義理解、知識圖譜等人工智能技術,對全國多家圖書館制作1000余場、總時長超過30000分鐘的優(yōu)質(zhì)視頻,從主講專家、學科領域、機構團體、重要事件、重要地點以及著名作品等維度進行知識關聯(lián),分出8700余個關鍵詞標簽、3000余個知識點、2600余個精彩講座片段,豐富視頻資源的表達維度與服務形態(tài)。
國家圖書館開發(fā)影音視聽知識服務平臺,對完成精細化標引后的視頻資源進行整合上線,并提供多種視頻檢索服務,用戶可以迅速定位到特定資源,實現(xiàn)標引成果轉化、視頻資源共享。以“非遺”為檢索條件,通過影音視聽知識服務平臺,可以找到12條與“非遺”相關的視頻,每一條視頻通過展示出視頻語種、時長、發(fā)布時間、內(nèi)容來源、關鍵詞、主講人姓名、性別、主講人簡介等基礎信息,并分若干知識片段,幫助用戶了解視頻信息。知識圖譜則會展示當前視頻圖譜,以及當前視頻在整個視頻數(shù)據(jù)庫中的位置,便于用戶及時了解與當前視頻信息相關聯(lián)的其他視頻。如劉魁立主講的視頻《非遺保護的法制建設和實踐成果》中提到《保護非物質(zhì)文化遺產(chǎn)公約》的誕生過程,通過知識圖譜,即可鏈接到與之相關的兩個視頻和一個視頻片段,其中包括信陽市圖書館提供的視頻《弘揚傳統(tǒng)文化傳承歷史文脈》,使用者可以更詳細地了解相關非遺保護、傳統(tǒng)文化的相關知識,獲取到更多的資料信息。
國家圖書館提供多種檢索方式,便于使用者找到所需視頻。字幕檢索支持用戶根據(jù)講座字幕內(nèi)容查找視頻內(nèi)容,用戶不再需要從頭觀看視頻,只需要找到相應字幕,就可直接進入相關視頻位置,省時省力。語義檢索則主要是通過大數(shù)據(jù),根據(jù)用戶輸入的信息,自動精準匹配與之相關的講座課程、知識片段及知識點,滿足用戶主動獲取知識的需求。
4.2圖書館視頻資源精細化標引實踐
圖書館是江蘇省級公共圖書館,國家一級圖書館,建有江蘇省智慧圖書館知識資源發(fā)布平臺等多個信息資源平臺。截至2023年底,江蘇全省公共圖書館共完成視頻基礎資源著錄501部,析出小節(jié)數(shù)1086段,完成知識內(nèi)容片段抽取12188段(見表1)。其中,圖書館完成視頻基礎資源著錄399部,析出小節(jié)數(shù)607段,完成知識內(nèi)容片段抽取11617段(見表2)。
表1江蘇完成視頻資源精細化標引統(tǒng)計表

表2圖書館完成視頻資源精細化標引統(tǒng)計表

圖書館對視頻精細化標引的主要目標對象是館里自建的江蘇紀錄片以及微視頻等資源。以視頻《白集漢畫像石墓》為例,其作為《江蘇不可移動文物掠影》的組成部分,由主講人張小兵錄制,共1節(jié),時長488秒。圖書館對該視頻進行基礎信息標引,包括資源標識號、標題、責任者、分類號、主題、關鍵詞、簡介、視頻格式、幀數(shù)、分辨率、時長、聲道語種、字幕語種等。利用自動化手段分析視頻內(nèi)容,根據(jù)視頻內(nèi)容和主題,從視頻中抽取人物1位、機構2個、地理名稱6個、專題47個、知識內(nèi)容10個片段,開展基于知識內(nèi)容(關鍵詞)標引,形成可視化知識圖譜(見圖1),便于公眾直接使用。
圖1視頻《白集漢畫像石墓》知識圖譜

圖書館通過江蘇省智慧圖書館知識資源平臺進行視頻精細化標引成果展示。成果展示中存在值得改進的地方。一是檢索方式較為單一。雖設置“標題”“作者\"等關鍵詞檢索,但是對于知識檢索、語義檢索等新興檢索方式,涉足較少。二是基礎信息不完整。視頻基礎信息顯示主講人姓名,卻沒有主講人簡介,“主講人\"鏈接到主講人在本專輯中的其他視頻,都沒有主講人相關介紹,這對于不熟悉該主講人的用戶來說,想要了解相關信息較為困難。三是知識圖譜不準確。視頻界面展示相關視頻知識圖譜,但是知識圖譜顯示的并非與當前視頻相關的內(nèi)容,而是《江蘇不可移動文物掠影》這一整個專輯的知識圖譜。公眾點擊當前可視化知識圖譜時,無法直接找到與當前視頻相關聯(lián)的信息。四是相關功能不完善。在《白集漢畫像石墓》視頻知識庫中66條信息,僅僅10條片段信息與當前視頻相關,可以顯示該片段在整個視頻中的起正時間,但是無法直接打開定位視頻。這在其他視頻中普遍存在,需要進一步完善調(diào)整。
5圖書館視頻資源精細化標引體系建設
5.1制定標引建設規(guī)范
制定標引建設規(guī)范是做好圖書館視頻資源精細化標引的基礎。視頻資源標引規(guī)范指定要根據(jù)國家著錄標引相關標準,結合圖書館實際情況以及智慧圖書館的發(fā)展方向和要求,視頻資源的特點、讀者的個性化需求,標引規(guī)范要全面、細致且具有操作性,涵蓋視頻資源的基礎數(shù)據(jù)信息規(guī)范,還應包括小節(jié)、責任者在內(nèi)的細粒度資源著錄規(guī)范,以及視頻資源知識內(nèi)容抽取等各個實施環(huán)節(jié)規(guī)范,且在一段時期內(nèi)要保持相對穩(wěn)定。標引規(guī)范要能夠降低標引誤差,提高標引質(zhì)量,為讀者提供更加準確、全面的視頻資源信息。
5.2選擇適當?shù)脑獢?shù)據(jù)元素
元數(shù)據(jù)是關于信息資源或數(shù)據(jù)的一種結構化的數(shù)據(jù),是用來描述數(shù)據(jù)的數(shù)據(jù),準確包含了數(shù)字資源定位、識別和發(fā)布等重要信息[13]。元數(shù)據(jù)元素的選擇是視頻資源精細化標引建設的關鍵。不同類型的資源有不同的元數(shù)據(jù)標準,它一般包括完整描述一個具體對象時所需要的數(shù)據(jù)項集合、各數(shù)據(jù)項語義定義、著錄規(guī)則和計算機應用時的語法規(guī)定[14]。不同于文獻、報紙等傳統(tǒng)文本資源元數(shù)據(jù),視頻資源元數(shù)據(jù)擁有更加多樣的數(shù)據(jù)類型。視頻元數(shù)據(jù)元素選取要根據(jù)選取標準以及視頻資源的特殊性,分析視頻資源的類型和特征,做到不同類型、不同內(nèi)容的視頻需要選取不同的元數(shù)據(jù),確保元數(shù)據(jù)元素選擇能夠準確反映視頻內(nèi)容。除了視頻基本信息數(shù)據(jù)選取外,還應選取包括音頻格式、視頻格式、碼率、分辨率、時長、小節(jié)數(shù)據(jù)、片段數(shù)據(jù)、關鍵幀數(shù)等專業(yè)技術信息。每個視頻小節(jié)、片段數(shù)據(jù)元素選取,也需要關注與整部視頻資源內(nèi)容或主題相關的人物、機構、事件、作品、實物以及其他具有標目意義的內(nèi)容,形成一條條元數(shù)據(jù)。
5.3建立多元標引體系
建立科學、合理的多元化標引體系,運用人工智能技術對視頻內(nèi)容進行分析,挖掘視頻的潛在價值,實現(xiàn)圖書館視頻資源的精細化管理和個性化推薦。視頻資源標引體系,既包括基礎資源著錄標引體系,也包括精細化標引體系。基礎資源著錄標引體系主要分為責任者、主題、關鍵詞、分類號、簡介、時長、文件格式、聲道字幕等。精細化標引體系,即引入人工智能技術對圖書館基礎視頻資源析出的各個組成要素進行元數(shù)據(jù)著錄標引,實現(xiàn)對視頻資源的精準標注和分類。通過深度學習技術對視頻中的視覺特征,如顏色、形狀、紋理等進行識別分析,實現(xiàn)對視頻復雜場景的自動識別和標注。通過知識圖譜技術構建視頻資源之間的關系網(wǎng)絡,實現(xiàn)更加豐富和立體的標注。
5.4分析整合數(shù)據(jù)信息
對視頻提取信息進行分析整合,是做好視頻精細化標引,實現(xiàn)全面且精確的標引結果的關鍵。運用數(shù)據(jù)分析融合技術對視頻文本信息和內(nèi)容分析數(shù)據(jù)進行整合、處理和優(yōu)化,如對視頻標題、關鍵詞等基礎信息,結合視頻畫面、聲音等模態(tài)信息,實現(xiàn)信息融合,形成完整的視頻內(nèi)容描述,為視頻添加更為精準和有效的標簽。通過已知的標簽數(shù)據(jù)對未知數(shù)據(jù)進行分類,發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在結構,將相似的數(shù)據(jù)劃分到同一類別中,形成基于知識內(nèi)容的語料庫。根據(jù)視頻文本、內(nèi)容分析的結果,形成知識內(nèi)容片段。根據(jù)讀者需求實現(xiàn)個性化推薦、視頻摘要生成展示等功能,實現(xiàn)視頻精細化標引目的。
5.5標引信息反饋和更新
視頻精細化標引的目的是讓讀者能夠有效檢索到所需要的視頻,提高視頻檢索效率和使用效率。視頻資源數(shù)量增長,人工智能技術更新,讀者信息需求變化,決定了精細化標引需要不斷進行調(diào)整和優(yōu)化。用戶在圖書館平臺上進行的每一次瀏覽,每一次檢索,都會產(chǎn)生非結構化或者半結構化數(shù)據(jù),都是讀者對某一主題、某一領域、某一類型文獻的關注體現(xiàn)。圖書館要定期或者不定期收集人工智能技術相關算法在標引使用過程中的反饋,以及讀者在日常檢索中的反饋,通過大數(shù)據(jù)及時跟蹤讀者行為,全面、深入分析讀者數(shù)據(jù),了解讀者研究方向和興趣點所在,有針對性地優(yōu)化和調(diào)整視頻資源精細化標引體系,使圖書館視頻標引更加貼近用戶的真實需求。
6 結語
視頻資源精細化標引是圖書館文獻資源標引建設的重要內(nèi)容。公共圖書館要善于運用人工智能技術,對館藏視頻資源進行精細化揭示、深層次表達,以充分發(fā)揮視頻資源作用實現(xiàn)信息資源共享。人工智能技術在圖書館視頻資源精細化標引中的具體運用,是圖書館進一步開展視頻資源標引工作的重點所在。
參考文獻
[1]趙琨.大數(shù)據(jù)環(huán)境下圖書館音視頻資源發(fā)展及建設研究LJ].圖書館建設,2015(2):64-68.
[2」徐彤陽,張國標,任浩然.基于鏡頭的數(shù)字圖書館視頻資源檢索框架構建與實現(xiàn)[J」.情報科學,2017(5):89一93.
[3]王動圓,孟默涵,張小萍.文獻資源共享下的“西文克特著者號”深度標識的探討[J].河南圖書館學刊,2024(2):104—105.
[4」蔡迎春,趙心如,朱玉梅,等.我國文獻標引技術的回顧與展望[J].圖書館雜志,2022(3):18-31.
[5]陳潔薇.圖書館視頻資源著錄和標引信息獲取探究[J].圖書館建設,2010(8):49—51.
[6]單驊,邵波,劉婷.智慧圖書館體系下的知識資源建設探析—以浙江省知識資源細顆粒度建設和標簽標引項目為例[J」.圖書情報工作,2024(11):92-98.
[7]章良.公共圖書館古籍細顆粒度建設研究——以深圳圖書館為例[J].圖書館研究與工作,2024(11):45-51.
[8]王彥君.智慧圖書館文獻精細化標引流程及關鍵技術研究LJ」.河南圖書館學刊,2022(11):125—128.
[9]蔡豐明.非物質(zhì)文化遺產(chǎn)圖譜編制理論與方法[M].上海:上海社會科學院出版社,2020:110.
[10」欒美生,李君,初源莉.大數(shù)據(jù)時代圖書館科學數(shù)據(jù)的價值與測度研究J].圖書館界,2023(1):1-4.
[11]布萊恩·阿瑟.技術的本質(zhì):技術是什么,它是如何進化的M].杭州:浙江人民出版社,2018:28.
[12]胡宇.數(shù)字圖書館音視頻資源信息檢索技術研究[J].電子技術與軟件工程,2013(11):21.
[13]石捷元.元數(shù)據(jù)在數(shù)字圖書館的應用[J].圖書館學刊,2017(8):35-39.
[14]肖瓏,陳凌,馮項云,等.中文元數(shù)據(jù)標準框架及其應用[J].大學圖書館學報,2001(5):29-35.
作者簡介:陸瑤,女,圖書館館員。研究方向:圖書館學。余雁舟,男,江蘇省文化館·江蘇省非物質(zhì)文化遺產(chǎn)保護中心副研究館員。研究方向:公共文化、非物質(zhì)文化遺產(chǎn)保護。
(收稿日期:2024-12-08責任編輯:侯鵬娟)
Abstract: Video resource is an important part of library collections. The refined indexing of library video resources is conducive to making up for the shortcomings of traditional video indexing methods,improving the efficiency of video retrieval, promoting the construction of video thematic libraries,and improving the efficiency of library services. Based on the practice of refined indexing of video resources in the National Library of China and Nanjing Library,this paper discusses the construction methods of refined indexing system of library video resources: formulating indexing construction specifications, selecting appropriate metadata elements,establishing a multi-indexing system, analyzing and integrating data information,and integrating indexing information feedback. It also highlights the specific application of artificial intelligence technology in refined indexing of libraries,identifying it as a key focus for future library indexing work.
Keywords:Library; Video Resources; Refined Indexing