關鍵詞:數字圖書館;信息描述;統計分析;關聯分析
摘要:文章就數字圖書館圖書資料信息描述的基本理論和方法進行了研究,著重討論了文本資料和圖像等資料的描述方法以及資源信息描述系統的組成和功能,并給出了可能的應用案例分析。
中圖分類號:G253文獻標識碼:A文章編號:1003-1588(2014)11-0120-03
收稿日期:2014-09-11
作者簡介:肖妍(1967-),南京財經大學圖書館助理館員。1數字圖書館的特征
數字圖書館就是將圖書期刊和圖像視頻等電子信息作為主要資源對象,使用智能化搜索和云服務等信息海量存取技術,并以聲音、視頻和圖片等多媒體技術手段,為用戶保存、整理、查詢、搜集和傳播超大規模的數字化信息,使用戶可以通過互聯網遠程跨庫的方式,不受時間和空間的約束獲取所需要的信息資源的電子化圖書館。
基于數字圖書館的定義可以發現,數字圖書館具有信息資源數字化、信息傳遞網絡化、信息中心虛擬化和信息資源共享化的特點,因此數字圖書館代替傳統圖書館是未來發展的必然趨勢。和傳統圖書館相比較,數字圖書館不僅僅是一個存儲知識的載體,更重要的是根據用戶需求,向用戶提供準確的、充分的和個性化的知識服務。因此數字圖書館的工作重點不再是圖書采購、圖書編目、圖書上架等工作,而是對圖書信息的準確描述和知識內涵的集成。只有對圖書信息進行充分描述和集成,才能根據用戶提供的搜索關鍵字,向用戶提供準確的而不是有太多冗余的信息資源。因此數字圖書館的圖書信息獲取和集成就成為了數字圖書館工作的重點。
2數字圖書館的文本信息描述
數字圖書館將所有的圖書等資源以數字信息的形式儲存起來,顯然這些數字信息包括文本、圖片、音頻和視頻等各種數字數據。如何定義和描述這些數字信息是能否消除信息孤島,并為用戶所共享和使用的關鍵,尤其是對于圖片和視頻等非結構化數據而言更是如此。
大多數圖書資料主要包含文本信息,而對于文本信息的描述也相對容易,但是由于學科專業分類十分精細,對于圖書管理員來說,要完全理解并掌握理、工、農、林、牧、漁等自然科學以及分類眾多的人文社會科學方面的知識,進而對任何一種圖書資料進行精確描述是不可能的。傳統的描述方法是將圖書本身附帶的內容摘要直接錄入數據庫作為該圖書的文本描述,這就不可避免地帶來兩個問題,即結構化問題和標準化問題。結構化問題是圖書資料之間缺乏關聯性。由于每一本圖書的作者只能關注其所著圖書的內容,無法知道和圖書館收藏的其他圖書之間的關系,這就使得藏書之間在內容上幾乎缺乏深入的關聯描述,圖書管理員只能根據所屬大類進行簡單歸類。在用戶就某一主題進行查詢時,得到的常常是同一大類內的圖書索引,因此用戶總是檢索到許多不需要的圖書。出現這個問題的根本原因是藏書的關聯性太差。另一個問題就是標準化問題。由于圖書摘要是圖書作者根據自己的喜好和理解編寫的,帶有很大的隨意性和不準確性,使得圖書信息描述缺乏統一的客觀標準,很難有效構建圖書信息描述內容的一致性供用戶有效檢索。
現代數字圖書館對于圖書資料是以數字文本文件的形式存儲,這為利用計算機進行智能內容分析進而準確地描述圖書信息提供了可能。另外,近年來發展的數據挖掘技術和人工智能技術等,可以有效應用到圖書信息的提取描述中。
2.1統計分析的應用
對數字圖書館中的文本內容進行句法分析,提取文本中出現頻率最高的詞匯,然后結合專業特點以及圖書內容摘要和所屬類別,對圖書內容的主要側重點給出得分,具體包括理論性得分、實踐性得分、交叉學科得分、前沿性得分、基礎知識性得分、科普性得分和專業性得分等等。獲得得分以后,可以對該圖書進行標準化精確描述。比如對于計算機學科中操作系統教材的標準化描述:理論性較強,實踐性較強,交叉學科性低,前沿性低,基礎知識性高,科普性低,專業性高。如此標準化描述以后,基本弄清楚該圖書適用的讀者對象層次。另外通過對高頻率詞匯的分析,可以具體描述該操作系統教程側重講授的知識重點,比如側重進程管理,存儲管理等基本原理還是側重操作系統具體的使用等等。
獲得圖書資料的標準化描述以后,借助聚類分析對數字圖書館圖書進行聚類,實現不同層次的圖書之間關系的分析。比如對操作系統方面的圖書而言,可以將其分類,即哪些是基礎理論性書籍,哪些是實踐應用性書籍等,進而給出圖書之間在各個描述特性的相對比值,為讀者進一步選用提供更好的指導。
肖妍:數字圖書館的資源信息描述系統分析研究肖妍:數字圖書館的資源信息描述系統分析研究2.2關聯性分析的應用
關聯分析指的是從大量數據中發現項集之間有意義的關聯和相關聯系。關聯分析最初從購物籃分析發展而來的,也就是通過發現顧客購物籃中的不同商品之間的聯系,分析商品之間的關聯關系。關聯分析可以幫助零售商制定營銷策略。顯然,通過分析用戶一段時間內頻繁閱讀的某一些圖書資料,就可以為圖書管理人員對圖書的關聯性描述提供基本數據依據。比如,一個計算機專業的本科生頻繁地查詢操作系統教程、數據結構教程以及相關的練習冊,那么通過關聯分析發現這幾本圖書之間存在關聯關系,它們從屬于計算機本科教程,同時和相關的練習冊共同組成本科骨干課程的教輔資料。于是對于一個即將報考碩士研究生的本科生而言,圖書館員可以通過這些分析結果,將關聯關系的圖書優先向該本科生推薦。
關聯分析可以豐富圖書關系的描述,使得數字圖書館圖書資料不再是一個個孤立的圖書資料,而是相互間存在許多關聯性,這對于圖書的存儲和用戶服務都有很大的促進作用。
3數字圖書館的圖像信息描述
文本數據是大多數圖書資料最主要的內容,但是圖書一般也包含一些插圖、圖示等,這些圖片甚至視頻資料常常是圖書重要的補充,而有一些圖書內的圖片或者附帶的視頻更是該圖書的主要內容,例如畫報、中藥材書籍以及其他圖書。隨著網絡的普及,許多視頻和音頻資料也成為數字圖書館的重要收藏內容,因此如何對這些圖片、視頻或者音頻等非結構數據進行描述成了關鍵問題。endprint
目前基于圖像內容的描述主要有兩種方法,一種是基于圖像內容的人工描述,一種是基于圖像內容特征的計算機自動描述。前者存在人為描述的不準確性和不完備性,另外,由于圖片數量龐大,人工描述費時費力,更為困難的是對于專業性強的圖像,很難通過人工描述完成。后者具有自動化程度高,不需要耗費巨大的人力和物力,描述的信息完整等優勢,但是和人工描述相比,存在一個不能準確理解圖片內容的困難。因此通過人工和計算機描述結合可以取得更好的效果。例如可以先將基于圖像內容的描述進行分類,然后使用人工方法對某一大類圖像進行綜合描述。這樣既節約了人力和物力,也使得圖像描述更為準確和完整,更重要的是可以集中人力對圖像進行專業理解和專業描述。
基于圖像內容的人工描述具體應該包括:①圖像所屬的圖書名稱。②圖像所屬的專業領域。③圖像內容的基本要素組成。④ 圖像在該圖書中起到的作用以及插圖的目的。⑤圖像描述的組成名稱以及這些組成之間的關聯關系。通過以上五點人工描述,基本完成了對該圖像內容的描述,這為后期用戶的檢索和應用提供了基本依據。基于圖像內容的計算機自動描述主要描述該圖像的幾何形狀特征。主要包括:①該圖像的顏色。② 圖像內物體的形狀。③ 圖像內特征點的位置以及特征點之間的關系。④ 圖像內曲線段和直線段的關系等等。這種基于圖像內容的描述主要用于圖像的初步聚類和分類中,但是對于那些需要搜索相關圖像內容的用戶卻是唯一的手段。比如一個用戶在戶外拍攝到一幅花朵的相片,希望訪問數字圖書館了解該花朵的名稱以及這種植物的特性等等,而基于圖像內容的計算機自動描述的結果就成了該用戶檢索花朵的唯一依據。因此計算機自動描述的圖像特征對于僅僅根據一幅圖像檢索數字圖書館中的相似圖像是十分重要的。
4圖書資料信息描述系統的組成與應用
4.1信息描述系統的組成
數字圖書館信息描述系統主要有兩個功能:一個是對數字圖書館圖書資料進行信息描述,另一個是為用戶檢索提供可靠和精確的圖書信息服務。前者屬于系統的后臺功能,后者屬于系統的前臺功能,由此可以得到系統的組成模塊:①圖書資料標準化人工描述模塊。該模塊主要負責對圖書進行人工評估。②圖書資料的非結構化數據的綜合描述。該模塊主要實現對圖片和視頻等資料進行人工解釋和計算機特征的自動提取。③圖書之間的結構描述模塊。該模塊實現對圖書資料之間的分類、聚類和關聯分析。④數據庫存儲模塊。實現對圖書描述信息的存儲。⑤檢索模塊。根據用戶提供的檢索信息從數字圖書館提取用戶需要的圖書資料。
4.2信息描述的系統應用
數字圖書館由于其信息資源數字化和信息傳遞網絡化的特點,使其不可能僅僅是一個收藏圖書的電子數據庫,而必將成為一個為用戶提供信息服務的基本支撐平臺。這樣數字圖書館不再僅僅局限于被動地為用戶提供圖書資料,而是主動根據用戶需求過濾無用信息,將圖書資料信息篩選、集成和分析,給出符合用戶需要的信息報告,這是數字圖書館的基本研究方向和發展方向。
目前,由于云技術、4G技術以及移動終端的發展和普及,人們借助移動平臺可以隨時獲取其相應的信息和報告,數字圖書館必須滿足人們這種日益增長的信息服務需求。信息描述系統就是這樣的一種基本支撐平臺。比如一個游客到公園里游玩,他如果試圖了解公園里面一種植物的相關知識,就可以使用手機拍攝圖片,包括樹干、葉片和花朵形狀等,然后上傳到數字信息描述系統平臺,系統平臺根據傳輸過來的圖像信息,提取特征,然后到數字圖書館搜索,比如搜索一些相關的植物學方面的圖書資料。系統就可以提取其中的文字介紹,形成一個文檔報告回傳至用戶手機終端,這個報告可能包括這種植物的名稱、屬性、所屬科目、習性特點和功能等等。可以發現,這種報告的形成不再局限于圖書資料的堆積,也不是簡單的類似百度百科的詞條解釋,而是根據用戶提供的感性描述,提供一個綜合性報告。
5結論
數字圖書館是計算機技術和網絡技術深入融合發展的必然結果,它大大擴展了傳統圖書館的功能,將為用戶提供精確和實時的知識服務,而且不受時間和地點的限制。本文僅僅就數字圖書館的信息描述系統做了基本功能性的研究,具體的系統結構,數據庫設計等需要深入的設計研究和開發。隨著信息描述系統平臺的成熟和完善,數字圖書館為用戶提供的將不僅僅是簡單的圖書檢索和查詢,而是為他們提供咨詢甚至決策服務。
參考文獻:
[1]白雪冰.網絡環境下的數字圖書館建設[J].中國信息科技,2014(1):75-76.
[2]王運景,王林毅.淺析高校數字圖書館建設[J].教育教學論壇,2014(1): 8-9.
[3]車慧,鐘文娟.基于到館參考咨詢服務的圖書館服務優化研究[J].內蒙古科技與經濟,2014 (1):112-113.
[4]楊紅雨.我國數字化圖書館的發展[J].內蒙古電大學刊,2014 (1):74-75.
[5]李雪峰.未來圖書館服務模式的轉變[J].理論觀察,2014 (1):110-111.
(編校:周雪芹)endprint