隨著Web的迅猛發展,社會信息資源的類型以及信息產生和發布的方式都發生了巨大的變化,圖書館信息服務環境也隨之發生了根本性的變化,首先是信息資源空間的數字化,用戶信息行為正從文獻獲取轉為數字化網絡化地獲取信息,并逐步成為一種基本要求和行為習慣。那么,怎樣合理、有效地對各類數字信息進行組織、檢索、訪問和利用;怎樣有效利用互聯網的優勢向用戶提供海量數字信息服務;這正是本文研究的重點。
一、數字圖書館信息服務技術的功能
1.可以優化服務資源。數字圖書館的文獻資源將以電子化的館藏為主,各種文獻信息資源都轉化成數字形式,存貯于一定的載體上。圖書館在資源共享的前提下,應優化開發電子信息資源。首先要使館藏資源數字化。其次要大力開發網絡資源,通過互聯網把境外資源引進自己內部服務器,以節省用戶上網費,通過網絡機器人實現專題信息的自動抓取,以滿足部分用戶的特定需求。
2.可以轉變信息服務模式。在數字圖書館環境下,用戶查閱信息的模式將徹底改變,用戶和信息服務人員將通過網絡傳遞請求和信息,并以用戶為中心,根據用戶的需求,信息服務人員適時、主動地向用戶提供知識化的信息咨詢服務。要實現此模式(user-centered),首先要加強用戶需求的調研和預測,以增強信息服務的針對性和時效性:其次要注重用戶認知能力的培養,使用戶樹立信息意識激發信息需求。所謂用戶信息認知能力是指用戶對媒體的認知能力、計算機操作應用能力、網絡認知能力以及傳統的圖書館利用能力等。
3.可以改革信息工作體系。傳統的信息工作是一種線性模式,文獻信息經過采集、整理加工、流通傳遞、檢索咨詢等環節才能到達用戶手中,而這些環節是彼此分離的,由不同的人員來完成,結果使工作始終停留在文獻信息的表層,對信息內容難以有效揭示,從而限制了信息服務的水平。在數字圖書館環境下,信息的取得和加工都變得極為方便和迅速,既能使傳統信息服務環節由一個人完成,更能使信息服務人員以信息內容為中心,并且可以對內容單元進行重組和研究,從而將信息服務的水平大幅度提高。信息機構將按知識體系來形成工作體系,每人以固定的知識類別為工作對象,采集加工、研究信息內容、提供信息咨詢服務,總體上由綜合協調人員來把握全局。這樣可以進一步深化服務內容。
二、數字圖書館信息服務的關鍵技術
數字圖書館信息服務的信息推送和信息推送的所需元數據的主動抓取,主要應用技術包括:OAI協議、移動Agent技術、信息過濾技術和XML語言。本文重點介紹信息過濾技術。
1.信息過濾技術的分類
(1)基于內容的過濾?;趦热莸倪^濾源于信息檢索,采用了與信息檢索相似的技術。信息對象(如文本文檔)的過濾是建立在其內容與用戶興趣模型文件相比較的基礎上的。基于內容過濾的系統的優點是簡單、有效;缺點是:首先,基于內容的技術在碰到相同主題的文檔時,很難區分質量的高低;第二個問題是不能為用戶發現新的感興趣的信息。由于系統只能將與用戶興趣文件相比較得分高的文檔推薦給用戶,用戶將局限于看到那些與已評估過的文檔相似的文檔。
(2)協作過濾。協作過濾的出發點在于任何人的興趣不是孤立的,而是處于某個群體中的。系統根據相同或相近興趣的用戶對相應信息做出的評價,向其他用戶進行推送,與基于內容的過濾相比,協作過濾有下列優點:能夠過濾難以進行機器自動內容分析的信息,像藝術品、音樂、電影等;能夠基于一些復雜的,難以表述的概念(如質量、品味)進行過濾;具有推薦新信息的能力。但是,協作過濾也存在一定的局限性:其一,要想獲得滿意的效果,需要建立在擁有大量的用戶評價信息的基礎上,這很難做到(幾乎都集中在音樂、電影等娛樂方面),使得協作過濾技術應用領域較為狹窄,在更廣的領域(如在文本過濾相當成功的文本相關性領域)的應用還很不夠;其二,系統的可擴展性較差,即隨著系統用戶和信息資源的增多,系統的性能會下降。
2.信息過濾的算法類型
信息過濾是個性化主動服務的重要環節。根據實現的原理不同,信息過濾分為基于內容的過濾和協作過濾以及把兩者結合起來的混合過濾。我們根據數字圖書館信息服務的特點,設計了一種基于移動Agent的信息過濾算法。
(1)移動Agent的信息過濾算法。信息過濾Agent根據用戶已有信息資源分析用戶喜好,建立用戶信息的興趣庫,并且可以根據用戶Agent收集的信息的不斷變換不斷修正興趣庫。
(2)移動Agent的信息過濾算法的實現。信息過濾Agent采用向量空間法進行過濾的主要思想是按照信息中各個關鍵詞的出現頻率建立關鍵詞向量,根據各關鍵詞向量在向量空間中的夾角確定信息之間的相似度。系統將與用戶原有信息相似度最大的信息推薦給用戶。
3.關鍵詞向量的計算方法
(1)信息預處理。原始信息中含有大量無意義的詞匯,如冠詞、連詞等,必須首先通過一個stop word表把它們去掉。對于以英文為代表的西方文字,需要通過詞的修剪(stemming)將同一個詞的不同形式統一,例如動詞的不同時態變原型,名詞的復數變單數。對于中文,由于各個詞之間缺少分隔符,需要進行切割詞語工作。
(2)關鍵詞向量映射。預先定義一個關鍵詞詞表,形成一個關鍵詞空間。
(3)關鍵詞向量合成。由于Agent中包含多條信息,為了提取這個Agent的整體特征,將Agent中所有信息映射后的關鍵詞向量進行矢量合成,得到新的向量。
(4)關鍵詞向量降維。由于關鍵詞向量的維數較高,分類器采用閾值分界法提取向量的主要特征。
(5)得到代表Agent興趣的關鍵詞向量以后,采用其中出現頻率最高的關鍵詞,到信息數據庫中查找相關信息。
在信息過濾的過程中,從文檔中提取關鍵字是最為重要的一步。對于算法本身,不管采用多么好的模式匹配方法,系統只有接受高質量的關鍵字,模式匹配算法才能發揮它的應有效率。
當信息過濾Agent打開一個XML文檔時,它讀取文檔的title,head,text等元標識對之間的內容。提取這些元標識對之間的信息后,再在這些信息中提取關鍵字。同時,對于有keywords或關鍵字字樣的文檔,可直接提取它們后面的幾個短語關鍵字。對提出的所有詞按其在文檔中的每個位置打分,將各個位置的分數累計,按總分多少排序,總分最多的就認為是關鍵字了。
三、結束語
數字圖書館最重要也是最基本的職能是信息服務功能。現代信息服務是以信息技術為核心和動力發展起來的,信息技術的超速度發展必然要帶動信息服務模式的轉變。從“以資源為中心”的信息服務模式向“以用戶為中心”的服務模式轉變是數字圖書館發展的必然趨勢。因此,在數字圖書館中構建自適應用戶需求的信息服務系統成為數字圖書館信息服務的一個主要研究方向,該系統應能夠主動分析用戶需求、主動搜索、加工信息,并主動發布信息,變“人找信息”為“信息找人”以用戶為中心,滿足用戶對信息的渴求。
(作者單位:西昌學院圖書館)