文·張倩
高校積淀的檔案信息資源,記錄著其發展歷程的沿遷。高校檔案信息資源檢索體系是否健全,檔案信息檢索數據化、網絡化服務能力如何,制約著檔案信息資源的開發與利用。本研究緊密依托江蘇高校檔案信息化建設的基礎條件和探索經驗,選用IT技術發展中的優秀成果,從特點要素、功能模塊的智能化改造等方面,提出了一個較為完整的模擬性解決方案,幫助解決當前高校檔案管理機構所面臨的一些現實問題,努力營造智慧型的高校檔案信息檢索服務環境。
江蘇不僅高校多,而且類型多,辦校的歷史大多比較悠久,特別是教育的質量、科研的能力、辦學的效益和管理工作的水平都位于全國前列。可以說,江蘇高校檔案工作的發展狀況,也是全國高校檔案整體發展的縮影。考慮到筆者與江蘇省內高校檔案業界的專家、學者有多年良好的合作經歷,因而選擇江蘇省30所高校檔案館(室)進行問卷調研,通過調研對存在的問題進行深入、系統的分析研究,具體了解高校檔案信息檢索建設的現狀,為進一步研究和具體工作的開展,提供第一手的數據和資料。

表1 高校檔案管理機構調研名單

調研結果顯示,江蘇省高校檔案信息檢索的主要特點體現在以下幾個方面:
江蘇省高校檔案管理機構日臻完善,館藏檔案信息資源檢索工作體系建設已成為高校現代化建設的重要組成部分。很多擁有悠久辦學歷史的高校,都已著手系統挖掘、開發校史文化資源,注重凝練、總結具有鮮明特色的學術傳統和文化氣脈,建立了形式多樣、內涵豐富的檔案信息資源檢索體系,不僅擁有黨政管理、教學、科研、基建、聲像、會計、設備、實物等多門類檔案信息資源檢索數據庫,還有名人全宗、口述校史訪談錄、特色學科檔案信息資源檢索數據庫等。
江蘇省高校檔案管理機構十分重視提升檔案管理信息化水平,開發與應用檔案信息網絡檢索服務平臺的步伐明顯加快。據30家調查樣本反映:設立檔案檢索利用閱覽場所及設備的已占77%;檔案網站上有檢索端口的占66%;檔案檢索系統屬于B/S體系結構的占60%、C/S體系結構的占26%、單機版的占10%;建立檔案檢索相關規章制度的占47%;有檔案檢索相關智能技術開發專項經費的占30%。調研訪談中還發現,很多高校檔案館都在積極轉變角色,努力爭當高校信息資源的整合者、組織者,不僅將檔案工作融于教學、研究和社會服務之中,還積極響應大學變革之需,充分應用檔案信息網絡檢索服務平臺,大力發揮高校檔案“存史、資政、育人”的重要作用,通過不斷創新贏得自身地位。
為提升檔案信息資源開發利用水平,江蘇省一些高校已在研發和應用檔案信息智能檢索技術方面進行了積極探索。據30家調查樣本反映:可進行文本類檔案語義檢索的占63%,有的高校檔案管理機構已采用檔案RFID檢索、云計算檢索等先進技術。如:南京大學檔案館積極引入云計算技術的建立“云檔案平臺”,配備了服務器和站點,不僅能夠使用自然語言進行標引和查詢,而且可以運用文本檔案語義檢索、檔案個性化檢索等方法進行檢索。又如:東南大學檔案館使用專用服務器(HPML350),自主研制了網絡版“聲像檔案管理系統”,建立了網絡化實時歸檔與查詢(檢索)平臺、檔案館SAN系統,使服務器和管理(檢索)系統的安全性、訪問速度和可靠性大為提高。再如:南京藝術學院綜合檔案室主持的《檔案信息智能檢索模式研究》不僅獲得了江蘇省檔案科技項目立項,而且在檔案信息智能檢索技術應用的實證探索方面積累了一定的知識儲備。還如:南京中醫藥大學檔案館準備應用基于web2.0的智能檢索技術,引進新的檔案檢索軟件,希望通過軟件自帶檢索工具實現檔案的分類別、分詞段的各種檢索。
一個完整的信息檢索系統應當必備以下六個功能模塊:文獻與數據選擇與采集子系統、詞表子系統、標引子系統、建庫子系統、系統-用戶接口子系統、提問處理子系統。[1]這六大功能模塊,主要是針對傳統信息檢索系統而設計布局的,不具備檔案信息智能處理的相關功能。因此,必須充分運用各類智能技術,對原有數字檔案館信息管理平臺進行智能化改造。改造重點主要是三個部分:一是建立智能人機接口功能模塊。這是利用與系統之間的“通道”。二是建立知識庫功能模塊。這是智能檢索系統的“資源庫”。三是建立文本處理功能模塊。這是計算機自動處理自然語言形式的文本輸入“轉換器”。通過智能化改造,形成實體檢索與內容檢索的立體檢索結構,使系統一定程度上可實現智能訪問不同載體檔案信息的集成化運作。
在B/S智能集成的結構設置下,用戶端只要通過Web瀏覽器即可進入系統的檢索入口。但檢索入口要想具有人機交互的智能特性,則需提供四個方面的技術支撐條件:一是設計的檢索接口必須簡潔、直觀,界面清爽、一目了然,并擁有可視化的界面和自然語言處理能力。如:讓檢索檔案信息像使用Google、百度等流行的商業搜索引擎一樣容易。二是必須有多種登錄方式供用戶選擇。除了采用普通的賬號方式,還應增加具有智能特性的接口。如:增加語音識別接口、聲紋識別接口、二維碼掃碼接口、射頻識別接口等。三是為用戶創建個性化查詢“標識”。如:根據每個用戶的需要,定制其專屬的個性化搜索引擎。四是實現用戶知識管理和需求分析,將用戶的檢索提問作為詞匯收集的來源,增加檢索入口,提高系統易用性。
所謂“知識庫”,是指檔案信息檢索系統所需各類知識的智能數據庫。它與傳統數據庫不同的性能區別主要在于:知識庫是在數據庫的基礎上,通過對檔案信息資源進行深度語義分析、自動標引等技術處理,從而實現對原始檔案信息中的知識進行揭示和表達。
知識庫的資源儲備和結構優化程度決定著系統檢索能力的高低。因此,在建立知識庫之前,必須根據檔案信息數據庫已有的基礎條件和庫藏的知識資源狀況來科學設計知識庫結構。借鑒相關領域的經驗,在建設高校檔案信息智能檢索服務平臺的初級階段,我們應當先易后難地來建立“高校檔案知識庫”。
1.構建用戶知識庫。建立用戶知識庫,既是系統自動生成查詢與反饋對接機制的內在要求,也是增強系統對用戶查詢詞匯辨認與理解能力的重要手段。可資借鑒的應用實例:一是建立用戶模型庫,通過統一的檢索服務平臺對用戶注冊信息進行智能分析。即:待用戶完成登錄后,系統在對用戶身份信息進行分析的基礎上,進一步對用戶的研究領域、研究偏好與用戶輸入的關鍵詞等信息進行數據挖掘,而后通過自動記錄和分析用戶的檢索需求來建立用戶檔案庫(存貯用戶的基本資料、訪問記錄、訪問行為、興趣偏好等)。二是建立用戶需求類型庫,通過統一的檢索服務平臺對用戶檢索需求信息進行智能分析。即:按高校檔案用戶檢索需求的性質,將其分為“學習研究型用戶、行政管理決策型用戶、咨詢查考型用戶、休閑消遣型用戶”四大類,而后自動錄入用戶檢索需求分類庫。三是建立用戶信息反饋庫,通過統一的檢索服務平臺對用戶的反饋信息進行智能分析。即:收集、分析各類型用戶檢索需求的反饋信息,并根據用戶的反饋信息來調整、更新用戶需求庫,進而確定檔案知識庫的資源范圍,以期達到準確描述用戶需求的目的。四是建立用戶檢索特征詞典庫,通過統一的檢索服務平臺對用戶檢索行為的個性特征進行智能分析。即:以賬號為“標識”,對用戶個性化檢索行為的數據進行分析,并將其自動入駐用戶檢索個性行為特征詞典,以記錄用戶的查詢蹤跡,以利在用戶再次登錄時,可迅速提供其所需的個性化檢索服務。
2.構建檔案信息資源知識庫。建立檔案信息資源知識庫,既是充實和優化高校庫藏信息資源的客觀需要,也是增強系統智能檢索服務能力的重要基礎。可資借鑒的應用實例:一是建立高校機構知識庫。高校檔案管理機構可在原有庫藏檔案信息資源基礎上,不斷搶占先機,積極學習參照國外著名的CDR(Carolina Digital Repository)、OpenDOAR 等,依據來源原則與機構劃分,對高校科研產出成果加以整合并形成檢索數據,以利逐步推進檔案館(室)主導的高校機構知識庫(Institutional Repositories,IR)建設。二是建立高校教學檔案知識庫。高校的教學檔案主要包括“學生學籍、教學文件、課程與學科、教師業務、教學實物”等幾個方面內容。目前,江蘇省多數高校的在校生規模已超萬人,每學期都會產生大量教學檔案,其中各高校檔案館(室)的學生學籍檔案查詢利用尤為頻繁。因此,高校檔案管理機構加強教學檔案知識庫建設十分重要。三是建立特色檔案知識庫。高校檔案管理機構要應用Web數據挖掘等技術,對館藏的特色檔案資源進行整理發掘,并提供在線智能檢索信息的功能,使知名校友等特色檔案資源服務得以互動展示,以利加快推進特色檔案信息數據庫的開發與利用。四是借鑒國外機構網站存檔(OCLC Digital Archive、TRAIL/EDP)的先進技術,加快研發高校官網信息抓取存檔的解決方案,以利實現自動監控報告網站的任何變化并實時記錄存儲的功能要求。五是加強高校之間的合作共享機制建設,大力整合優化高校庫藏信息資源,以利增強跨庫檢索功能。
這次調研發現,江蘇省高校檔案信息檢索系統主要有四種檢索模式[2]:一是常規檢索模式,也被稱為“前控詞表”應用模式,即在標引和檢索兩端均對詞匯進行人工控制,預先采用分類表、敘詞表等“先控詞表”對詞匯進行受控標引,檢索時也采用詞表中的類號和語詞來表達檢索需求。這種方式的查全率和查準率最高,但人工控制需耗費大量的人力物力財力,響應時間也最長。二是自然語言檢索模式,即在標引和檢索兩端均不對詞匯進行控制。目前,絕大多數網絡搜索引擎都采用這種模式,并由全文索引方式建立索引庫,用戶以自然語言進行字面匹配,系統將命中結果返回用戶。這種方式不需任何人工介入,投入最少,但檢索效率低下已是不爭的事實。三是后控制檢索模式,即在標引階段不實施控制,在檢索階段通過“后控詞表”或“自然語言敘詞表”實施不嚴格的控制,可顯示相關詞供用戶用于檢索詞的擴展、參考選用。這種方式兼有自然語言與受控語言的特點,但建立一個“后控詞表”需花費較多人力物力。四是標引階段實施詞匯控制、檢索階段不予控制模式。這種模式采用的是一種半自然語言檢索系統,其在檢索階段增加了一個自然語言接口——入口詞表,但由于編制一個完備的“入口詞表”幾乎不可能,因此檢索效率不高。
其實在黑龍江這片土地上,春天到秋天大概七個月,隨著農作物的成熟期,春耕、秋收都是陸陸續續開展,供油在七個月里都不間斷,只不過那兩個特定的階段是高峰期。“這不,現在收完了大豆,在上凍之前,玉米就要收了。”洪松濤說。
檔案信息智能檢索建設的最終目的是要讓查詢語句與用戶查詢意圖通過計算機自動處理實現“語”“意”相符,而非“問”“答”相悖。目前,針對高校現有四種檢索模式存在的缺陷,我們可采用語義檢索的理念,進一步升級改造“內核受控,外殼非控”的檔案信息檢索系統。即:系統的“外殼”——標引和檢索兩端均采用自然語言,最大限度方便利用者,復雜的檢索匹配等過程均由內核系統完成;系統“內核”是與智能軟件檢索結為一體的檔案檢索語言及基于概念語義網絡的知識庫,可利用系統自動將自然語言轉化為受控語言。[3]這是一種具有自然語言優點又兼具了人工語言優點的檔案信息檢索模型。其技術特性主要有:
1.這種檢索模式提問可直接采用自然語言,用戶無需經過專門訓練即可與系統進行交流,不需要知道提問式在后臺與標引數據所采用的各種知識組織系統的匹配機制,并可通過瀏覽備選詞條選用合適的檢索詞,以利提高檢索速度和精度;檔案管理人員則可采用自由標引方式,讓系統自動將自然語言語句詞轉換為受控的主題詞,與提問式進行匹配。
2.這種檢索模式可通過改造現有的信息組織工具(檔案敘詞表或分類表等源詞庫),將其作為檔案領域“本體”構建的基礎進行改造和轉換,以利于設計和管理超文本鏈路;同時,參考收錄高等教育領域中權威、規范、核心的專業詞匯的辭典,以及研究論文中的大量專業術語和其他網絡百科資源等豐富語料,作為多種同義詞獲取技術相互融合的最佳切入點,為高校檔案領域建立以自然語言敘詞的關聯詞表,并通過篩選規范,最終建成一個能夠體現高校檔案領域概念關系的、適用于網絡檔案信息檢索的“知識圖譜”。
3.這種檢索模式可將主題的特性檢索(直觀性見長)和分類的族性檢索(系統性見長)兩種不同的檢索方式加以結合并相互彌補,從而挖掘出分類號—主題詞串—關鍵詞串之間的概念對應關系,并可利用系統自動實現三者之間的兼容轉換,為分類檢索語言、主題檢索語言、自然語言三者在標引、檢索中的互操作奠定基礎。
4.這種檢索模式可利用超文本技術對有同義、近義、相關等關系的詞進行組織,特別是應用這種分類層次結構的系統,可為用戶提供相關詞、上位詞和下位詞,并能將全文檢索功能與詞表的瀏覽和檢索置于同一界面,以利提示與用戶檢索需求相對應的合適主題詞或語義層面上的同義詞,非常方便用戶選擇使用或直接轉換成主題詞進行查詢。
5.這種檢索模式設置了容錯功能,系統不僅能對用戶輸入的錯字、別字進行智能糾錯,還能聯想適合的主題詞,并可將與之有關的檢索詞條自動出現在下拉框中,以利通過添加檢索詞來提高檔案信息檢索的查全率。
實際證明,應用這種檢索模式的系統能夠多視角、多途徑直觀展示比較完整的語義關系網狀結構,實現自動建立詞間關聯、詞匯聚類,以方便不同層次網絡用戶選擇使用盡可能多的語詞,特別是通過系統提供的提示與導航,可使查詢得到適當的糾正或擴展,從而大幅度提高檔案信息檢索的查準率。
建立健全采集“元數據”檔案信息資源描述標準,這既是實現跨庫數據交換的基礎條件,也是克服多系統模式配置功能互不兼容等方面弊端的有效舉措。但需要指出的是,這些標準的建設,必須注重與國際接軌并優先采用國際標準,同時要使工業標準及事實標準盡量與圖書、情報的國際、國內標準相銜接。如:江蘇省高校檔案管理機構應積極參照CALIS(中國高等教育文獻保證系統)項目建設的成功經驗,對檔案信息數據進行規范化改造,構建統一、規范的“機構知識庫”,完善以數字檔案館(室)為核心的公共服務體系,確立互操作協議,以利實現檔案信息資源跨館、跨數據庫共建、共知、共享。
我們知道,檔案信息資源“元數據”的采集,通常包括檔案著錄和標引,這是檔案信息檢索工作的“前處理”(即:建立檔案檢索系統的基礎和前提)。因此,在對檔案信息數據進行著錄時,必須在全面分析的基礎上,高度重視選擇需要揭示的特征,特別要注意加強內容特征的著錄和標引。
據媒體報道,國際上對檔案機讀目錄交換格式的研究,是從上世紀70年代發展起來的。20世紀80年代初,美國率先頒布《檔案機讀目錄交換格式》標準(MARC AMC), 并于1996年形成了ISO1709信息交換格式國際標準。這項標準,主要是針對檔案的目錄記錄,提供館藏級概略的檔案目錄信息。1993年,美國加州大學伯克利分校首先研發了檔案編碼著錄標準(EAD)。1994年,國際檔案理事會公布了《國際檔案著錄規則(總則)》(第一版)。這是檔案著錄的第一個國際標準,其目的是為各國提供統一合理的檔案著錄規則,方便檔案信息的檢索與交換,以期實現檔案信息資源的全球共享。此外,XML是一種通用、簡單、一致且面向Web的格式化數據和傳送數據的方式(即:綜合了SGML的豐富功能與HTML的易用性,是不同平臺上可實現數據互操作的國際標準格式),它將成為數字檔案館最重要的基礎性語言。
目前,我國雖已制定了《檔案著錄規則》(DA/T18—1999)、《中國檔案機讀目錄格式》(GB/T 20163-2006)等標準,但許多檔案管理機構至今尚未將標準建設放上重要位置,致使檔案機讀目錄數據著錄形式呈各行其是之態。如:一些高校檔案管理機構沒有采用統一標準的機讀目錄(MARC)交換格式,導致各自檔案數據庫數據著錄項目的字段名與字段類型等各不相同,甚至同一個檔案館(室)不同時期錄入的數據,表示形式也不統一;有的只是采用簡單的固定結構格式生成的計算機檔案目錄記錄,無法反映檔案目錄數據的各種變化和類型多樣的特點;有的沒有設置“頭標區”,機讀檔案目錄數據不具備自我說明功能;有的檔案目錄數據的生產和保存要依賴特定的應用軟件,難以實現對檔案信息數據的長久保存和利用;等等。加之,目前全國沒有形成統一的檔案信息檢索行業評價體系和評價標準,這給檔案數據的共享、交換、遷移、傳輸、合并等工作造成了諸多障礙。
毋庸置疑,全面推行并實施數字網絡環境下檔案信息資源描述標準,這已是建立檔案信息智能化、共享化檢索模式的當務之急。因此,我國各級檔案行政管理部門和高校檔案管理機構應借鑒數字圖書館等其他行業信息化建設的成功經驗,按照“統一、通用、科學、規范、共享”的原則要求,加快推進檔案標準制定工作。與此同時,高校檔案管理機構應通過MARC AMC、EAD、DC元數據等標準格式的建設,盡快采用目錄、索引及機讀數據庫等多種形式的檢索工具來創建完備的系統梯度檢索體系,尤其要加快建立如Z39.50等適合異構分布式檢索系統的標準檢索協議,促進高校檔案信息檢索系統之間的無縫鏈接,以利跟上并融入全社會信息化建設的進程。
● 參考文獻 ●
[1]陳麗.檔案信息檢索[M].成都:四川人民出版社,2010:183.
[2]侯漢清、馬張華.主題法導論[M].北京:北京大學出版社,1991:22-23.
[3]馬張華,侯漢清,薛春香.文獻分類法主題法導論[M].北京:國家圖書館出版社,2009:307.