房小可
(北京聯(lián)合大學應用文理學院 北京 100191)
檔案檢索是檔案資源利用環(huán)節(jié)中的一個重要組成部分。自20世紀30年代,我國檔案學科便有檢索的相關研究,當時學者們將之歸納為點收、登記、分類、編目等諸多環(huán)節(jié)。1990年,馮慧玲、李憲在《檔案檢索的原理與方法》著作中系統(tǒng)地探討了檔案檢索的全過程,是一部體系完善、理論深入的檔案檢索學科專著,該著作的出版代表了檔案檢索進入一個系統(tǒng)的研究階段。2009年周銘等學者在發(fā)表《檔案檢索學科形成與發(fā)展芻議》一文中認為檔案檢索學科是檔案學學科體系中研究檔案檢索工作的理論、方法與技術的一門新興分支學科,并對檔案檢索學科形成的歷史進行了回顧[1]。然而伴隨著數(shù)字時代的到來,檔案檢索領域萌生了諸多嶄新的研究課題,本文對2000年至今的國內(nèi)外檔案學領域期刊文獻展開數(shù)據(jù)統(tǒng)計和主題分析,對近20年的檔案檢索領域的研究熱點進行觀點提取和評述。
根據(jù)布拉德福定律:領域內(nèi)的高質(zhì)量文章刊載在核心區(qū)。因此本文期刊來源選取了8本檔案學科核心刊物在2000年-2018年所發(fā)表的檔案檢索領域的高質(zhì)量文章。其中8本刊物分別為《檔案學研究》、《檔案學通訊》、《中國檔案》、《檔案與建設》、《浙江檔案》、《山西檔案》、《北京檔案》和《檔案管理》。以“中國知網(wǎng)學術文獻總庫”為檢索范圍,檢索詞為(SU=’信息檢索’ OR SU=’信息查找’OR SU=’檢索系統(tǒng)’)并選擇精確檢索,共得到文章數(shù)量為137篇,期刊分布分別見圖1所示。
從圖1可以看出,大體上以上8本刊物均刊登關于檔案資源檢索的文章,且數(shù)量相差并不多。其中《檔案學研究》在檔案資源檢索方面的論文最多,共24篇,占所調(diào)查論文數(shù)量的18%,其次是《山西檔案》(21篇,15%)和《檔案學通訊》(19篇,14%)。由此可見,該領域的研究一直是檔案學界的熱點。
通過對所搜集文獻的內(nèi)容分析,得到國內(nèi)有關檔案資源檢索的研究主題大致分為檔案資源檢索原理及檢索需求的理論研究,檔案網(wǎng)站檢索及檔案資源整合的實踐研究,檢索系統(tǒng)及檢索方法研究。
1.2.1 我國檔案資源檢索的理論層面
由于檔案較情報、圖書等信息更具有復雜性,因此檔案檢索問題有必要結(jié)合檔案特征進行分析。2000年以前的檔案學者主要就檔案檢索內(nèi)容的編目問題進行探討,隨著對檔案管理工作認識的深入,從理論層面學者主要從以下兩個方面展開研究。
一是來源檢索與事由檢索的辨析。來源檢索指基于來源原則的檢索,黃夏基[2]認為信息化檔案館館藏檔案檢索對于用戶而言,就是查取與獲得,在本質(zhì)上是對檔案重新獲得或恢復的過程,事由原則指導下的能解決查詢相關性問題,但是由于以主題聚類而忽略檔案形成的固有規(guī)律性,導致檔案固有邏輯聯(lián)系的拆分,應以來源原則(來源共同性基礎上的事由共同性)來解決此問題;桑毓域[3]論述了檔案文件的歷史聯(lián)系與邏輯聯(lián)系,及其對應的歷史檢索與信息檢索的概念,提出目前頒布的檔案著錄規(guī)則項目,主要用于信息檢索的需要,基本沒有考慮檔案文件的歷史聯(lián)系,最后指出電子文件整理依然要堅持歷史聯(lián)系與邏輯聯(lián)系并重的原則,二者決不可以相互混淆和相互替代;王麗莉[4]認為在電子文件時代,檔案數(shù)據(jù)往往來源于各個不同的機構和組織體,有時區(qū)分文件的原始形成者變得十分困難,即需要以檔案的事由為主要的檔案檢索方式,從而代替以來源原則(機構的職能)為檢索手段的網(wǎng)上服務方式,提出通過檢索工具的構建,打造來源原則基礎上的事由原則的服務利用方式。
二是面向需求的檔案檢索理論研究。有部分學者從宏觀角度理性探討基于用戶需求檢索的重要性,趙屹[5]指出檢索方便性是網(wǎng)絡檔案信息利用內(nèi)容之一,其中對利用者進行需求分析,掌握利用者對檔案信息的需求是實現(xiàn)網(wǎng)絡檔案信息服務的前提條件;石磊[6]認為檔案利用需求包括利用者對檔案信息的需求,以及為了保障利用者全面、及時、準確、有效地查找到檔案信息而建立的相關服務需求,并提出建立完備的當那檢索體系是滿足檔案利用服務的有效途徑。還有學者基于社會調(diào)查分析的方法獲取用戶檢索需求,如祝潔等[7]通過對河南省部分檔案網(wǎng)站用戶的問卷的調(diào)查發(fā)現(xiàn),用戶對檔案網(wǎng)站檢索功能尤其是高級檢索更能的要求越來越高,而就河南省內(nèi)多數(shù)檔案網(wǎng)站為例,檔案檢索功能較為簡單,只提供了關鍵詞的簡單檢索,當前檔案網(wǎng)站的檢索功能遠遠未能達到用戶的需求。
1.2.2 我國檔案資源檢索的實踐層面
一是檔案網(wǎng)站檢索的的研究。此部分研究從研究對象上分可以分為兩個方面,一方面是對國外檔案檢索網(wǎng)站介紹性研究,如趙屹[8]以美國網(wǎng)絡檔案信息檢索系統(tǒng)ARC為例,從檔案源、著錄項、檢索途徑、檢索新功能、系統(tǒng)數(shù)據(jù)及檢索性能介紹此NARA提供的檢索工具;廖穎[9]介紹了美國國家檔案館電子文件的開發(fā)利用情況,并詳細解釋了三個在線檢索系統(tǒng)(OPA、ARC、ADD)的功能;曾偉忠等學者[10]對NARA網(wǎng)站檔案研究板塊所以提供的信息檢索工具和檢索方式繼續(xù)系統(tǒng)深入的探析。另一方面是對國內(nèi)外網(wǎng)站檢索系統(tǒng)的改進研究,如趙山山[11]通過對我國三十個省級檔案局館網(wǎng)站的調(diào)研得到目前我國檔案網(wǎng)站檢索功能的現(xiàn)狀及問題,包括資源匱乏、檢索范圍狹窄等,并提出改進意見;郭艷玲等學者[12]通過國內(nèi)外網(wǎng)站檢索功能的比較,得出我國在檢索資源、檢索方式等方面還有很大發(fā)展空間;此方面研究還有文獻[13][14]等,都是通過國外網(wǎng)站比較或是基于省級網(wǎng)站的調(diào)查得出我國檔案檢索需要改進之處及建議。
二是面向檔案檢索的檔案資源整合研究。此部分主要從實踐層面的檔案資源整合方案、網(wǎng)絡開放目錄兩個層面展開討論。在整合方案方面,熊志云[15]從網(wǎng)絡時代特征入手,分析了我國檔案信息資源的整合趨勢并對其前提條件、基礎工作、技術手段等進行了闡述。此后該研究主要以王蘭成[16]為代表,該學者自2009年起對XML模式的檔案數(shù)據(jù)庫信息共享機制進行研究,基于異構檔案數(shù)據(jù)庫信息整合與技術方案構建出具有本體知識和詞素分析轉(zhuǎn)換模型,并開發(fā)出一套檔案信息概念檢索的原型檢索系統(tǒng);在2011年該學者進一步從語義視角研究基于語義的檔案信息整合及基于XML、EAD異構檔案信息組織及其本體方法的應用[17]。在網(wǎng)絡開放目錄整合方面,武琳[18]認為構建我國開放目錄的途徑包括檔案資源的整合尤其是民生檔案的整合,并且以此實現(xiàn)多媒體檢索、統(tǒng)一入口跨庫檢索等功能;曾偉忠[19]建議我國應逐步建立全國檔案開放目錄聯(lián)機著錄中心,運用檔案信息共享的理念和聯(lián)機編目手段通過互聯(lián)網(wǎng)將各級各類檔案豐富的目錄數(shù)據(jù)資源和人力資源整合起來,實現(xiàn)檔案目錄資源的共建共享。
1.2.3 我國檔案資源檢索的方法層面
一是檢索系統(tǒng)的研究。劉劍和王蘭成[20]認為應從檢索方式的智能化和人性化方面入手讓數(shù)字檔案館成為人們查詢檔案的第一選擇,并提出了基于主題詞表的概念搜索引擎;藍天[21]通過對國內(nèi)多家檔案網(wǎng)站的調(diào)研,探索和建立出面向知識檢索的檔案網(wǎng)站檢索系統(tǒng)的科學評價方式;張倩[22]圍繞現(xiàn)階段檔案信息檢索技術面臨的突出問題,將搜索引擎的創(chuàng)新技術應用于檔案信息檢索領域,提出依托智能搜索引擎構建檔案信息檢索系統(tǒng)的策略;趙雪芹[23]通過分析現(xiàn)行檢索服務存在的弊端及用戶面臨檢索困境,提出了將資源發(fā)現(xiàn)服務作為一種高效便捷的資源揭示和檢索系統(tǒng);張園[24]指出傳統(tǒng)計算機檔案信息檢索系統(tǒng)受制于關鍵詞匹配技術,因而提出基于檔案領域本體的檔案信息檢索系統(tǒng)模型框架病并對每一部分進行了詳細闡釋;張斌等學者[25]認為檔案知識檢索是檔案知識庫提供檔案知識服務的主要手段,設計了檔案知識檢索系統(tǒng)并將基于本體的知識網(wǎng)絡確立為其檢索結(jié)果的呈現(xiàn)形式;李曉艷等[26]探討了新媒體環(huán)境下檔案信息檢索存在的障礙、技術局限等問題,由此提出創(chuàng)新發(fā)展智能化搜索引擎、基于內(nèi)容特征的多媒體檢索技術等應對策略;
二是新媒體檢索方法研究。劉越男[27]在2001年發(fā)表文章指出檔案計算機檢索是紙質(zhì)檔案手工檢索向電子文件檢索的過渡形式,并提出電子文件Web檢索的可行性;林周佳[28]提出了傳統(tǒng)檔案檢索方法的不足,提出了語義檢索系統(tǒng)模型,并分析了語義檢索技術。錢萬里[29]在介紹了基于內(nèi)容的數(shù)字化音頻檔案信息檢索的概念后,對數(shù)字化音頻檔案信息檢索進行了分析并梳理所需要的檢索技術;呂元智[30]根據(jù) Linked Data 和多媒體檢索技術,從理論上設計了數(shù)字檔案資源跨媒體語義檢索實現(xiàn)功能框架和過程框架,并對數(shù)字檔案資源跨媒體語義檢索實現(xiàn)所涉及的理論與技術創(chuàng)新等關鍵問題展開了探討;徐彤陽等學者[31]針對視頻檔案提出了一種基于Contourlet變換的視頻檢索框架;顧偉[32]從聲像檔案檢索存在的問題出發(fā),基于用戶檢索需求提出應用深度學習技術檢索聲像檔案的觀點;謝建云[33]分析傳統(tǒng)基于文本聲像檔案管理工作的瓶頸,圍繞基于內(nèi)容的海量視頻檢索的特征與技術問題,提出將基于內(nèi)容的檢索方法應用于數(shù)字檔案館中視頻檔案管理領域。
對于國外期刊,本文選取了國外影響力比較大的9本英文刊物:《The American Archivist》、《Journal of Archival Organization》、《Archives $ Records》、《Records Management Journal》、《Archives and Manuscripts》、《Archivaria》、《Archival science》、《Restaurator》、《Archifacts》。筆者選擇EBSCO平臺的圖書情報數(shù)據(jù)庫,檢索詞為(SU=’information retriev*’OR SU=’information search*’ OR SU=’retrieval system’)并選擇精確檢索,共得到文章數(shù)量為254篇,期刊分布圖2所示。
從圖2可以看出,與國內(nèi)期刊分布不同,國外期刊在檔案資源檢索方面的研究上數(shù)量差距比較大,其刊發(fā)此類論文最多的期刊是《Archives & Records》,占期刊總量的一半以上,其次是《Journal of Archival Organization》和《Archives and Manuscripts》,其余的國外期刊發(fā)表檔案檢索方面的文章并不多,這可能是由于國外期刊類別比較明確的原因。
通過對所搜集文獻進行內(nèi)容分析,我們發(fā)現(xiàn)國外有關檔案資源檢索主題大都從實踐與方法層面進行的研究,筆者進而對其涉及的主題予以歸納,將其分為信息組織與元數(shù)據(jù)研究、網(wǎng)站檢索輔助系統(tǒng)研究、檔案檢索方法研究三方面內(nèi)容。
2.2.1 信息描述與元數(shù)據(jù)研究
信息組織的歸宿即是檢索,此部分本應屬于信息檢索的研究內(nèi)容,主要通過信息描述及元數(shù)據(jù)展開的研究。Riley J.[34]指出“可共享”元數(shù)據(jù)概念在文化遺產(chǎn)社區(qū)中出現(xiàn),表明人們越來越期望公開描述性元數(shù)據(jù),檔案管理員也應該努力創(chuàng)建可共享的元數(shù)據(jù),并討論了可共享元數(shù)據(jù)原理及應用于檔案描述所涉及的問題、工具和策略;Millar L.[35]認為檔案描述實際上是社會制度和責任的工具,通過對傳統(tǒng)事后檔案描述與基于連續(xù)體的檔案描述的對比得到,二者都是作為文件問責的有效工具,但是對于其外延中保存這些記錄的機構等更大范圍描述的完整性是不夠的。為了增進人們對檔案背景及數(shù)字內(nèi)容之間關系的理解,Zhang J.等[36]對檔案描述與數(shù)字對象描述元數(shù)據(jù)之間的關系進行了深入的討論,研究表明檔案工作者有意識地在檔案描述和數(shù)字內(nèi)容之間建立聯(lián)系,但在檔案語境與數(shù)字內(nèi)容整合層面上仍面臨挑戰(zhàn)。
此外,國外學者依托實踐項目或職能機構對編碼檔案描述(EAD)進行了研究。Clavaud F.等[37]以項目為依托介紹了四個項目如提取都柏林核心集中的數(shù)據(jù)用于web上數(shù)字圖像的數(shù)字化描述等,為EAD用戶提供方法及工具,提升檔案查找質(zhì)量。Hill A.等[38]討論了基于EAD編碼檔案描述的三種不同的聯(lián)機服務,研究結(jié)果表明,對于用戶的創(chuàng)建、存儲、索引、搜索需求,EAD呈現(xiàn)了其靈活性。Barbara R.L.[39]介紹了2002年在日內(nèi)瓦城市檔案館與公共大學圖書館手稿部在檔案描述領域合作的內(nèi)容與結(jié)果,它們共享技術和概念,如當?shù)貦n案館和圖書館的應用都根據(jù)國際描述標準XML和EAD組合構建的。
2.2.2 檔案檢索輔助系統(tǒng)研究
檔案檢索輔助系統(tǒng)在國內(nèi)通常依托檔案信息網(wǎng)站的形式出現(xiàn),在國外是在線檔案查找輔助工具。此方面的研究更多是圍繞有關檢索系統(tǒng)的術語規(guī)范性及檢索功能展開的。在術語規(guī)范性方面,Mascaro M.[40]介紹了俄亥俄州圖書館基于EAD的受控標題的研究,結(jié)果表明受控標題被廣泛實踐,其中專有名詞和專題名詞最為常用,其次是地名和體裁名詞。Wendy S.[41]通過實驗的方法研究人們使用檔案檢索輔助工具訪問檔案的途徑,研究結(jié)果表明,網(wǎng)站結(jié)構通常以使用者對檔案原則的知識為前提,用戶對于術語、原則、結(jié)構等并不熟悉,因此對于網(wǎng)站建設來說,應該深入剖析到底什么才是提升在線查找輔助工具效用的解決方案。Rolan G.[42]對于基于網(wǎng)絡的檔案服務的提供仍然對廣大社區(qū)成員訪問造成重大障礙問題,作者認為其原因之一是當前的記錄和歸檔標準并沒有足夠的規(guī)范性確保互操作性,且沒有對社區(qū)成員的發(fā)現(xiàn)和訪問所需要的所所有元素進行建模,這應予以重視。
在檢索系統(tǒng)功能方面,Kim J.[43]基于內(nèi)容分析法分析研究了EAD查找工具的五個不同方面:數(shù)據(jù)元素、標記術語、導航、瀏覽和搜索,研究表明EAD編碼的網(wǎng)站中數(shù)據(jù)元素、術語和瀏覽功能是滿足的,但是導航和搜索功能仍然欠缺。GueguenG.[44]指出許多機構嘗試通過利用檔案檢索輔助系統(tǒng)增加其網(wǎng)上的數(shù)字展品,而不是通過資源密集型的館藏和展品,從這一背景出發(fā)作者介紹了數(shù)字圖書館的查找輔助系統(tǒng),為檔案館提供借鑒。Daines J.G.D.[45]等面向用戶需求提出采用一次向用戶呈現(xiàn)多級描述的查找輔助系統(tǒng)概念模型,并引入Brighan Young大學的查找輔助系統(tǒng)演示了使用多級描述的來滿足用戶滿意度。
2.2.3 檔案檢索方法研究
關于檢索方法問題,大量國外相關文獻聚焦于探討如何通過組織方式改善檢索性能,我們大致可將其分為檢索工具的建立及擴展語義信息兩個層面。在建立檢索工具方面,Silvia S.K.[46]闡述了以色列檔案館面臨的幾個問題,如創(chuàng)建信息檢索工具、綜合詞典等,基于此文章討論了基于敘詞表的索引從元數(shù)據(jù)或文檔內(nèi)容中檢索信息等多種方案,最后提出建立基于ISAD和ISAAR的檔案著錄和信息檢索系統(tǒng)的建議。Niu J.F.[47]為了實現(xiàn)某些機構如文化遺產(chǎn)機構便于信息對象的檢索,文章基于事件的信息組織方法分析了事件與功能的區(qū)別,探討了利用事件作為檔案信息組織和描述的來源,并討論了重新設計檔案描述元數(shù)據(jù)的兩種方法。擴展語義技術一直以來是信息檢索領域的熱點關注問題之一。Milne C.[48]探討了在檔案檢索中上下文分類在門戶或內(nèi)部網(wǎng)絡開發(fā)中的適應性問題,以期能在整個信息行業(yè)中建立更強有力的跨學科聯(lián)系,進一步發(fā)展“信息檢索”學科。BakG.[49]針對電子記錄系統(tǒng)記錄分類的缺陷,呼吁通過捕捉檔案資源的語義信息擴展記錄分類的定義,打破紙質(zhì)記錄保存規(guī)則的約束,提升檢索效率,通過電子記錄的項目級管理實現(xiàn)記錄保存和檔案實踐的轉(zhuǎn)變。Ricardo E.B.[50]在基于可擴展標記語言EAC-CPF(編碼檔案上下文)基礎上,提出用于檔案信息系統(tǒng)的協(xié)作框架。該框架利用EAC-CPF可以共享上下文和權限記錄之間的關系,且支持輔助導航和主題映射,并提供語義豐富的訪問層以確保不同歸檔保存記錄的位置,進而改善了用戶與網(wǎng)絡的交互體驗方式。Machin J.[51]對斯圖爾特的《信息專業(yè)人員實用本體論》一書進行了評述,在詳述本體理論的同時介紹了有關本體的采用、構建、查詢、語義上下文應用等諸多方面內(nèi)容,該書的本體論非常適用于政府檔案管理員和檔案管理員的工作。
在歸納中外已有的研究特點與內(nèi)容的基礎上,本文通過比較分析得出中外檔案檢索研究的主要特征和異同主要集中在如下幾個方面。
隨著檔案信息化的不斷深入,中外學者均對檔案在數(shù)字環(huán)境下的檢索進行了廣泛的研究。國內(nèi)研究較多是結(jié)合檔案工作的實際問題出發(fā),討論在新時代來源原則與事由原則問題。例如大多數(shù)學者認為傳統(tǒng)的來源原則檢索不能滿足當前信息化時代的電子文件檢索,需依據(jù)新來源原則思想,將檔案的實體來源轉(zhuǎn)移至抽象來源,以電子文件的背景信息的真實可靠不易更改性保證其來源,因此當下對檔案文件的整理要依然要堅持來源原則與事由原則并重。而國外很少在檢索層面探討以上問題。
此外,縱觀國內(nèi)檔案檢索方面的研究,無論是理論層面、方法層面亦或是實踐層面大都從理論角度進行宏觀探討。如在方法層面基于領域本體的檢索模型研究中[24]創(chuàng)新性提出了考慮語義信息進行檔案檢索的方法模型,但缺乏實驗性驗證,仍停留在理論層面的闡釋。實踐層面亦如此,這里不加以贅述。
云計算、人工智能、機器學習等新技術的不斷涌現(xiàn),為檔案檢索提供了新的發(fā)展契機。對此,國內(nèi)外學者在方法層面主要圍繞檢索系統(tǒng)改進、檢索語詞規(guī)范性、擴展上下文語義信息方面進行的研究。如國內(nèi)外學者均在實際檢索系統(tǒng)調(diào)研的基礎上,針對傳統(tǒng)檔案檢索語詞匹配、用戶滿意度、瀏覽效果等問題入手,提出對應的解決方案。如國內(nèi)外均對語詞規(guī)范性進行了深入分析[20][46],并提出基于改進詞表的檢索方案。此外,國內(nèi)學者還基于新技術針對新媒體對象的研究方法進行了廣泛的探討,而國外在本文涉獵的期刊范圍內(nèi)很少。特別指出的是,雖然國內(nèi)外學者在方法層面的研究問題相似,但國外學者在每個維度上研究地更為具體、深入。如國外更善于應用具體案例[40][45]對所存在的檢索方案進行剖析,并對提出的建議或方案進行驗證,使其研究更具有說服力,這是國內(nèi)研究值得借鑒的地方。
檔案學科是一門應用性很強的學科,在探討檔案檢索技術問題時應注重實踐性。縱觀中外的檔案檢索研究,國外在此方面的研究更為突出。相比之下,國外在探討“信息描述與元數(shù)據(jù)”、“檔案檢索輔助系統(tǒng)”、“檔案檢索方法”三個方面均注重實踐性要素。如在研究“信息描述與元數(shù)據(jù)”方面,諸多學著探討了EAD在檔案描述方面的優(yōu)勢,并依托實踐項目或職能機構對此方面進行了深入研究[37][38][39];在“檔案檢索輔助系統(tǒng)”方面,[40][42]也是基于機構或團體對檢索語詞的規(guī)范性進行了驗證性研究;在“檔案檢索方案”方面,[43][45]基于具體系統(tǒng)對系統(tǒng)功能和檢索模型進行了探索性研究并進行了驗證。而國內(nèi),如前文所述,無論哪個層面更多偏向于理論層面的研討。
本文在中外檔案學術期刊視角下,對近20年的檔案檢索研究進行了綜述,對國內(nèi)外研究進行對比的基礎上總結(jié)了國內(nèi)外研究的特點。總體而言,國內(nèi)研究主要聚焦于檔案檢索模型與理論框架的整合與設想,缺乏足夠的實證分析和系統(tǒng)驗證案例,而這也正是國外對該領域研究較為突出的地方,值得我們學習與深刻思考。伴隨著歷史資料、檔案信息的數(shù)字化和電子化的深入發(fā)展,未來檔案檢索領域研究將面臨更多機遇和挑戰(zhàn)。