999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數字檔案館的知識組織

2008-01-01 00:00:00王應解
北京檔案 2008年1期

作為網絡時代檔案館的新形態,數字檔案館是采用現代信息技術進行檔案數字資源的采集、加工、組織、存儲、檢索和提供利用的網絡信息系統。① 數字檔案館如何科學有效地進行數字資源組織,如何深入揭示檔案數字資源庫中的知識單元并對其進行合理組織以便用戶快速存取,為用戶提供快速、準確的知識服務,是數字檔案館建設中面臨的重大問題。良好的知識組織方式是數字檔案館真正發揮效用的必要條件之一。當前,數字檔案知識組織的模式主要有分類目錄組織、主題組織法、全文索引組織、知識網絡組織等。本文對數字檔案館中館藏檔案的數字化、數字資源組織與幾種主要的知識組織模式在數字檔案館中的應用進行了初步探討。

一、知識組織:數字檔案館的新課題

傳統檔案館的日常業務是圍繞檔案實體的組織與管理展開的。檔案實體組織管理包括檔案的收集、整理、鑒定、立卷、建檔、分類、編目、標引、保護等方面工作。對檔案實體進行科學的組織管理是檔案館賴以開展服務,挖掘、實現檔案價值的基礎。檔案實體組織主要通過對檔案實體的主要特征進行揭示,如全宗名稱、案卷名、文件名、檔案來源、檔案主題等。實體組織的主體——案卷是具有密切聯系的若干文件的組合體。有關某一問題或某項工作活動以及其他方面相互密切聯系的一系列案卷組成的全宗,則比較具體地反映工作活動的來龍去脈。全宗是檔案館館藏的基本單位。檔案實體組織的最終目的是為了便于存取與管理檔案實體。

檔案信息組織與檔案實體組織兩者之間密切聯系。如果說檔案實體組織主要從檔案的外部特征與內部特征來組織檔案實體,那么檔案信息組織則是通過各種方法從檔案的內容特征來組織檔案,檔案信息組織的結果是形成檔案目錄與館藏檔案指南以及相應的檔案信息數據庫,目的是便于用戶查找與利用檔案。檔案信息組織是以檔案的分類、編目、著錄、標引工作為基礎的。其中檔案著錄對檔案的內容與形式特征進行分析、選擇和記錄,檔案標引則對檔案文件或案卷進行主題分析,把自然語言轉換成規范化檢索語言標識,主要是分類號與主題詞,以便將其納入一定的檢索系統,組成一個有序的檔案記錄集合,形成目錄數據庫。標引按檢索體系分為分類標引與主題標引,檔案標引應盡可以準確、深入地揭示檔案的內容特征。

數字檔案館知識組織是為了便于用戶快速定位并獲得所需知識,為用戶提供便捷的知識服務。知識組織的前提是知識的發現、揭示與描述。數字檔案館的知識組織建立在檔案信息的有序組織基礎之上。檔案信息組織主要著眼于揭示檔案個體的內容特征,而檔案知識組織則是以知識單元(又稱為知識元,知識因子)為單位的組織形式,不但要科學地組織個體知識單元,更要描述、表達與展示知識單元之間的內在聯系,在內容揭示的深度與廣度方面遠遠超過信息組織。數字檔案館的知識組織首先要解決檔案館文獻的數字化與知識單元的標引問題。作為知識的載體,檔案是經鑒定值得永久保存和收藏的文件,是直接記述和反映社會生產、生活的文件材料,一個機關的歸檔文件材料能夠全面地、真實地反映本單位的工作面貌,因此,檔案文獻內部蘊含的知識之間是密切相關的。如何揭示與反映這些知識之間的密切聯系是數字檔案館知識組織的主要任務之一。目前數字檔案館的知識揭示按其方式與深度可以分為分類標引、主題標引、基于全文數據的關鍵詞標引、知識網絡描述(知識地圖)等四種類型。

二、做好數字檔案館知識組織的基礎工作

數字檔案館是傳統檔案館的延伸,是檔案館在網絡環境下存在與發展的新形態,這既是時代變革背景下社會需求的反映,也是傳統的實體檔案館自身不斷發展的必然結果。數字檔案館的管理與服務是以實體檔案館豐富的館藏與扎實的基礎工作為前提,以數字化館藏檔案作為其資源主體。數字檔案館知識組織是傳統檔案實體組織與檔案信息組織的深化與高級形式,是以后者為基礎的。實現數字檔案館在知識與語義層面的有效組織,必須作好充分準備工作。

1、館藏檔案的數字化

館藏檔案的數字化是數字檔案館知識組織的基礎性工作。知識組織使用智能化的知識發現與組織系統對數字資源進行統計、分析、進行數據挖掘與知識重組,并將其納入已有的知識組織體系之中。大量基礎性的數字檔案資源及其組織體系是構造數字檔案館知識系統的“活水之源”。館藏資源的數字化加工是我國許多建設中的數字檔案館工程的首要的、基礎性工作之一。②

在進行館藏資源數字化的過程中,應遵循以下原則:①重點選擇自身的特色館藏;②將價值較高的館藏檔案進行數字化,尤其要重點選擇那些具有文物價值與歷史價值的珍貴的原始檔案;③優先考慮使用頻率高的文獻信息進行數字化;④根據讀者臨時需要對某些館藏檔案進行數字化。檔案數字化并不只是簡單進行檔案掃描后交電子文件存檔,而應該盡可能做好檔案的著錄與標引工作,對其內容進行深度揭示。有條件的檔案館可對館藏檔案進行掃描與OCR識別,對檔案內容進行文本化處理,建立起檔案全文數據庫。

2、對數字化館藏資源進行深度標引

數字檔案館知識組織的前提是進行知識的識別、選擇、提取與描述。對數字檔案資源庫中知識的識別與提取主要通過知識標引來實現。標引是對數字檔案的內容特征進行分析、選擇與記錄的過程。標引人員在對檔案文檔進行主題分析的基礎上,依據一定的分類體系、詞表或規范進行。標引者通常應掌握主題分析的方法和規律,熟悉分類表或詞表的結構特點、使用方法、標引規則。標引的結果是符合檔案內容特征的分類標識與主題標識。標引按照計算機設備的依賴程度,可以分為手工標引、機器輔助標引與自動標引等三種類型。對于數字資源的標引必須采用成熟的元數據標準。對于檔案全文數據庫,一般要通過計算機自動進行關鍵詞統計、分析,在此基礎上實現關鍵詞標引,形成關鍵詞全文索引庫。全文索引用檔案文本中的語詞對檔案文檔進行全面標引,提高了檔案檢索的查全率與查準率。對數字化檔案進行標引要注意充分利用檔案館現有的工作成果,如檔案現有的檢索工具以及相應的檔案目錄數據庫,避免重復勞動與從零開始。

3、加強檔案全文數據庫的建設

檔案全文數據庫是數字檔案館提供檔案全文服務的基礎性資源。檔案全文數據庫的數據來源包括兩部分。一部分是以電子文件形式入館的電子檔案,另一部分是對館藏檔案進行掃描與OCR識別后的檔案全文文本。全文數據庫除了提供檔案目錄檢索之外,主要提供基于全文索引庫的全文檢索服務。全文索引是以檔案全文文本中的語詞作標引詞的標引方式,是一種由計算機完成的,以數字文檔的全部文本作為索引對象的自動標引過程,其標引結果為全文索引庫。在自動標引過程中,標引系統根據已有工具如詞典、詞表、詞頻特征、句法或結構特征等,使用特定算法對數字化的檔案文本進行詞法分析,識別出詞與非詞,內容詞與功能詞,并采集詞的相關信息(如詞的出處),最后根據詞的詞頻確定文檔的標引用詞,在此基礎上形成相應的文檔集的倒排文檔。目前這是一種較為理想的自動索引模式,比較適合檢索效率要求較高的檔案信息檢索的需要。

4、注重數字檔案館中隱性知識的收集與組織,構建檔案知識庫

要從海量檔案數字資源庫中發現、獲取新知識,僅僅依靠檔案本身是不夠的,必須依靠人的智能與大量的相關背景知識,而通常數字檔案館并不提供這些相關知識,因此應考慮建立檔案知識庫。檔案知識庫除了收錄檔案中所揭示的事實數據之外,還必須注重相關專家、學者與研究人員的隱性知識的收集,將其外在化(即顯性化)后,納入知識庫系統。

開發檔案知識庫,一般采用以下途徑:一是將人工智能技術引入已有的數據庫系統,特別是關系型數據庫系統,利用數據倉庫與知識挖掘技術,建立起檔案知識庫系統;另一種途徑是直接從知識表示著手,建立統一的知識庫模型,選擇相應的推理機制,構建統一的知識庫系統。在實現技術上,可以借鑒某些數據庫技術,特別是底層數據結構、數據存儲組織與查詢優化技術等。知識庫系統包括知識庫系統和知識庫管理系統,其中知識庫管理系統主要由推理機模塊、知識獲取與學習模塊、知識庫管理維護模塊與用戶接口等四部分組成。檔案知識庫的建設是一項復雜浩大的工程,需要保證足夠的資金、人力與技術等。實踐中,一般可以先選擇某個相對獨立的領域如“明清戶籍制度”建立規模與復雜度較小的知識庫,取得建設經驗后再逐步對其進行擴展與完善。

三、數字檔案館知識組織模式

知識組織的目的是對知識單元按照一定規則進行有序化組織,便于用戶存檢。數字檔案館知識組織方法與其所使用的工具是分不開的,特定的組織方法往往依賴特定的知識組織工具。知識組織方法多種多樣,按組織的形式可以分為基于知識單元的知識組織與基于知識內在聯系的知識組織;按知識的不同形態可以分為顯性知識的組織與隱性知識的組織;按知識組織的語言學原理可以分為語法組織、語義組織與語用組織方法等。③ 在實踐中,數字檔案館常用的知識組織模式有分類組織模式、主題組織模式、全文索引模式、知識網絡組織模式等等。其中分類組織、主題組織、全文索引法是比較成熟的傳統信息組織模式,經改造與優化后可以方便地應用于數字檔案館知識組織;知識網絡是當前知識組織研究領域的熱點方法,已經在數字圖書館與Web資源管理中得到應用,取得了良好的效果。

1、分類組織

數字檔案館的知識分類是指根據特定的分類體系將數字檔案館的知識單元歸入相應的類目之下,并形成分類目錄。為了科學合理地進行檔案知識分類,應首先編制或選用一個合適的檔案分類法。數字檔案館由于館藏資源和網絡用戶的特殊性,一般不適合采用傳統的檔案分類法體系,而面向社會大眾服務的門戶網站的分類目錄體系由于分類不精準、類名設置隨意、類目等級混亂等原因也不宜在數字檔案館中簡單套用。不同類型的專門數字檔案館應該根據自己的數字館藏與資源特色,在對已有專門檔案分類法進行適當的修改、調整的基礎上形成適合自身需要的檔案分類法。檔案分類法類目與分類等級的設置應根據館藏數字資源的數量與類型作相應的調整,對于數量較多的專題檔案應盡可能細分;檔案分類體系的設置應根據館藏數字資源的具體情況予以確定。利用分類目錄服務,數字檔案館用戶可以快速找到自身所需要的專門檔案,也便于用戶進行族性檢索與瀏覽。但用戶很難快速熟悉與掌握數字檔案館特定的分類體系,不易把握有關數字資源在分類體系中的路徑;在自動分類技術尚不完全成熟的情況下,分類體系的維護與分類標引工作還不能完全離開人工參與,這勢必增加數字檔案館工作人員的勞動時間成本。

2、主題組織

主題組織以主題標引為基礎。主題標引對檔案內容進行主題分析后,用若干主題詞對檔案的知識內容進行標注與揭示。主題標引分兩步,一是從檔案中分析、提取有關某一主題的知識,二是將得出的主題概念按照主題詞表標出主題詞。④ 主題標引的單位可以是一份文件、一個案卷或一個全宗。標引分為手式標引與自動標引。自動標引是在對文檔中的關鍵詞進行詞頻統計分析的基礎上,按照某種規則自動抽取某一關鍵詞并對其進行規范化處理后形成該文檔的主題詞組。標引的結果是形成相關的主題標引記錄。主題索引就是對標引得出的所有主題詞進行索引,形成主題詞索引數據庫。主題索引將同一主題的相關文檔進行聚類,便于族性檢索,其缺點是手工標引成本高,主題揭示不充分;自動標引主要基于詞頻的統計分析,有時難以準確進行主題揭示與描述。⑤ 網絡環境下主題索引法漸漸被改良后的關鍵詞索引法所替代。

3、全文索引組織

檔案全文數據庫與全文索引是檔案全文檢索的基礎。建立檔案全文數據庫首先要對檔案進行數字化加工,對檔案實體進行文本化,再按照一定的規則對檔案文本中的關鍵詞進行分析、選擇、抽取、索引,建立倒排文檔,形成全文索引數據庫,供用戶進行檢索查詢。全文檢索匹配模型通常采用布爾檢索模型、向量空間(VSM:Vector Space Model)模型與概率模型等,其中比較成熟、應用較為廣泛的是向量空間模型。基于關鍵詞檢索的檔案全文檢索系統實現了在語詞層面全面檢索檔案文本,擴展了檔案檢索的檢索項,實現了簡化檢索過程,降低了檢索難度;但由于全文檢索匹配的對象是文檔中無語義內涵的字符串,因此無法對文檔中的內容即主題概念進行匹配,需要對其進行優化與改造。全文自動索引組織方式對范圍較小并且內容相對穩定的檔案文本信息的檢索較為成功。全文索引能夠深入到文獻所包含的最小信息單元——語詞層面,因而能對數字檔案的文本內容進行充分、完備地揭示。檢索時,只要輸入相應的關鍵詞,即可找到包含該關鍵詞的所有文檔,但利用這種索引方式實現內容檢索、知識檢索還存在明顯不足。

4、知識網絡組織

知識網絡組織法是利用計算機與智能處理技術如語義網絡技術、聚類技術、知識地圖技術等,將數字資源中蘊含的知識聯系以網絡的形式予以揭示與呈現。知識網絡以網絡結構將知識單元之間的相互聯系表現出來,克服了以往知識組織方式注重知識單元個體的不足,能幫助人們發現知識之間的隱性聯系,因而頗受人們青睞。

知識組織法的典型代表是語義網絡。⑥ 語義網絡法(Semantic Network)通過繪制某領域的知識概念之間關系的網狀圖來描述領域知識單元(用概念結點表示)之間內在聯系。語義網絡是由節點和邊(也稱有向弧)組成的一種有向圖。其中節點表示事物、對象、行為、性質、狀態等;有向邊表示節點之間的某種聯系或關系。語義網絡作為人工智能中一種表達人類記憶和理解語言的方法,有時也被稱作聯系網(Associative Net),這是因為它的節點都和其他節點相聯系或相關。在這種網絡中,代替概念的單位是節點,代替概念之間關系的則是節點間的連接弧,稱為聯想弧。因此這種網絡又稱為聯想網絡。它在形式上是一個帶有邊標記的有向圖。由于所有的概念節點均通過聯想弧彼此相連,因此語義網絡能用于進行知識推導。語義網絡分為命題語義網絡、數據語義網絡、語言語義網絡等。其中,命題語義網絡是用語義網絡來表示命題的內容。以數據為中心的語義網絡稱為數據語義網絡。進行自然語言的分析和理解的語義網絡稱為語言語義網絡。語義網絡的可視化表示形式之一是概念地圖或知識結構圖。

不同的知識組織模式從不同的視角根據不同的知識組織體系來組織檔案知識,各有其長處與不足。在實際應用中,往往混合采用多種知識組織模式的做法,如分類主題一體化組織模式、多種模式與全文索引組織模式共同運用,傳統組織模式與知識網絡組織模式相輔相成,為用戶提供多樣化的知識存檢方式,多角度為用戶提供知識服務。尤其是在新的知識組織技術尚不成熟的情況下,充分利用傳統的知識組織技術就顯得更為重要。實踐證明,混合模式能更好地滿足用戶不同層次的知識需求,提高用戶的滿意度。

作為發展中的新生事物,我國的數字檔案館建設實踐尚處在初探階段。海量數字化檔案與日益增長的電子文件既為人們提供了豐富的信息資源又容易造成“信息過剩”,將人們淹沒在信息海洋中。近年來,基于數字檔案館的知識組織與知識服務逐漸被提上議事日程。知識組織是數字檔案館建設中出現的新課題,是數字檔案館深入發展的必然選擇,是數字檔案館充分挖掘知識資源,為社會提供知識服務的基礎工作。數字檔案館的知識組織以傳統檔案館工作為基礎,以海量數字檔案資源為依托,利用現代先進信息技術挖掘、發現、揭示與呈現數字檔案庫中的知識及其相互聯系。數字檔案館知識組織技術是對傳統信息組織技術的繼承、發展與創新。傳統信息組織模式中的分類組織、主題索引組織、全文索引組織仍然可以應用到數字檔案館的知識組織活動中。知識網絡組織模式則可以全面揭示、描述與呈現數字檔案資源庫中的知識單元及其相互聯系,從而實現知識導航與知識服務。科學有效的知識組織將為數字檔案館開辟廣闊的發展空間。

注 釋:

①李國慶:《數字檔案館概論》,北京:中國檔案出版社,2003年版。

②楊硯君:《檔案數字化建設的實踐與思考》,《黑龍江史志》2007年第8期。

③邱均平:《知識管理學》,武漢:武漢大學出版社,2006年版。

④鄧紹興、和寶榮:《檔案管理學》,北京:中國人民大學出版社,1989年版。

⑤賴茂生:《知識組織理論與技術》,北京:北京大學信息管理系,2001年版。

⑥王應解:《面向主題的搜索引擎研究》,拉薩:西藏人民出版社,2006年版。

作者單位:中國人民大學信息資源管理學院

主站蜘蛛池模板: 99re在线免费视频| 欧美人与牲动交a欧美精品| 亚洲精品天堂自在久久77| 毛片最新网址| 婷婷午夜天| 久久精品最新免费国产成人| 国产黑丝一区| 欧美日韩另类在线| 亚洲综合18p| 国产欧美日韩一区二区视频在线| 伊人色在线视频| 99精品视频在线观看免费播放| 中文字幕天无码久久精品视频免费| 一级不卡毛片| 又大又硬又爽免费视频| 97影院午夜在线观看视频| 国产在线观看99| 国产剧情伊人| 欧美成人精品在线| 无码一区18禁| 亚洲精品爱草草视频在线| 国产一区二区在线视频观看| 中文字幕第4页| 一级毛片在线免费看| 不卡色老大久久综合网| 色成人综合| 亚洲大尺度在线| 亚洲自偷自拍另类小说| 自拍欧美亚洲| 超碰91免费人妻| 日本不卡在线播放| 国产精品99在线观看| 青青草91视频| 亚洲最大看欧美片网站地址| 露脸一二三区国语对白| 毛片久久久| 国产成熟女人性满足视频| 欧美在线导航| 91娇喘视频| 国产免费精彩视频| 日韩二区三区无| 日韩中文欧美| 欧美 国产 人人视频| 99视频精品在线观看| 国禁国产you女视频网站| 久久夜色精品国产嚕嚕亚洲av| 一本大道无码日韩精品影视| 色综合a怡红院怡红院首页| 中文字幕人妻av一区二区| 国产午夜人做人免费视频| 国产91色在线| 亚洲码一区二区三区| 国产区精品高清在线观看| 亚洲AV色香蕉一区二区| 国产一级毛片在线| 国产精品太粉嫩高中在线观看| 亚洲日本www| 在线欧美日韩国产| 黄色在线不卡| 欧美啪啪精品| 一区二区无码在线视频| 日韩欧美中文在线| 69av免费视频| 国产欧美日韩在线在线不卡视频| 99国产在线视频| 欧美精品另类| 久久一色本道亚洲| 国产理论精品| 久久影院一区二区h| 亚洲第一在线播放| 亚洲精品在线影院| 高清不卡毛片| 国产精品内射视频| 日本在线免费网站| 华人在线亚洲欧美精品| 精品三级网站| 国产黄色片在线看| 久久这里只有精品8| 日韩精品毛片人妻AV不卡| 园内精品自拍视频在线播放| 亚洲国产成人无码AV在线影院L| 国产色婷婷视频在线观看|