摘要本文從檔案標(biāo)引的基本理論出發(fā),簡要闡述了單漢字標(biāo)引技術(shù)在檔案檢索中應(yīng)用的優(yōu)點(diǎn)及可行性分析。
關(guān)鍵詞單漢字 檢索 可行性
中圖分類號:G27文獻(xiàn)標(biāo)識碼:A
所謂單漢字標(biāo)引技術(shù),是指以單個(gè)漢字作為標(biāo)引的基本單元,在檢索時(shí)對不屬于停用詞范疇的單個(gè)漢字進(jìn)邏輯乘運(yùn)算,也即對標(biāo)引字所代表的概念層面進(jìn)行后組配,從而獲得檢索結(jié)果。實(shí)質(zhì)上單漢字檢索就是全文檢索,其不同點(diǎn)在于它將待檢文本由計(jì)算機(jī)全部自動(dòng)做成單漢字倒排擋,檢索時(shí)用單漢字組配法進(jìn)行查找。單漢字檢索技術(shù)起源于西文關(guān)鍵詞標(biāo)引法,是漢語自然語言處理的一種獨(dú)特方式。西文關(guān)鍵詞標(biāo)引法只針對詞的處理,西文的書寫格式以空格分隔開來,而單漢字的標(biāo)引是針對漢字進(jìn)行處理的,以單個(gè)的漢字或漢字的組配為處理對象,然后以“全標(biāo)引”的文本形式存儲(chǔ)數(shù)據(jù)。文本中的每個(gè)漢字都要做倒排索引,因?yàn)榻^大多數(shù)情況下單個(gè)漢字不能獨(dú)立表達(dá)文獻(xiàn)主題概念或作為索引項(xiàng),所以“全標(biāo)引”也就等于不標(biāo)引。所謂的單漢字標(biāo)只能是把文本中的每個(gè)漢字作為一個(gè)處理單位的手段。
1 檔案標(biāo)引原理和作用
檔案標(biāo)引就是揭示檔案的主題內(nèi)容,以便為用戶提供從內(nèi)容角度檢索的途徑。我國目前檔案標(biāo)引的主要依據(jù)是檔案主題詞表,它是由表達(dá)檔案內(nèi)容主題的自然語言中優(yōu)選出的語義相關(guān)、族性相關(guān)的科學(xué)術(shù)語所組成的規(guī)范化詞典。在檔案標(biāo)引與檢索過程中,它是用以將檔案、標(biāo)引人員及用戶的自然語言轉(zhuǎn)換為統(tǒng)一的主題詞檢索語言的一種術(shù)語控制工具。其主要具有以下功能:第一,檔案標(biāo)引是揭示館藏的手段。檔案的門類多,數(shù)量大,如果沒有科學(xué)的管理方法和系統(tǒng)地揭示館藏,那么用戶就很難直接找到所需要的檔案信息。 第二,檔案標(biāo)引是建立目錄提示的重要基礎(chǔ),可以從各個(gè)不同的角度揭示一份檔案的內(nèi)容。從而建立各種不同類型的目錄,如分類目錄、主題目錄等。第三,檔案標(biāo)引是開展手工檢索和計(jì)算機(jī)檢索的必要條件。我國目前比較普及的檔案標(biāo)引方法是:首先進(jìn)行主題分析,從檔案內(nèi)容中分析出主題詞。然后在確定主題概念后進(jìn)行概念轉(zhuǎn)換工作,將表達(dá)概念的自然語言轉(zhuǎn)換成規(guī)范化的人工符號,即查分類表和歸類工作。最后標(biāo)引主題詞,經(jīng)過主題分析確定主題概念以后進(jìn)行概念轉(zhuǎn)換,將表達(dá)概念的自然語言轉(zhuǎn)換成規(guī)范化的語言詞的工作,即查主題詞表。
2 單漢字標(biāo)引技術(shù)在檔案檢索中應(yīng)用的優(yōu)點(diǎn)及可行性分析
2.1 繞開了人工標(biāo)引的問題
采用單漢字標(biāo)引的最大好處是其方法繞開了檔案人工標(biāo)引的困境。情報(bào)研究界雖然先后提出了詞典分詞法,語法語義分析法以及神經(jīng)網(wǎng)絡(luò)分詞法等一些比較先進(jìn)的方法,但其不足之處仍然十分明顯。如不能實(shí)現(xiàn)“位置檢索”,致使誤檢率高;剔除虛詞的檢索組配致使漏檢率增加;一旦出現(xiàn)中文與西文混合的文檔檢索,出現(xiàn)將完整西文單詞字母拆開進(jìn)行邏輯組配的事實(shí),增加了計(jì)算機(jī)的運(yùn)算時(shí)間等,所以距離提出完整的、徹底的分詞方案還比較遙遠(yuǎn)。由于單漢字標(biāo)引技術(shù)對每個(gè)漢字都由計(jì)算機(jī)作索引,不需人工標(biāo)引,所以這種依靠計(jì)算機(jī)自動(dòng)標(biāo)引和邏輯檢索的方法自然就繞開了人工標(biāo)引的難關(guān),從而節(jié)約了大量的分詞勞動(dòng)。針對作為原始記錄保存起來的檔案而言,采用這一方法則更顯迫切。
2.2 統(tǒng)一人工標(biāo)引使其一致
在檔案信息管理中采用單漢字標(biāo)引法把文本中的每一個(gè)漢字都作為標(biāo)引詞,實(shí)現(xiàn)了完全自動(dòng)化標(biāo)引,使人力財(cái)力經(jīng)濟(jì)化,更重要的是避免了人工標(biāo)引中工作人員的主觀缺失。一般而言,人工標(biāo)引法的標(biāo)引質(zhì)量會(huì)受到標(biāo)引人員的影響,包括標(biāo)引工作人員的專業(yè)素質(zhì)、心情和工作環(huán)境等因素,即便采用同一部分類法,不同人員的標(biāo)引結(jié)果也很難取得一致。單漢字標(biāo)引對文本中的每一個(gè)漢字都做深度標(biāo)引,可不受諸多的限制,可以極大地保存了文獻(xiàn)原本的原貌。所以,這樣就完全保證了檔案惟一性和憑證性的基本特征,確保了檔案信息的可靠性。
2.3 單漢字標(biāo)引的高容量性和高彈性
單漢字標(biāo)引系統(tǒng)與以詞為檢索基礎(chǔ)的檔案信息管理信息系統(tǒng)相比,其詞庫要簡單的多。就漢字而言,最常用的在幾千個(gè)到一萬個(gè)字之內(nèi),單漢字標(biāo)引的詞庫與漢語的組詞量相比大大縮小了,這就相應(yīng)地減少了計(jì)算機(jī)的計(jì)算量和對計(jì)算機(jī)硬件的要求。任何中文檔案都是漢語文本組成,所以任何文本的內(nèi)容都在這個(gè)詞庫中,這就體現(xiàn)了單漢字標(biāo)引的高容量性。同時(shí),單漢字標(biāo)引對新信息有著超強(qiáng)的彈性,隨著知識更新的加快,新學(xué)科、新概念將不斷涌現(xiàn),由于檔案是在人們?nèi)粘5恼巍⒔?jīng)濟(jì)和文化活動(dòng)中最先形成的原始信息源,這些內(nèi)容會(huì)首先在檔案中出現(xiàn)并得到有效的保管利用。如果采用檔案主題詞表對其進(jìn)行規(guī)范化標(biāo)引就必然面臨主題詞表的經(jīng)常更新問題,實(shí)際的情況是:檔案主題詞表具有一定的穩(wěn)定性,國家對主題詞表的更新具有滯后性,但長期不更新又會(huì)無法適應(yīng)不斷涌現(xiàn)的包含新概念檔案的標(biāo)引和著錄,由于檔案標(biāo)引工作的超前性與主題詞表的滯后性矛盾的長期存在,單漢字標(biāo)引的天然優(yōu)越性自然就表現(xiàn)得淋漓盡致,因?yàn)椴还苁鞘裁葱赂拍睢⑿旅~,自然是不會(huì)產(chǎn)生新漢字的,這些新概念都將包含在字庫中,都能夠得到恰當(dāng)?shù)慕M配標(biāo)引。而且,單漢字標(biāo)引采用的是最徹底的后組配檢索模式,通過字的組配可以達(dá)到任意的專指度和泛指度,任何細(xì)小的主題詞都可以通過字的組配檢索出來。
2.4 單漢字檢索對計(jì)算機(jī)檢索的天然適應(yīng)性
單漢字是中文文本的最小單位,信息是以字節(jié)為計(jì)量單位的,一個(gè)漢字占有兩個(gè)字節(jié)的固定長度,在我國主要目前采用的漢字編碼標(biāo)準(zhǔn)主要是GB2312,這些使用兩個(gè)字節(jié)來代表一個(gè)字符的各種漢字延伸編碼方式,統(tǒng)稱為 ANSI 編碼。在簡體中文系統(tǒng)下,ANSI 編碼就代表 GB2312 編碼, 為使計(jì)算機(jī)支持更多語言,通常使用 0x80~0xFF 范圍的 2 個(gè)字節(jié)來表示 1 個(gè)字符。比如:漢字“中”在中文操作系統(tǒng)中,使用 [0xD6,0xD0] 代表這兩個(gè)字節(jié)存儲(chǔ),單漢字便是計(jì)算機(jī)自動(dòng)抽取和處理的天然單元,計(jì)算機(jī)處理單個(gè)漢字也就相當(dāng)于處理兩個(gè)字節(jié)。就信息量而言,漢字所包含的信息容量比西文系統(tǒng)要大,單漢字系統(tǒng)具有“字面成族”的能力,單漢字是構(gòu)成詞、句、段、篇的基本單位,它具有無窮的組配能力,能夠組成二字詞、三字詞以及更多的詞匯。組配可以采用隱含方式,不必寫出邏輯乘的符號,對于沒有任何信息檢索知識的檔案用戶而言是可以接受的。輸入一個(gè)漢字就可以檢索相關(guān)的所有資料。組配的深度與專指水平密切相關(guān),如果準(zhǔn)確輸入檢索詞,就會(huì)增加組配的深度,就能達(dá)到較高的專指度,反之效果相反。從技術(shù)性的角度分析,單漢字檢索所涉及的主要技術(shù)是計(jì)算機(jī)的硬件和數(shù)據(jù)庫技術(shù)。單漢字系統(tǒng)機(jī)內(nèi)處理時(shí)間短,時(shí)間短就意味著在現(xiàn)有計(jì)算機(jī)硬件技術(shù)條件下可以實(shí)現(xiàn)檔案單漢字檢索,只要不對計(jì)算機(jī)的性能提出過高要求就充分說明這種方法在計(jì)算機(jī)硬件技術(shù)上是沒有障礙的。從數(shù)據(jù)庫技術(shù)上講,由于漢字的數(shù)量基本是穩(wěn)定的,不需要增加數(shù)據(jù)庫的存儲(chǔ)量和工作量,所以,現(xiàn)有的數(shù)據(jù)庫技術(shù)也是可以滿足需求的。從經(jīng)濟(jì)性的角度考慮,在以詞為基礎(chǔ)的信息系統(tǒng)中,索引的維護(hù)面臨著重新標(biāo)引、插入、排序等一系列復(fù)雜工作,并需花費(fèi)較長時(shí)間,詞表也需要不斷更新以容納不斷涌現(xiàn)的新知識和新概念。單漢字系統(tǒng)不需要做這步工作,因?yàn)樘幚淼氖窍鄬潭ǖ臐h字,這樣不僅可以節(jié)約人力,節(jié)約資金,更重要的是不需要增加設(shè)備,在現(xiàn)有檔案管理機(jī)構(gòu)設(shè)備的條件下就可以實(shí)現(xiàn)理想的系統(tǒng)升級,這對資金經(jīng)費(fèi)相對短缺的檔案管理部門而言是理想的契機(jī)。
檔案計(jì)算機(jī)管理作為新型的知識管理理念和模式,已經(jīng)成為信息時(shí)代檔案界謀求檔案信息化的有效途徑,檔案標(biāo)引和檢索是檔案價(jià)值實(shí)現(xiàn)的重要環(huán)節(jié),能否實(shí)現(xiàn)對檔案信息的有效利用,直接影響著檔案管理機(jī)構(gòu)的工作效率和存在價(jià)值,鑒于檔案檢索在檔案管理和利用中的主體支撐作用,本文對單漢字檢索法在檔案檢索中應(yīng)用的可行性及其優(yōu)點(diǎn)進(jìn)行了分析,期望對檔案的有效利用提供幫助。
參考文獻(xiàn)
[1]胡瑩瑩.單漢字標(biāo)引與檢索技術(shù)綜析.情報(bào)理論與實(shí)踐,1999(2).
[2]王永成等.漢語文獻(xiàn)的自動(dòng)分詞與標(biāo)引研究綜述.上海交通大學(xué)出版社,1991:194.
[3]張琪玉.情報(bào)語言學(xué)基礎(chǔ).武漢大學(xué)出版社,1997:286.
[4]薛四新.檔案信息化應(yīng)用系統(tǒng)建設(shè).機(jī)械工業(yè)出版社,2005:90.