摘要:農(nóng)業(yè)期刊引文數(shù)據(jù)庫(kù)建設(shè)的目的有兩個(gè),一個(gè)是讓更多的農(nóng)業(yè)領(lǐng)域的讀者以及對(duì)農(nóng)業(yè)領(lǐng)域感興趣的讀者免費(fèi)地隨時(shí)隨地去查詢相關(guān)文獻(xiàn)材料,并通過(guò)引文的網(wǎng)狀關(guān)系去拓展知識(shí)的深度和廣度;另一個(gè)目的就是為農(nóng)業(yè)期刊辦刊者提供各種期刊評(píng)價(jià)指標(biāo),使辦刊者做出合理決策。主要介紹農(nóng)業(yè)期刊引文數(shù)據(jù)庫(kù)的設(shè)計(jì),每個(gè)主要表的數(shù)據(jù)結(jié)構(gòu),以及主要表的數(shù)據(jù)批量導(dǎo)入與整理,重點(diǎn)描述了引文表的數(shù)據(jù)加工流程,以及引文細(xì)拆分的程序流程。
關(guān)鍵詞:引文數(shù)據(jù)庫(kù);引文拆分;數(shù)據(jù)加工;數(shù)據(jù)庫(kù)建設(shè);引文索引;農(nóng)業(yè)期刊
中圖分類(lèi)號(hào):G230文獻(xiàn)標(biāo)志碼:A文章編號(hào):1673-291X(2010)09-0174-02
一、建設(shè)農(nóng)業(yè)期刊引文數(shù)據(jù)庫(kù)的作用和目的
農(nóng)業(yè)期刊引文數(shù)據(jù)庫(kù)建設(shè)的目的有兩個(gè),一個(gè)是讓更多的農(nóng)業(yè)領(lǐng)域的讀者以及對(duì)農(nóng)業(yè)領(lǐng)域感興趣的讀者免費(fèi)地隨時(shí)隨地去查詢相關(guān)文獻(xiàn)材料,并通過(guò)引文的網(wǎng)狀關(guān)系去拓展知識(shí)的深度和廣度;另一個(gè)目的就是為農(nóng)業(yè)期刊辦刊者提供各種期刊評(píng)價(jià)指標(biāo),使辦刊者做出合理決策,引領(lǐng)期刊方向,提高期刊質(zhì)量。
二、農(nóng)業(yè)期刊引文數(shù)據(jù)庫(kù)設(shè)計(jì)
農(nóng)業(yè)期刊引文數(shù)據(jù)庫(kù)的設(shè)計(jì)是要讓讀者通過(guò)題名、作者、刊名等關(guān)鍵字,查找到相關(guān)文獻(xiàn)列表,繼而查找到想要的文獻(xiàn)的具體文摘內(nèi)容和引文列表,而且通過(guò)這個(gè)引文列表還能查到相關(guān)的另類(lèi)文獻(xiàn)。反過(guò)來(lái),也可以通過(guò)這個(gè)文獻(xiàn)去查找其被引頻次以及被引的文獻(xiàn)列表,形成一種網(wǎng)絡(luò)狀的索引模式。
根據(jù)這個(gè)目的,我們?cè)O(shè)計(jì)了三個(gè)主要的表:一個(gè)是期刊表,一個(gè)是文摘表,一個(gè)是引文表。這三個(gè)表是引文數(shù)據(jù)庫(kù)的主體,有了這三個(gè)表就可以進(jìn)行基本的引文關(guān)聯(lián)查詢了。在此基礎(chǔ)上,還可以拓展。可以引進(jìn)作者表,對(duì)作者的詳細(xì)信息進(jìn)行記錄,比如性別,出生年月,畢業(yè)院校,職稱,職務(wù),主要研究領(lǐng)域,主要研究成果等等,促進(jìn)讀者對(duì)主要責(zé)任者的了解;還可以增加出版公司表,包含公司性質(zhì)、規(guī)模、地址、聯(lián)系電話、網(wǎng)址、EMAIL等;根據(jù)業(yè)務(wù)的擴(kuò)展,還可以建立與讀者互動(dòng)的表,如建立讀者表,建立讀者收藏表等等。在此,我們僅對(duì)這三個(gè)主表的設(shè)計(jì)進(jìn)行描述。
三、數(shù)據(jù)的批量導(dǎo)入與整理
期刊表的數(shù)據(jù)來(lái)源于圖書(shū)館集成管理系統(tǒng)中的期刊庫(kù),都是SQL-SERVER表,所以導(dǎo)入很方便。文摘表和引文表在目前的圖書(shū)館集成管理系統(tǒng)中沒(méi)有現(xiàn)成的數(shù)據(jù),需要另外進(jìn)行加工錄入。
1.文摘數(shù)據(jù)的加工流程

文摘數(shù)據(jù)的加工是先將期刊一頁(yè)一頁(yè)地掃描成.tif文件,再用圖形識(shí)別軟件將 .tif文件轉(zhuǎn)換為.txt格式的文本文件,然后合并整理,并人工錄入切分符號(hào),將文章的題目、作者、正文、參考文獻(xiàn)等內(nèi)容進(jìn)行切分,再用程序?qū)⒉煌?、卷期的各種期刊文檔批量導(dǎo)入數(shù)據(jù)庫(kù)中的文摘表中。這時(shí)候,對(duì)表中各字段按照長(zhǎng)度、左邊第一個(gè)字符,右邊第一個(gè)字符建立索引,然后根據(jù)索引找出有問(wèn)題的數(shù)據(jù)進(jìn)行校驗(yàn)。最后形成一個(gè)數(shù)據(jù)完整的文摘表。
2.引文數(shù)據(jù)的加工
由于引文數(shù)據(jù)量多,而且著錄格式較規(guī)范,所以主要是用程序?qū)Υ蠖鄶?shù)數(shù)據(jù)進(jìn)行拆分,人工僅對(duì)少量數(shù)據(jù)進(jìn)行審核。
(1)引文數(shù)據(jù)的拆分流程。

(2)引文的粗拆分。在文摘庫(kù)里,引文字段存放的數(shù)據(jù)是一大段關(guān)于參考文獻(xiàn)的所有信息。粗拆分的目的就是將這么一大段文字,按照序號(hào)的不同,拆成若干條條記錄,分別存放在引文表里。
(3)引文的細(xì)拆分。引文被拆成一條條的記錄后,現(xiàn)在就需要把每條引文記錄細(xì)拆成有具體意義的各種字段,并存放在數(shù)據(jù)庫(kù)中,以便于今后的引文索引和計(jì)算。
引文字段拆分方法。中文引文中大概有50%是按照新的國(guó)家標(biāo)準(zhǔn)(GB/T7714-2005)來(lái)著錄的,而引用的外國(guó)文獻(xiàn)基本上沒(méi)有按照這樣的標(biāo)準(zhǔn),還有一些引文數(shù)據(jù)和注釋參和在一起,另外一些根本沒(méi)有按照國(guó)家標(biāo)準(zhǔn)著錄,這就給拆分引文帶來(lái)了困難。
我們通過(guò)對(duì)大量的引文數(shù)據(jù)做分析,并在實(shí)際拆分過(guò)程中對(duì)有問(wèn)題的數(shù)據(jù)進(jìn)行歸納,終于找到問(wèn)題發(fā)生規(guī)律,使得數(shù)據(jù)在拆分后能保證有80%的準(zhǔn)確率。

(4)引文數(shù)據(jù)的初審。經(jīng)過(guò)程序拆分后的數(shù)據(jù),要進(jìn)行初審,盡量將能用程序修正的數(shù)據(jù)用計(jì)算機(jī)程序來(lái)修正,減少人工工作量。
(5)引文數(shù)據(jù)的人工審核。被剔除的有問(wèn)題的數(shù)據(jù)單獨(dú)存放在另一個(gè)表里,讓數(shù)據(jù)加工人員逐條進(jìn)行審核,以確保數(shù)據(jù)的正確性和完整性。人工審核完畢后,將這個(gè)表里的數(shù)據(jù)覆蓋原表中的帶標(biāo)記的數(shù)據(jù),則引文表的數(shù)據(jù)加工就完成了。
四、農(nóng)業(yè)引文數(shù)據(jù)庫(kù)的應(yīng)用
農(nóng)業(yè)引文數(shù)據(jù)庫(kù)主要的三個(gè)表建立好之后,就可以運(yùn)用于實(shí)際了。首先就是要建立一個(gè)農(nóng)業(yè)引文查詢網(wǎng)站,使讀者能夠通過(guò)這個(gè)網(wǎng)站充分利用農(nóng)業(yè)引文數(shù)據(jù)庫(kù),享受這個(gè)數(shù)據(jù)庫(kù)為其帶來(lái)的便利;另一個(gè)應(yīng)用就是建立一個(gè)辦刊者對(duì)期刊指標(biāo)進(jìn)行查詢的網(wǎng)站,使辦刊者實(shí)時(shí)了解其期刊被利用的程度,了解期刊的質(zhì)量,隨著數(shù)據(jù)庫(kù)的擴(kuò)展,甚至能讓辦刊者隨時(shí)了解期刊的讀者群。
隨著應(yīng)用的深入和擴(kuò)展,我們還要不斷改進(jìn)和完善農(nóng)業(yè)引文數(shù)據(jù)庫(kù)的內(nèi)容,更好地為讀者服務(wù)。