基于Web的中文期刊查收查引跨庫(kù)檢索系統(tǒng)研發(fā)

2016-03-21 10:51:00曉梅

中華醫(yī)學(xué)圖書(shū)情報(bào)雜志 2016年6期

關(guān)鍵詞：頁(yè)面

，，，，，曉梅，

查收查引又稱(chēng)為論文收錄及被引用檢索，主要通過(guò)文獻(xiàn)題名、作者、作者單位、期刊名稱(chēng)、發(fā)表時(shí)間等檢索字段查找論文被數(shù)據(jù)庫(kù)收錄及引用情況，并依據(jù)檢索結(jié)果出具引證報(bào)告，為科研評(píng)價(jià)提供依據(jù)[1]。

作為國(guó)內(nèi)科研績(jī)效評(píng)價(jià)的重要工具，該服務(wù)已成為國(guó)內(nèi)高校圖書(shū)館等信息服務(wù)機(jī)構(gòu)提供的基礎(chǔ)信息服務(wù)。據(jù)統(tǒng)計(jì)，96所(占81%)“211”工程大學(xué)圖書(shū)館開(kāi)展了這項(xiàng)業(yè)務(wù)，而且業(yè)務(wù)量逐年快速增長(zhǎng)[2]。

國(guó)內(nèi)開(kāi)展的引證檢索服務(wù)主要依靠手動(dòng)方式完成，需要查收查引人員在多種引文數(shù)據(jù)庫(kù)中重復(fù)檢索文獻(xiàn)收錄和引用情況，對(duì)檢索結(jié)果進(jìn)行去重去自引、轉(zhuǎn)換格式后出具檢索報(bào)告。存在多數(shù)據(jù)源檢索導(dǎo)致的工作量倍增[3]、錄入錯(cuò)誤與格式不規(guī)范造成的查重困難、手工生成標(biāo)準(zhǔn)報(bào)告費(fèi)時(shí)費(fèi)力、檢索工作重復(fù)低效等問(wèn)題。因此，必須利用軟件工具輔助人工完成查收查引并自動(dòng)統(tǒng)計(jì)與整理形成引證報(bào)告[4]。

查收查引系統(tǒng)較早可追溯到北京大學(xué)圖書(shū)館的論文查收查引工具[3,5]。利用網(wǎng)頁(yè)分析技術(shù)對(duì)SCI、EI數(shù)據(jù)源進(jìn)行自動(dòng)網(wǎng)絡(luò)查詢(xún)，如中國(guó)科技大學(xué)圖書(shū)館利用Excel和EndNote Web提高論文查收查引的工作效率[6]；中國(guó)科學(xué)院軟件研究所研發(fā)的“引證報(bào)告自動(dòng)生成原型系統(tǒng)”[4,7]，可對(duì)SCI數(shù)據(jù)庫(kù)統(tǒng)計(jì)區(qū)分自引與他引。

基于國(guó)內(nèi)中文數(shù)據(jù)源查收查引的需要，解放軍醫(yī)學(xué)圖書(shū)館開(kāi)發(fā)了基于Web的查收查引跨庫(kù)檢索系統(tǒng)。它通過(guò)頁(yè)面分析技術(shù)對(duì)CNKI、CSCD、CMCI、萬(wàn)方等多個(gè)異構(gòu)中文期刊引文數(shù)據(jù)庫(kù)進(jìn)行檢索，功能覆蓋收錄檢索、引文檢索、生成引證報(bào)告等環(huán)節(jié)，并結(jié)合精確匹配和模糊匹配，通過(guò)Levenshtein編輯距離計(jì)算相似度對(duì)重復(fù)文獻(xiàn)進(jìn)行查重去重。

1 跨庫(kù)檢索系統(tǒng)架構(gòu)與步驟

1.1 系統(tǒng)架構(gòu)

跨庫(kù)檢索系統(tǒng)架構(gòu)如圖1所示。三層體系結(jié)構(gòu)主要由客戶(hù)端Web頁(yè)面、服務(wù)器端檢索服務(wù)總線、異構(gòu)多數(shù)據(jù)源組成，通過(guò)檢索服務(wù)總線屏蔽各個(gè)異構(gòu)數(shù)據(jù)源的位置、檢索服務(wù)接口等細(xì)節(jié)差異，通過(guò)客戶(hù)端Web頁(yè)面提供檢索入口和結(jié)果展示。

客戶(hù)端Web頁(yè)面是用戶(hù)進(jìn)行檢索的界面和入口，用戶(hù)通過(guò)檢索界面登錄到跨庫(kù)檢索系統(tǒng)，輸入檢索條件如題名、作者、作者單位、刊名、年代范圍，顯示檢索結(jié)果并進(jìn)行人工整理。

服務(wù)器端檢索服務(wù)總線是系統(tǒng)的核心，接收來(lái)自客戶(hù)端Web頁(yè)面的檢索條件，按照異構(gòu)數(shù)據(jù)源的要求將檢索條件轉(zhuǎn)換成新的檢索表達(dá)式，并轉(zhuǎn)發(fā)給多個(gè)異構(gòu)數(shù)據(jù)源進(jìn)行檢索。獲得異構(gòu)數(shù)據(jù)源返回的檢索結(jié)果后，檢索服務(wù)總線通過(guò)頁(yè)面分析提取文獻(xiàn)元數(shù)據(jù)，結(jié)合精確匹配和模糊匹配，檢測(cè)相似文獻(xiàn)進(jìn)行數(shù)據(jù)分組合并或去重排序，最后將得到的檢索結(jié)果返回給客戶(hù)端Web頁(yè)面。

異構(gòu)多數(shù)據(jù)源是跨庫(kù)檢索系統(tǒng)的基礎(chǔ)。異構(gòu)數(shù)據(jù)源數(shù)據(jù)庫(kù)具有不同的資源覆蓋范圍，使用不同的數(shù)據(jù)格式、檢索方式。服務(wù)器端檢索服務(wù)總線通過(guò)數(shù)據(jù)源配置，從異構(gòu)多數(shù)據(jù)源獲得檢索結(jié)果。

圖1查收查引跨庫(kù)檢索系統(tǒng)架構(gòu)

1.2 主要步驟

查收查引跨庫(kù)檢索系統(tǒng)主要操作步驟如下。

查收查引工作人員在客戶(hù)端Web頁(yè)面輸入文獻(xiàn)題名、作者、作者單位、期刊名稱(chēng)、發(fā)表時(shí)間等檢索字段，并提交檢索請(qǐng)求進(jìn)行收錄檢索。服務(wù)器端檢索服務(wù)總線獲得Web頁(yè)面提交的檢索請(qǐng)求后，根據(jù)多數(shù)據(jù)源配置，將檢索請(qǐng)求轉(zhuǎn)換成符合各個(gè)異構(gòu)數(shù)據(jù)源要求的檢索表達(dá)式，通過(guò)多線程并發(fā)檢索多個(gè)異構(gòu)數(shù)據(jù)源。異構(gòu)數(shù)據(jù)源根據(jù)提交的檢索表達(dá)式進(jìn)行檢索，并將檢索結(jié)果返回檢索服務(wù)總線。檢索服務(wù)總線接收各異構(gòu)數(shù)據(jù)源的檢索結(jié)果后，通過(guò)頁(yè)面分析提取檢索結(jié)果中的元數(shù)據(jù)，結(jié)合精確匹配與模糊匹配，將題名、第一作者、來(lái)源期刊、出版年份相同的分為一組，將檢索結(jié)果返回給客戶(hù)端Web頁(yè)面，同時(shí)顯示該文獻(xiàn)的來(lái)源數(shù)據(jù)庫(kù)。查收查引工作人員查看收錄檢索結(jié)果，選擇部分結(jié)果文獻(xiàn)，繼續(xù)提交引文檢索請(qǐng)求。檢索服務(wù)總線將引文檢索請(qǐng)求通過(guò)多線程轉(zhuǎn)發(fā)給各異構(gòu)數(shù)據(jù)源，異構(gòu)數(shù)據(jù)源再將引文檢索結(jié)果返回給檢索服務(wù)總線；檢索服務(wù)總線接收各異構(gòu)數(shù)據(jù)源返回的引文信息，對(duì)引文檢索結(jié)果進(jìn)行相似性檢測(cè)比對(duì)去重，經(jīng)去重和排序后，以統(tǒng)一格式將結(jié)果返回客戶(hù)端Web頁(yè)面。最后查收查引工作人員由Web頁(yè)面提交請(qǐng)求，生成格式規(guī)范的引證報(bào)告。

2 查收查引跨庫(kù)檢索系統(tǒng)的功能與實(shí)現(xiàn)

系統(tǒng)采用.NET框架作為開(kāi)發(fā)平臺(tái)，使用標(biāo)準(zhǔn)的Internet協(xié)議創(chuàng)建分布式Web應(yīng)用，使用IIS服務(wù)器為應(yīng)用提供運(yùn)行環(huán)境。用戶(hù)登錄到系統(tǒng)后顯示的Web頁(yè)面如圖2所示。系統(tǒng)缺省對(duì)中國(guó)知網(wǎng)(CNKI)、萬(wàn)方數(shù)據(jù)、中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)、中國(guó)生物醫(yī)學(xué)期刊引文數(shù)據(jù)庫(kù)(CMCI)4個(gè)數(shù)據(jù)源進(jìn)行統(tǒng)一檢索，用戶(hù)也可只對(duì)其中的部分進(jìn)行查收查引檢索。

圖2 系統(tǒng)Web頁(yè)面

檢索分為以下兩個(gè)步驟。

第一步是收錄檢索。用戶(hù)登錄后，輸入檢索條件，點(diǎn)擊“開(kāi)始檢索”向服務(wù)器發(fā)出檢索請(qǐng)求。檢索服務(wù)總線根據(jù)配置信息，把檢索條件轉(zhuǎn)換成對(duì)應(yīng)于不同數(shù)據(jù)源的實(shí)際檢索條件，并發(fā)地向所有數(shù)據(jù)源檢索系統(tǒng)發(fā)出檢索請(qǐng)求。數(shù)據(jù)源檢索系統(tǒng)完成檢索任務(wù)后將檢索結(jié)果傳回檢索服務(wù)總線，然后總線從各數(shù)據(jù)源返回的檢索結(jié)果中提取元數(shù)據(jù)，按“題名+第一作者+刊名+年份”進(jìn)行分組，將不同數(shù)據(jù)源的同一篇文獻(xiàn)分到一個(gè)文獻(xiàn)組內(nèi)。例如，檢索廣州呼吸疾病研究所的鐘南山于2005-2015年發(fā)表在《中華醫(yī)學(xué)雜志》上的關(guān)于“慢性阻塞性肺疾病”論文收錄及被引情況。從圖3可以看出，多個(gè)數(shù)據(jù)源檢索的檢索結(jié)果被分成了多個(gè)組，每個(gè)組代表1篇文獻(xiàn)。

圖3收錄檢索條件與結(jié)果頁(yè)面

第二步是選擇結(jié)果文獻(xiàn)進(jìn)行查引。勾選圖3中“文獻(xiàn)分組：文獻(xiàn)2”，選擇題名為 “簡(jiǎn)易太極拳鍛煉對(duì)慢性阻塞性肺疾病患者運(yùn)動(dòng)耐力和生活質(zhì)量的影響”分組中的3篇文獻(xiàn)，點(diǎn)擊“開(kāi)始查引”則該篇文獻(xiàn)的被引情況會(huì)按“題名+第一作者+刊名+年份”去重排序后顯示(圖4)。

圖4引文檢索結(jié)果頁(yè)面

經(jīng)檢索服務(wù)總線自動(dòng)整合去重后，還有部分引文因存在錄入環(huán)節(jié)的格式錯(cuò)誤需要人工干預(yù)對(duì)引文列表進(jìn)行審查去重，最后形成圖 5所示的引證報(bào)告，用戶(hù)可直接輸出或下載。

圖5 引證報(bào)告

3 系統(tǒng)的主要關(guān)鍵技術(shù)

3.1 頁(yè)面分析方法

跨庫(kù)檢索是以多個(gè)分布式異構(gòu)數(shù)據(jù)源為對(duì)象的檢索系統(tǒng)[8]。系統(tǒng)提供統(tǒng)一的檢索界面，用戶(hù)輸入檢索條件后，系統(tǒng)將用戶(hù)的檢索條件轉(zhuǎn)化為不同分布式異構(gòu)數(shù)據(jù)源的檢索表達(dá)式，并發(fā)檢索多個(gè)分布式異構(gòu)數(shù)據(jù)源。由于未獲得后端數(shù)據(jù)源廠商可公開(kāi)訪問(wèn)的API接口，跨庫(kù)檢索系統(tǒng)只能通過(guò)頁(yè)面分析方法對(duì)多個(gè)后端數(shù)據(jù)源進(jìn)行集成檢索。頁(yè)面分析方法通過(guò)打開(kāi)網(wǎng)絡(luò)流量分析工具，抓取http請(qǐng)求與響應(yīng)數(shù)據(jù)進(jìn)行分析比對(duì)，找到參數(shù)部分，然后將新參數(shù)封裝進(jìn)http請(qǐng)求并發(fā)送，接收到http響應(yīng)后對(duì)html頁(yè)面進(jìn)行分析并提取元數(shù)據(jù)。該方法雖適用于所有的Web系統(tǒng)的集成，但當(dāng)后端數(shù)據(jù)源頁(yè)面發(fā)生變化時(shí)應(yīng)及時(shí)調(diào)整。

通過(guò)firefox插件的firebug進(jìn)行網(wǎng)絡(luò)流量分析。首先用firefox瀏覽萬(wàn)方專(zhuān)業(yè)檢索頁(yè)面，啟用firebug進(jìn)行網(wǎng)絡(luò)流量監(jiān)測(cè)抓取，輸入檢索表達(dá)式如“題名:(慢性阻塞性肺疾病) * 創(chuàng)作者:(鐘南山) * 作者單位:(廣州呼吸疾病研究所) * 期刊-刊名:(中華醫(yī)學(xué)雜志)”，點(diǎn)擊“檢索”，通過(guò)firebug中的網(wǎng)絡(luò)面板，對(duì)http請(qǐng)求與響應(yīng)進(jìn)行分析。基于網(wǎng)絡(luò)流量分析，檢索條件對(duì)應(yīng)的萬(wàn)方系統(tǒng)http請(qǐng)求詳見(jiàn)表1。

表1 對(duì)應(yīng)的萬(wàn)方系統(tǒng)http請(qǐng)求

從萬(wàn)方頁(yè)面源代碼可看出，編碼使用的是UTF-8，因此中文字符還需轉(zhuǎn)換為UTF-8格式。然后發(fā)出http請(qǐng)求并得到http響應(yīng)。接收到http響應(yīng)后通過(guò)html頁(yè)面查看源代碼，查看包含的檢索結(jié)果文獻(xiàn)，也可利用firebug直接找到結(jié)果文獻(xiàn)部分。然后利用XPATH和正則表達(dá)式匹配進(jìn)行頁(yè)面數(shù)據(jù)分析，找到有效信息，部分提取出檢索結(jié)果文獻(xiàn)的元數(shù)據(jù)包括題名、作者、刊名、年份、卷期、文獻(xiàn)類(lèi)型、被引次數(shù)、URL地址。引文檢索可直接通過(guò)URL地址訪問(wèn)結(jié)果文獻(xiàn)，通過(guò)頁(yè)面分析提取引證文獻(xiàn)元數(shù)據(jù)。3.2 相似文獻(xiàn)檢測(cè)

相似重復(fù)記錄的檢測(cè)與消除是跨庫(kù)檢索的重要功能，也是多數(shù)據(jù)源合并研究的熱點(diǎn)[9]。多數(shù)據(jù)源采集的文獻(xiàn)數(shù)據(jù)需要結(jié)合精確匹配和模糊匹配方法，由系統(tǒng)有效檢測(cè)重復(fù)文獻(xiàn)，自動(dòng)將相似度高的文獻(xiàn)歸類(lèi)到一個(gè)文獻(xiàn)組，不同的文獻(xiàn)歸類(lèi)到不同的文獻(xiàn)組。相似文獻(xiàn)檢測(cè)算法偽代碼如下：

其中，compare ()函數(shù)用于比較兩篇文獻(xiàn)的相似性，相似文獻(xiàn)被歸于同一組。用于比較的文獻(xiàn)元數(shù)據(jù)從數(shù)據(jù)源的http響應(yīng)中提取，包括題名、作者、刊名、年份。文獻(xiàn)分組與去重時(shí)，可用“年份+第一作者+刊名”進(jìn)行精確匹配。文獻(xiàn)題名通常包含中文字符、英文字符、上下標(biāo)、分隔符(空格、下劃線、中劃線)、特殊字符(拉丁字母等)、標(biāo)點(diǎn)符號(hào)等，在錄入時(shí)容易受全角半角、錄入錯(cuò)誤等影響，應(yīng)先進(jìn)行格式轉(zhuǎn)換預(yù)處理后采用模糊匹配，即采用Levenshtein算法計(jì)算兩個(gè)題名字符串之間的編輯距離。

4 結(jié)語(yǔ)

引證報(bào)告是重要的檢索評(píng)價(jià)工具。通過(guò)引證報(bào)告可了解文獻(xiàn)的被引用情況，為科研人員客觀了解自身的學(xué)術(shù)影響力，提供公正、合理、科學(xué)、客觀的評(píng)價(jià)依據(jù)，在科研管理和科學(xué)評(píng)價(jià)方面有重要的作用。解放軍醫(yī)學(xué)圖書(shū)館在原有C/S系統(tǒng)基礎(chǔ)上[10]開(kāi)發(fā)的基于Web的中文期刊查收查引跨庫(kù)檢索系統(tǒng)，使用戶(hù)不再需要安裝客戶(hù)端軟件，提高了軟件適應(yīng)性。根據(jù)后端數(shù)據(jù)源的變化調(diào)整了頁(yè)面抓取過(guò)程。模糊匹配采用編輯距離計(jì)算相似度進(jìn)行相似性文獻(xiàn)檢測(cè)分組與去重，輸出格式統(tǒng)一規(guī)范的引證報(bào)告。

系統(tǒng)通過(guò)跨庫(kù)檢索屏蔽異構(gòu)數(shù)據(jù)源的差異，使用戶(hù)能通過(guò)統(tǒng)一的客戶(hù)端Web頁(yè)面同時(shí)檢索多個(gè)異構(gòu)數(shù)據(jù)源，通過(guò)頁(yè)面分析方法轉(zhuǎn)換檢索表達(dá)式并發(fā)檢索后端多數(shù)據(jù)源，通過(guò)頁(yè)面元數(shù)據(jù)提取和相似文獻(xiàn)檢測(cè)對(duì)文獻(xiàn)進(jìn)行分組和去重排序，自動(dòng)生成統(tǒng)一格式的引證報(bào)告，簡(jiǎn)化了查新查引工作人員的工作，減少了人工錯(cuò)誤和重復(fù)性勞動(dòng)，提高了工作效率。目前該系統(tǒng)已經(jīng)在醫(yī)院、圖書(shū)館、研究所等多家機(jī)構(gòu)推廣使用。從用戶(hù)使用效果和查收查引的發(fā)展來(lái)看，系統(tǒng)還有需要完善的地方，主要體現(xiàn)在只集成檢索了中文引文數(shù)據(jù)源，未將SCI、EI、ISTP等外文數(shù)據(jù)源集成進(jìn)來(lái)，缺少區(qū)分自引他引的功能。