, , ,,,曉梅,
查收查引又稱(chēng)為論文收錄及被引用檢索,主要通過(guò)文獻(xiàn)題名、作者、作者單位、期刊名稱(chēng)、發(fā)表時(shí)間等檢索字段查找論文被數(shù)據(jù)庫(kù)收錄及引用情況,并依據(jù)檢索結(jié)果出具引證報(bào)告,為科研評(píng)價(jià)提供依據(jù)[1]。
作為國(guó)內(nèi)科研績(jī)效評(píng)價(jià)的重要工具,該服務(wù)已成為國(guó)內(nèi)高校圖書(shū)館等信息服務(wù)機(jī)構(gòu)提供的基礎(chǔ)信息服務(wù)。據(jù)統(tǒng)計(jì),96所(占81%)“211”工程大學(xué)圖書(shū)館開(kāi)展了這項(xiàng)業(yè)務(wù),而且業(yè)務(wù)量逐年快速增長(zhǎng)[2]。
國(guó)內(nèi)開(kāi)展的引證檢索服務(wù)主要依靠手動(dòng)方式完成,需要查收查引人員在多種引文數(shù)據(jù)庫(kù)中重復(fù)檢索文獻(xiàn)收錄和引用情況,對(duì)檢索結(jié)果進(jìn)行去重去自引、轉(zhuǎn)換格式后出具檢索報(bào)告。存在多數(shù)據(jù)源檢索導(dǎo)致的工作量倍增[3]、錄入錯(cuò)誤與格式不規(guī)范造成的查重困難、手工生成標(biāo)準(zhǔn)報(bào)告費(fèi)時(shí)費(fèi)力、檢索工作重復(fù)低效等問(wèn)題。因此,必須利用軟件工具輔助人工完成查收查引并自動(dòng)統(tǒng)計(jì)與整理形成引證報(bào)告[4]。
查收查引系統(tǒng)較早可追溯到北京大學(xué)圖書(shū)館的論文查收查引工具[3,5]。利用網(wǎng)頁(yè)分析技術(shù)對(duì)SCI、EI數(shù)據(jù)源進(jìn)行自動(dòng)網(wǎng)絡(luò)查詢(xún),如中國(guó)科技大學(xué)圖書(shū)館利用Excel和EndNote Web提高論文查收查引的工作效率[6];中國(guó)科學(xué)院軟件研究所研發(fā)的“引證報(bào)告自動(dòng)生成原型系統(tǒng)”[4,7],可對(duì)SCI數(shù)據(jù)庫(kù)統(tǒng)計(jì)區(qū)分自引與他引。
基于國(guó)內(nèi)中文數(shù)據(jù)源查收查引的需要,解放軍醫(yī)學(xué)圖書(shū)館開(kāi)發(fā)了基于Web的查收查引跨庫(kù)檢索系統(tǒng)。它通過(guò)頁(yè)面分析技術(shù)對(duì)CNKI、CSCD、CMCI、萬(wàn)方等多個(gè)異構(gòu)中文期刊引文數(shù)據(jù)庫(kù)進(jìn)行檢索,功能覆蓋收錄檢索、引文檢索、生成引證報(bào)告等環(huán)節(jié),并結(jié)合精確匹配和模糊匹配,通過(guò)Levenshtein編輯距離計(jì)算相似度對(duì)重復(fù)文獻(xiàn)進(jìn)行查重去重。
跨庫(kù)檢索系統(tǒng)架構(gòu)如圖1所示。三層體系結(jié)構(gòu)主要由客戶(hù)端Web頁(yè)面、服務(wù)器端檢索服務(wù)總線、異構(gòu)多數(shù)據(jù)源組成,通過(guò)檢索服務(wù)總線屏蔽各個(gè)異構(gòu)數(shù)據(jù)源的位置、檢索服務(wù)接口等細(xì)節(jié)差異,通過(guò)客戶(hù)端Web頁(yè)面提供檢索入口和結(jié)果展示。
客戶(hù)端Web頁(yè)面是用戶(hù)進(jìn)行檢索的界面和入口,用戶(hù)通過(guò)檢索界面登錄到跨庫(kù)檢索系統(tǒng),輸入檢索條件如題名、作者、作者單位、刊名、年代范圍,顯示檢索結(jié)果并進(jìn)行人工整理。
服務(wù)器端檢索服務(wù)總線是系統(tǒng)的核心,接收來(lái)自客戶(hù)端Web頁(yè)面的檢索條件,按照異構(gòu)數(shù)據(jù)源的要求將檢索條件轉(zhuǎn)換成新的檢索表達(dá)式,并轉(zhuǎn)發(fā)給多個(gè)異構(gòu)數(shù)據(jù)源進(jìn)行檢索。獲得異構(gòu)數(shù)據(jù)源返回的檢索結(jié)果后,檢索服務(wù)總線通過(guò)頁(yè)面分析提取文獻(xiàn)元數(shù)據(jù),結(jié)合精確匹配和模糊匹配,檢測(cè)相似文獻(xiàn)進(jìn)行數(shù)據(jù)分組合并或去重排序,最后將得到的檢索結(jié)果返回給客戶(hù)端Web頁(yè)面。
異構(gòu)多數(shù)據(jù)源是跨庫(kù)檢索系統(tǒng)的基礎(chǔ)。異構(gòu)數(shù)據(jù)源數(shù)據(jù)庫(kù)具有不同的資源覆蓋范圍,使用不同的數(shù)據(jù)格式、檢索方式。服務(wù)器端檢索服務(wù)總線通過(guò)數(shù)據(jù)源配置,從異構(gòu)多數(shù)據(jù)源獲得檢索結(jié)果。

圖1查收查引跨庫(kù)檢索系統(tǒng)架構(gòu)
查收查引跨庫(kù)檢索系統(tǒng)主要操作步驟如下。
查收查引工作人員在客戶(hù)端Web頁(yè)面輸入文獻(xiàn)題名、作者、作者單位、期刊名稱(chēng)、發(fā)表時(shí)間等檢索字段,并提交檢索請(qǐng)求進(jìn)行收錄檢索。服務(wù)器端檢索服務(wù)總線獲得Web頁(yè)面提交的檢索請(qǐng)求后,根據(jù)多數(shù)據(jù)源配置,將檢索請(qǐng)求轉(zhuǎn)換成符合各個(gè)異構(gòu)數(shù)據(jù)源要求的檢索表達(dá)式,通過(guò)多線程并發(fā)檢索多個(gè)異構(gòu)數(shù)據(jù)源。異構(gòu)數(shù)據(jù)源根據(jù)提交的檢索表達(dá)式進(jìn)行檢索,并將檢索結(jié)果返回檢索服務(wù)總線。檢索服務(wù)總線接收各異構(gòu)數(shù)據(jù)源的檢索結(jié)果后,通過(guò)頁(yè)面分析提取檢索結(jié)果中的元數(shù)據(jù),結(jié)合精確匹配與模糊匹配,將題名、第一作者、來(lái)源期刊、出版年份相同的分為一組,將檢索結(jié)果返回給客戶(hù)端Web頁(yè)面,同時(shí)顯示該文獻(xiàn)的來(lái)源數(shù)據(jù)庫(kù)。查收查引工作人員查看收錄檢索結(jié)果,選擇部分結(jié)果文獻(xiàn),繼續(xù)提交引文檢索請(qǐng)求。檢索服務(wù)總線將引文檢索請(qǐng)求通過(guò)多線程轉(zhuǎn)發(fā)給各異構(gòu)數(shù)據(jù)源,異構(gòu)數(shù)據(jù)源再將引文檢索結(jié)果返回給檢索服務(wù)總線;檢索服務(wù)總線接收各異構(gòu)數(shù)據(jù)源返回的引文信息,對(duì)引文檢索結(jié)果進(jìn)行相似性檢測(cè)比對(duì)去重,經(jīng)去重和排序后,以統(tǒng)一格式將結(jié)果返回客戶(hù)端Web頁(yè)面。最后查收查引工作人員由Web頁(yè)面提交請(qǐng)求,生成格式規(guī)范的引證報(bào)告。
系統(tǒng)采用.NET框架作為開(kāi)發(fā)平臺(tái),使用標(biāo)準(zhǔn)的Internet協(xié)議創(chuàng)建分布式Web應(yīng)用,使用IIS服務(wù)器為應(yīng)用提供運(yùn)行環(huán)境。用戶(hù)登錄到系統(tǒng)后顯示的Web頁(yè)面如圖2所示。系統(tǒng)缺省對(duì)中國(guó)知網(wǎng)(CNKI)、萬(wàn)方數(shù)據(jù)、中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)、中國(guó)生物醫(yī)學(xué)期刊引文數(shù)據(jù)庫(kù)(CMCI)4個(gè)數(shù)據(jù)源進(jìn)行統(tǒng)一檢索,用戶(hù)也可只對(duì)其中的部分進(jìn)行查收查引檢索。

圖2 系統(tǒng)Web頁(yè)面
檢索分為以下兩個(gè)步驟。
第一步是收錄檢索。用戶(hù)登錄后,輸入檢索條件,點(diǎn)擊“開(kāi)始檢索”向服務(wù)器發(fā)出檢索請(qǐng)求。檢索服務(wù)總線根據(jù)配置信息,把檢索條件轉(zhuǎn)換成對(duì)應(yīng)于不同數(shù)據(jù)源的實(shí)際檢索條件,并發(fā)地向所有數(shù)據(jù)源檢索系統(tǒng)發(fā)出檢索請(qǐng)求。數(shù)據(jù)源檢索系統(tǒng)完成檢索任務(wù)后將檢索結(jié)果傳回檢索服務(wù)總線,然后總線從各數(shù)據(jù)源返回的檢索結(jié)果中提取元數(shù)據(jù),按“題名+第一作者+刊名+年份”進(jìn)行分組,將不同數(shù)據(jù)源的同一篇文獻(xiàn)分到一個(gè)文獻(xiàn)組內(nèi)。例如,檢索廣州呼吸疾病研究所的鐘南山于2005-2015年發(fā)表在《中華醫(yī)學(xué)雜志》上的關(guān)于“慢性阻塞性肺疾病”論文收錄及被引情況。從圖3可以看出,多個(gè)數(shù)據(jù)源檢索的檢索結(jié)果被分成了多個(gè)組,每個(gè)組代表1篇文獻(xiàn)。

圖3收錄檢索條件與結(jié)果頁(yè)面
第二步是選擇結(jié)果文獻(xiàn)進(jìn)行查引。勾選圖3中“文獻(xiàn)分組:文獻(xiàn)2”,選擇題名為 “簡(jiǎn)易太極拳鍛煉對(duì)慢性阻塞性肺疾病患者運(yùn)動(dòng)耐力和生活質(zhì)量的影響”分組中的3篇文獻(xiàn),點(diǎn)擊“開(kāi)始查引”則該篇文獻(xiàn)的被引情況會(huì)按“題名+第一作者+刊名+年份”去重排序后顯示(圖4)。

圖4引文檢索結(jié)果頁(yè)面
經(jīng)檢索服務(wù)總線自動(dòng)整合去重后,還有部分引文因存在錄入環(huán)節(jié)的格式錯(cuò)誤需要人工干預(yù)對(duì)引文列表進(jìn)行審查去重,最后形成圖 5所示的引證報(bào)告,用戶(hù)可直接輸出或下載。

圖5 引證報(bào)告
跨庫(kù)檢索是以多個(gè)分布式異構(gòu)數(shù)據(jù)源為對(duì)象的檢索系統(tǒng)[8]。系統(tǒng)提供統(tǒng)一的檢索界面,用戶(hù)輸入檢索條件后,系統(tǒng)將用戶(hù)的檢索條件轉(zhuǎn)化為不同分布式異構(gòu)數(shù)據(jù)源的檢索表達(dá)式,并發(fā)檢索多個(gè)分布式異構(gòu)數(shù)據(jù)源。由于未獲得后端數(shù)據(jù)源廠商可公開(kāi)訪問(wèn)的API接口,跨庫(kù)檢索系統(tǒng)只能通過(guò)頁(yè)面分析方法對(duì)多個(gè)后端數(shù)據(jù)源進(jìn)行集成檢索。頁(yè)面分析方法通過(guò)打開(kāi)網(wǎng)絡(luò)流量分析工具,抓取http請(qǐng)求與響應(yīng)數(shù)據(jù)進(jìn)行分析比對(duì),找到參數(shù)部分,然后將新參數(shù)封裝進(jìn)http請(qǐng)求并發(fā)送,接收到http響應(yīng)后對(duì)html頁(yè)面進(jìn)行分析并提取元數(shù)據(jù)。該方法雖適用于所有的Web系統(tǒng)的集成,但當(dāng)后端數(shù)據(jù)源頁(yè)面發(fā)生變化時(shí)應(yīng)及時(shí)調(diào)整。
通過(guò)firefox插件的firebug進(jìn)行網(wǎng)絡(luò)流量分析。首先用firefox瀏覽萬(wàn)方專(zhuān)業(yè)檢索頁(yè)面,啟用firebug進(jìn)行網(wǎng)絡(luò)流量監(jiān)測(cè)抓取,輸入檢索表達(dá)式如“題名:(慢性阻塞性肺疾病) * 創(chuàng)作者:(鐘南山) * 作者單位:(廣州呼吸疾病研究所) * 期刊-刊名:(中華醫(yī)學(xué)雜志)”,點(diǎn)擊“檢索”,通過(guò)firebug中的網(wǎng)絡(luò)面板,對(duì)http請(qǐng)求與響應(yīng)進(jìn)行分析。基于網(wǎng)絡(luò)流量分析,檢索條件對(duì)應(yīng)的萬(wàn)方系統(tǒng)http請(qǐng)求詳見(jiàn)表1。

表1 對(duì)應(yīng)的萬(wàn)方系統(tǒng)http請(qǐng)求
從萬(wàn)方頁(yè)面源代碼可看出,編碼使用的是UTF-8,因此中文字符還需轉(zhuǎn)換為UTF-8格式。然后發(fā)出http請(qǐng)求并得到http響應(yīng)。接收到http響應(yīng)后通過(guò)html頁(yè)面查看源代碼,查看包含的檢索結(jié)果文獻(xiàn),也可利用firebug直接找到結(jié)果文獻(xiàn)部分。然后利用XPATH和正則表達(dá)式匹配進(jìn)行頁(yè)面數(shù)據(jù)分析,找到有效信息,部分提取出檢索結(jié)果文獻(xiàn)的元數(shù)據(jù)包括題名、作者、刊名、年份、卷期、文獻(xiàn)類(lèi)型、被引次數(shù)、URL地址。引文檢索可直接通過(guò)URL地址訪問(wèn)結(jié)果文獻(xiàn),通過(guò)頁(yè)面分析提取引證文獻(xiàn)元數(shù)據(jù)。3.2 相似文獻(xiàn)檢測(cè)
相似重復(fù)記錄的檢測(cè)與消除是跨庫(kù)檢索的重要功能,也是多數(shù)據(jù)源合并研究的熱點(diǎn)[9]。多數(shù)據(jù)源采集的文獻(xiàn)數(shù)據(jù)需要結(jié)合精確匹配和模糊匹配方法,由系統(tǒng)有效檢測(cè)重復(fù)文獻(xiàn),自動(dòng)將相似度高的文獻(xiàn)歸類(lèi)到一個(gè)文獻(xiàn)組,不同的文獻(xiàn)歸類(lèi)到不同的文獻(xiàn)組。相似文獻(xiàn)檢測(cè)算法偽代碼如下:

其中,compare ()函數(shù)用于比較兩篇文獻(xiàn)的相似性,相似文獻(xiàn)被歸于同一組。用于比較的文獻(xiàn)元數(shù)據(jù)從數(shù)據(jù)源的http響應(yīng)中提取,包括題名、作者、刊名、年份。文獻(xiàn)分組與去重時(shí),可用“年份+第一作者+刊名”進(jìn)行精確匹配。文獻(xiàn)題名通常包含中文字符、英文字符、上下標(biāo)、分隔符(空格、下劃線、中劃線)、特殊字符(拉丁字母等)、標(biāo)點(diǎn)符號(hào)等,在錄入時(shí)容易受全角半角、錄入錯(cuò)誤等影響,應(yīng)先進(jìn)行格式轉(zhuǎn)換預(yù)處理后采用模糊匹配,即采用Levenshtein算法計(jì)算兩個(gè)題名字符串之間的編輯距離。
引證報(bào)告是重要的檢索評(píng)價(jià)工具。通過(guò)引證報(bào)告可了解文獻(xiàn)的被引用情況,為科研人員客觀了解自身的學(xué)術(shù)影響力,提供公正、合理、科學(xué)、客觀的評(píng)價(jià)依據(jù),在科研管理和科學(xué)評(píng)價(jià)方面有重要的作用。解放軍醫(yī)學(xué)圖書(shū)館在原有C/S系統(tǒng)基礎(chǔ)上[10]開(kāi)發(fā)的基于Web的中文期刊查收查引跨庫(kù)檢索系統(tǒng),使用戶(hù)不再需要安裝客戶(hù)端軟件,提高了軟件適應(yīng)性。根據(jù)后端數(shù)據(jù)源的變化調(diào)整了頁(yè)面抓取過(guò)程。模糊匹配采用編輯距離計(jì)算相似度進(jìn)行相似性文獻(xiàn)檢測(cè)分組與去重,輸出格式統(tǒng)一規(guī)范的引證報(bào)告。
系統(tǒng)通過(guò)跨庫(kù)檢索屏蔽異構(gòu)數(shù)據(jù)源的差異,使用戶(hù)能通過(guò)統(tǒng)一的客戶(hù)端Web頁(yè)面同時(shí)檢索多個(gè)異構(gòu)數(shù)據(jù)源,通過(guò)頁(yè)面分析方法轉(zhuǎn)換檢索表達(dá)式并發(fā)檢索后端多數(shù)據(jù)源,通過(guò)頁(yè)面元數(shù)據(jù)提取和相似文獻(xiàn)檢測(cè)對(duì)文獻(xiàn)進(jìn)行分組和去重排序,自動(dòng)生成統(tǒng)一格式的引證報(bào)告,簡(jiǎn)化了查新查引工作人員的工作,減少了人工錯(cuò)誤和重復(fù)性勞動(dòng),提高了工作效率。目前該系統(tǒng)已經(jīng)在醫(yī)院、圖書(shū)館、研究所等多家機(jī)構(gòu)推廣使用。從用戶(hù)使用效果和查收查引的發(fā)展來(lái)看,系統(tǒng)還有需要完善的地方,主要體現(xiàn)在只集成檢索了中文引文數(shù)據(jù)源,未將SCI、EI、ISTP等外文數(shù)據(jù)源集成進(jìn)來(lái),缺少區(qū)分自引他引的功能。
中華醫(yī)學(xué)圖書(shū)情報(bào)雜志2016年6期