林宗英,林民山
(泉州職業(yè)技術(shù)大學(xué)智能制造學(xué)院 福建 泉州 362000)
信息技術(shù)作為文獻(xiàn)檢索水平的衡量標(biāo)準(zhǔn),逐漸向各大高校發(fā)展。在信息化技術(shù)逐步完善的背景下,各大高校的文獻(xiàn)檢索水平也越來越高,簡(jiǎn)單便捷的文獻(xiàn)檢索方式越來越受到學(xué)生的喜愛[1]。信息化的到來,增加了各大高校的文獻(xiàn)檢索量,但是檢索量的增加,導(dǎo)致檢索人數(shù)過多時(shí),學(xué)生無法快速有效地找到自己所需的文獻(xiàn)資料,所以檢索響應(yīng)時(shí)間長(zhǎng)是當(dāng)前亟待改善的問題。如何基于大數(shù)據(jù)改善文獻(xiàn)檢索問題,逐步成為高校文獻(xiàn)檢索設(shè)計(jì)的研究方向。基于大數(shù)據(jù)的高校文獻(xiàn)檢索系統(tǒng)的設(shè)計(jì)以縮短檢索響應(yīng)時(shí)間為目標(biāo),以個(gè)性化檢索服務(wù)為長(zhǎng)期發(fā)展方向,避免因文獻(xiàn)檢索時(shí)間長(zhǎng),造成學(xué)生學(xué)習(xí)效率低的現(xiàn)象[2]。而這免不了設(shè)計(jì)無線通信設(shè)備與播放器等硬件,通過硬件設(shè)計(jì),將檢索模式信息化,過濾無用文獻(xiàn),自動(dòng)保留可能用到的文獻(xiàn)資料,提升學(xué)生的檢索效率。同時(shí),優(yōu)化軟件也是必不可少的。首先,采集多個(gè)文獻(xiàn)檢索數(shù)據(jù),將他們匯總后,分析其優(yōu)缺點(diǎn),進(jìn)而設(shè)計(jì)一個(gè)檢索流程,提高檢索效率。其次,改進(jìn)原有的算法模式,將檢索響應(yīng)時(shí)間縮短至原基礎(chǔ)的一半甚至更多。最后,構(gòu)建一個(gè)數(shù)據(jù)庫(kù),將文獻(xiàn)檢索率較高的文獻(xiàn)排在檢索順序的優(yōu)先位置,一次排列,定時(shí)更新數(shù)據(jù)庫(kù)內(nèi)容,保持文獻(xiàn)檢索的快捷有效性,并通過實(shí)驗(yàn)測(cè)試,驗(yàn)證基于大數(shù)據(jù)的高校文獻(xiàn)檢索系統(tǒng)是否可行。
有線通信設(shè)備的價(jià)格較低,用途廣泛,具有操作簡(jiǎn)單,方便快捷,且待機(jī)時(shí)間長(zhǎng)等優(yōu)勢(shì),因?yàn)槠洳荒馨惭b新軟件,受眾較為單一,高校使用率較低。而無線通信設(shè)備主要有檢索信息傳送、收發(fā)檢索信息、播放檢索文獻(xiàn)視頻等功能,并且由于成本和技術(shù)條件的支持,無線通信設(shè)備所播放文獻(xiàn)視頻的格式比較多維化,音質(zhì)和畫質(zhì)效果相對(duì)較高,適合于各類用戶的使用[3]。尤其是在檢索文獻(xiàn)時(shí),無線通信設(shè)備可以發(fā)揮很好的作用。由于無線通信設(shè)備方便接入網(wǎng)絡(luò),可以獲取更多的文獻(xiàn)資源,并且能夠以多人在線交流的方式,方便高校學(xué)生之間在檢索文獻(xiàn)方面的溝通與交流。無線通信設(shè)備具有可操作性與在線升級(jí)功能,可以進(jìn)行文獻(xiàn)的改進(jìn)與上傳,并且文獻(xiàn)資源的檢索方式也更加豐富,可以隨時(shí)實(shí)現(xiàn)文獻(xiàn)檢索軟件的安裝。檢索技術(shù)水平在不斷地提升,但是成本卻在降低。所以,無線通信設(shè)備會(huì)擁有更廣闊的發(fā)展空間,也會(huì)更加廣泛地應(yīng)用到檢索領(lǐng)域。
MPEG檢索器是指遵循檢索文獻(xiàn)的標(biāo)準(zhǔn),通過存儲(chǔ)卡、存儲(chǔ)或下載文獻(xiàn)視頻的檢索設(shè)備,常見的檢索設(shè)備有M3、M4、M5等。這種類型的檢索設(shè)備除了具有下載文獻(xiàn)、存儲(chǔ)資源、播放文獻(xiàn)錄音等基本功能外,也具有通過檢索設(shè)備的存儲(chǔ)卡升級(jí),實(shí)現(xiàn)拓展文獻(xiàn)資源的檢索方向。在高校檢索文獻(xiàn)的過程中,學(xué)生根據(jù)自己的專業(yè)方向,播放文獻(xiàn)錄音來開展學(xué)習(xí)工作。近年來,我國(guó)開始普及MPEG檢索器這種檢索設(shè)備,早期的檢索器主要是指文獻(xiàn)檢索工具,較為呆板,只能單一地檢索文獻(xiàn),不能提高高校學(xué)生的檢索興趣。現(xiàn)如今的MPEG檢索器,學(xué)生可以該檢索設(shè)備學(xué)習(xí)外語(yǔ)文獻(xiàn)、翻譯外語(yǔ)文獻(xiàn),同時(shí)還具有檢索文獻(xiàn)學(xué)習(xí)的日程表的功能。經(jīng)過檢索技術(shù)的發(fā)展,以及檢索器的更新?lián)Q代,MPEG檢索器的功能開始廣泛發(fā)展,部分檢索器甚至具有可更改檢索系統(tǒng),并集成了以往檢索器的優(yōu)點(diǎn),在高校文獻(xiàn)檢索領(lǐng)域的應(yīng)用也更為廣泛。
采集文獻(xiàn)檢索數(shù)據(jù)需要與高校文獻(xiàn)管理系統(tǒng)聯(lián)機(jī)、通過高校文獻(xiàn)管理系統(tǒng)中的文獻(xiàn)流通數(shù)據(jù),將文獻(xiàn)檢索數(shù)據(jù)采集成同步的檢索模塊與檢索對(duì)象。首先,采集的文獻(xiàn)檢索數(shù)據(jù)需要包括文獻(xiàn)的題名檢索次數(shù)、作者檢索次數(shù)、索書號(hào)檢索次數(shù)以及ISBN號(hào)的檢索次數(shù)等。其次,將文獻(xiàn)中的作者介紹、內(nèi)容介紹、電子樣本介紹等信息,作為檢索對(duì)象,最大程度地保證文獻(xiàn)檢索數(shù)據(jù)的檢索效率。最后,文獻(xiàn)檢索數(shù)據(jù)需要對(duì)文獻(xiàn)的基本屬性進(jìn)行采集,采集到的數(shù)據(jù)最終歸于文獻(xiàn)檢索檔案管理處,作為每次優(yōu)化的文獻(xiàn)檢索標(biāo)準(zhǔn),此種采集數(shù)據(jù)模式為分布式鍵值型采集方法,具有采集數(shù)據(jù)準(zhǔn)確、采集速度快等優(yōu)點(diǎn),對(duì)于文獻(xiàn)檢索的流通數(shù)據(jù)管理應(yīng)用,具有良好的實(shí)用性。
首先,檢索環(huán)節(jié)都會(huì)有對(duì)應(yīng)的文獻(xiàn)信息,學(xué)生可以通過大數(shù)據(jù)的檢索與專業(yè)相關(guān)的文獻(xiàn);其次,文獻(xiàn)檢索系統(tǒng)可以通過大數(shù)據(jù)幫助學(xué)生群體獲取相關(guān)文獻(xiàn)的信息,了解文獻(xiàn)的價(jià)值,幫助學(xué)生快速檢索自己所需的文獻(xiàn)資源;最后,從檢索系統(tǒng)分析并處理文獻(xiàn)大數(shù)據(jù),將其中檢索次數(shù)較高的文獻(xiàn)信息提取出來并歸檔,當(dāng)學(xué)生檢索相關(guān)關(guān)鍵詞時(shí),檢索系統(tǒng)會(huì)依據(jù)大數(shù)據(jù)歸檔的信息,快速檢索,提高學(xué)生二次檢索文獻(xiàn)的效率。具體檢索流程見圖1。

圖1 基于大數(shù)據(jù)的文獻(xiàn)檢索流程圖
如圖1所示,高校文獻(xiàn)檢索流程圖基于大數(shù)據(jù)制定,大數(shù)據(jù)可以及時(shí)更新文獻(xiàn)資源,為學(xué)生提供了較為清晰的檢索方式,縮短了學(xué)生二次檢索的時(shí)間,提高了高校學(xué)生的檢索效率,極具推廣意義。
與常規(guī)檢索算法相比,改進(jìn)后的大數(shù)據(jù)檢索算法,在檢索文獻(xiàn)的過程與學(xué)生檢索效率有一定的關(guān)聯(lián)性。改進(jìn)算法需要了解學(xué)生群體的需求偏好,并基于此進(jìn)行維護(hù)與分析改進(jìn)的目標(biāo),分析檢索文獻(xiàn)較為相似的學(xué)生。基于大數(shù)據(jù)的高校檢索系統(tǒng)中,學(xué)生的二次檢索文獻(xiàn),與多次檢索文獻(xiàn)均會(huì)被記錄,未曾記錄過的文獻(xiàn),將不會(huì)出現(xiàn)在檢索詞條內(nèi),因此可以通過查找記錄的形式對(duì)文獻(xiàn)進(jìn)行檢索。
基于常規(guī)算法的矩陣算法,改進(jìn)的算法與檢索文獻(xiàn)有以下關(guān)系:

公式(1)中,η代表檢索文獻(xiàn)效率,q為文獻(xiàn)總量,△neo是二次檢索文獻(xiàn)效率,A是檢索文獻(xiàn)的數(shù)量,Tc為檢索時(shí)間。由公式(1)可以得出,在一致的檢索文獻(xiàn)效率且文獻(xiàn)總量固定的條件下,二次檢索文獻(xiàn)效率與檢索文獻(xiàn)數(shù)量成正比,因此,改進(jìn)算法是一種提高檢索時(shí)間的有效方法。
高校文獻(xiàn)檢索數(shù)據(jù)庫(kù)是一種提高學(xué)生檢索文獻(xiàn)效率的方式,該數(shù)據(jù)庫(kù)可以按照學(xué)生的想法來改造數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)的表示方法比較多,較為常見的是實(shí)體聯(lián)系數(shù)據(jù)庫(kù),也就是ER數(shù)據(jù)庫(kù),學(xué)生接受程度較高,因此,ER數(shù)據(jù)庫(kù)的構(gòu)建較為簡(jiǎn)便。首先,ER數(shù)據(jù)庫(kù)是文獻(xiàn)檢索系統(tǒng)的實(shí)體模型。即具有與現(xiàn)實(shí)世界中相同性質(zhì)的一類檢索方式,可以是具體的檢索對(duì)象,比如文獻(xiàn)作者、導(dǎo)入時(shí)間等,也可以是抽象的檢索對(duì)象,比如學(xué)生檢索文獻(xiàn)次數(shù),文獻(xiàn)信息、作者信息等。其次,ER數(shù)據(jù)庫(kù)的屬性多維化。屬性多維化是指該數(shù)據(jù)庫(kù)具有不同的性質(zhì),可以由多個(gè)屬性來檢索文獻(xiàn),例如:學(xué)生可以通過檢索文獻(xiàn)書號(hào)、文獻(xiàn)作者姓名、性別、文獻(xiàn)類型等屬性,排除多余的文獻(xiàn)。最后,ER數(shù)據(jù)庫(kù)與學(xué)生的聯(lián)系是密不可分的。這種聯(lián)系是與文獻(xiàn)非常有意義的連接,仿佛身臨其境,切身體會(huì)文獻(xiàn)中的故事,更有助于提高學(xué)習(xí)效率。
本次實(shí)驗(yàn)以某高校為例,設(shè)計(jì)了基于大數(shù)據(jù)的高校文獻(xiàn)檢索系統(tǒng),從檢索人數(shù)、檢索內(nèi)容、標(biāo)準(zhǔn)頁(yè)面響應(yīng)時(shí)間以及實(shí)際頁(yè)面響應(yīng)時(shí)間等方面測(cè)試,此次實(shí)驗(yàn)的目的在于使用本文設(shè)計(jì)的方法,測(cè)試高校文獻(xiàn)檢索系統(tǒng)頁(yè)面響應(yīng)速度,分析該方法的響應(yīng)時(shí)效性,驗(yàn)證本文設(shè)計(jì)的檢索系統(tǒng)在高校檢索文獻(xiàn)方面是否存在價(jià)值。
本文設(shè)計(jì)的方法需要分析采集到的數(shù)據(jù),并將改進(jìn)的算法帶入到檢索頁(yè)面中,頁(yè)面檢索的響應(yīng)時(shí)間長(zhǎng)短,關(guān)系到高校學(xué)生檢索速度的快慢,因此將本文設(shè)計(jì)的檢索系統(tǒng)頁(yè)面的響應(yīng)時(shí)間作為本次實(shí)驗(yàn)的測(cè)試重點(diǎn)。
在檢索人數(shù)、檢索內(nèi)容、標(biāo)準(zhǔn)頁(yè)面響應(yīng)時(shí)間均相同的條件下,測(cè)試兩種常規(guī)系統(tǒng)Var檢索系統(tǒng)、Tex檢索系統(tǒng)以及本文設(shè)計(jì)的檢索系統(tǒng),在文獻(xiàn)檢索頁(yè)面的實(shí)際響應(yīng)時(shí)間,具體響應(yīng)結(jié)果見表1。

表1 本文設(shè)計(jì)的方法檢索頁(yè)面響應(yīng)測(cè)試
由表1可知,常規(guī)的兩種檢索系統(tǒng)在檢索人數(shù)較多時(shí),響應(yīng)時(shí)間均超過標(biāo)準(zhǔn)時(shí)間,而本文設(shè)計(jì)的檢索系統(tǒng)在同樣人數(shù)的前提下,檢索響應(yīng)時(shí)間在標(biāo)準(zhǔn)響應(yīng)時(shí)間內(nèi),有較強(qiáng)實(shí)用性的結(jié)果,符合本文設(shè)計(jì)方法的初衷。
本文通過無線通信設(shè)備與MPEG檢索器等硬件進(jìn)行設(shè)計(jì),分析出高校檢索系統(tǒng)存在的問題,進(jìn)而提出采集文獻(xiàn)檢索數(shù)據(jù)、基于大數(shù)據(jù)繪制高校文獻(xiàn)檢索流程圖、改進(jìn)大數(shù)據(jù)檢索算法以及設(shè)計(jì)高校文獻(xiàn)檢索數(shù)據(jù)庫(kù)等軟件設(shè)計(jì)的方式,補(bǔ)足硬件的漏洞,展現(xiàn)出本文設(shè)計(jì)的文獻(xiàn)檢測(cè)系統(tǒng)的魅力,實(shí)現(xiàn)高效檢索、操作簡(jiǎn)單、縮短頁(yè)面響應(yīng)時(shí)間以及便捷的檢索功能。