杜 君
(齊齊哈爾大學(xué)圖書館,黑龍江 齊齊哈爾 161000)
大數(shù)據(jù)這一概念是繼云計算之后覆蓋社會各領(lǐng)域的又一熱點,可以被看作是數(shù)字化時代的升級版本,意為融合移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等多種科技信息技術(shù)的環(huán)境,具有智能化、泛在化的特點,進(jìn)一步造就了全新意義的數(shù)據(jù)傳播方式,使不同媒介之間的界限更加模糊,促進(jìn)了資源的交流與互通。與此同時,伴隨知識經(jīng)濟(jì)時代的到來,人們對知識的渴望越來越強烈,高校圖書館作為重要的知識服務(wù)機(jī)構(gòu),有義務(wù)承擔(dān)起知識服務(wù)的社會職責(zé)。實際上,數(shù)據(jù)的發(fā)現(xiàn)和挖掘是知識發(fā)現(xiàn)的前提與基礎(chǔ),在大數(shù)據(jù)環(huán)境下,高校圖書館的知識發(fā)現(xiàn)主要基于本館的館藏資源,同時與網(wǎng)絡(luò)上的學(xué)術(shù)資源進(jìn)行互聯(lián),將價值較高的學(xué)術(shù)資源納入知識發(fā)現(xiàn)系統(tǒng)中,豐富高校圖書館知識發(fā)現(xiàn)服務(wù)的資源基礎(chǔ)。因此,大數(shù)據(jù)與高校圖書館知識發(fā)現(xiàn)服務(wù)之間存在著必然聯(lián)系,數(shù)據(jù)處理技術(shù)的進(jìn)步在一定程度上決定著高校圖書館館藏資源知識發(fā)現(xiàn)服務(wù)的過程與效果。
高校圖書館館藏資源以學(xué)術(shù)資源為主,學(xué)術(shù)資源的建設(shè)趨向數(shù)字化和網(wǎng)絡(luò)化,通過數(shù)據(jù)傳播的方式推動高校師生學(xué)術(shù)研究進(jìn)一步向社會延伸,逐步向公眾提供學(xué)術(shù)數(shù)據(jù)支持。在這樣的背景下,學(xué)術(shù)大數(shù)據(jù)環(huán)境為知識發(fā)現(xiàn)服務(wù)的創(chuàng)新提供了支撐,高校圖書館學(xué)術(shù)資源建設(shè)從過去單一領(lǐng)域向交叉領(lǐng)域深入融合,信息的構(gòu)建也呈現(xiàn)全方位和多角度的特點。
基于學(xué)術(shù)大數(shù)據(jù)平臺,作者與高校圖書館學(xué)術(shù)數(shù)據(jù)庫之間可以進(jìn)行雙向選擇。一方面,大數(shù)據(jù)的編輯模式可以綜合多種信息源,了解到學(xué)術(shù)領(lǐng)域的熱點問題和前沿情況,進(jìn)一步了發(fā)現(xiàn)作者的研究領(lǐng)域和已有的學(xué)術(shù)成果,對學(xué)術(shù)期刊的作者有一個前期的綜合評價,進(jìn)而聚焦其研究重點,進(jìn)行有針對性的選題與組稿,對其學(xué)術(shù)研究數(shù)據(jù)進(jìn)行深度挖掘[1]。另一方面,大數(shù)據(jù)的雙向流通特點也給予了作者選擇學(xué)術(shù)資源庫的權(quán)利,社會化的學(xué)術(shù)資源編輯模式,使作者能夠了解到更多類型和專業(yè)指向的資源庫平臺,可以選擇與自己研究課題匹配度較高的學(xué)術(shù)資源庫平臺發(fā)布其科研成果,擴(kuò)大其學(xué)術(shù)研究的流通范圍,并進(jìn)一步尋求協(xié)作研究目標(biāo),促進(jìn)學(xué)術(shù)研究成果的有效轉(zhuǎn)化。由此構(gòu)成了以學(xué)術(shù)大數(shù)據(jù)為基礎(chǔ)的作者與高校數(shù)據(jù)庫之間的科研流通路徑,進(jìn)一步豐富高校圖書館學(xué)術(shù)館藏資源的學(xué)科領(lǐng)域與數(shù)據(jù)類型,為其開展知識發(fā)現(xiàn)服務(wù)奠定良好基礎(chǔ)。
高校圖書館學(xué)術(shù)館藏資源需要結(jié)合大數(shù)據(jù)技術(shù)進(jìn)行精細(xì)的數(shù)據(jù)挖掘與整合。高校圖書館依托大數(shù)據(jù)技術(shù),以知識發(fā)現(xiàn)服務(wù)與讀者閱讀需求為指引,結(jié)合學(xué)術(shù)館藏資源的內(nèi)涵與特征,構(gòu)建起集合大數(shù)據(jù)處理體系、數(shù)據(jù)分析系統(tǒng)、過程管理系統(tǒng)等技術(shù)在內(nèi)的集成式知識發(fā)現(xiàn)服務(wù)平臺,實現(xiàn)學(xué)術(shù)數(shù)據(jù)的廣泛傳播與面向讀者用戶的精準(zhǔn)化嵌入式有效知識服務(wù),從而提高高校圖書館學(xué)術(shù)館藏資源知識發(fā)現(xiàn)工作的成效。
高校圖書館應(yīng)用大數(shù)據(jù)的分析、組織、存儲、獲取等新技術(shù),創(chuàng)新對館藏資源的構(gòu)建,加快了以學(xué)術(shù)期刊為主的全媒體出版進(jìn)程。大數(shù)據(jù)環(huán)境的一個特點在于網(wǎng)絡(luò)平臺延伸服務(wù)的廣泛性,尤其是媒體時代的來臨,進(jìn)一步推動了數(shù)據(jù)的交流與傳播,高校圖書館學(xué)術(shù)期刊的知識發(fā)現(xiàn)服務(wù)可以與媒體環(huán)境相結(jié)合,推出云出版、網(wǎng)絡(luò)出版、信息定制等知識發(fā)現(xiàn)和資源推送服務(wù),豐富圖書館知識發(fā)現(xiàn)的內(nèi)涵[2]。同時,高校圖書館可以此為契機(jī),搭建以學(xué)術(shù)期刊為紐帶的人才對接、產(chǎn)學(xué)研合作平臺等,適應(yīng)大數(shù)據(jù)時代對學(xué)術(shù)期刊的新要求,增強高校圖書館學(xué)術(shù)資源的附加價值。
高校圖書館館藏資源的知識發(fā)現(xiàn)服務(wù)分為數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段和結(jié)果評估階段。數(shù)據(jù)準(zhǔn)備階段是建設(shè)學(xué)術(shù)數(shù)據(jù)資源的過程;數(shù)據(jù)挖掘階段結(jié)合讀者的知識需求對數(shù)據(jù)進(jìn)行整合與關(guān)聯(lián),是知識發(fā)現(xiàn)服務(wù)的核心環(huán)節(jié);結(jié)果評估階段則指將知識發(fā)現(xiàn)成果以可視化的直觀方式展現(xiàn)給讀者。
在學(xué)術(shù)大數(shù)據(jù)環(huán)境下,學(xué)術(shù)數(shù)據(jù)呈現(xiàn)出爆炸式增長,數(shù)據(jù)類型也越來越復(fù)雜。在數(shù)據(jù)準(zhǔn)備階段,高校圖書館主要是對館藏數(shù)據(jù)進(jìn)行全面的梳理和建設(shè),解決知識服務(wù)中數(shù)據(jù)的有效識別問題。受高校圖書館館藏資源學(xué)術(shù)數(shù)據(jù)密集研究范式的影響,知識發(fā)現(xiàn)研究成為對已有的數(shù)據(jù)進(jìn)行處理,進(jìn)而達(dá)到知識發(fā)現(xiàn)目的的一種過程性服務(wù)手段,而非為了實現(xiàn)一個研究目的而尋找實驗數(shù)據(jù)的指向性服務(wù)方式[3],這就要求學(xué)術(shù)數(shù)據(jù)的構(gòu)建要盡量覆蓋全面和多樣化,這在高校圖書館知識發(fā)現(xiàn)服務(wù)的數(shù)據(jù)準(zhǔn)備階段尤為重要。
數(shù)據(jù)挖掘階段是高校圖書館進(jìn)行知識發(fā)現(xiàn)服務(wù)的關(guān)鍵環(huán)節(jié),主要解決數(shù)據(jù)的集合、關(guān)聯(lián)、聚類等問題。在此過程中與大數(shù)據(jù)技術(shù)緊密結(jié)合,應(yīng)用了大量的數(shù)據(jù)統(tǒng)計學(xué)和計算機(jī)自動化數(shù)據(jù)識別技術(shù),充分保證館藏資源中的學(xué)術(shù)數(shù)據(jù)是有效的、可理解的。同時,根據(jù)讀者知識獲取的實際需求,采取相應(yīng)的技術(shù)方法(如遺傳算法、神經(jīng)網(wǎng)絡(luò)等),優(yōu)化知識發(fā)現(xiàn)產(chǎn)品的質(zhì)量,最大程度符合學(xué)術(shù)數(shù)據(jù)與讀者需求的匹配要求。總之,數(shù)據(jù)挖掘階段實現(xiàn)的成效直接影響到高校圖書館學(xué)術(shù)數(shù)據(jù)知識發(fā)現(xiàn)服務(wù)的效率和精準(zhǔn)度,將多學(xué)科理論進(jìn)行交叉和數(shù)據(jù)挖掘,針對多源異構(gòu)數(shù)據(jù)采取適合的數(shù)據(jù)處理技術(shù),實現(xiàn)學(xué)術(shù)數(shù)據(jù)的縱深整合,是知識發(fā)現(xiàn)研究領(lǐng)域的研究重點。
結(jié)果評估與解釋階段是指高校圖書館將知識發(fā)現(xiàn)服務(wù)成果展示給讀者用戶的過程,同時也是檢驗知識發(fā)現(xiàn)服務(wù)工作成效的反饋環(huán)節(jié)。數(shù)據(jù)準(zhǔn)備階段和數(shù)據(jù)挖掘階段是高校圖書館針對學(xué)術(shù)期刊數(shù)據(jù)進(jìn)行處理,并不與讀者用戶直接發(fā)生關(guān)系,而結(jié)果評估與解釋階段是將數(shù)據(jù)處理的結(jié)果以可視化的方式展示給讀者,直接與讀者產(chǎn)生聯(lián)系,讀者對高校圖書館知識服務(wù)的感受在很大程度上反映了前兩個階段的工作成效。因此,這一環(huán)節(jié)既可以看作是學(xué)術(shù)大數(shù)據(jù)環(huán)境下高校圖書館知識發(fā)現(xiàn)服務(wù)的應(yīng)用終端,也與前兩個階段形成反饋機(jī)制,起到促進(jìn)知識發(fā)現(xiàn)服務(wù)技術(shù)與數(shù)據(jù)處理方式創(chuàng)新完善的作用。
基于上述對學(xué)術(shù)大環(huán)境和高校圖書館館藏資源知識發(fā)現(xiàn)服務(wù)的分析,筆者認(rèn)為,高校圖書館要將其知識發(fā)現(xiàn)服務(wù)的重難點放在數(shù)據(jù)的整理方面,提高核心數(shù)據(jù)競爭力,深度挖掘?qū)W術(shù)數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)性,打造內(nèi)容全面的、豐富的學(xué)術(shù)資源數(shù)據(jù)庫,服務(wù)于讀者用戶的知識發(fā)現(xiàn)需求。因此,筆者構(gòu)建了如下高校圖書館知識發(fā)現(xiàn)服務(wù)模型。該模型自上而下分為界面展示層、知識發(fā)現(xiàn)處理層和數(shù)據(jù)資源層3個層次,根據(jù)每個層次的功能,結(jié)合學(xué)術(shù)大數(shù)據(jù)的環(huán)境特征,可從整體上提高圖書館基于大數(shù)據(jù)技術(shù)的知識發(fā)現(xiàn)服務(wù)效率。下文將對每一個層次的構(gòu)建內(nèi)容進(jìn)行詳細(xì)設(shè)計。

圖1 學(xué)術(shù)大數(shù)據(jù)環(huán)境下高校圖書館館藏資源知識發(fā)現(xiàn)服務(wù)的總體設(shè)計
數(shù)據(jù)資源開發(fā)利用是高校圖書館館藏資源知識發(fā)現(xiàn)工作的基礎(chǔ),為數(shù)據(jù)的編碼和計算提供條件。如圖1 所示,數(shù)據(jù)資源層從各數(shù)據(jù)源中集成資源,收錄到學(xué)術(shù)情報數(shù)據(jù)庫中,形成結(jié)構(gòu)化的查詢語言系統(tǒng)(簡稱SQL)[4]。一般來說,高校圖書館學(xué)術(shù)數(shù)據(jù)庫的建設(shè)會直接影響到知識發(fā)現(xiàn)服務(wù)的效率,從目前的高校圖書館數(shù)據(jù)庫構(gòu)建情況來看,比較成熟的學(xué)術(shù)資源數(shù)據(jù)庫種類有關(guān)系型與非關(guān)系型兩種。關(guān)系型的數(shù)據(jù)庫更多地采用表型結(jié)構(gòu)存儲數(shù)據(jù),更加符合讀者用戶的資源獲取需求,從操作便捷性和知識發(fā)現(xiàn)結(jié)果匹配性來看,關(guān)系型的學(xué)術(shù)數(shù)據(jù)庫更有利于強化數(shù)據(jù)關(guān)聯(lián)、深化數(shù)據(jù)挖掘,其流程為“確定分析目的→確定研究范圍→收集情報”,從而形成完整的知識發(fā)現(xiàn)服務(wù)鏈。然而,在學(xué)術(shù)大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)數(shù)量十分龐大,數(shù)據(jù)的結(jié)構(gòu)也十分復(fù)雜,這使修改數(shù)據(jù)庫表結(jié)構(gòu)較為耗時,尚存在改善的空間。
知識發(fā)現(xiàn)處理層的功能是針對數(shù)據(jù)資源層的數(shù)據(jù)資源進(jìn)行深度挖掘和關(guān)聯(lián),通過數(shù)據(jù)處理技術(shù)進(jìn)行數(shù)據(jù)的整合與情報編碼,使海量數(shù)據(jù)進(jìn)行有規(guī)律的排列。如圖1 所示,在高校圖書館館藏資源知識發(fā)現(xiàn)服務(wù)的處理層中,主要分為3個功能的模塊:第一,制定編碼體系,通過文本預(yù)處理、專業(yè)述評詞典、停止詞詞典和同義詞詞典將數(shù)據(jù)資源進(jìn)行歸類;第二,編碼功能,通過中文分詞、去停止詞、合并同義詞、特征選擇與文本量表示,對學(xué)術(shù)資源進(jìn)行規(guī)范性的編碼處理,便于知識發(fā)現(xiàn)的內(nèi)部數(shù)據(jù)關(guān)聯(lián)與結(jié)果輸出;第三,數(shù)據(jù)分析功能,通過相似度算法與聚類算法等數(shù)據(jù)處理方法,實現(xiàn)情報串聯(lián)和自動聚類的學(xué)術(shù)資源知識發(fā)現(xiàn)成果。
學(xué)術(shù)大數(shù)據(jù)環(huán)境下高校圖書館館藏資源知識發(fā)現(xiàn)服務(wù)的界面展示層包括兩個部分:外觀界面與可視化分析。外觀界面是指讀者用戶獲取知識的操作系統(tǒng),有利于實現(xiàn)用戶與圖書館之間的互動交流,是圖書館獲取讀者反饋的重要平臺。可視化分析則指展現(xiàn)出學(xué)術(shù)資源知識發(fā)現(xiàn)的成果,屬于知識發(fā)現(xiàn)服務(wù)成果輸出的環(huán)節(jié),可視化分析有利于準(zhǔn)確地表達(dá)知識發(fā)現(xiàn)與資源匹配的具體信息,既有利于提高用戶學(xué)術(shù)知識獲取的效率,也有利于協(xié)助圖書館情報人員更好地處理情報[5]。
在學(xué)術(shù)大數(shù)據(jù)環(huán)境下,高校圖書館的學(xué)術(shù)資源知識發(fā)現(xiàn)服務(wù)要著力加大數(shù)據(jù)挖掘力度,發(fā)現(xiàn)知識資源內(nèi)隱含的價值和數(shù)據(jù)間的關(guān)聯(lián),這是知識發(fā)現(xiàn)的內(nèi)涵所在,也是實現(xiàn)資源價值重組的關(guān)鍵步驟。結(jié)合讀者用戶的個性化學(xué)術(shù)知識需求,筆者提出以下幾點知識發(fā)現(xiàn)服務(wù)策略。
高校圖書館知識發(fā)現(xiàn)的目的是從館藏資源數(shù)據(jù)中抽取出有意義的知識,不同的數(shù)據(jù)挖掘技術(shù)和算法的應(yīng)用,導(dǎo)致同樣參數(shù)條件的數(shù)據(jù)檢索成果大不相同。因此,高校圖書館要通過反復(fù)調(diào)試,加強數(shù)據(jù)聚類、挖掘、分析等技術(shù)在高校圖書館學(xué)術(shù)數(shù)據(jù)資源庫中的應(yīng)用,充分挖掘?qū)W術(shù)數(shù)據(jù)內(nèi)隱含的價值,對學(xué)術(shù)資源數(shù)據(jù)庫進(jìn)行深層次的探討,保證讀者在知識發(fā)現(xiàn)服務(wù)中能夠得到相對滿意的結(jié)果,提高高校圖書館知識發(fā)現(xiàn)服務(wù)的成效。
我國高校圖書館學(xué)術(shù)資源應(yīng)用的最大困境在于缺乏有影響力的平臺,導(dǎo)致學(xué)術(shù)資源的孤島現(xiàn)象[6]。從宏觀層面來說,大數(shù)據(jù)環(huán)境具有數(shù)據(jù)共享和交流的特點,旨在促進(jìn)數(shù)據(jù)的廣泛傳播,而現(xiàn)實情況卻是各高校圖書館“各自為營”,即便在本館內(nèi)加大學(xué)術(shù)數(shù)據(jù)資源開發(fā)力度,但其前提也僅局限在本館的學(xué)術(shù)數(shù)據(jù)資源支持上,缺乏與其他圖書館或?qū)W術(shù)情報機(jī)構(gòu)的合作交流,難以形成覆蓋范圍廣、學(xué)科領(lǐng)域豐富的集成式學(xué)術(shù)數(shù)據(jù)資源庫。因此,依托學(xué)術(shù)大數(shù)據(jù)的環(huán)境與理念,高校圖書館應(yīng)該打造集數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)交互等功能于一體的廣泛的知識發(fā)現(xiàn)平臺,促進(jìn)學(xué)術(shù)數(shù)據(jù)資源的館際互通。例如與學(xué)術(shù)機(jī)構(gòu)進(jìn)行項目合作,利用數(shù)據(jù)關(guān)聯(lián)規(guī)則引入相關(guān)度等指標(biāo),開發(fā)出檢索范圍廣泛、功能齊全的數(shù)據(jù)挖掘平臺。
高校圖書館學(xué)術(shù)資源的知識發(fā)現(xiàn)服務(wù)平臺建設(shè),一方面要確保學(xué)術(shù)資源數(shù)量的充足,另一方面也要重視學(xué)術(shù)資源的質(zhì)量,并對學(xué)術(shù)資源進(jìn)行知識間的關(guān)聯(lián)與挖掘,為讀者提供可操作的知識發(fā)現(xiàn)服務(wù)平臺。同時,高校圖書館要充分考慮到數(shù)據(jù)對象的多樣化,在知識發(fā)現(xiàn)成果的呈現(xiàn)方式上也要有所創(chuàng)新,如非結(jié)構(gòu)化的圖像、視頻、音頻等,豐富高校圖書館學(xué)術(shù)數(shù)據(jù)知識發(fā)現(xiàn)形式,提高高校圖書館學(xué)術(shù)數(shù)據(jù)的知識發(fā)現(xiàn)效率。
在學(xué)術(shù)大數(shù)據(jù)環(huán)境的影響下,高校圖書館知識發(fā)現(xiàn)服務(wù)的范圍得到拓展,從學(xué)術(shù)數(shù)據(jù)的開發(fā)利用角度看,高校圖書館要主動更新數(shù)據(jù)處理方式,加大數(shù)據(jù)挖掘、整合與關(guān)聯(lián)的力度,為讀者用戶提供個性化、多元化和智能化的知識發(fā)現(xiàn)服務(wù),充分體現(xiàn)出數(shù)據(jù)時代的便捷性和高效性特點,為讀者用戶的知識獲取提供強有力的保障。