林 麗
集美大學(xué)圖書(shū)館,福建 廈門 361021
高校圖書(shū)存在學(xué)科種類復(fù)雜,學(xué)科主題更新快問(wèn)題。圖書(shū)館采訪人員如何從百萬(wàn)新書(shū)中選擇適合本校學(xué)科發(fā)展需要的書(shū)籍,是一個(gè)迫切解決的問(wèn)題。當(dāng)前,采訪人員主要根據(jù)書(shū)目的MARC數(shù)據(jù)來(lái)了解書(shū)目信息,而MARC數(shù)據(jù)中的書(shū)名和摘要存在字?jǐn)?shù)多、學(xué)科覆蓋面廣、主題詞專業(yè)性強(qiáng)等問(wèn)題,故單純靠采訪人員一條條判斷選購(gòu),是無(wú)法滿足高校圖書(shū)館的各個(gè)學(xué)科讀者的知識(shí)需求及高校的學(xué)科建設(shè)需要。
隨著人工智能技術(shù)的發(fā)展,運(yùn)用自然語(yǔ)言處理[1]、數(shù)據(jù)挖掘技術(shù)構(gòu)建基于高校學(xué)科專業(yè)知識(shí)的學(xué)科主題詞庫(kù),其不僅存儲(chǔ)各個(gè)學(xué)科領(lǐng)域的專業(yè)主題詞,也能統(tǒng)計(jì)各個(gè)學(xué)科主題詞的學(xué)科研究熱度、館藏借閱熱度等指標(biāo)數(shù)據(jù)[2]。基于學(xué)科主題庫(kù)的采訪模式中,圖書(shū)中攜帶的復(fù)雜MARC數(shù)據(jù)會(huì)被抽取轉(zhuǎn)化為若干個(gè)學(xué)科主題詞及主題詞指標(biāo)數(shù)據(jù),采訪人員不需要學(xué)科專業(yè)知識(shí),即可以通過(guò)主題詞及其對(duì)應(yīng)的指標(biāo)數(shù)據(jù)直觀了解圖書(shū)的學(xué)術(shù)價(jià)值、需求價(jià)值,也可以通過(guò)技術(shù)手段和統(tǒng)計(jì)方法實(shí)現(xiàn)機(jī)器自動(dòng)采選,從而大大提高“訪”的效率和效果。
國(guó)內(nèi)圖書(shū)館界在圖書(shū)采訪模式的理論研究成果豐碩。包括:
1.讀者薦購(gòu)采訪模式。樓宇源[3]提出的讀者驅(qū)動(dòng)采購(gòu)模式,結(jié)合深圳大學(xué)圖書(shū)館實(shí)行PDA項(xiàng)目的實(shí)際情況,提出如何更好地在國(guó)內(nèi)開(kāi)展紙本書(shū)PDA采購(gòu)模式的建議。
2.定量決策采購(gòu)模型。鐘建法[4]提出的基于德?tīng)柗品ê蛯哟畏治龇?gòu)建圖書(shū)采訪決策評(píng)價(jià)指標(biāo)體系和基本模型,模型運(yùn)行所形成的圖書(shū)評(píng)價(jià)分值和薦藏、適藏、選藏與不藏四種采選策略,作為新書(shū)采選和舊書(shū)補(bǔ)藏的重要依據(jù)。
3.智能圖書(shū)采選模式。王紅[5]提出采用人工智能技術(shù),基于館藏?cái)?shù)據(jù)、采訪數(shù)據(jù)、借閱數(shù)據(jù)不斷訓(xùn)練和學(xué)習(xí)構(gòu)建智能采選模型,以取得最優(yōu)化的圖書(shū)采訪效果。
學(xué)科主題詞庫(kù):指高校按照不同學(xué)院不同專業(yè)構(gòu)建學(xué)科主題詞庫(kù)。主題詞庫(kù)設(shè)計(jì)如表1所示,存儲(chǔ)的數(shù)據(jù)包含:學(xué)科主題詞和學(xué)科主題指標(biāo)。其中,學(xué)科主題指標(biāo)特征包括:

表1 學(xué)科主題詞庫(kù)
1.館藏量,包含該主題詞的書(shū)目數(shù)量,可通過(guò)館藏?cái)?shù)量了解重復(fù)主題詞的書(shū)目數(shù)量。
2.學(xué)科占比,包含該主題詞的館藏量占所屬中文圖分類的館藏量的比例,便于館員采購(gòu)配比。
3.該主題詞近5年的借閱趨勢(shì)比。統(tǒng)計(jì)該主題詞的借閱次數(shù)年增長(zhǎng)率BAGR(式1)。

4.相關(guān)論著發(fā)文量5年內(nèi)的復(fù)合增長(zhǎng)率。計(jì)算方法采用在銷售系統(tǒng)應(yīng)用的年復(fù)合增長(zhǎng)率CAGR(Compound Annual Growth Rate)公式計(jì)算(式2)。CAGR值表示某主題詞在某個(gè)時(shí)間段的增長(zhǎng)或變遷的潛力和預(yù)期。

其中,B表示本年的發(fā)文量,A表示往起始年的發(fā)文量,n表示統(tǒng)計(jì)的年份。
基于學(xué)科主題庫(kù)的圖書(shū)采選體系,主要包括數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)存儲(chǔ)層、采訪業(yè)務(wù)層、數(shù)據(jù)分析層。圖1所示為基于學(xué)科主題詞庫(kù)的圖書(shū)采訪系統(tǒng)架構(gòu)。

圖1 圖書(shū)采訪系統(tǒng)架構(gòu)
數(shù)據(jù)采集主要通過(guò)不同數(shù)據(jù)源收集學(xué)科主題詞。通過(guò)教材庫(kù)、館藏庫(kù)、論文期刊庫(kù)三種方式收集書(shū)目名字作為學(xué)科主題詞庫(kù)的語(yǔ)料庫(kù)。
數(shù)據(jù)處理層的主要工作為:
1.借助自然語(yǔ)言處理的NLP技術(shù)實(shí)現(xiàn)書(shū)目書(shū)名的中文分詞、詞頻統(tǒng)計(jì)、相似詞合并及候選主題詞的抽取工作。
2.構(gòu)建主題詞審核平臺(tái)完成候選主題詞的機(jī)器核對(duì)及人工校對(duì)工作。
3.統(tǒng)計(jì)學(xué)科主題詞的指標(biāo)數(shù)據(jù)。
4.存入學(xué)科主題詞庫(kù)。
1.學(xué)科主題詞庫(kù)數(shù)據(jù)庫(kù)。存儲(chǔ)學(xué)科主題詞及其指標(biāo)數(shù)據(jù)。
2.圖書(shū)采訪數(shù)據(jù)庫(kù)。要存儲(chǔ)圖書(shū)采訪相關(guān)數(shù)據(jù)。
基于學(xué)科主題詞的采訪模式是基于學(xué)科主題詞庫(kù)查找新書(shū)對(duì)應(yīng)的學(xué)科主題詞及學(xué)科主題指標(biāo)。采訪工作人員通過(guò)學(xué)科主題指標(biāo)可直觀了解新書(shū)的內(nèi)容特點(diǎn)、需求價(jià)值、學(xué)術(shù)價(jià)值,為采選提供專業(yè)的決策輔助。具體的采訪流程為:
1.對(duì)新到的所有書(shū)目的書(shū)名和書(shū)目摘要分別做中文分詞,抽取該書(shū)目的學(xué)科主題詞。書(shū)名的關(guān)鍵詞作為一級(jí)學(xué)科主題,摘要的關(guān)鍵詞作為二級(jí)學(xué)科主題。
2.若新書(shū)對(duì)應(yīng)的學(xué)科主題詞在學(xué)科主題詞庫(kù)匹配不到,則該新書(shū)標(biāo)記為“待選”,待選的新書(shū)可借助人工采選輔助。同時(shí),新書(shū)對(duì)應(yīng)的學(xué)科主題詞,作為候選主題詞加入學(xué)科主題詞庫(kù),以便專家人工審核是否新興學(xué)科主題。
3.若新書(shū)對(duì)應(yīng)的學(xué)科主題詞在學(xué)科主題詞庫(kù)已存在,則查詢其對(duì)應(yīng)的主題詞指標(biāo)數(shù)據(jù)。按照主題詞的各個(gè)指標(biāo)數(shù)據(jù),可設(shè)置機(jī)器自動(dòng)采選。
表2所示書(shū)目智能采購(gòu)表中可以看到,機(jī)器采選根據(jù)學(xué)科主題的指標(biāo),書(shū)名為《Python機(jī)器學(xué)習(xí)教程》,滿足采購(gòu)條件,自動(dòng)加入訂單。書(shū)名為《Access數(shù)據(jù)庫(kù)創(chuàng)建、使用與管理從新手到高手》借閱比和相關(guān)論著發(fā)文量均下降,說(shuō)明該書(shū)的學(xué)術(shù)價(jià)值、課程學(xué)習(xí)價(jià)值都不高,系統(tǒng)自動(dòng)不采選。書(shū)名《C語(yǔ)言程序設(shè)計(jì)與應(yīng)用》的學(xué)科主題體現(xiàn)為借閱比為正數(shù),但是論著發(fā)文量下降,一般為課程教材或教輔,系統(tǒng)設(shè)為“待選”,則需要人工采選,采訪人員根據(jù)這類書(shū)特點(diǎn)、出版社質(zhì)量等決定是否采選。

表2 書(shū)目智能采購(gòu)表
數(shù)據(jù)分析層,主要是基于學(xué)科主題詞庫(kù)、書(shū)目采訪庫(kù)的大數(shù)據(jù),構(gòu)建學(xué)科主題詞自動(dòng)抽取模型、圖書(shū)智能采訪模型、圖書(shū)檢索模型等,高效挖掘館藏資源。
“雙一流”高校學(xué)科建設(shè)背景下,高校圖書(shū)館對(duì)文獻(xiàn)資源的專業(yè)性要求更強(qiáng)。基于學(xué)科主題詞庫(kù)的高校圖書(shū)館的采訪模式,應(yīng)用自然語(yǔ)言處理技術(shù)算法、數(shù)據(jù)分析技術(shù)自動(dòng)抽取圖書(shū)的學(xué)科主題詞及學(xué)科主題指標(biāo)構(gòu)建采訪決策模型,不僅能精準(zhǔn)提取圖書(shū)的學(xué)術(shù)價(jià)值、需求熱度,而且實(shí)時(shí)掌握高校的學(xué)科研究前沿和熱點(diǎn)主題,保障高校圖書(shū)館的學(xué)科資源建設(shè)。但是,本文設(shè)計(jì)的學(xué)科主題詞指標(biāo)數(shù)據(jù)還不夠完善,未來(lái)隨著更多圖書(shū)館數(shù)據(jù)的融合,主題詞指標(biāo)可將進(jìn)一步優(yōu)化,為智能采選提供更多數(shù)據(jù)支撐。