宋靈超
2017年政府工作報告明確提出大力發展人工智能技術[1],自此國內人工智能領域進入快速發展階段。同年第六次全國公共圖書館評估工作中,智能數字參考咨詢成為省級(副省級)評估定級加分項納入評估標準。智能化管理和服務已經成為圖書館發展與建設工作的重要組成部分[2],引起業界學者的高度關注。圖書館智能咨詢服務是在智能技術不斷發展的前提下,在讀者對咨詢服務實時性、便捷性的需求下誕生的。它梳理咨詢問答并基于信息組織理論搭建知識庫,采用人機對話方式在線解答讀者咨詢。與傳統咨詢服務相比,智能咨詢可以24小時在線,無須專門場所,無須現場值守人員[3]。這些優勢讓其快速發展并成為智慧圖書館建設的重要一環。筆者在2022年1月時調研國內“雙一流”一期建設的42所高校智能咨詢服務應用情況,發現有18所高校圖書館上線該服務,占比達42.86%。可見,智能咨詢服務應用于國內高校圖書館已較為普遍。
隨著我國圖書館智能咨詢服務發展,研究理論、方法也在不斷更新、迭代,研究成果大量發表于學術期刊上。但同時,部分圖書館在系統建設方面缺少理論指導,不了解讀者需求,智能咨詢服務無法充分體現AI功能,甚至成為智慧圖書館推廣的阻礙因素[4];部分學者對這一領域缺少認知,不確定哪些研究角度對促進服務發展有重要意義。文獻調研發現,目前國內并無關于圖書館智能咨詢服務發展現狀的綜述和文獻計量類研究。有關圖書館智能技術的綜述研究[5-8]集中于智能技術在圖書館的整體應用,對智能咨詢服務只是從功能角度介紹服務的特點和應用,缺少深入透徹的文獻梳理和主題分析。因此,梳理研究成果,探究我國圖書館智能咨詢服務的發展歷程和研究熱點、研究趨勢,為系統建設提供參考,為學者提供研究思路就顯得十分重要。本研究以文獻計量學理論為基礎,結合可視化技術,對我國圖書館智能咨詢服務科研文獻進行系統梳理,并從多個角度挖掘研究主題和研究熱點,試圖回答:圖書館智能咨詢服務的研究現狀如何?現有研究在哪些主題上取得了成果?對該領域的未來發展路徑有何展望?
(1)數據來源。本研究主要針對我國有關圖書館智能咨詢服務的科研文獻展開調研,為保證研究數據權威性和代表性,選擇中國知網(CNKI)、萬方、維普3個國內具有代表性的數據庫作為數據來源。
(2)處理過程。本研究以“(智能咨詢OR自動問答OR聊天機器人OR智能回復OR智能問答)AND圖書館”為檢索式,在CNKI、萬方中使用主題檢索,在維普中使用“題名或關鍵詞”和“摘要”字段檢索,檢索時間截至2021年12月31日,獲取文獻:CNKI 99篇,萬方58篇,維普246篇。為提升數據質量,對文獻進行二次篩選,篩選標準為題名、關鍵詞或摘要中明確提出圖書館智能咨詢,剔除新聞報道、重復文獻等,最終獲得182 篇論文。本研究依托平臺導出EndNote格式引文數據,基于“篇名、作者、期刊、關鍵詞、摘要、時間、基金”等數據進行分析,其中CNKI和維普導出數據并無基金信息,筆者采用人工查詢匯總方式進行二次收集,最終形成“我國圖書館智能咨詢研究基礎文獻數據集”。
(3)研究方法。本文主要利用文獻計量學理論展開研究。利用Excel展示文獻數量隨時間分布情況,利用可視化工具RAWGraphs展示期刊分布、基金分布、機構分布情況,利用可視化工具VOSViewer展示作者分布、關鍵詞分布情況。
文獻數量隨時間分布反應主題研究趨勢。從圖1可知,本主題2001年出現1篇文獻,2021年文獻達19篇。現代科學發展時期科學文獻的年率遞增可6%-8%[9]。在本研究中,2001-2021年文獻年率遞增15.86%,遠高于平均水平。研究數量在2019 年達到最高峰,隨后出現下降,基本維持在20篇左右。從分布規律看,本主題文獻在2016年前年發文數量10篇以下;2017-2019年爆發式增長,年均發文數大于18篇。數量的暴漲反映智能咨詢服務已引起業界關注。

圖1 發文數量逐年分布圖
本研究涉及82種期刊,182篇文章。參照布拉德福定律[10],將期刊分為3個區域:第一區為核心區,期刊7種,發文量區間7-10篇,論文60篇,占比32.97%;第二區為相關區,期刊20種,發文量區間2-5 篇,論文62 篇,占比34.07%;第三區為非相關區,期刊總數55種,發文量區間1-2篇,論文60篇,占比32.97%。
為探索發文學科信息,筆者以CNKI“期刊導航”中“學科導航”里的“專題名稱”為分類依據,排除6種未被收錄的期刊,統計剩余76種期刊的學科信息,排名前四的依次為:“圖書情報與數字圖書館”34種,發文123篇;“計算機軟件及計算機應用”7種,發文8篇;“基礎科學綜合”5種,發文7篇;“教育綜合”4種,發文4篇。由此可知,研究主要集中于圖書情報學科,少量分散于計算機、基礎科學、教育等學科之中,跨學科研究趨勢不明顯。
基于圖書情報學科為主要研究學科的統計結果,以2021 年“中文社會科學引文索引(CSSCI)”為統計標準,探究上述期刊被CSSCI(包括擴展版)收錄情況。統計發現,82 種期刊中,CSSCI收錄18種,占比21.95%。按區域劃分,核心區3種(共7種),相關區13種(共20種),非相關區2種(共55種);但是,CSSCI收錄期刊發表論文75 篇,占比高達41.21%。按區域劃分,核心區35 篇(共60 篇),相關區38 篇(共62篇),非相關區2篇(共60篇)。收錄該主題文章的CSSCI 收錄期刊平均刊載4.17 篇,遠高于非CSSCI收錄期刊的1.67篇,這反映出CSSCI收錄期刊對該主題的關注更多。以核心區為例展示期刊及其發文數,見圖2。

圖2 核心區期刊及其發文數目
本數據集有63篇文章有項目基金支持,占比34.62%。其中,53篇文章有1個基金支持,8篇文章有2個基金支持,2篇文章有3個基金支持。根據項目歸屬基金和編號信息梳理、去重后得到6個分類72個項目。按照基金類型分為3個層次:第一層次為國家和部委級,包含:國家社會科學基金13個項目,國家自然科學基金3個項目,教育部人文社會科學基金2個項目;第二層次為各省市和高校級,包含:省市科研基金36個項目,高校科研基金15個項目;第三層次為其他科研組織級,共3個項目。根據數據統計結果,筆者繪制圓形樹狀圖,對省市科研基金進一步細化,如圖3所示。從圖中可知,校級基金和國家社會科學基金支持發文數量最多,占比38.89%;各省市中,江蘇(7)、黑龍江(6)和廣東(5)基金支持發文數量最多。由此可知,研究受到國家、省市和高校多層次關注。

圖3 基金類型分布圖
本數據集包含研究機構168個。單篇論文機構數從1至4,其中單一機構論文163篇,占比89.56%,兩個及以上機構論文19 篇,僅占10.44%,可知多機構合作比例較低。
機構信息的粗細粒度不統一。例如,四川大學信息管理系和四川大學公共管理學院都屬于四川大學。對類似機構數據進行處理后得到142個機構。筆者基于這一數據從地域分布和機構發文數角度分析熱點發文機構信息。首先,除1篇文章涉及美國華盛頓州外,其余涉及國內27個省級行政區。發文數排名前9的省級行政區為:江蘇(34 篇)、北京(21 篇)、廣東(16 篇)、湖北(15篇)、吉林(13 篇)、黑龍江(12 篇)、浙江(11 篇)、河南(8篇)、上海(8篇),占比75.82%;單個機構發文多于3篇的有16個,排名前三的依次為南京大學(6 篇)、武漢大學(6 篇),國家圖書館(5 篇),圖4中筆者繪制樹形圖展示發文量較多的部分機構和對應省級行政區。

圖4 部分機構發文量統計
本數據集有作者280人,篇均1.54人;第一作者164人,人均發文1.11篇。所有作者中,發文4篇的2人,占比0.71%;發文3篇的21人,占比7.50%;發文2 篇的19 人,占比6.79%;發文1 篇的252 人,占比90.00%。第一作者中,發文4篇的2人,占比1.22%;發文3篇的2人,占比1.22%;發文2 篇的8 人,占比4.88%;發文1篇的152人,占比92.68%。根據統計結果,結合普賴斯定律[11],從所有作者角度分析,發文數量排名前17的作者發文53篇,占比29.12%。從第一作者角度分析,發文數量排名前13的作者發文31篇,占比17.03%。兩個數據均距50%存在很大差距,不符合普賴斯定律,說明高產作者數量偏少,絕大部分作者屬于低產作者,杰出作者有待形成。在VOSViewer提供的作者關系圖中,鏈接強度反映作者間合作強度。針對所有作者數據得到聚類157簇,簇中作者數量從1至12,合作總強度為482。選取合作總強度最大的4個簇進行展示,如圖5所示。圖5中展示了以柳益君、姚飛、王晰巍和胡瀟戈為代表的合作者共現情況,分別刻畫了江蘇理工學院12個作者4篇論文、清華大學7個作者4篇論文、吉林大學6個作者2篇論文、武漢大學6個作者2篇論文的鏈接情況;而節點的顏色則代表發文年份的平均值。分析可知,清華大學的研究起步較早,江蘇理工學院、武漢大學和吉林大學近些年初步形成了研究團隊,取得了一定的研究成果,但數量較少,需要進一步加強。

圖5 強度排名前四的作者簇
本數據集包含關鍵詞726個,篇均3.99 個,去重后383 個。累計出現10次及以上10個,5次及以上27個,3次及以上35個,2次及以上79個。本研究選擇3次及以上關鍵詞,繪制關鍵詞可視化圖表,見圖6。

圖6 關鍵詞出現次數大于等于3的可視化圖表
圖6中節點大小表示關鍵詞出現頻次,以節點大小衡量高頻詞出現情況,排名前十的關鍵詞依次是:圖書館(53)、人工智能(36)、參考咨詢(34)、高校圖書館(20)、智慧圖書館(16)、智能咨詢(13)、微信(12)、機器人(10)、數字圖書館(10)、信息服務(10)。這些詞代表熱點研究方向;節點間連線表示關鍵詞共現強度,以節點鏈接數衡量詞語的共現情況,排名前十的詞語依次是:圖書館(25)、人工智能(20)、參考咨詢(19)、智慧圖書館(14)、信息服務(14)、高校圖書館(12)、微信(12)、智能咨詢(11)、深度學習(10)、信息咨詢(10),這些詞形成主要研究大類;節點用漸變顏色表示時間屬性,每個節點的時間由包含該關鍵詞的文獻出版時間取平均值計算得出。從時間維度分析,排名前十的最新熱詞依次是:智慧圖書館(2019.81)、自然語言處理(2019.50)、新媒體(2019.50)、深度學習(2019.11)、智慧服務(2018.67)、圖書館機器人(2018.67)、機器學習(2018.60)、人工智能(2018.47)、智能機器人(2018.29)、智能(2018.20)。對關鍵詞時間屬性四舍五入取整,結合RAWGraphs工具,統計得到歷年研究熱詞,見圖7。

圖7 歷年研究熱詞統計圖
結合圖7研究熱詞,提取關鍵詞所屬文獻進行研讀、歸納,總結出以下4個研究主題。
圖書館智能咨詢服務是利用智能技術對咨詢服務理論的探索。結合關鍵詞可視化分析可知,這種探索主要集中在早期研究中。按照研究內容的不同,可以分為對圖書館引入智能咨詢服務可行性探討、對理論模型構建方式探討兩部分。
對圖書館引入智能咨詢服務的可行性探討是智能咨詢服務誕生的前期理論準備。這些研究有從信息咨詢服務的智能化趨勢角度展開,基于咨詢信息和手段智能化態勢[12-14],人工智能技術和咨詢服務相結合的方法[15-16]等多維度推導圖書館智能咨詢服務的可行性與必要性;也有研究從咨詢服務發展現狀角度展開,通過對數字參考咨詢[17]、實時參考咨詢[18]的現狀調研得出智能咨詢將在參考咨詢中扮演重要角色的結論。
對理論模型構建方式的探討是對構建機制、方法的理論研究。這些研究既有將智能咨詢作為咨詢模型的一部分開展研究[19-21],也有將其作為獨立個體展開研究[22-24]。從共性角度分析,智能咨詢模型大體可分為知識庫、技術層和應用層三層架構[24]。從圖7可以看出三層架構是后續研究重點,其中,知識庫負責問答知識的收集、組織,與“知識庫”關鍵詞對應;技術層是對知識推理方法的研究,與“深度學習、機器學習、自然語言處理”等關鍵詞對應,是近年研究熱點;應用層是系統與讀者溝通的交互層,與“微信、智能機器人、咨詢機器人、新媒體”等關鍵詞相對應,也是當前研究熱點。
知識庫是影響智能咨詢系統服務效能的核心要素[25],決定服務深度和廣度[26]。在圖7中,“知識庫”是研究重點。知識庫建設核心問題在于知識來源獲取、分類組織方法。
知識來源獲取是知識庫建立的前提條件,目前主要通過互聯網、FAQ問答庫、本館特色知識庫[27-30]獲取。其中,互聯網途徑是指從“百度百科”等網絡問答資源庫獲取大量范圍廣泛的知識問答,但該方式容易導致知識庫容量過大,滿足讀者需求程度存疑;FAQ問答庫是指各圖書館公開的咨詢問答信息,滿足需求的概率更高,但沒有形成完備的知識體系;本館特色數據庫是圖書館收集本校讀者咨詢形成的特色庫,更符合本校讀者需求。
分類組織是指基于特定領域信息對結構化或非結構化知識進行存儲,方便系統后續獲取和利用。在現有研究中,李玲等[28]利用元數據規范結合工作實際提出知識庫多級分類及建設方案;胡瀟戈等[31]引入知識圖譜構建多源數據融合的圖書館智能咨詢系統知識庫。
目前知識庫相關的研究數量較少,覆蓋也不全面。例如,知識來源獲取缺少讀者的參與,組織分類缺少從圖書館功能、服務類型以及后期維護角度的考量。
知識推理類研究是探討系統推理邏輯,核心在于讀者提問與知識庫問題的匹配機制。知識推理是系統開發的重點與難點,目前的解決方案包括范例推理[32](Case-Based Reasoning,CBR),關鍵詞、Tag標簽匹配[33-34],人工智能標記語言(Artificial Intelligence Markup Language,AIML)模式匹配算法[35-36],關聯數據SPARQL 查詢匹配[37],深度學習匹配算法[38],知識圖譜向量相似度匹配算法[39-40]等。此外,有研究者利用算法優化提問形式提升匹配準確率[41]。基于關聯數據、深度學習、知識圖譜的知識推理是當前研究熱點。
交互平臺類研究是對智能咨詢服務與讀者交互方式的探討。按照載體不同分為虛擬平臺類研究和實體機器人研究。虛擬平臺類研究大多利用即時通訊工具開展服務。涉及的工具從早期BotPlatform[33]、MSN[34]到目前的微信[30,42]。隨著新媒體技術發展,跨媒體[43]平臺建設也引起學者關注。實體機器人研究在軟件基礎上結合硬件技術制造出實體機器人,將智能咨詢服務從虛擬融入現實,如中國礦業大學圖書館和國家圖書館結合語音、運動控制技術構造實體咨詢機器人[44-45]。
(1)學科交叉融合發展趨勢不明顯。圖書館智能咨詢服務主要由圖書情報學科與計算機學科交叉演變而來。然而,基于發文期刊所屬學科信息可知:“圖書情報與數字圖書館”占比67.58%,“計算機軟件及計算機應用”占比僅有4.40%,跨學科科研數量明顯偏少。這反映出國內研究依舊以圖書館領域為主力,研究主題并未得到計算機領域的重視,學科交叉融合發展趨勢不明顯。
(2)研究黏性和科研合作不足。基于所有作者發文信息統計,僅發表1 篇文章的作者占比90.00%,按照發文數量可劃分為低產作者,可見研究持續性較差、黏性不足。同時,科學研究需要觀點、思路的碰撞,不同學者對同一問題的解決思路、方法會存在差異,不同機構所面臨的實際問題也不同。因此,學者間、機構間合作對增強科研水平、尋找新的研究問題具有重要意義。然而,作者共現和機構合作統計結果表明,我國無論是作者合作還是機構合作發文均較少,跨機構合作更少。因此,從產出角度分析,研究黏性不足;從合作發文角度分析,作者、機構間合作有待加強。
(3)智慧度和功能拓展不足。以當前技術水平,智能咨詢只能針對常見問題給出明確回復,尚無法完全取代人工咨詢。同時,結合文獻主題歸納和系統調研,目前圖書館智能咨詢服務與其他服務之間大多是獨立的,個性化服務能力偏弱。例如,大多系統并未接入圖書檢索、借閱查詢等功能,欠缺對讀者需求特征的把握。以南開大學圖書館為例,筆者調研發現在人工參考咨詢與智能咨詢均可獲取時,讀者使用智能咨詢服務的主觀意愿并不強烈。
(4)反饋機制和評價體系不成熟。智能咨詢服務的最終目的是解答讀者咨詢。因此,讀者的使用體驗對系統優化起到決定作用。然而當前研究對讀者咨詢需求、咨詢體驗關注極其欠缺。有研究[24]提出建立反饋機制,但是僅局限于理論探討,并無應用案例。同時,目前并未形成評價指標與評價體系,系統之間無法進行量化比較。
(1)加強科研合作,形成研究團隊。近年學科交叉發展勢頭明顯,利用交叉學科共有的研究領域可以產生新學科生長點和研究前沿[46]。溫芳芳等[47]指出:當前學科交叉與融合趨勢日益顯著,科學研究的合作化、集體化傾向加強。而圖書館智能咨詢服務具有明顯的學科交叉屬性,但在科研合作方面存在明顯不足。因此,利用學科交叉發展現狀,強化科研合作,對服務的發展至關重要。在具體執行方面,筆者以為可以從圖書館、科研學者兩個角度提供實現路徑。圖書館應重視智能咨詢技術對傳統咨詢服務的改良和優化,利用現有平臺(如CALIS、全國圖書館參考咨詢聯盟)整合國內高校、公共圖書館智能咨詢服務,促進知識庫資源共享和圖書館之間的交流合作,為服務的規范化發展提供保障;關注本主題的學者應將目光轉向學科之間的交叉融合,主動尋找與其他學科技術、方法層面的結合點,強化不同學科間合作,構建研究團隊,尋找新的研究點,推動研究主題發展。
(2)加強新技術應用,拓展咨詢服務功能。智慧圖書館建設打破了各業務系統之間的數據壁壘,基于數據共享和挖掘的一站式服務成為可能。智能咨詢服務可以利用數據治理成果,融入讀者常用的文獻檢索、借閱查詢、座位預約等功能,再結合最新的技術手段,讓服務功能得到拓展,服務能力得以加強。以當前較為熱門的技術手段為例,可以利用用戶畫像技術[48]抽取用戶特征標識,構建“虛擬世界人像”,為讀者搭建便捷、功能全面、個性化的智能咨詢服務;可以利用圖數據庫技術構建復雜網絡,形成蘊含更多信息的向量化表示以精準的完成問題匹配;可以結合硬件的發展,融入最新的語音、運動控制技術成果,打造功能完善的實體機器人,讓智能咨詢服務“看得見、摸得著”。
(3)加強評價類研究,形成良性發展循環。與參考咨詢服務通過評估發掘并解決問題,提升服務質量相類似[49],智能咨詢服務需要通過評估提升服務質量。在具體操作上,一方面,可以從讀者需求入手,通過問卷、訪談等收集讀者對智能咨詢服務的使用體驗和功能需求,制定并不斷完善基于讀者需求的評價指標體系,推動系統功能優化;另一方面,可以從系統對比評估角度入手,通過對不同系統應用效果的對比分析,從知識庫建設、回復準確率、功能差異等多角度開展對比評價,基于評價結果形成規范和標準。基于以上方式,系統可以形成良性發展循環,避免成為“空中樓閣”,也能拓展研究角度并注入活力。
從文獻計量結果看,近年我國圖書館智能咨詢研究數量上升趨勢明顯;研究集中于圖書情報領域;獲得包括國家社科基金在內的多級別基金支持;南京大學、武漢大學等機構發文數量較多;中低產作者比例偏高。現有研究可分為可行性與理論模型類研究、知識庫類研究、知識推理類研究和交互平臺類研究;目前面臨學科交叉融合趨勢不明顯、研究黏性和科研合作不足,智慧度和功能拓展不足,反饋機制和評價體系不成熟等問題,未來可從加強科研合作、加強新技術應用、加強評價類研究等路徑進行拓展。本研究以科研文獻為數據來源展開研究,缺少對用戶應用數據層面的探索,未來將從這一角度展開系統評價類研究,以期推動圖書館智能咨詢服務的發展。