999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合用戶數據的高校圖書館書目系統設計

2024-07-09 00:00:00王一博張鵬翼
圖書館建設 2024年1期
關鍵詞:高校圖書館

[摘 要] 融合圖書館用戶數據、Web圖書數據的新型高校圖書館書目系統分為數據準備和數據清洗、數據規范和數據集成、數據分析和結果呈現三個模塊;用戶數據源來自北京大學圖書館數據資源服務中心的用戶及其行為數據和館藏資源及其使用數據,Web數據源包括豆瓣讀書數據、當當圖書數據、京東圖書數據以及中國知網引文數據;數據處理方法包括數據清洗、數據規范和數據集成;系統實現的三個關鍵技術為融合用戶數據及內容的圖書推薦方法、豆瓣讀書筆記的摘要和關鍵詞生成方法以及情感分析方法。該書目系統聚焦于解決書目信息單一的問題,通過集成和分析圖書館用戶數據和Web圖書數據,豐富書目信息的內容,為下一代圖書館書目系統的設計與實現提供了參考。

[關鍵詞] 高校圖書館 圖書館書目系統 用戶數據 網絡數據 圖書推薦

[中圖分類號] G258.6;G250.7 [文獻標志碼] A [ DOI ] 10.19764 / j.cnki.tsgjs.20221737

[本文引用格式] 王一博,張鵬翼.融合用戶數據的高校圖書館書目系統設計[J].圖書館建設,2024(1):121-130,145.

Designing a University Library Bibliographic System Integrating User Data

Wang Yibo, Zhang Pengyi

[Abstract] The new university library bibliography system integrating library user data and e-commerce book purchase platform data is divided into three modules: data preparation and data cleansing, data specification and data integration, data analysis and result presentation. User data sources come from the user and their behavior data, as well as the collection resources and their usage data from the Data Resource Service Center of Peking University Library. Web data sources include Douban Reading Data, Dangdang Book Data, JD.com Book Data, and CNKI Citation Database. Data processing methods include data cleansing, data specification and data integration. The three key technologies implemented in the system are book recommendation methods that integrate user data and content, abstract and keyword generation methods for Douban reading notes, and sentiment analysis methods. This bibliographic system focuses on solving the problem of single bibliographic information. By integrating and analyzing library user data and web book data, it enriches the content of bibliographic information and provides a reference for the design and implementation of the next generation library bibliographic system.

[Keywords] University library; Library bibliographic system; User data; Web data; Book recommendation

0 引 言

隨著大數據、人工智能等技術的迅猛發展,各行各業都發生著深刻的變革。圖書館擁有豐富的館藏資源與數據庫商提供的海量信息資源,如何為用戶提供更優質的服務是圖書館管理和圖書館學研究共同關注的重要問題之一。

圖書館集成管理系統既包含開放給圖書館用戶進行資源檢索的OPAC系統,也包含對圖書館的各項業務進行管理的業務管理系統。用戶最頻繁使用和直接交互的是其中的書目系統,書目系統的設計在很大程度上決定了圖書館是否可以滿足用戶對于圖書館獲取書目資源和服務的基本需求,是用戶從多維度評價圖書館發展水平的重要指標之一。目前,圖書館集成管理系統的提供商大都集中在英語國家,如美國、英國、加拿大、澳大利亞、新西蘭等國家的 120 多家廠商提供圖書館自動化系統產品[1]。其中,商業自動化系統有 Innovative Interfaces 公司的Millennium、Exlibris公司的Aleph 500和 Voyager系統、SirsiDynix 公司的 Symphony 系統等,開源自動化系統有 Folio、Evergreen、Koha 系統等。

盡管集成管理系統中的書目系統提供了基本的書目元數據檢索功能,但現有圖書館書目系統大多未綜合利用各類用戶數據,未能在圖書描述數據和用戶使用數據之間建立有效的關聯。本文旨在研究如何融合圖書館內部用戶數據和Web用戶數據,以更好地收集和豐富圖書元數據,多維度反映圖書的內容和特征,對高校圖書館書目系統的改進提出一些建議。

本文設計的系統架構分為3個主要模塊:數據準備和數據清洗、數據規范與數據集成、數據分析與結果呈現。系統設計所用的技術涉及到Web數據采集、數據集成和數據挖掘,自然語言處理相關技術如中文分詞、詞頻統計等,數據庫查詢語言SQL,計算機系統設計等。

1 國內外相關研究與實踐

1.1 圖書館書目系統發展歷程和功能

圖書館的發展經歷了從以藏書為中心到突出開放借閱,再到以人為本,注重人的需求、可接近性、開放性、生態環境和資源融合的幾個階段[2]。圖書館書目系統作為用戶獲取圖書館館藏的重要渠道,其發展歷程也可以大致反映上述圖書館發展的階段。其中,第一階段(20世紀50年代至70年代)是圖書館系統發展的萌芽階段[3]。隨著計算機的出現,紙質的卡片目錄逐漸被機讀目錄所替代,圖書館系統開始出現。第二階段(20世紀80年代到21世紀初)是圖書館系統的蓬勃發展階段[3]。這一時期圖書館的發展理念從以館藏資源為中心逐漸向以用戶為中心轉變。圖書編目不再成為系統中唯一重要的模塊,采編、流通、期刊管理、用戶管理等模塊也都陸續集成在系統中,圖書館的業務流程也得到了一定程度的優化。第三階段(2010年左右至今)是圖書館系統發展的成熟階段[3]。商業化圖書館服務平臺(Library Service Platform,簡稱LSP)作為第三階段圖書館系統進入公眾視野,受到越來越多的關注[4]。一些圖書館開始積極研發基于FOLIO(The Future of Libraries is Open)的微服務架構的圖書館書目系統,這從一個側面說明了圖書館系統由統一的集成書目系統向個性化開發定制的方向轉變。

圖書館學研究十分注重對圖書館書目系統發展歷程和作用的分析和反思。例如,胡振寧[5]回顧并梳理了深圳大學圖書館系統30年的發展歷程。張志東等[6]運用了文獻調研法和訪談法,對云南大學1988—2018年的圖書館系統建設歷程進行了梳理。霍建梅等[1]對國外較為成熟的圖書館系統市場格局進行了分析,指出了商業化系統和開源系統各自的優劣勢、面臨的挑戰和未來的發展趨勢。

一些學者通過分析大量用戶搜索書目系統的數據,從中發現了一些特征和規律。早在1993年,Millsap等[7]就發現在加州大學MELVYL圖書館系統中,30.2%的用戶只搜索了1次,62.2%的用戶進行的是標題檢索。Schultheiss等[8]研究了德國圖書館搜索系統超過420萬次的搜索會話,發現用戶更傾向于使用簡短的搜索語句,約有38%至57%的用戶在檢索前預先知道需要檢索的內容,而且基本都只瀏覽檢索結果的首頁。

盡管圖書館書目系統經過幾十年的發展已經取得了很大的進步和成就,但不可否認的是,現有書目系統仍存在不足,直接影響了圖書館服務效能,并制約了年輕圖書館用戶群體的發展壯大。與網絡搜索引擎對檢索結果的優化帶給用戶的體驗相比,圖書館書目系統的檢索體驗老舊而冗余;與此同時,不少用戶寧愿花錢在圖書電商網站(如當當、京東等)購買新的紙質或電子圖書,也不愿在圖書館書目系統費力進行檢索;與豆瓣、知乎等相關圖書愛好者建立的知識交流社區相比,現有圖書館書目系統也缺乏與用戶進行相關交流的平臺。Moscoso等將OPAC系統的錯誤分為4類:與OPAC系統連接操作相關的錯誤消息,與OPAC搜索數據條目相關的錯誤消息,與結果頁面訪問相關的錯誤消息,與結果導航任務相關的錯誤消息[9]。Trivedi等[10]對印度不同大學圖書館的239名研究對象開展了問卷調查,結果表明OPAC系統在清晰地展現圖書館資源和可用資源、在線搜索館藏速度等方面尚有提升的空間。

1.2 書目數據與用戶數據融合相關研究

圖書館內部用戶數據是指廣大用戶與圖書館交互不斷積累的各類大數據,如用戶進出館數據、借還書數據、預約數據等。已有研究嘗試利用內部數據源對書目系統的用戶服務進行擴充。其中,何娟[11]使用了某院校圖書館2017 年全年的用戶借還書數據,從書目數據和用戶數據兩個維度構建了個人用戶畫像,利用向量空間模型計算用戶之間的相似度,使用K-means聚類法對用戶聚類形成群體用戶畫像,為圖書個性化推薦奠定了基礎。胡云飛[12]對某高校圖書館的用戶基本信息、館藏基本信息、用戶行為信息進行了清洗和匯總,構建了讀者行為庫,并針對某一維度或多個維度組合后的用戶群體,利用自身提出的基于馬氏距離的二分 K-means 算法進行聚類,最后設計和實現了一個高校圖書館用戶畫像系統。

與圖書館對用戶體驗不夠重視相比,圖書電子商務網站(如京東、當當等)通過收集和分析用戶信息、建立不同群體用戶畫像做精準營銷。Web用戶數據是指用戶在多種知識社區、電子商務平臺以及微博等社交媒體平臺上的行為記錄,如對圖書的購置、評價和其他與之相關的原創內容生成行為。例如,中國知網引文數據庫中的圖書被引頻次,豆瓣讀書社區中的圖書評論數據,以及京東和當當等電子商務平臺上圖書的銷售與用戶評價數據等。在用戶行為建模中,已有大量研究提出了各種模型的構建方法,如基于圖書內容和借閱記錄的推薦模型,用戶書評的情感分析和摘要提取方法等。國內外的學者們對此進行了很多相關研究,Hu等[13]提出一種基于Word2Vec和TF-IDF融合的特征提取方法建立用戶畫像,并通過分析一段時間內用戶的搜索日志,推斷出用戶的基本信息。Wang等[14]將用戶興趣分為固定類別的興趣和動態事件的興趣,并通過建立動態模型捕捉用戶的興趣變化。Sharma等[15]為用戶查詢提供個性化結果,將查詢結果與用戶資料中的關鍵詞匹配,證明了方法的有效性。陳楊等[16]提出基于網絡數據采集建立的少兒圖書用戶畫像模型,該模型包含對用戶基本屬性、認知興趣、認知心理的角色定位,對用戶的圖書偏好和圖書瀏覽及購買歷史的閱讀需求,以及對用戶消費行為、忠誠度及滿意度的行為屬性,可以實現用戶信息的標簽化,進而實現圖書圈層精準營銷目的。陳旭松[17]考慮到用戶動態興趣的因素,將用戶一段時期內購買的物品按照時間排序,刻畫出用戶的長短期興趣,以提升推薦精度。

有很多學者對圖書館書目系統的改進提出了新的設計思路。Nahotko[18]分析研究了55所波蘭大學圖書館網站的內容及其分面導航的OPAC,提出應該增加MARC字段的搜索并提供“一框搜索”,而且可以在得到初步檢索結果的基礎上疊加一組類別過濾器。林珍梅[19]將大數據時代的Hadoop技術與圖書館閱讀書目智慧推薦相結合,集成了多個不同來源的數據,將整個系統設計分為網頁前端、數據存儲、分析推薦3部分,并采用調查問卷等性能評估方法對系統的推薦效果開展了評估。曹意[20]引用人工智能技術訓練書目數據集,利用迭代函數通過多次迭代獲得最優推薦集合,結合硬件設計和軟件設計完成圖書館書目推薦系統設計。唐樂等[21]通過采集、分析、處理西南交通大學圖書館OPAC日志數據的結構,設計了一個日志管理系統,該系統可以自動采集并分析用戶日志,識別用戶檢索行為,完成圖書推薦并將結果返回給用戶。

無論學者是應用各類數據挖掘方法對圖書館各類流通數據分析挖掘方面的研究,還是對用戶在電商平臺上購買、評論商品等行為的用戶畫像構建,都為更好地改進圖書館書目系統,進而更好地為用戶服務提供新的思路和方法。

2.3 用戶檢索與書目系統研究

信息行為研究發現,用戶在檢索過程中無法精準描述自身信息需求,Belkin[22]將這種狀態稱為“知識非常態”(Anomalous State of Knowledge,簡稱ASK)模型。因此,需要深入到信息需求表達的背后,了解其信息查找行為的根源,即其欲利用信息解決的問題[23]。在信息檢索領域,在系統設計中融入ASK模型,可以更有效匹配信息資源和用戶需求[24]。有研究通過“隱式相關性反饋”,基于用戶的點擊、瀏覽等行為,作為反映信息資源與用戶需求相關性的隱式指標來更好地預測用戶的檢索意圖[25]。

用戶在使用書目數據進行檢索的過程中,也存在檢索式表達和真實需求之間的差異。目前,高校圖書館書目系統大多存在的問題包括:提供的檢索入口與用戶真實需求相關性差異大、檢索結果未包含電子資源、書目信息過于簡單、缺少用戶互動的知識社區等。例如,美國哈佛大學圖書館員Single[26]在研究16項圖書館門戶可用性測試成果的基礎上總結出圖書館門戶存在的6大問題,包括專業術語的使用、用戶對搜索工具不理解、用戶對資源實體的誤用、外部鏈接的低效、全文獲取的障礙性及用戶對頁簽系統的忽視。與之類似,北京大學圖書館采用的是1998年由SirsiDynix公司推出的Unicorn系統(已升級為Symphony系統)。該系統在國內多所高校圖書館(如蘭州大學圖書館、河南大學圖書館等)已有廣泛應用,系統普遍面臨以下三類問題:首先,用戶輸入關鍵詞與檢索結果之間的關聯性不高,達不到用戶的心理預期;其次,書目信息展現過于簡略;最后,系統缺乏用戶交互性的知識社區環境,限制了師生之間的知識傳播。

因此,構建融合用戶數據的高校圖書館書目系統可以在一定程度上利用用戶的借閱、購買、評論等行為數據進行更精準的推薦服務,如同義詞、相關檢索詞的聯想和推薦等,并可以通過用戶在使用系統中的反饋進一步完善系統,形成用戶和系統之間的交互。

2 系統設計和主要模塊

本文在參照國內外部分圖書館書目系統和電子商務系統的基礎上,設計了一個融合內外部用戶數據的高校圖書館書目系統。信息系統開發的規范流程主要分為4個步驟:需求分析、系統分析、系統設計、原型實現。本文遵循了一般信息系統開發的流程,重點介紹系統分析、系統設計和原型實現。

系統的總體設計分為三個主要模塊:數據準備和數據清洗、數據規范和數據集成、數據分析和結果呈現。本研究系統的總體架構如圖1所示。

模塊一為數據準備和數據清洗。為深入挖掘用戶在圖書館、互聯網知識社區、電子商務購書平臺上的行為模式,本文的數據以北京大學圖書館的各類數據為例,并引入Web圖書數據。不同數據的抽取方式存在很大差異,如北京大學圖書館的數據都是結構化地存儲在數據庫中,因此只需要編寫SQL語句就可以從數據庫中抽取出數據;而京東等電商售書平臺的評論數據分散在不同網頁中,需要程序爬取后編寫相關的正則表達式,去掉無關的網頁標簽。

模塊二為數據規范和數據集成。圖書館用戶數據可分為用戶及其行為數據和館藏資源及其使用數據兩大類:用戶及其行為數據包含用戶基本信息和用戶行為,館藏資源及其使用數據包含館藏資源描述和館藏資源被使用情況。圖書館內部用戶數據一般為結構化數據,其搜集方法通常是:根據特定需求,通過SQL語句從數據庫中查詢和導出。Web圖書數據又可分為用戶評價和書目補充數據、圖書銷售數據以及圖書被引數據三大類:用戶評價和書目補充數據包含豆瓣閱讀筆記、豆瓣評分與評價,圖書銷售數據包含當當圖書銷售和京東圖書銷售數據,圖書被引數據包含知網圖書被引數據。由于每一類數據源的元數據格式、數據處理規則不同,數據清洗后的數據并不能直接用于數據分析,需要對數據進行分類,并進行人工審核和二次規范。數據規范完成后,再將各類規范后的數據存放在數據庫表中,以備后續分析和使用,本文使用PostgreSQL關系型數據庫存儲數據。

模塊三為數據分析和結果呈現。本模塊在對數據庫中的數據進行分析與挖掘的基礎上,構建用戶端的展示系統,將最終分析結果呈現給用戶。該系統展示的內容包括四類:圖書館藏信息、圖書補充信息、用戶借閱數據和Web用戶數據。尤其是用戶借閱數據和Web用戶數據,可作為傳統書目系統數據的有效補充。例如,系統會根據用戶的檢索行為對用戶給予一定量的顯式反饋,如“查看更多館藏”“相似用戶推薦”等,數據管理員也可以通過瀏覽借閱日志分析發掘用戶的潛在需求。本系統后端采用Python下的網頁端框架Django,前端采用Vue.js用戶界面的漸進式框架,結合Element桌面端組件庫共同搭建。

UML(Unified Modeling Language,統一建模語言)用例圖描述系統外部的執行者與系統的用例之間的某種聯系,能夠較為確切和詳細地描述用戶的功能需求[27]。本系統主要包括三類用戶:廣大讀者、數據管理員和系統管理員。對于讀者,可以查詢自己的個人信息,進行圖書檢索、社群發現,對系統進行相關性反饋。數據管理員在日常工作中主要負責數據的管理與分析以及數據可視化展示,數據的管理與分析包括用戶借閱數據、Web用戶數據和圖書館藏數據三個部分,每部分數據都需要進行查詢及添加、更新及刪除等;數據可視化展示包括對用戶借閱數據、Web用戶數據和圖書館藏數據的可視化展示。系統管理員主要負責整個系統的運轉和維護,如系統界面和功能維護、后臺用戶增刪、用戶權限設定和系統日志維護等。用戶和用例的關系以及用例間關系如圖2所示。

3 數據源和數據處理方法

3.1 圖書館用戶數據源

北京大學圖書館內部組織結構調整后成立了國內第一家高校圖書館數據中心——數據資源服務中心。該中心將所有數據分為:用戶及其行為數據、館藏資源及其使用數據、服務業務數據、財務數據、館員數據、科研類數據、基礎數據、長期保存數據8大類,進一步劃分為94小類數據。本文選擇的內部數據源主要來自于用戶及其行為數據和館藏資源及其使用數據兩大類。

用戶行為數據包含兩部分:一是描繪用戶基本信息的數據,主要包含的數據項有用戶借閱證號、姓名、性別、身份、院系、學部、權限授予和到期時間等;二是描繪用戶在圖書館內產生的進館、借閱、預約、室內閱覽等行為的數據,以借閱數據為例,包含的數據項有借閱時間、借閱工作站編號、借閱館別、所借書條碼號、借閱用戶借閱證號等。

館藏資源及其使用數據也包含兩部分:一是描繪圖書館館藏資源的數據,主要包含的數據項有機器可讀目錄MARC、圖書題名、作者、出版地、出版商、出版年、語種、分類號、索書號等;二是描繪館藏資源被使用情況的數據,主要包含的數據項有圖書編目時間、上架時間、外借時間、上一次借閱時間、當前借閱狀態等。

3.2 Web圖書數據源

本文所選的Web數據源較為豐富,具體包括:豆瓣讀書數據、當當圖書數據、京東圖書數據以及中國知網引文數據庫,以獲得書目基本信息之外的用戶評價與書目補充數據、圖書銷售數據和被引數據。

用戶評價與書目補充數據:既包括用戶在閱讀某本圖書后留下的圖書摘要和評論,撰寫的閱讀筆記、讀后感、相關圖書推薦等內容,也包括反映用戶真實感受的情感值。豆瓣網是一個知識社區網站,用戶可以通過注冊的方式選擇自己感興趣的社區(包括豆瓣讀書、電影、音樂等),在所選社區中與其他用戶交流心得。以豆瓣讀書社區為例,每位用戶可以為感興趣的圖書打分、撰寫評論、撰寫讀書筆記等,其他用戶可以查看該圖書總得分、評價人數、評價星級,從而對該書形成一個總體印象。據不完全統計,豆瓣讀書每個月有800萬的訪問用戶數和上億的用戶訪問量[28]。

圖書銷售數據:截至2022年,我國各類電商圖書零售碼洋規模占比為84.7%,實體店圖書零售碼洋規模占比為15.3%[29]。疊加疫情影響,線下銷售乏力的趨勢仍在持續。京東、當當為線上圖書銷量排行榜中前兩名的平臺。

圖書被引數據:中國知網引文數據庫是依據中國知網收錄數據庫的文后參考文獻和文獻注釋為信息對象建立的具有特殊檢索功能的文獻數據庫[30],所提供的文獻資源引用數據包括期刊論文、博碩士學位論文、圖書、專利等。本文是以書目為研究對象,因而重點關注圖書被引這一數據指標。

Web用戶數據一般為半結構化或非結構化的數據,其搜集方法主要是通過編寫程序自動抓取,或者使用商業數據采集工具(如八爪魚等)進行數據的抓取。本文通過python編寫的爬蟲和八爪魚工具相結合,采集了用戶評價與書目補充數據、圖書銷售數據和圖書被引數據。

3.3 數據處理方法

本文所用的數據處理方法包括:數據清洗、數據規范和數據集成。數據清洗所用的程序語言為Python編程語言,具體包括Numpy、Pandas等常用的數據清洗模塊;數據規范是指對每一大類數據,根據其元數據格式和數據處理規則不同,選擇合適的數據規范方法;數據集成是將規范的各類數據集成到同一個數據庫的不同數據表中。其他的數據處理方法還包括中文分詞、英文詞干提取等。

4 系統實現的關鍵技術

4.1 融合用戶數據及內容的圖書推薦方法

在圖書推薦方面,本文采用了結合圖書內容、內部數據源和Web數據源的綜合推薦算法,主要由以下三個步驟組成:首先,對當當購書平臺、京東購書平臺、豆瓣讀書平臺的圖書推薦列表,以及北京大學圖書館圖書借閱的共現圖書列表取并集,得到候選圖書列表;其次,依據內部數據源和Web數據源中的數據及圖書的摘要內容,對候選圖書列表中的每一本候選圖書進行打分;最后,根據所有圖書得分,按照分值高低進行排序,選擇分值最高的前n本圖書作為最終的推薦圖書列表。

4.2 摘要生成和關鍵詞提取方法

除圖書基本信息外,用戶評價及摘要數據是用戶在閱讀書目內容的基礎上,撰寫的個人主觀感受,可以獨立于圖書著者的內容簡介,對這類內容的分析有助于加深其他用戶對該書的理解。

文本摘要是大至一本書、小至一段文字內容的提煉和概括。隨著自然語言處理技術的不斷發展,生成式摘要和抽取式摘要均成為自動摘要生成的主要方式[31]。自動生成文本摘要的主要方法有:統計分析方法、主題模型方法、圖模型方法和機器學習方法等[32],這些方法已在實踐中有廣泛的應用,如生成新聞摘要、學術報告摘要、法律文本摘要等。

與內容概括式的摘要不同,用戶在閱讀平臺如豆瓣讀書等分享的內容多種多樣,既包括對書內容的概括、喜歡的章節摘抄,也包括讀后的感悟和思索。因此,對豆瓣讀書筆記的分析和挖掘,能夠補充傳統書目數據中內容概括式摘要的不足,從提煉和分享用戶的閱讀體會出發,貫徹“用戶中心”的理念。本文采用了TextRank算法對每本書的豆瓣評論文本進行摘要生成與關鍵詞提取。其中,TextRank算法是一種基于圖的排序算法,主要用于文本的無監督排序,其基本思想來源谷歌的PageRank算法。該算法通過構建文本中的關鍵詞或句子之間的共現關系網絡,評估每個關鍵詞或句子的重要性,進而提取重要的關鍵詞或生成文本摘要。

4.3 情感分析方法

Web用戶評價及讀書筆記一般表達了撰寫者的情感色彩和情感傾向性,如喜、怒、哀、樂、贊同、反對、中立等,其他用戶可以通過瀏覽這些內容了解撰寫者對于圖書的主觀感受,分析不同用戶的文本內容能夠得出用戶對于圖書的情感值。

文本情感分析又稱意見挖掘[33],主要研究如何從文本中發現或挖掘人們對于某種事物、產品或服務所表達出的情感、意見或情緒[34]。情感分析包括情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納[35],可以在篇章級、句子級和方面級三種粒度展開[36]。

用戶的書目選擇和閱讀過程,既受到圖書主題和信息需求主題的相關性影響,也受到圖書所傳達的情緒和情感傾向的影響。用戶閱讀圖書特別是休閑閱讀的主要目的之一就包括尋求情感支持和情緒共鳴等。分析用戶分享的筆記文本的情感傾向,可以幫助其他用戶更好地判斷圖書所反映的情感特征是否符合其需求。本文在去除停用詞、中文分詞的基礎上,對每本書所有用戶的評價及讀書筆記調用SnowNLP①進行情感分析,計算情感值得分。

5 原型系統展示

本文設計了一個“融合用戶數據的北京大學圖書館書目系統”,如圖3所示。

在圖3中,系統的主界面簡要展示了第一頁共計10本書的基本信息,書目信息下方可選擇每頁顯示的數據數量和翻頁頁碼。每本書的具體信息包括:書名、作者、出版社、出版年、復本數、未借出復本數、索書號、館藏位置。點擊一本書后面的綠色“查看”按鈕,將會打開該書的詳情界面,用戶可查看本書更為詳細的信息,管理員可進行常規的增刪查改等操作,亦可完成批量導入導出等操作。

以一本書的詳情頁面為例,進入這本書的詳情界面,首先可以看到圖書的題名和封面圖片,如圖4所示。

“圖書基本信息” 模塊與圖3所展示的系統主界面的內容基本一致,包括書名、作者、出版社、出版年、復本數、未借出復本數、索書號和館藏位置(見圖5)。

“圖書補充信息”模塊包含這本書的內容簡介、作者簡介、所屬學科和引用統計。其中,內容簡介、作者簡介來自Web數據源當當圖書平臺,所屬學科為教育部一級學科,引用統計為中國知網引文數據庫中的圖書被引次數(見圖6)。

“用戶借閱數據” 模塊反映了這本書在北京大學圖書館的借閱情況,具體包括:近五年總借閱量、 近五年本科生借閱量、近五年碩士研究生借閱量、近五年博士研究生借閱量、近五年教工借閱量、 近五年男性借閱量、 近五年女性借閱量、近五年借閱最多的學院和近五年借閱最多的學部。上述數據通過書目、借閱、用戶數據庫的SQL查詢得到,查詢結果如圖7所示。

“Web用戶數據” 模塊反映了這本書在豆瓣、當當、京東的評價和銷售情況,還包括對這些平臺的用戶評論、讀書筆記挖掘分析的結果。具體包括:豆瓣評分、評價人數、 5星占比、當當評價數、當當好評數、當當好評率、京東評價數、京東好評數、京東好評度、關鍵詞提取、情感值計算、文本摘要和圖書推薦(見圖8)。

6 結論與展望

信息技術的快速發展帶來了新的發展機遇。傳統的圖書館書目系統受到搜索引擎技術、電商平臺等的沖擊和挑戰,用戶不再單純依賴書目系統進行信息獲取和圖書借閱。這都為高校圖書館提升用戶獲取圖書的滿意度、更好履行信息提供者和用戶服務職能提出了更高的挑戰。

智慧圖書館是未來的發展方向,其體現之一就是要求圖書館系統能夠隨用戶需求的不斷提升而成長,不斷優化圖書館的服務[4]。高校圖書館用戶在使用圖書館平臺時,不僅需要館藏資源查詢、數據庫檢索等大多數圖書館平臺所具備的基本功能,還需要圖書推薦、用戶社群等更為豐富的交互、交流功能,這都要求圖書館相關學者和技術人員在充分考慮用戶需求的基礎上,不斷完善現有高校圖書館書目系統的功能。

本文旨在研究如何融合圖書館內部用戶數據和Web用戶數據,為高校圖書館書目系統的改進提出設計方案,并實際搭建了原型系統,主要研究內容如下:

(1)設計了一個融合用戶數據的高校圖書館書目系統的框架。系統的設計分為三個主要模塊:數據準備和數據清洗、數據規范和數據集成、數據分析和結果呈現。

(2)闡述了圖書館用戶數據源和Web圖書數據源包含的內容,以及數據處理方法,奠定了系統的基礎數據支撐。

(3)提出了系統實現的三個關鍵技術:融合用戶數據及內容的圖書推薦方法、豆瓣讀書筆記的摘要和關鍵詞生成方法以及情感分析方法。

(4)設計了一個融合用戶數據的北京大學圖書館書目系統,對系統的界面和各個功能模塊進行了展示。

圖書館書目系統是用戶與圖書館交互最多的系統之一,其易用性從很大程度上決定了是否可以滿足用戶最基本的需求。本研究主要聚焦于解決圖書館書目系統書目信息單一的問題,通過集成和分析圖書館用戶數據和Web圖書數據,豐富了書目信息的內容,為下一代圖書館書目系統的設計與實現提供了參考。

本文也存在一些研究不足:首先,本文僅選擇一所高校的圖書館數據作為內部數據源,可能無法揭示各個圖書館用戶的總體特征,更無法反映我國各個地域(東部地區、中部地區、西部地區)之間用戶使用資源的差異。其次,本文圖書推薦所用算法涉及權重的確定,不同專家間可能會存在一定程度的差異,該主觀因素會影響最終的推薦結果,可能不一定滿足用戶的實際需要。第三,系統未考慮相似用戶興趣的知識社群構建。第四,未對系統進行可用性評估。這些不足將會在今后的研究中不斷改進完善。

隨著新一代圖書館系統的開放性不斷增強,圖書館開源社區的技術水平不斷發展,相信在不遠的未來,高校圖書館書目系統將可以為用戶提供更好的個性化精準服務。

參考文獻:

[1] 霍建梅, 李書寧. 國外圖書館自動化系統市場發展狀況研究[J].大學圖書館學報, 2012, 30 (4): 66-71.

[2] 吳建中. 走向第三代圖書館[J]. 圖書館雜志,2016,35(6): 4-9.

[3] 何珂.Folio框架下圖書館管理系統設計研究 [D]. 濟南:山東師范大學, 2021.

[4] 王文清, 陳凌, 關濤. 融合發展的CALIS新一代圖書館服務平臺[J]. 數字圖書館論壇, 2020 (1): 2-10.

[5] 胡振寧. 上下求索 與時俱進——深圳大學圖書館計算機管理集成系統(Sulcmis)發展歷程回顧(1985-2015)[J].圖書館論壇, 2017,37(6):36-44.

[6] 張志東,黃體楊,徐國英.云南大學圖書館自動化管理系統發展歷程(1988-2018)[J].圖書館論壇,2019,39(9):12-18.

[7] MILLSAP L,FERL T E.Search patterns of remote usersan analysis of OPAC transaction logs[J]. Information technology and libraries,1993,12(3):321-343.

[8] SCHULTHEISS S,LINHART A,BEHNERT C,et al. Known-item searches and search tactics in library search systems:results from four transaction log analysis studies[J/OL].[2022-04-15].https:// www.sciencedirect.com/science/article/abs/pii/ S0099133320301051.

[9] MOSCOSO P,GARCIA ORTIZ F M.Error and information messages in online public access catalogues[J].Revista espanola de documentacion cientifica,2008,31(1):52-65.

[10] TRIVEDI D,BHATT A,TRIVEDI M,et al.Assessment of e-service quality performance of university libraries[J]. Digital library perspectives,2021,37(4): 384-400.

[11] 何娟. 基于用戶個人及群體畫像相結合的圖書個性化推薦應用研究[J].情報理論與實踐,2019,42(1):129-133,160.

[12] 胡云飛. 基于讀者行為分析和多視角聚類算法的高校圖書館用戶畫像研究[D].杭州:浙江工業大學,2019.

[13] HU J,JIN F,ZHANG G,et al.A user profile modeling method based on word2vec [C]// Proceedings of the IEEE International Conference on Software Quality,Reliability and Security (Companion Volume). Prague:IEEE,2017.

[14] WANG J,LI Z W,YAO J Y,et al.Adaptive user profile model and collaborative filtering for personalized news[M]//ZHOU X F, LI J Z,SHEN H,et al. Frontiers of WWW research and development-Apweb 2006.Harbin:8th Asia-Pacific Web Conference,2006:474-485.

[15] SHARMA S,RANA V.Web search personalization using semantic similarity measure[C]//Proceedings of the 2nd International Conference on Recent Innovations in Computing (ICRIC),Jammu:Springer International Publishing,2020.

[16] 陳楊,羅曉光.少兒圖書用戶畫像模型構建及精準營銷分析——以分眾傳播理論為視角[J].中國出版,2019,(11): 50-53.

[17] 陳旭松.基于用戶行為序列建模的推薦算法研究[D].北京:中國科學技術大學,2021.

[18] NAHOTKO M.Knowledge organization affordances in a faceted Online Public Access Catalog(Opac)[J]. Cataloging classification quarterly,2022,60(1):86-111.

[19] 林珍梅.基于Hadoop的高校圖書館閱讀書目智慧推薦系統設計[J].圖書館學研究,2020(23):91-101.

[20] 曹意.基于人工智能技術的圖書館書目協同推薦系統[J].現代電子技術,2020, 43 (15):168-170,174.

[21] 唐樂,李向前.基于用戶日志的OPAC推薦系統設計與實現[J].數字圖書館論壇, 2019(1): 30-36.

[22] BELKIN N J.Anomalous states of knowledge as a basis for information retrieval[J].Canadian journal of information and library science,1980(5):133-143.

[23] 馬費成,宋恩梅.信息管理學基礎[M].武漢:武漢大學出版社,2011:310-311.

[24] 喬歡.信息行為學[M].北京:北京師范大學出版社,2010: 168-169.

[25] KELLY D,TEEVAN J.Implicit feedback for inferring user preference:a bibliography[C]//Proceedings of the Acm Sigir Forum.New York:ACM,2003.

[26] 陳劍暉.美國圖書館門戶研究的啟示與思考[J].圖書館學研究,2015(3):89-92,101.

[27] 姚路,李靖,曾斌,等.管理信息系統[M].北京:國防工業出版社,2021:338-340.

[28] 2020年十大閱讀APP排行榜 古今中外文學 國外名著閱讀軟件[EB/OL].[2022-04-15].https://www.phb123. com/shenghuo/shuji/40525.html.

[29] 2022年圖書零售市場年度報告[EB/OL].[2023-09-02]. https://www.sohu.com/a/625857552_121124778.

[30] CNKI中國引文數據庫[EB/OL].[2022-04-15].http:// www.scaa.xhu.edu.cn/2c/1f/c2575a76831/page.htm.

[31] GAMBHIR M,GUPTA V.Recent automatic text summarization techniques:a survey[J].Artificial intelligence review,2017,47(1):1-66.

[32] 汪旭祥,韓斌,高瑞,等.基于改進TextRank的文本摘要自動提取[J].計算機應用與軟件,2021,38(6):155-160.

[33] 周建,劉炎寶,劉佳佳.情感分析研究的知識結構及熱點前沿探析[J].情報學報,2020,39(1):111-124.

[34] MESSAOUDI C,GUESSOUM Z,BEN ROMDHANE L. Opinion mining in online social media:a survey[J].Social network analysis and mining,2022,12(1):25.

[35] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010, 21(8):1834-1848.

[36] 譚翠萍.文本細粒度情感分析研究綜述[J].大學圖書館學報,2022,40(4):85-99,119.

[作者簡介]

王一博 1992年,北京大學信息管理系博士生,北京大學圖書館館員,研究方向為用戶研究、數據分析等。E-mail:wangyibo46@pku.edu.cn。

張鵬翼 1981年,北京大學信息管理系長聘副教授,研究方向為用戶研究、信息組織等,本文通訊作者。E-mail:pengyi@pku.edu.cn。

①SnowNLP是一個python的類庫,可以應用于中文文本數據的情感訓練和預測。

猜你喜歡
高校圖書館
讀者協會參與高校圖書館閱讀推廣工作的功能探析
中文電子書館配市場發展探析
出版廣角(2016年15期)2016-10-18 00:19:57
高校圖書館閱讀推廣案例分析
科技視界(2016年21期)2016-10-17 19:32:37
微信公眾平臺在高校圖書館信息服務中的應用研究
科技視界(2016年21期)2016-10-17 19:25:20
淺談高校圖書館辦公室的重要性
商(2016年27期)2016-10-17 06:39:10
高校圖書館閱讀推廣活動研究
商(2016年27期)2016-10-17 06:38:27
試論高校圖書館在網絡環境沖擊下的人文建設
商(2016年27期)2016-10-17 06:30:59
淺談高校圖書館隨書光盤的編目與管理作用
當代高校圖書館“大閱讀”服務模式探討
高校圖書館閱讀推廣實踐探討
科技視界(2016年20期)2016-09-29 13:17:57
主站蜘蛛池模板: 青青青国产视频手机| 青青青国产视频手机| 成人亚洲国产| 孕妇高潮太爽了在线观看免费| 91国内外精品自在线播放| h视频在线播放| AV在线天堂进入| 中文字幕久久波多野结衣 | 九九久久99精品| 日韩一区二区在线电影| 国产区91| 国产超碰在线观看| 丁香婷婷综合激情| 在线观看免费国产| 国产欧美日韩va| 婷婷六月色| 91精品国产91久无码网站| 成年人福利视频| 免费全部高H视频无码无遮掩| 国产视频a| 国产真实二区一区在线亚洲| 亚洲人成网线在线播放va| 国产欧美成人不卡视频| 欧美一区二区三区不卡免费| 波多野吉衣一区二区三区av| 久久久久亚洲AV成人网站软件| 专干老肥熟女视频网站| 亚洲国产在一区二区三区| 91在线精品免费免费播放| 中文字幕久久亚洲一区| 亚洲国产系列| 亚洲综合18p| 成人福利视频网| 亚洲第一区欧美国产综合| 欧美色99| 九色在线观看视频| 国产九九精品视频| 永久免费无码成人网站| 精品一区二区三区无码视频无码| 亚洲人成人无码www| 又大又硬又爽免费视频| 亚洲国产天堂久久九九九| 亚洲色婷婷一区二区| 青青极品在线| 亚洲日韩精品综合在线一区二区| 亚洲第一区精品日韩在线播放| 国产精品永久在线| 欧美日韩国产在线播放| 2020国产免费久久精品99| 911亚洲精品| 日韩欧美中文| 亚洲国产av无码综合原创国产| 欧美午夜在线观看| 免费国产无遮挡又黄又爽| 国产美女主播一级成人毛片| 噜噜噜久久| 国产精品亚洲一区二区三区在线观看| 青青青视频蜜桃一区二区| 福利国产在线| 国产在线拍偷自揄观看视频网站| 久久免费视频6| 三上悠亚一区二区| 熟妇丰满人妻| 欧美国产三级| 国产麻豆aⅴ精品无码| 2021国产精品自产拍在线| 亚洲国产天堂在线观看| 精品一区国产精品| 国产老女人精品免费视频| av尤物免费在线观看| 日本不卡在线视频| 99热线精品大全在线观看| 国产成年无码AⅤ片在线| 亚洲一级毛片| 欧美一区二区三区欧美日韩亚洲| 婷婷综合色| 亚洲天堂日韩在线| 日韩精品一区二区三区大桥未久| 午夜福利无码一区二区| 最新无码专区超级碰碰碰| 最新精品国偷自产在线| 99热这里只有免费国产精品|