999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校圖書館數據中臺建構研究*
——以中國礦業大學圖書館為例

2023-10-09 13:19:56李丕仕尹良偉
圖書館學刊 2023年8期
關鍵詞:圖書館

鮑 劼 李丕仕 尹良偉 王 靜

(中國礦業大學圖書館,江蘇 徐州 221116)

2020年4月,中共中央、國務院在《關于構建更加完善的要素市場化配置體制機制的意見》中提出,把數據作為與土地、勞動力、資本和技術并列的五大生產要素之一。2022年12月,中共中央、國務院印發《關于構建數據基礎制度更好發揮數據要素作用的意見》,指出數據作為新型生產要素,是數字化、網絡化、智能化的基礎。2023年2月,中共中央、國務院印發《數字中國建設整體布局規劃》,標志著數據已成為社會和經濟發展的驅動力。以上政策表明數字中國全面建設時代的來臨,數據要素的作用越來越大,要充分激活數據要素的潛能,為經濟發展賦能。高校圖書館的數據作為我國海量數據的重要組成部分,為高校教學科研、科技創新提供強有力的支撐保障,充分發揮這些海量數據規模和豐富應用場景的優勢,是圖書館當下的重要任務。資源系統分散孤立、數據缺乏治理,業務系統孤立是高校圖書館普遍存在的問題。數據中臺提供了一種新的架構理念,實現數據的高效應用、共享和價值最大化,以及各業務系統的連接和交互[1]。筆者以中國礦業大學圖書館為例,探討高校圖書館數據中臺建設,以期實現資源統一管理、數據集中治理、業務系統高效交互,為高校圖書館建設賦能,推進高校圖書館智慧化發展。

1 數據中臺內涵及圖書館數據中臺研究現狀

1.1 數據中臺內涵

數據中臺最早起源于芬蘭的世界知名游戲公司Supercell,通過數據中臺架構投入很少人力開發出全球熱門的游戲[2]。2015年,阿里提出數據中臺戰略,對標國外“Data Lake”構建“大中臺、小前臺”組織機制和業務機制[3]。2018年,京東、百度、騰訊等公司陸續推出以“數據中臺”為核心的組織架構,隨之引發“數據中臺”的研究熱潮[2]。但是,目前對數據中臺尚無統一定義,以下是幾種有代表性的定義。定義1:數據中臺是在政企數字化轉型過程中,對各業務單元業務與數據的沉淀,構建包括數據技術、數據治理、數據應用等數據建設、管理、使用體系,實現數據賦能[4]。定義2:數據中臺是主要為獲取、分析、處理、存儲、檢索和傳播一種或多種類型的數據而建立的組織[5-6]。定義3:數據中臺是方法論+組織+工具的解決方案。其中方法論是OneID+OneModel+OneService;組織為從IT支撐到業務賦能的數據、技術、產品相匹配的人才結構,包含數據產品經理、數據研發、數據科學家等多角色;工具為采集、構建、管理、服務等[7]。定義4:數據中臺是可復用的數據資產中心與數據服務中心,提供清潔、透明、智慧的數據資產與高效的數據能力,使業務數字化運營[8]。依據上述定義,筆者認為高校圖書館數據中臺更趨近于一種基于全周期的數據處理中心,包括數據采集、存儲、治理、挖掘、分析全流程,用數據實現用戶服務,讓數據應用到業務場景。

1.2 圖書館數據中臺研究現狀

通過網絡和學術會議調研了解,寧波圖書館聯合阿里云、袋鼠云打造一體化智慧服務平臺[9],采集館內業務和用戶對象等數據信息,打通所有業務的數據孤島;上海圖書館攜手中國知網建立數據中臺,實現數據統一管理;復旦大學圖書館與阿法迪公司聯合打造數據中臺,建立數據基座,實現“數入一庫,數出一庫”。

通過梳理中國知網數據庫相關文獻,截至2023年4月,以“數據中臺”為檢索詞進行檢索,得到相關文獻1752篇;以“數據中臺”+“圖書館”為檢索詞進行檢索,得到相關文獻24篇。分析發現,數據中臺領域的研究文獻自2018年以來直線上升,但有關圖書館數據中臺的相關研究成果較少,主要集中在:從中臺思維出發,探索釋放海量數據資源更大價值、降低維護成本和提升快速創新能力的信息化解決方案[9];中臺在圖書館領域的應用場景與建設方式,提出圖書館中臺建設方法論[10];數據中臺建設,根據服務對象的不同要求,支撐微服務程序的數據調用[11];通過支持向量回歸(SVR)算法建立模型,并基于實驗模型利用實際數據分析和預測驗證中臺架構的可行性[12];提出基于數據中臺理念的高校圖書館數據服務模式[13]。可見,圍繞圖書館數據中臺建構,還缺乏相關技術框架及關鍵技術的研究。

2 圖書館數據中臺的技術架構及關鍵技術

2.1 圖書館數據中臺的技術架構

數據中臺的目標是實現數據共享和數據價值最大化,其核心功能包括:對數據資產的高效管理,提高數據質量;對異構數據源進行標準化處理,提高數據共享交換性;讓數據快速應用到各業務場景,提高數據價值;信息安全貫穿整個流程,保證中臺數據和應用的安全。根據圖書館的實際情況和功能需求,充分考慮圖書館數據中臺的存儲能力、計算能力、數據交換能力、服務能力、擴展能力,采用主流的大數據技術框架,設計圖書館數據中臺的技術架構(見圖1)。

圖1 圖書館數據中臺的技術架構

圖書館數據中臺技術框架設計包括6層架構,分別是:數據源、數據采集層、數據處理層、數據存儲層、數據服務層以及終端。圖書館數據種類較多,主要包含關系型數據、非關系型數據、文本數據、爬蟲數據、Binlog日志數據、還有部分物聯網Iot數據。

數據采集層按數據的實時性,分為離線采集和實時采集。離線采集使用Sqoop和DataX相結合,結構化數據且數據量較大場景采用Sqoop,如館藏數據、讀者數據等;非結構化數據且數據量較小場景采用DataX。實時采集使用Flume或Kafka,如日志數據、系統監控數據、網站跟蹤數據等。

數據處理層,當數據量較大時采用大數據計算框架MapReduce進行計算;當數據要批處理時選擇Spark,且適合離線處理;實時數據計算處理時則選擇Flink。機器學習一般采用Spark MLlib,其內置的算法包如隨機森林、邏輯回歸、決策樹等,可以實現智能應用場景。TensorFlow和PyTorch屬于AI平臺,可以實現人臉識別、智能搜索、智能客服等。

數據存儲層,其存儲引擎基于Hadoop的HDFS分布式存儲,達到數據多份冗余和充分利用物理層多磁盤的I/O性能。Hive是大數據廣泛使用的離線數據存儲平臺,用于存儲數據中臺的全量數據,在建模階段可以使用Hive SQL,Spark SQL進行數據處理和建模。

數據服務層的技術類似業務應用,主要基于開源Spring Cloud,Spring Boot,Spring Security等構建,使用標簽構建、人物畫像、可視化分析、知識服務等。終端層主要提供API接口與實現,使用Web客戶端進行交互。

2.2 圖書館數據中臺建設的關鍵技術

2.2.1 面向圖書館的大數據分布式處理技術

圖書館數據結構多樣,分別有結構化數據、半結構化數據、時序數據、其他非結構化數據等,為解決數據的差異性,同時考慮圖書館高并發、高可用、稀疏性等大數據特征的技術要求,使用大數據分布式處理技術,分布式文件存儲、計算資源管理調度、分布式運算框架,以支持圖書館數據的統一存儲和處理。搭建數據倉庫對結構化數據進行存儲處理,可將SQL語句轉換為MapReduce任務運行,方便利用熟悉的類SQL語言進行數據查詢、匯總和分析;搭建列式數據庫系統,對時序、非結構化、半結構化數據進行存儲處理。

通過數據按位存儲、數據分塊及多節點跨機架備份提高數據處理的可靠性;在集群節點間分配數據,支持就近數據節點計算;計算引擎基于數據塊MapReduce計算,算力可以橫向擴展,提高集群系統擴展性。同時,存儲系統要支持數據多個副本,并自動完成備份及補充備份。

2.2.2 基于流計算的數據采集技術

數據中臺建設的首要任務是數據采集,面對海量的離線和實時數據,面對Hadoop,Oracle,MySQL,文件以及消息等多種數據源,需要ETL技術、分布式流數據處理技術和消息中間件技術相融合的基于流計算的數據采集技術。數據采集方式分為全量采集和增量采集。全量采集,即每一次采集所有數據,可以通過常見SQL語句導出,根據實際應用采集所需的數據。增量采集,即在全量采集的基礎上,后續只采集修改、增加的數據,重點是要區分哪些是存量數據,哪些是增量數據。數據采集方式和方法描述見表1。

表1 數據采集方法描述

采集后數據需要通過數據校驗手段來保障采集數據質量,應及時處理接口的變更和異常;對比、分析數據源與目標數據,進一步發現和解決在采集過程中產生的異常錯誤[14]。總之,數據校驗是保障數據采集質量的重要手段。

2.2.3 基于可視化的自然語言分析挖掘技術

自然語言處理成為人工智能領域的一個熱門研究方向。現有的自然語言處理系統功能較為單一,不能滿足客戶多元化需求。流程可視化的自然語言處理挖掘分析系統的建模和方法,可以實現高效自然語言分析挖掘,生成結構化數據,進行可用有效的知識圖譜構建,可以在不進行編碼的情況下進行自然語言分析挖掘并對已有的模型進行優化訓練[15]。通過一系列可視化組件控制,進行自然語言的自動化流程處理,生成結構化的知識圖譜。在流程處理上通過對可視化流程進行DAG圖解析,優化高效地調用對應邏輯進行自然語言處理分析。在計算過程中,合理地分配系統中的CPU和GPU資源,大大提高自然語言處理的計算效率。通過可視化的圖形化編程,大大降低自然語言處理的門檻。

2.2.4 基于任務可視化的Spark機器學習技術

機器學習模型的構建較為復雜,需要經過特征分析、模型訓練、模型調優、模型導出、模型加載等,學習成本較高,每個模塊都需要編碼和調試,這對于圖書館領域在構建機器學習系統時需要很大的學習和時間成本。因此,可視化拖拽的Spark機器學習組件,可以將整個流程簡化為圖形化組件,包括輸入、輸出、分類、聚類、回歸、關聯、數據轉換、知識構建等組件。針對某項具體的業務,拖拽組件,構建數據處理流程,降低引入數據挖掘系統的成本。

3 中國礦業大學圖書館數據中臺功能模塊構建

中國礦業大學圖書館于2019年12月啟用新一代智慧圖書館管理系統[16],擁有數據量達220T,各應用系統、鏡像數據庫、自建數據庫共64個。但存在以下問題:資源分散,沒有統一管理的平臺;數據缺乏治理,造成數據應用不準確;系統孤立,各系統間的交互效率低。針對上述問題,筆者設計了中國礦業大學圖書館數據中臺功能模塊(見圖2)。

圖2 圖書館數據中臺功能模塊

中國礦業大學圖書館數據中臺功能架構分為4個模塊,分別是:數據管理模塊、數據治理模塊、數據賦能模塊和數據應用模塊。

3.1 數據管理模塊

數據管理模塊主要實現圖書館數據的統一管理,核心功能包括元數據管理、數據源梳理、數據采集、數據存儲和數據抽取。經過梳理,數據從來源角度主要分為6類,包括文獻數據、行為數據、流通數據、資源數據、統計數據、網絡數據等;從數據結構角度主要分為4類,包括結構化數據、半結構化數據、非結構化數據和時序數據等。針對多種數據源和多種數據結構,數據采集分為線上和線下批量數據采集和實時數據采集,對于網絡數據可以利用網絡爬蟲工具進行采集。采集的數據利用Hadoop分布式文件系統進行存儲,通過ETL進行抽取。數據采集節點將采集到的數據封裝成消息發布到Kafka集群,流式數據處理集群(Storm/Spark Streaming/Flink)從Kafka集群獲取數據并進行處理,將處理結果發送回Kafka;同時還可以在Hive數據倉庫進行存儲。

3.2 數據治理模塊

數據治理模塊主要目標是數據的規范生成和使用,其核心功能包括元數據管理、數據標簽管理、數據清洗、數據質量管理、數據集成管理和數據安全。數據標簽管理即分別從數據生成方式、數據主題分類、數據使用場景等構建一個標簽體系,通過構建用戶標簽,可以形成用戶畫像,為用戶數據的挖掘分析提供支撐。數據清洗,首先根據中國礦業大學圖書館的實際應用需求,制定相應的清洗規則,然后從數據源抽取所需的數據,按照數據清洗規則,進行異常檢測、一致性檢查等。同時,也要根據實際應用需求,制定相應的數據規范,如讀者信息數據規范、元數據規范、行為數據規范等,按照設計好的規范的數據倉庫模型,將數據加載到數據倉庫中去。數據質量管理主要從數據的完整性、一致性、有效性、關聯性、準確性多個方面制定標準規則,根據規則做數據質量分析、對比檢查,并將檢查結果進行處理。數據安全管理主要通過數據安全加密傳輸、數據脫敏、防范數據隱私泄露、訪問控制、安全審計等多個辦法,保障數據在“存、管、用”各環節的安全有效。數據治理整體架構如圖3所示。

圖3 數據治理框架

3.3 數據賦能模塊

數據賦能模塊主要包括數據挖掘、數據分析、智能搜索和聚類分組。圖書館的數據在經過采集、治理、存儲之后,形成了圖書館的大數據資產,要發揮這些數據資產的價值,元數據再造,知識再造,就要運用大數據的挖掘分析技術、智能搜索、聚類分組等算法、技術,生產出數據資產的使用價值,為圖書館的服務賦能。數據賦能流程見圖4。

圖4 數據賦能流程

3.4 數據應用模塊

數據應用模塊包括智能推薦、用戶畫像、可視化展示和決策支持。通過標簽系統,構建多維度用戶標簽,基于挖掘技術,形成用戶畫像,實現智能推薦。可視化展示的數據涉及圖書館系統管理與運營監控數據、讀者行為數據、閱讀關系數據、終端設備運行數據等。基于這些數據,進行挖掘分析,結果以可視化圖形的形式展示出來,如柱狀圖、餅狀圖、散點圖、熱力圖等可視化組件。決策支持主要通過建立指標庫、專家規則進行機器學習,實現智能預測。

4 對高校圖書館數據中臺建設的啟示

面對海量、異構、多源、碎片化的圖書館數據,筆者研究并提出了中國礦業大學圖書館數據中臺構建的關鍵技術和功能架構,對高校圖書館數據中臺建設和實踐能帶來一些啟示。

4.1 數據中臺建設尚無統一模板,存在數據安全和隱私泄露問題

為實現高校圖書館的數字化轉型,圖書館構建數據中臺系統以滿足不斷變化的應用需求。但是,不同高校圖書館的應用需求不同,圖書館自身的應用需求也在不斷更新迭代,目前還沒有統一、規范的數據中臺模板供使用,各高校圖書館需根據自身的業務發展需要,構建適合的數據中臺并不斷完善和發展。

數據中臺建設的目標之一是解決系統孤島,實現數據共享,打通數據壁壘,同時也不可避免地帶來數據安全和隱私泄露的問題,因此,數據中臺安全保護和隱私保護體系建設應該引起高度重視。

4.2 絕大多數高校圖書館缺乏經驗豐富、成熟的技術館員

數據中臺建設環節涉及數據治理,數據清洗規則和數據規范制定還缺少行業標準,數據治理較為復雜,治理體系需要不斷完善;同時,絕大多數高校圖書館缺乏解決相應問題的經驗豐富、成熟的技術館員。因此在數據中臺建設過程中,需要借助第三方公司來高效地完成。目前這類數據管理、數據分析公司較多,應選擇技術實力強、后續服務有保障、有成功案例的公司進行合作。

4.3 高校圖書館數據中臺建設具有美好的前景

通過高校圖書館數據中臺建設,可以實現高校圖書館數據資產的高效管理和價值利用;在數據爆炸式增長的時代,有效解決數據存儲、管理和應用的問題;通過數據應用API實現數據價值最大化。數據中臺能夠更快速、精準地響應用戶需求,為用戶提供數據服務。此外,通過數據中臺建設及數據應用,能促進相關館員加強數據管理相關知識、技術的學習,提升自身專業素養,提升圖書館內團隊協作能力、數據開發能力、運營能力,還可以加強圖書館館員和第三方公司的協作能力,提升館員的綜合實力。

5 結語

大數據、物聯網、云計算和人工智能時代的到來,傳統的圖書館應用系統和數據管理應用方式越來越難以適應來自數字化和讀者需求兩方面的挑戰。筆者以中國礦業大學圖書館為例,研究構建融合主流的大數據框架、技術,提供大規模數據存儲、計算、處理能力的數據中臺。數據中臺的建設,保障數據傳輸、管理、應用過程中的安全高效,實現數據的采集匯聚、存儲管理、共享交換和開發開放,通過中臺提供的能力,實現大數據的深度分析、價值挖掘和合理應用。同時,提升圖書館精準服務水平、優化資源建設、實現科學管理。通過未來持續的研究,能夠完善中國礦業大學數據中臺構建,希望為高校圖書館數據中臺建設的進一步研究提供有益借鑒。

猜你喜歡
圖書館
去圖書館坐坐
發明與創新(2021年6期)2021-03-10 07:13:54
圖書館
圖書館里送流年
圖書館
文苑(2019年20期)2019-11-16 08:52:12
夜間的圖書館
幽默大師(2019年5期)2019-05-14 05:39:38
圖書館里的小驚喜
圖書館 Library
幼兒畫刊(2018年11期)2018-12-03 05:11:44
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
飛躍圖書館
主站蜘蛛池模板: 视频国产精品丝袜第一页| 四虎影视无码永久免费观看| AV无码国产在线看岛国岛| 一级毛片在线播放| 伊人福利视频| 亚洲欧美另类视频| 色哟哟精品无码网站在线播放视频| 91久久偷偷做嫩草影院免费看| 国产69囗曝护士吞精在线视频 | 亚洲一区波多野结衣二区三区| 国产精品视频999| 久久五月视频| 精品国产污污免费网站| 国产香蕉97碰碰视频VA碰碰看| 九九视频免费看| 美女啪啪无遮挡| 亚洲国产精品VA在线看黑人| 东京热av无码电影一区二区| 老司机精品久久| 国产高颜值露脸在线观看| 国产精品福利尤物youwu| 福利姬国产精品一区在线| 99精品影院| 呦女亚洲一区精品| 亚洲欧洲综合| 亚洲综合色在线| 五月天丁香婷婷综合久久| 中文字幕亚洲乱码熟女1区2区| 中文字幕永久视频| 91小视频在线| 欧美日本中文| 亚洲中文字幕无码爆乳| 中文字幕在线一区二区在线| 国产精品福利一区二区久久| 欧美精品亚洲精品日韩专| 欧美啪啪一区| 免费一级毛片在线观看| 伊人色天堂| 青草视频免费在线观看| 第一区免费在线观看| 国产亚洲欧美在线中文bt天堂 | 欧美在线网| 亚洲天堂视频网站| 国产精品男人的天堂| 国产精品妖精视频| 国产在线一区二区视频| 日韩国产一区二区三区无码| 国产精品美女自慰喷水| 国产精品理论片| 亚洲高清中文字幕| 国产高潮流白浆视频| 午夜性刺激在线观看免费| 久久久精品久久久久三级| 自偷自拍三级全三级视频| 精品国产香蕉伊思人在线| 国产香蕉97碰碰视频VA碰碰看| 国产在线自乱拍播放| 国产无码网站在线观看| 国产亚洲精品资源在线26u| 国产乱子伦无码精品小说| 日本91视频| 日韩区欧美国产区在线观看| 青青草国产一区二区三区| 在线精品欧美日韩| 国产成人无码综合亚洲日韩不卡| 亚洲美女视频一区| 丁香综合在线| 91热爆在线| 99热最新网址| 亚洲成网站| 亚洲第一极品精品无码| 婷婷色中文网| 日韩在线网址| 99久久国产精品无码| 亚洲国产日韩在线观看| 国产在线自揄拍揄视频网站| 国产激爽大片在线播放| 女人爽到高潮免费视频大全| 影音先锋亚洲无码| 日韩成人在线一区二区| 在线观看视频一区二区| 色哟哟国产成人精品|