伍 星
(深圳信息職業(yè)技術(shù)學(xué)院圖書館,廣東 深圳 518172)
2019年2月18日,中共中央、國務(wù)院印發(fā)了《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》[1]。國家大力推動灣區(qū)文化以及灣區(qū)行業(yè)、產(chǎn)業(yè)信息融合不斷深入的大背景下,各圖書館通過建設(shè)灣區(qū)信息資源庫及創(chuàng)新服務(wù)方式,為讀者提供更加豐富和全面的灣區(qū)信息資源服務(wù)。經(jīng)過多年積累,粵港澳大灣區(qū)各級圖書館在灣區(qū)特色館藏及電子資源數(shù)據(jù)、用戶特征數(shù)據(jù)、資源及網(wǎng)站訪問日志、用戶檢索及下載記錄等方面都積累了豐富的資源數(shù)據(jù)量和特色資源評判基礎(chǔ)數(shù)據(jù)。
這些數(shù)據(jù)是圖書館重要的信息資源,具有很大的發(fā)掘利用價值,通過對灣區(qū)資訊數(shù)據(jù)和行為習(xí)慣日志的整合分析可以發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的規(guī)律、趨勢和價值,進(jìn)而為粵港澳大灣區(qū)圖書館資源共建共享和服務(wù)模式創(chuàng)新和對灣區(qū)未來發(fā)展趨勢提供分析與預(yù)測,為實(shí)現(xiàn)更加智能化的信息服務(wù)提供數(shù)據(jù)支持。建設(shè)粵港澳圖書館數(shù)據(jù)平臺的目的就是通過各級圖書館的業(yè)務(wù)及服務(wù)數(shù)據(jù)共建共享,匯聚粵港澳行業(yè)、產(chǎn)業(yè)及教育的相關(guān)數(shù)據(jù),實(shí)現(xiàn)粵港澳特色信息資源的多元化采集、主題化匯聚和知識化分析、可視化展示。隨著京津冀、粵港澳、長三角和東北等國家九大戰(zhàn)略發(fā)展區(qū)域化進(jìn)程日益深入,對具有區(qū)域發(fā)展時代特征的圖書館建設(shè)提出了新要求。本文將以粵港澳大灣區(qū)為例,進(jìn)行區(qū)域數(shù)據(jù)平臺協(xié)同構(gòu)建的探討。
粵港澳大灣區(qū)被認(rèn)為是我國開放程度最高、經(jīng)濟(jì)活力最強(qiáng)的區(qū)域之一,在國家發(fā)展大局中具有重要戰(zhàn)略地位[1]。粵港澳三地具有相同的地理環(huán)境和歷史背景,而不同的政治、經(jīng)濟(jì)、科學(xué)、文化和教育制度使粵港澳三地的圖書館在文獻(xiàn)資源收錄、特色資源庫構(gòu)建上又各有特點(diǎn)。但是,灣區(qū)資源庫由于業(yè)務(wù)系統(tǒng)各異的關(guān)系,存在以下問題(見圖1)。

圖1 粵港澳大灣區(qū)資源數(shù)據(jù)現(xiàn)狀
第一,信息孤島問題。數(shù)據(jù)無法整合以提供標(biāo)準(zhǔn)化、準(zhǔn)確的服務(wù)。在進(jìn)行數(shù)據(jù)分析、報表填報時,都會重復(fù)地投入較多人力去搜集各系統(tǒng)數(shù)據(jù),結(jié)果也不一定準(zhǔn)確。
第二,數(shù)據(jù)格式問題。粵港澳行業(yè)、產(chǎn)業(yè)教育資源庫共建共享的過程中,因?yàn)閿?shù)據(jù)采集標(biāo)準(zhǔn)及格式不一致,數(shù)據(jù)的采集、篩選都可能達(dá)不到平臺要求的標(biāo)準(zhǔn),因不具備時效性而降低資訊內(nèi)容對區(qū)域協(xié)同科技創(chuàng)新的指導(dǎo)性,不利于開展數(shù)據(jù)挖掘和進(jìn)行灣區(qū)產(chǎn)業(yè)需求、灣區(qū)行業(yè)熱點(diǎn)、創(chuàng)新創(chuàng)業(yè)指導(dǎo)等隱性知識挖掘。
第三,數(shù)據(jù)存儲問題。云時代大數(shù)據(jù)的到來給我們帶來了極大方便,可是隨之而來的信息和網(wǎng)絡(luò)安全的脆弱性問題也日益突顯。由于粵港澳行業(yè)、產(chǎn)業(yè)及教育特色資源的保存較為分散,一旦出現(xiàn)數(shù)據(jù)存儲的安全問題,因數(shù)據(jù)的唯一和獨(dú)立性所造成的損失將無法挽回。根據(jù)美國FBI統(tǒng)計,每年因?yàn)樾畔⒑途W(wǎng)絡(luò)安全問題所造成的損失高達(dá)75億美元,并且該數(shù)字還在上升[2—3]。而數(shù)據(jù)作為信息的表達(dá)形式,它的完整性與安全性問題決定了系統(tǒng)是否安全。數(shù)據(jù)備份技術(shù)的應(yīng)用越來越廣泛,但是數(shù)據(jù)備份設(shè)備、專業(yè)人員或委托數(shù)據(jù)備份公司提供的服務(wù),都需要投入相當(dāng)多的經(jīng)費(fèi)支持,因此,建立粵港澳行業(yè)、產(chǎn)業(yè)及教育文化資源共建共享平臺,將數(shù)據(jù)進(jìn)行匯總,有利于數(shù)據(jù)的統(tǒng)一保存管理和后續(xù)的知識挖掘及溯源。
在粵港澳大灣區(qū)社會發(fā)展背景下,圖書館館藏資源內(nèi)容將從傳統(tǒng)通用館藏,擴(kuò)展到著眼于三地行業(yè)、產(chǎn)業(yè)和教育的資源庫,廣泛覆蓋三地行業(yè)技能知識,行業(yè)標(biāo)準(zhǔn)規(guī)范、嶺南文化資源等。建設(shè)粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺,制訂統(tǒng)一的業(yè)務(wù)標(biāo)準(zhǔn)來匯聚、清洗、整合各業(yè)務(wù)系統(tǒng)數(shù)據(jù),消除一直存在的數(shù)據(jù)孤島問題。通過對大數(shù)據(jù)平臺的挖掘分析,定義數(shù)據(jù)標(biāo)準(zhǔn),有效地進(jìn)行數(shù)據(jù)類目管理,讓數(shù)據(jù)更直觀、更精準(zhǔn)地指導(dǎo)業(yè)務(wù)。同時,粵港澳大灣區(qū)資源數(shù)據(jù)平臺可搜集分析灣區(qū)圖書館館藏數(shù)據(jù),形成各館各地區(qū)的資源分析報告,為粵港澳大灣區(qū)構(gòu)建網(wǎng)絡(luò)化資源空間格局,推動灣區(qū)開放型區(qū)域協(xié)同創(chuàng)新共同體提供資源平臺支持。建設(shè)粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺,以便篩選灣區(qū)數(shù)據(jù)形成數(shù)據(jù)分析報表,直觀反映灣區(qū)已有行業(yè)、產(chǎn)業(yè)和教育文化現(xiàn)狀,以便充分發(fā)揮粵港澳科技和產(chǎn)業(yè)優(yōu)勢,積極吸引和對接全球創(chuàng)新資源,建設(shè)開放互通、布局合理的區(qū)域創(chuàng)新體系[3]。
通過對粵港澳大灣區(qū)圖書文獻(xiàn)、研究成果、行業(yè)數(shù)據(jù)、標(biāo)準(zhǔn)規(guī)范等數(shù)據(jù)的搜集、整理及分析,確定數(shù)據(jù)平臺的數(shù)據(jù)整合范圍及規(guī)范,制訂元數(shù)據(jù)標(biāo)準(zhǔn),協(xié)同開發(fā)建設(shè)粵港澳大灣區(qū)圖書館大數(shù)據(jù)平臺,實(shí)現(xiàn)信息資源的多元化采集及清洗、主題化匯聚、知識化分析、可視化展示,為圖書館依據(jù)《粵港澳大灣區(qū)發(fā)展規(guī)劃綱要》實(shí)現(xiàn)服務(wù)戰(zhàn)略決策提供數(shù)據(jù)支持。
粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺,需依托灣區(qū)圖書館自動化系統(tǒng)、網(wǎng)站及資源系統(tǒng)、其他業(yè)務(wù)系統(tǒng)相關(guān)數(shù)據(jù),通過數(shù)據(jù)導(dǎo)入、數(shù)據(jù)同步及采集等手段和工具,將所有數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和映射,統(tǒng)一存儲在協(xié)同數(shù)據(jù)平臺進(jìn)行統(tǒng)一管理和維護(hù),建設(shè)數(shù)據(jù)分析、個性化服務(wù)等系統(tǒng),配以定制開發(fā)的算法,以數(shù)據(jù)統(tǒng)計分析及圖形化展示的形式,為粵港澳提供多維網(wǎng)絡(luò)化空間格局,匯聚灣區(qū)行業(yè)、產(chǎn)業(yè)、科技、教育及文化資訊資源,為構(gòu)建粵港澳大灣區(qū)開放型區(qū)域協(xié)同創(chuàng)新共同體提供資源保障,促進(jìn)信息、技術(shù)等創(chuàng)新要素跨境流動和區(qū)域融通,協(xié)同共建粵港澳大灣區(qū)大數(shù)據(jù)中心和國際化創(chuàng)新平臺[4—5]。系統(tǒng)總體架構(gòu)如圖2所示。

圖2 粵港澳大灣區(qū)資源數(shù)據(jù)平臺系統(tǒng)架構(gòu)
粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺需提供灣區(qū)圖書館業(yè)務(wù)系統(tǒng)數(shù)據(jù)到大數(shù)據(jù)平臺的同步服務(wù),增量定時同步、數(shù)據(jù)整合、數(shù)據(jù)清洗、數(shù)據(jù)統(tǒng)計等多種集成同步服務(wù)。
(1)數(shù)據(jù)庫類型支持問題。目前的主流關(guān)系型數(shù)據(jù)庫類型有Oracle、MySQL、SQL Server、PostgreSQL、Sybase等,基于分布式文件存儲的MongoDB數(shù)據(jù)庫,支持大數(shù)據(jù)平臺Hadoop的HDFS、HIVE以及阿里云數(shù)據(jù)平臺等[5]。此外,協(xié)同數(shù)據(jù)平臺還應(yīng)支持Excel等結(jié)構(gòu)化文件的同步。
(2)資源增量同步問題。粵港澳大灣區(qū)多源數(shù)據(jù)資源日新月異,協(xié)同數(shù)據(jù)平臺應(yīng)實(shí)現(xiàn)增量數(shù)據(jù)的自動實(shí)時同步。同步的數(shù)據(jù)包含數(shù)據(jù)正文、類別、日志及時間等信息,對資源庫實(shí)時變化的數(shù)據(jù)同步上傳至粵港澳大灣區(qū)協(xié)同共建大數(shù)據(jù)平臺。
(3)數(shù)據(jù)傳送安全問題。為保證信息安全可靠地同步傳送,對傳送數(shù)據(jù)原始明文,通過加密算法進(jìn)行加密,且不依賴于操作系統(tǒng)和安全環(huán)境,盡量采用磁盤加密和驅(qū)動級加密技術(shù),以免應(yīng)用層加密帶來的兼容性和二次開發(fā)問題。
(4)支持?jǐn)帱c(diǎn)續(xù)傳。避免因網(wǎng)絡(luò)不穩(wěn)定等原因引起的數(shù)據(jù)同步失敗,在數(shù)據(jù)同步不成功的情況下,可以自動進(jìn)行斷點(diǎn)恢復(fù)續(xù)傳,以避免數(shù)據(jù)的丟失和重復(fù),保證穩(wěn)定可靠的數(shù)據(jù)SSL加密傳輸。
粵港澳大灣區(qū)圖書館的館藏文獻(xiàn)資源,既有傳統(tǒng)館藏,也有特色行業(yè)、產(chǎn)業(yè)資源庫。粵港澳大灣區(qū)行業(yè)、產(chǎn)業(yè)及科技創(chuàng)新優(yōu)勢所積累的特色資源、行業(yè)標(biāo)準(zhǔn)、國際經(jīng)驗(yàn)、資格體系等多維特色資源,經(jīng)過多年標(biāo)準(zhǔn)各異的信息系統(tǒng)建設(shè)后,存在于各種不同業(yè)務(wù)系統(tǒng)中。這些業(yè)務(wù)系統(tǒng)由不同的軟件開發(fā)商或者系統(tǒng)集成商提供,當(dāng)需要將這些系統(tǒng)的數(shù)據(jù)進(jìn)行集中治理的時候,就面臨著業(yè)務(wù)部門間信息定義不一致的問題,從而影響對數(shù)據(jù)共享、理解、價值提取的過程。這就需要構(gòu)建粵港澳大灣區(qū)資源數(shù)據(jù)平臺時,首先建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)體系,利用國家、行業(yè)、企業(yè)等相關(guān)標(biāo)準(zhǔn),對各類數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化改造,在平臺中形成統(tǒng)一的數(shù)據(jù)理解視圖,并在統(tǒng)一標(biāo)準(zhǔn)化數(shù)據(jù)集成的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的保證、提升和隱性知識挖掘,形成灣區(qū)特定行業(yè)領(lǐng)域內(nèi)的資源整合和專題研究。
數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)管理需要從標(biāo)準(zhǔn)數(shù)據(jù)元庫及同義詞等關(guān)聯(lián)信息庫中,清晰描述數(shù)據(jù)標(biāo)準(zhǔn)分類、要素分類、業(yè)務(wù)分類,自動建立數(shù)據(jù)標(biāo)準(zhǔn)各類屬性之間的約束、傳遞、映射、聚合關(guān)系。粵港澳大灣區(qū)參與協(xié)同構(gòu)建資源數(shù)據(jù)平臺的圖書館,其采集的數(shù)據(jù)包括國際、國家、地方以及企業(yè)在內(nèi)的標(biāo)準(zhǔn)數(shù)據(jù)元,進(jìn)行統(tǒng)一存儲和管理,形成公共標(biāo)準(zhǔn)知識庫,并對其進(jìn)行日常維護(hù)和管理。同時,平臺實(shí)現(xiàn)動態(tài)同步更新,提供查詢和追溯功能,為參與協(xié)同構(gòu)建數(shù)據(jù)平臺的圖書館制訂或擴(kuò)展已有數(shù)據(jù)標(biāo)準(zhǔn)提供參考依據(jù),以保障統(tǒng)一標(biāo)準(zhǔn)的實(shí)施[6]。
為協(xié)同灣區(qū)圖書館進(jìn)行資源數(shù)據(jù)平臺構(gòu)建,需要制訂基準(zhǔn)數(shù)據(jù)規(guī)則,以便于進(jìn)一步開展灣區(qū)行業(yè)、產(chǎn)業(yè)、科技、教育和文化資源數(shù)據(jù)標(biāo)準(zhǔn)化的調(diào)研、制訂和集成開發(fā)。此外,數(shù)據(jù)索引庫需支持對數(shù)據(jù)元分類新增、修改和刪除等基本錄入操作,自動生成維護(hù)日記信息。支持標(biāo)準(zhǔn)化模板,使資源平臺協(xié)同構(gòu)建方可以根據(jù)自己的業(yè)務(wù)需要定義模板內(nèi)容,定制數(shù)據(jù)元的相關(guān)屬性。
3.4.1 內(nèi)容構(gòu)建。粵港澳行業(yè)、產(chǎn)業(yè)、教育及文化資源數(shù)據(jù)平臺的協(xié)同構(gòu)建,是大灣區(qū)發(fā)展的重要文獻(xiàn)資源保障,其內(nèi)容構(gòu)建可以從三個方面進(jìn)行。
(1)統(tǒng)計經(jīng)濟(jì)指標(biāo),繪制粵港澳行業(yè)、產(chǎn)業(yè)分布圖。即通過粵港澳大灣區(qū)圖書館館藏經(jīng)濟(jì)類電子資源數(shù)據(jù)庫,如國務(wù)院發(fā)展研究中心信息網(wǎng)、中國經(jīng)濟(jì)信息網(wǎng)、中國宏觀經(jīng)濟(jì)信息網(wǎng)等大型經(jīng)濟(jì)類數(shù)據(jù)系統(tǒng)[7],統(tǒng)計粵港澳大灣區(qū)“9+2”11個城市的區(qū)域經(jīng)濟(jì)和優(yōu)勢產(chǎn)業(yè)集群分布情況。
(2)根據(jù)粵港澳行業(yè)、產(chǎn)業(yè)分布,清點(diǎn)灣區(qū)館藏資源收錄情況。對紙質(zhì)圖書、電子資源數(shù)據(jù)庫、音視頻多媒體資源等館藏載體進(jìn)行清點(diǎn)統(tǒng)計策略設(shè)計和資源文獻(xiàn)協(xié)同匯總,得到粵港澳行業(yè)、產(chǎn)業(yè)及教育資源支持的資源數(shù)量、質(zhì)量及結(jié)構(gòu)分布情況。
(3)整合引進(jìn)粵港澳行業(yè)、產(chǎn)業(yè)教育核心資源。首先,將已有粵港澳館藏資源進(jìn)行可索引、有清晰入口的行業(yè)、產(chǎn)業(yè)、教育及文化資源平臺分類;其次,對灣區(qū)產(chǎn)業(yè)、制造業(yè)、服務(wù)業(yè)、科技教育、文化資源進(jìn)行需求挖掘,結(jié)合粵港澳大灣區(qū)圖書館年度紙質(zhì)圖書、電子資源專項(xiàng)建設(shè)工作落地,完成資源內(nèi)容的協(xié)同構(gòu)建。
3.4.2 框架及技術(shù)構(gòu)建。粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺框架和技術(shù)實(shí)現(xiàn)包括數(shù)據(jù)平臺開發(fā)建設(shè)、數(shù)據(jù)匯聚清洗分類,數(shù)據(jù)索引存儲計算、數(shù)據(jù)分析統(tǒng)計和非結(jié)構(gòu)化文檔存儲服務(wù)。數(shù)據(jù)協(xié)同平臺還需實(shí)現(xiàn)數(shù)據(jù)的壓縮、備份,以保證數(shù)據(jù)安全可靠。
(1)數(shù)據(jù)平臺開發(fā)建設(shè)。從框架結(jié)構(gòu)層面來看,數(shù)據(jù)平臺需要提供海量數(shù)據(jù)的匯聚、清洗、建模、工作流開發(fā)以及定時調(diào)度的服務(wù)。從技術(shù)構(gòu)建層面來看,數(shù)據(jù)平臺需要提供建表、SQL/MR編寫、算法開發(fā)、數(shù)據(jù)挖掘等數(shù)據(jù)開發(fā)服務(wù),助力灣區(qū)圖書館粵港澳數(shù)據(jù)平臺建設(shè)。此外,數(shù)據(jù)開發(fā)平臺可以提供工作流的開發(fā)與調(diào)度。一個完整的工作流需要完成數(shù)據(jù)導(dǎo)入、數(shù)據(jù)清洗轉(zhuǎn)化、數(shù)據(jù)庫語言編程、算法開發(fā)、結(jié)果數(shù)據(jù)導(dǎo)出等一系列步驟;對于需要定時執(zhí)行的工作流,可通過配置調(diào)度時間周期,讓工作流自動按時執(zhí)行。工作流的按時調(diào)度是保證報表數(shù)據(jù)準(zhǔn)確準(zhǔn)時提供的前提條件。
(2)數(shù)據(jù)索引存儲與計算。基于數(shù)據(jù)平臺提供的海量資源數(shù)據(jù)存儲與計算,需要對業(yè)務(wù)數(shù)據(jù)進(jìn)行開發(fā)整理,根據(jù)粵港澳大灣區(qū)高科技創(chuàng)新領(lǐng)域、戰(zhàn)略性新興產(chǎn)業(yè)、先進(jìn)制造業(yè)、現(xiàn)代服務(wù)業(yè)、灣區(qū)海洋經(jīng)濟(jì)等相關(guān)的灣區(qū)數(shù)據(jù)索引、建模、建倉,通過內(nèi)置或者自定義算法進(jìn)行相關(guān)數(shù)據(jù)知識挖掘[8]。
(3)協(xié)同數(shù)據(jù)的分析計算。通過將粵港澳大灣區(qū)行業(yè)、產(chǎn)業(yè)索引存儲后的資源數(shù)據(jù)進(jìn)行計算、整理、挖掘后,形成動態(tài)監(jiān)測報告、發(fā)展預(yù)測報告、專題資訊報告等。這些協(xié)同數(shù)據(jù)的二次分析計算結(jié)果,能夠同步至數(shù)據(jù)實(shí)時分析區(qū),直接提供上層應(yīng)用的查詢服務(wù)或者內(nèi)部直接查詢服務(wù)。首先,協(xié)同數(shù)據(jù)的實(shí)時分析計算服務(wù)需要具有高性能、高可靠性、應(yīng)用高兼容性、分布式線性可擴(kuò)等性能。大數(shù)據(jù)平臺提供海量數(shù)據(jù)的實(shí)時分析能力,百萬級數(shù)據(jù)的秒級甚至毫秒級返回,能夠滿足灣區(qū)圖書館業(yè)務(wù)系統(tǒng)對數(shù)據(jù)查詢性能的要求。其次,協(xié)同數(shù)據(jù)平臺應(yīng)該具有多級計算節(jié)點(diǎn),以保證數(shù)據(jù)存儲和應(yīng)用服務(wù)的可靠性。任何一個磁盤的損壞,都不會造成數(shù)據(jù)丟失或者業(yè)務(wù)中斷。且數(shù)據(jù)庫接口應(yīng)具備高兼容性,支持應(yīng)用系統(tǒng)的遷移[9]。最后,隨著粵港澳大灣區(qū)圖書館業(yè)務(wù)數(shù)據(jù)量的擴(kuò)增,基于分布式的架構(gòu)能夠支持計算節(jié)點(diǎn)的橫向擴(kuò)展,支持性能的線性上升,足以支持粵港澳資源數(shù)據(jù)的可持續(xù)性積累和分析。
(4)非結(jié)構(gòu)化資源存儲。隨著上層應(yīng)用移動化和智能化趨勢的發(fā)展,數(shù)據(jù)生成的類型正在發(fā)生變化。文檔、視頻、圖像、音頻等非結(jié)構(gòu)化數(shù)據(jù)在各行各業(yè)累積數(shù)據(jù)中占比逐漸增加。據(jù)統(tǒng)計,目前超過80%的新增數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),未來預(yù)測這個比例將達(dá)到90%以上。作為粵港澳大灣區(qū)主要資源數(shù)據(jù)之一的灰色文獻(xiàn),其非結(jié)構(gòu)化數(shù)據(jù)達(dá)95%以上。其涵蓋了行業(yè)、產(chǎn)業(yè)、科技文化相關(guān)的會議文獻(xiàn)、科技報告、技術(shù)檔案,以及不對外發(fā)行的企業(yè)文件、產(chǎn)品資料、貿(mào)易文件(包括產(chǎn)品說明書、相關(guān)機(jī)構(gòu)印發(fā)的動態(tài)信息資料)和工作文件。而未刊登稿件以及內(nèi)部刊物、交換資料等因其流通渠道特殊,數(shù)據(jù)存儲單一,容易絕版,且涉及的信息廣泛,內(nèi)容新穎,見解獨(dú)到,具有特殊的資源價值[10]。因此,粵港澳大灣區(qū)資源數(shù)據(jù)平臺在設(shè)計上,應(yīng)提供非結(jié)構(gòu)化文檔的存儲與管理,如圖書館PDF、CAJ電子文檔、圖片以及一些辦公文檔的上傳、共享、下載、刪除等,并可通過開放接口訪問的方式,對上層應(yīng)用提供在線閱讀等服務(wù)。
在數(shù)據(jù)采集、清洗、匯總后,粵港澳資源協(xié)同構(gòu)建平臺應(yīng)進(jìn)行數(shù)據(jù)分析,實(shí)現(xiàn)最重要的知識加工挖掘功能,如提供灣區(qū)行業(yè)、產(chǎn)業(yè)教育相關(guān)的咨詢分析、評估、動態(tài)監(jiān)測、發(fā)展預(yù)測、專題數(shù)據(jù)等。為粵港澳大灣區(qū)完成數(shù)據(jù)協(xié)同的圖書館提供行業(yè)定制化的數(shù)據(jù)分析報告,輔助圖書館業(yè)務(wù)分析人員實(shí)現(xiàn)對常規(guī)業(yè)務(wù)數(shù)據(jù)的分析。例如,圍繞粵港澳大灣區(qū)發(fā)展趨勢和熱點(diǎn),對接全球創(chuàng)新資源,生成粵港澳創(chuàng)新創(chuàng)業(yè)專題研究報告、灣區(qū)科研基礎(chǔ)設(shè)施資源報告、灣區(qū)產(chǎn)學(xué)研深度融合報告、灣區(qū)科技成果轉(zhuǎn)化流程及案例匯總、灣區(qū)制造業(yè)結(jié)構(gòu)報告、灣區(qū)專業(yè)人才培養(yǎng)方案等。還可通過自行設(shè)定時間軸,提供月度、季度、年度的報告分析服務(wù)和特定業(yè)務(wù)場景的數(shù)據(jù)分析服務(wù),以及定制化的其他業(yè)務(wù)數(shù)據(jù)報表等數(shù)據(jù)分析服務(wù)。從多角度進(jìn)行維度和思路分析,輔助圖書館業(yè)務(wù)分析人員挖掘數(shù)據(jù)背后的價值,用于提升圖書館灣區(qū)情報供給和數(shù)據(jù)分析能力。
粵港澳大灣區(qū)資源數(shù)據(jù)平臺,應(yīng)實(shí)現(xiàn)數(shù)據(jù)交互可視化功能。可以按照圖書館業(yè)務(wù)分析的要求,對數(shù)據(jù)分析報表設(shè)置范圍、提取條件,從而快速準(zhǔn)確地捕捉灣區(qū)資源信息,生成分析報表,并以可視化形式直觀展現(xiàn)重要數(shù)據(jù),為灣區(qū)行業(yè)、產(chǎn)業(yè)、科技文化發(fā)展方向提供依據(jù)和支持。數(shù)據(jù)交互的可視化工具主要面向具備一定技術(shù)能力的業(yè)務(wù)人員,一線圖書館業(yè)務(wù)分析人員,通過分析軟件完成數(shù)據(jù)的分析、查詢、篩選。通過資源數(shù)據(jù)標(biāo)簽化的方式,改變傳統(tǒng)的以查詢、檢索為主的分析模式,業(yè)務(wù)人員無須接觸底層的物理表字段,就可以通過拖拉拽等可視化方式快速完成數(shù)據(jù)提取,從而方便發(fā)布自定義數(shù)據(jù)分析應(yīng)用。粵港澳大灣區(qū)圖書館資源數(shù)據(jù)協(xié)同構(gòu)建平臺需要提供的數(shù)據(jù)可視化交互主要功能如下:
(1)將數(shù)據(jù)轉(zhuǎn)化為標(biāo)簽。根據(jù)粵港澳大灣區(qū)行業(yè)、產(chǎn)業(yè)的不同維度,資源數(shù)據(jù)平臺提供標(biāo)簽自定義功能,通過標(biāo)簽體系進(jìn)行灣區(qū)大數(shù)據(jù)歸類提取。業(yè)務(wù)人員可以按需擴(kuò)展、定制標(biāo)簽,支持在簡單的數(shù)據(jù)標(biāo)簽基礎(chǔ)上建立復(fù)雜標(biāo)簽?zāi)0澹С譃硡^(qū)行業(yè)、產(chǎn)業(yè)相關(guān)數(shù)據(jù)的求和、取平均值、同比、環(huán)比等數(shù)學(xué)函數(shù)計算,并提供折線圖、柱狀圖和條形圖等可視化數(shù)據(jù)展示。
(2)提供行業(yè)業(yè)務(wù)模板。資源數(shù)據(jù)平臺的協(xié)同構(gòu)建,應(yīng)該規(guī)劃設(shè)置灣區(qū)各個行業(yè)模板,便于業(yè)務(wù)人員快速根據(jù)模板生成相關(guān)粵港澳大灣區(qū)研究應(yīng)用。在基本模板的基礎(chǔ)上,能夠自定義模板,產(chǎn)生數(shù)據(jù)應(yīng)用的同時自動生成業(yè)務(wù)模板,通過模板共享,促進(jìn)數(shù)據(jù)分析和應(yīng)用,提高數(shù)據(jù)平臺的知識產(chǎn)出效率和精準(zhǔn)度。
(3)支持報表的發(fā)布和共享。粵港澳大灣區(qū)資源數(shù)據(jù)平臺,需要支持發(fā)布獨(dú)立的應(yīng)用。并通過可視化界面,用拖拽的方式產(chǎn)生面向?qū)ο蟮膽?yīng)用,適用于粵港澳行業(yè)、產(chǎn)業(yè)、科技文化等各個業(yè)務(wù)場景。此外,平臺支持報表發(fā)布,支持邀請成員組成工作群組,共同分析、共享研究成果。
標(biāo)簽是通過對用戶信息分析而得到的高度精練的特征標(biāo)識,是畫像最直觀的解釋[11]。通過“打標(biāo)簽”的方式為所有粵港澳資源數(shù)據(jù)平臺用戶生成畫像,通過不斷豐富標(biāo)簽來直觀鮮活地描述用戶相關(guān)活動特征。此外,對粵港澳資源數(shù)據(jù)使用的頻度可以反映灣區(qū)行業(yè)、產(chǎn)業(yè)及科技相關(guān)發(fā)展熱點(diǎn),對生成灣區(qū)資源相關(guān)對象的標(biāo)簽畫像也非常關(guān)鍵。將用戶畫像和資源畫像、活動畫像相結(jié)合,可以更好地圈出灣區(qū)發(fā)展趨勢熱點(diǎn),推送給符合關(guān)注的人群,繼而深化灣區(qū)研究的深度,契合灣區(qū)發(fā)展的方向。
根據(jù)粵港澳協(xié)同業(yè)務(wù)的要求(如產(chǎn)業(yè)分析、創(chuàng)新創(chuàng)業(yè)、文化活動推薦、自定義內(nèi)容推廣等)來決定用戶標(biāo)簽畫像,即不同內(nèi)容所需要的用戶標(biāo)簽畫像是不一樣的,而這樣的標(biāo)簽畫像需要大數(shù)據(jù)管理平臺提供相應(yīng)的功能進(jìn)行快速配置并產(chǎn)生,以驅(qū)動和提高內(nèi)容匹配,提高粵港澳大灣區(qū)圖書館資源數(shù)據(jù)平臺的協(xié)同構(gòu)建作用。
通過標(biāo)簽畫像體系,在數(shù)據(jù)清洗、轉(zhuǎn)換,ID匹配等基礎(chǔ)上,積累數(shù)據(jù)平臺中的內(nèi)容畫像、用戶畫像和活動畫像。在前期數(shù)據(jù)和算法模型框架下,根據(jù)任務(wù)處理的需求,形成實(shí)時快速或精準(zhǔn)離線的計算任務(wù),通過平臺計算引擎進(jìn)行處理后,產(chǎn)生不同層次要求的標(biāo)簽畫像,將處理好的標(biāo)簽畫像數(shù)據(jù)存儲到與平臺數(shù)據(jù)庫對應(yīng)的內(nèi)容、業(yè)務(wù)和活動的標(biāo)簽畫像數(shù)據(jù)中。因?yàn)楫a(chǎn)生的標(biāo)簽具有不同的層次,所以能滿足灣區(qū)不同的行業(yè)、產(chǎn)業(yè)及科技文化資源需求。
粵港澳大灣區(qū)圖書館資源數(shù)據(jù)協(xié)同構(gòu)建平臺可依托智慧圖書館建設(shè),設(shè)計提供個性化智能推薦功能,根據(jù)用戶的興趣關(guān)注點(diǎn)推薦符合需求的灣區(qū)資訊。智能化推送可以讓用戶更容易找到所需的灣區(qū)資源數(shù)據(jù),減少用戶在海量數(shù)據(jù)中檢索查詢的時間和精力,并且在用戶感興趣的領(lǐng)域進(jìn)行資訊提醒,有助于提高數(shù)據(jù)平臺的使用效益。此外,智能推薦功能,讓有意向研究灣區(qū)的特定行業(yè)、產(chǎn)業(yè)、科技文化用戶,集結(jié)成興趣共同的群組,有利于創(chuàng)造基于特定主題的良好交流合集空間,使粵港澳大灣區(qū)資源數(shù)據(jù)平臺為更多專業(yè)領(lǐng)域人群所用。
粵港澳大灣區(qū)的建設(shè)發(fā)展,在國家發(fā)展大局中具有重要戰(zhàn)略地位。協(xié)同構(gòu)建粵港澳大灣區(qū)資源數(shù)據(jù)平臺,是推進(jìn)“廣州—深圳—香港—澳門”科技創(chuàng)新走廊建設(shè),探索灣區(qū)行業(yè)、產(chǎn)業(yè)、科技文化等資源要素跨境流動和區(qū)域融通的方法。本文從粵港澳大灣區(qū)資源數(shù)據(jù)現(xiàn)狀的三個問題出發(fā),分析了灣區(qū)圖書館協(xié)同構(gòu)建平臺的需求,制定了智能精準(zhǔn)信息平臺建設(shè)的目標(biāo)。從數(shù)據(jù)集成標(biāo)準(zhǔn)、存儲計算、分析交互和智能標(biāo)簽聚集等八個方面,給出搭建灣區(qū)數(shù)據(jù)平臺架構(gòu)的實(shí)施方案和可行性建議,以期為粵港澳大灣區(qū)資源數(shù)據(jù)平臺協(xié)同建設(shè),特別是圖書館牽頭組織下的區(qū)域開放資源建設(shè)提供參考和借鑒,協(xié)同共建區(qū)域大數(shù)據(jù)中心和創(chuàng)新平臺。