999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

掘金大數據:圖書館面臨的幾個問題探討*

2014-07-09 01:26:26
新世紀圖書館 2014年6期
關鍵詞:圖書館分析

姚 毅

大數據是繼互聯網、Web2.0、云計算、數據挖掘之后,近兩年最為流行和最受關注的詞語之一。自從概念提出之后,其蘊含的巨大價值逐漸為人們所認知。美國等發達國家對大數據的研究極為重視,2012年,美國政府撥款2億美元啟動“大數據研究和發展倡議”計劃,將大數據的研究提升至國家層面[1]。我國對大數據研究同樣重視,科技部發布的“十二五”國家科技計劃信息技術領域2013年度備選項目征集指南中,關于大數據的研究(存儲設備)排在第一位[2]。隨著 IT業巨頭如 IBM、Microsoft、Google、Oracle等跨國公司相繼投入資金,推動大數據處理技術的快速發展,大數據的分析和研究在許多領域取得了巨大成功。在圖書館方面,國外的研究者進行了“關聯開放數據”和“圖書館數據監管”的研究項目[3];梵蒂岡圖書館將多達8萬部古籍數字化后,放入存儲中,占用空間約2.8PB[4];清華大學利用元數據倉儲進行數據挖掘,建立可檢索多種數據源的檢索平臺,并利用關鍵詞分析作者與合作者的關系,建立知識關聯網絡[5];2013年10月25日,北京大學圖書館承辦了“大數據時代數字圖書館的變革與創新”學術研討會[6]。大數據正在成為當前圖書情報領域研究的熱點之一。然而,圖書館掘金大數據之路并不平坦,面臨著許多問題與挑戰。本文擬從大數據獲取與存儲、應用研究、分析與挖掘技術三個方面,探討圖書館應用大數據面臨的幾個問題。

1 認識圖書館大數據的價值

1.1 什么是大數據

關于大數據,科學界給出的定義比較籠統。一般認為,大數據是指用我們當前的IT軟硬件技術和工具,在相當長的時間內,無法處理或者不能從數據集中獲得有用信息的數據。大數據有三個特點,第一是數據體量巨大,一般的數據規模已從TB級升至PB級或更高的EB和ZB級。第二是數據類型種類多樣,來源廣泛,不僅包括結構化數據,也有半結構化和非結構化數據,如來自互聯網社交網絡數據、網絡日志、多媒體數據、傳感器的數據信息、RFID數據、視頻信息、地理位置信息等。第三是數據價值巨大,但密度很低。即在海量的數據中,有巨大價值的信息非常少。也有學者認為,與應用密切相關的各類數據都屬于大數據范疇[7]。

1.2 大數據在圖書館的作用

大數據在經濟和信息領域取得了成功。2012年,在瑞士達沃斯舉行“世界經濟論壇”發表的報告顯示,美國利用大數據技術,每年的零售業價值可增加3000億美元,凈利潤增加60%,減少制造業開發和組裝成本50%[8];淘寶網通過數據的分析和挖掘,為公司戰略和決策提供依據,為賣家提供更為精準的營銷服務,也為買家提供更好的購物體驗;Google的搜索服務利用大數據引擎,快速從全球海量的數字信息中找出最可能的答案。這些案例表明:大數據有巨大價值,大數據可以被眾多行業所應用,大數據可以為行業帶來新的發展機遇。

大數據是IT業顛覆性的技術變革,必然會使圖書館的信息存儲、加工、組織、生產、利用發生很大的變化。大數據應用于圖書館,有利于推動建立全新的知識服務體系。大數據的作用主要表現在:(1)讀者大數據的分析和挖掘,將促進個性化服務的全面實施。(2)利用大數據挖掘技術,整合圖書館的各類信息資源。(3)提供智能輔助決策能力,為圖書館管理增加有效的手段。(4)幫助建立智慧型圖書館。RFID和各類傳感器將普遍應用于未來的智慧型圖書館中。RFID和傳感器的數據分析,將依賴于大數據的分析技術。(5)促進圖書館自動化系統和數據庫服務商由傳統模式向云計算架構或云服務方式轉化。如在CALIS的三期建設中,提出云戰略和數字圖書館云服務平臺[9];新版的知網數據庫是可以支持服務器集群的分布式數據庫;以色列ExLibris(艾利貝斯有限公司)開發的Aleph系統(美國國會圖書館、中國國家圖書館等大型館均使用該系統),已推出新一代的云服務模式系統Alma[10],該系統已應用于包括美國中央華盛頓大學圖書館的大學聯盟。(6)推動圖書館云存儲系統的建設。大數據和圖書館數字資源的長期保存都需要存儲提供支持,云存儲將是最佳方式。數據的爆發式增漲,將使圖書館云存儲的建設不斷增強。

2 圖書館應用大數據面臨的幾個問題

中國工程院院士方濱興教授認為:大數據的應用有三個關鍵要素,擁有大數據,清晰的大數據應用需求和技術積累[8]。圖書館要利用大數據面臨的問題多種多樣,應用需求各不相同,但都可以概括為這三個要素:即第一項對應大數據的來源及獲取;第二項對應大數據在圖書館的應用研究;第三項對應存儲技術和數據分析與挖掘。

2.1 大數據的來源及獲取問題

利用大數據,關鍵要先擁有足夠多的數據。在大數據應用上,走在前列的公司無不擁有超大數據量,如百度、騰訊、淘寶、中國移動、中國聯通等。目前,圖書館應用大數據成功的案例較少,除了資金和技術缺乏以外,缺少大數據是一個重要的原因。研究圖書館大數據潛在的來源及特點,有助于我們更加有效地獲取和利用大數據。圖書館的大數據,大致包括以下幾類:

(1)圖書館傳統業務軟件內的數據。主要是數據庫里的結構化數據,包括書目數據、讀者的身份信息、借還書的記錄、延時記錄、資金管理等。這類數據雖然不太符合大數據的特征,但可以融入與其他大數據的分析中,是圖書館大數據分析環節中的重要部分。這類數據也包括廣泛使用的條形碼和逐漸增多的二維條形碼數據。

(2)Web數據。Web數據包括社交網絡交互數據,如網站門戶、搜索引擎、社交網絡、鏈接、日志等。Web2.0正越來越多應用到圖書館服務中,如應用即時通訊、博客、微博、微信、維基、RSS,使讀者主動參與到圖書館的知識服務中,在與讀者的交互過程中,會產生大量數據。這些數據記錄了讀者的信息需求、習慣、愛好等個性化信息。Web數據量大并且有很高的價值,是圖書館進行個性化服務的依據。

(3)移動互聯數據。隨著手機、iPAD等智能終端的普及,2013年6月底,我國手機用戶已高達4.64億[11]。為了適應時代的需求,移動方式的服務,如手機圖書館、微信等在圖書館的應用也風起云涌,并成為重要的知識服務方式。移動設備與圖書館的交互數據,將是大數據的重要來源。

(4)文獻數據。文獻數據是各類數字化資源的總稱。隨著數字圖書館進程的不斷加快,這類數據正呈現爆發式增長,是圖書館大數據的組成部分。但是這類數據,由于來源廣泛,存在數據格式不兼容或不能離開供應商的軟件讀取等問題,需要數據供應商在一定的條件下,提供通用格式的數據,以解決數據互操作的問題。

(5)物聯網數據,如RFID數據、各類智能傳感器數據等。在我國推進圖書館智能型、智慧型建設是大勢所趨。智慧圖書館將大量使用各類智能設備,并利用互聯(物聯)和智能技術管理圖書館。智能設備的傳感器不間斷地產生數據,成為圖書館大數據的重要來源。但是由于傳感器各異,在數據收集、數據格式、存儲等方面有較大差別,異構數據的共享問題成為圖書館研究者面臨的難題之一。

獲取大數據,還需要不斷完善圖書館的軟件系統。目前,不論是圖書館的應用軟件還是Web形式的軟件,只有簡單的日志記錄,沒有數據的采集功能,不能對讀者交互數據進行抓取和存儲。需要軟件增加對應的數據庫字段,將數據錄入數據庫,為大數據的分析和挖掘提供數據源。

2.2 大數據的存儲問題

海量的數據資源對存儲系統提出了新的挑戰,要求存儲系統具備足夠的存儲空間、靈活的可擴展性和較低的使用成本。圖書館目前主要有三種存儲架構,第一種DAS方式,是服務器直接連接存儲設備。第二種NAS方式,是通過網絡方式連接存儲。第三種SAN,是通過專用的存儲網絡連接存儲,以實現集中存儲集中管理。但三種方式都存在可擴展性差的問題,難以適應海量數據的存儲要求。對大數據而言,云存儲是較為理想的方式。云存儲系統具有很強的可擴展性,它采用并行擴容方式,當容量不夠時,只需增加具有一定容量的服務器,而且容量擴展后,性能不會隨之下降。浙江大學圖書館的下一代PB級數字圖書館系統,即CADAL項目二期建設,采用EMC的Isilon系統作為存儲,與云存儲相似,主要強調的也是高可擴展性。

南京圖書館的數字資源近幾年增長迅速,除外購數據庫的數量和數據量不斷上升外,自建的特色數據庫和古籍保護項目對存儲的需求量大增,館內的存儲系統不堪重負。為了探索圖書館數字資源存儲的新途徑,在江蘇省文化科研基金的支持下,南京圖書館聯合南京郵電大學對云存儲系統進行了初步研究和開發。利用開源軟件Hadoop,設計了分布式集群存儲系統(云存儲)。采用Java語言設計客戶端程序,實現了通過Web方式對文件的存取。Hadoop系統建立在廉價的Linux服務器上,利用較高性價比的x86服務器實現集群化,無需購買價格高昂的大型專有設備,極大地降低了圖書館的存儲使用成本。經數據的上傳測試,基本達到了最初的設想,為我們存儲大數據奠定了基礎。目前該系統還只適合用于非聯機事物數據的處理,如存儲非結構化數據、需要長期保存的數據、近線或離線的備份數據等。

2.3 大數據在圖書館的應用研究

圖書館的應用研究,應建立在業務需求的基礎上,致力于提高服務體系的組織水平,促進圖書館事業與制度建設的創新發展。大數據在圖書館中的應用將主要圍繞構建新型知識服務體系和智能化管理上。以下列舉了大數據在構建新型知識服務體系和智能化管理上的部分應用,以期拋磚引玉。

2.3.1 構建新型知識服務體系的應用

利用大數據分析技術,能夠揭示數據背后隱藏的讀者行為和信息需求,有利于改進圖書館的服務,優化整合圖書館的資源,建立新型知識服務體系。大數據的應用主要包括:

(1)對讀者的信息和借閱行為的分析,主要包含:①分析文獻類型與讀者的性別、年齡、學歷、專業的關系。②分析各類文獻的利用情況。進行文獻類別的借閱率排行,及時補充借閱率高的圖書,下架過時文獻,為調整借閱文獻的品種和采訪提供科學依據和預測信息,以優化館藏結構。③個性化服務。分析讀者的活躍度、閱讀喜好、借閱方式、信息需求、行為習慣等數據,圖書館可以有的放矢地向用戶提供符合其個性化需求的服務,如新書推薦、同類書推薦、信息需求推送、個性化的圖書借閱、網上個性化門戶等。

(2)社交網絡交互數據的分析。Web2.0的應用,使讀者主動參與到圖書館的知識服務中,通過數據分析可以發現讀者的信息需求、讀者的研究課題等,可以有針對性地向其推薦所需要的圖書、課題的論文資料、研究報告、專利文獻等。

(3)圖書館信息資源的整合。面對海量信息,圖書館通過大數據處理,從各類資源中整合有用的知識和關聯關系。通過數據的加工整理,探索以數據為基礎的知識發現分析和數據的增值服務[12]。

(4)建立全新的知識服務導航機制。利用大數據分析,可以建立用戶知識需求預測導航、多維數據資源的組織和分析導航、讀者信息行為分析導航、數據資源和學術資源的服務導航等[13]。

(5)知識服務的智能輔助決策。根據讀者的借閱數據,建立圖書館館藏資源的調整和預測機制,為圖書館管理增加有效的手段。

2.3.2 智能化管理方面的應用

(1)閱覽室閱讀數據的統計預測。目前,圖書館閱覽室一般無法提供讀者閱讀書籍的數據。通過在一組書架中增加RFID識別設備,當讀者取書閱讀時即可將數據傳至服務器中,經過數據分析和挖掘可以對讀者的閱讀進行統計和預測。根據書籍的閱讀率及時增加熱門圖書,剔除冷門圖書,有利于更好地調整閱覽室的文獻資源布局。

(2)圖書館物業管理的智能分析和輔助決策。各類傳感器將普遍應用于未來的智慧型圖書館中,通過對傳感器數據的多維度分析,實現物業管理的智能化。

(3)圖書館對大數據的應用研究還包括建立大數據分析的可視化模型,如借閱分析模型、統計分析模型、預測模型、風險評估模型等。可視化將成為未來大數據分析的重要方式。

2.4 大數據的分析與挖掘問題

大數據時代,數據分析與挖掘和傳統的方法相比既有相似之處,也有一定的差別。相似的是:大數據的分析與挖掘基本上繼承了傳統分析與挖掘的方法和技術。如在數據分析方法上,都包括簡單數學運算、統計、快速傅里葉變換、平滑和濾波、基線和峰值分析。在數據挖掘上,都包括分類法、聚類法、關聯規則、回歸分析、復雜數據類型挖掘。不同之處是:傳統數據挖掘一般是基于結構化數據庫的數據,而大數據由于數據規模超出一般計算機系統的處理能力,只能基于NoSQL的非結構化數據庫,如Mongodb,Cassandra,Hbase等;傳統的分析基于抽樣研究,強調的是小樣本,而大數據時代強調全樣本。小樣本的分析,由于數據選取的偶然性,不同的樣本分析必然會使結果產生差異。全樣本分析的優點是極大地減小了這種差異。

Hadoop是目前處理大數據最為流行的分布式集群系統。基于Hadoop運行的工具軟件中,Mahout是常用的數據分析與挖掘的工具之一,利用Mahout可以迅速有效地將大量數據轉化為可操作的信息。在實際應用程序中,Mahout常用于三個領域:協作篩選、集群、分類。協作篩選通常利用網站收集用戶的各種信息,并建立一個推薦引擎,如在圖書館,可以設計一種根據讀者閱讀圖書、網頁點擊率、圖書評論等信息為讀者推薦相似度高的書籍和文獻的系統。集群通常用于將大型數據集中類似的項目自動組織到一起,如將所有主題相同的文章自動歸類到一起等。分類通常是根據設定的指標,將數據或文檔歸類不同的分組中。

3 結語

大數據時代,對于數據的分析和挖掘能力,將成為圖書館是否具備競爭力的一項重要指標。個性化服務、館藏優化、資源整合、風險評估、發展策略的制定等將依賴于大數據的分析和預測。利用好大數據,能夠提高圖書館的服務水平,構建新型知識服務體系,推動圖書館事業與制度建設的創新發展。

然而,大數據的應用具有較高的技術難度,也需要很高的成本。圖書館將面臨數據存儲、數據分析挖掘技術、應用研究、人才培養等各方面的挑戰。大數據應用還存在安全和隱私保護問題,圖書館的讀者個人信息、數據資源不能因為大數據泄露,而被不法者所利用,需要對涉及數據的隱私加強保護。

大數據作為一項新興技術,在圖書館的應用尚處于起步階段。良好的應用前景和業務需求,必將促進圖書館大數據應用研究的不斷發展。

參考資料:

[1]掘金大數據 亟待國家戰略支持[EB/OL].[2014-03-05].http://finance.eastmoney.com/news/1355,20130122269535430.html.

[2]“十二五”國家科技計劃信息技術領域2013年度備選項目征集指南 [EB/OL].[2014-03-06].http://www.most.gov.cn/tztg/201203/t20120329_93437.htm.

[3]容春琳.公共圖書館應用大數據的策略研究[J].圖書館建設,2013(7):91-95.

[4]梵蒂岡圖書館將其8萬部古籍存儲到2.8PB數據空間中[EB/OL].[2014-03-06].http://www.cnbeta.com/articles/228881.htm.

[5]鄧景康.大數據環境下清華大學圖書館的實踐[N].中國新聞出版報,2013,8(29):5.

[6]北京大學圖書館承辦“大數據時代數字圖書館的變革與創新”學術研討會[EB/OL].[2014-03-14].http://www.npopss-cn.gov.cn/n/2013/1114/c219468-23538446.html.

[7]李戰懷,王國仁,周傲英.從數據庫視角解讀大數據的研究進展與趨勢[J].計算機工程與科學,2013,35(10):1-11.

[8]馬梅若,方濱興.大數據不能包治百病[J].中國經濟和信息化,2013(8):46-48.

[9]王文清,陳凌.CALIS數字圖書館云服務平臺模型[J].大學圖書館學報,2009(4):13-18.

[10]exlibries alma FAQ[EB/OL].[2014-03-13].http://www.exlibrisgroup.com/files/Products/Alma/Alma-FAQ-Dec 2010.pdf.

[11]郭全中.2014移動互聯和大數據領域將成并購主戰場[EB/OL].[2014-04-03].http://www.ce.cn/culture/gd/201402/08/t20140208_2259323.shtml.

[12]朱靜薇,李紅艷.大數據時代下圖書館的挑戰及其應對策略[J].現代情報,2013,33(5):9-13.

[13]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數據”[J].圖書館雜志,2012,31(11):63-68,77.

猜你喜歡
圖書館分析
隱蔽失效適航要求符合性驗證分析
圖書館
文苑(2019年20期)2019-11-16 08:52:12
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
電力系統及其自動化發展趨勢分析
飛躍圖書館
圖書館里的是是非非
中西醫結合治療抑郁癥100例分析
去圖書館
主站蜘蛛池模板: 国产精品国产三级国产专业不 | 久久久久88色偷偷| 久久综合九色综合97婷婷| 国产精品深爱在线| 国产成人精品一区二区三在线观看| 国内毛片视频| 丰满人妻久久中文字幕| 99久久亚洲精品影院| 国产福利拍拍拍| 看av免费毛片手机播放| 在线国产91| 国产精品内射视频| 99热这里都是国产精品| 伊人成人在线视频| 日韩国产一区二区三区无码| 国产精品夜夜嗨视频免费视频| 欧美不卡二区| 国产亚洲美日韩AV中文字幕无码成人| 免费无码网站| 亚洲日韩在线满18点击进入| 美女潮喷出白浆在线观看视频| 国产欧美日韩资源在线观看| 亚洲国产高清精品线久久| 中文字幕人妻无码系列第三区| 欧美爱爱网| 午夜小视频在线| 五月天福利视频| AV无码无在线观看免费| 精品视频一区在线观看| 一区二区三区成人| 欧美一区国产| 毛片最新网址| 少妇精品久久久一区二区三区| 国产午夜精品一区二区三| 色综合色国产热无码一| 国产www网站| 免费观看男人免费桶女人视频| 亚洲精品国产首次亮相| 国产日韩欧美视频| 直接黄91麻豆网站| 九九视频在线免费观看| 国产sm重味一区二区三区| 欧美日韩精品综合在线一区| 精品国产成人国产在线| 国产午夜小视频| 一区二区欧美日韩高清免费| 免费看av在线网站网址| 欧美中文一区| 亚洲国产综合第一精品小说| 国产精品黄色片| 四虎精品免费久久| 国产在线视频福利资源站| 91福利在线观看视频| 四虎在线观看视频高清无码| 欧美第九页| 久久女人网| 午夜一级做a爰片久久毛片| 国产在线观看99| 91无码网站| 思思99热精品在线| 亚洲欧美极品| 91精品专区国产盗摄| 婷婷五月在线视频| 污视频日本| 亚洲国产欧美国产综合久久 | 69精品在线观看| 欧美日韩午夜| 欧美色视频日本| 久久中文字幕不卡一二区| 视频二区国产精品职场同事| 色一情一乱一伦一区二区三区小说| 99精品福利视频| 国产自产视频一区二区三区| 久久精品国产一区二区小说| 四虎永久免费地址在线网站| 精品国产亚洲人成在线| 亚洲成在人线av品善网好看| 91丝袜美腿高跟国产极品老师| 久久永久视频| 亚洲三级a| 久久a毛片| 久久婷婷五月综合97色|