郭明環,古江華
(西安科技大學 圖書館,陜西 西安 710054)
大數據(Big Data),最早是由美國數據科學家維克托·邁爾·舍恩伯格提出的,他認為,大數據時代最大的變化是放棄對因果關系的渴望,轉而關注相關關系[1]。研究機構高德納(Gartner)定義“大數據”是一種信息資產,它需要一種新的處理模型,以具有更大的決策、洞察力和過程優化能力,以適應大規模、高增長率和多樣化。而研究機構IDC與IBM均把大數據的特征概括為:大量化(Volume)、多樣化(Variety)、快速化(Velocity)及價值化(Value)[2]。
大數據和人力資源、自然資源一樣都是非常重要的寶貴資源,它對一個個體、一個行業和一個國家的發展都具有非常深遠的意義和價值。譬如,根據大數據的分析結果,可以為一個人提供精準的醫療服務,可以在教育中真正做到“因材施教”;大數據可以使企業細化市場并充分挖掘市場商機,推動行業創新,也可以為企業管理者提供決策的科學依據,進而提高決策水平和效率;一個國家可以使用大數據手段提升社會治理水平,維護社會的和諧穩定。近年來,在國內,“智慧城市”的建設就是依托大數據的智慧。總之,大數據極大地改變了人們的生活。
在大數據背景下,高校圖書館讀者的信息獲取方式發生了很大改變,閱讀方式由紙質閱讀為主變為紙質閱讀和電子閱讀并存的方式,電子閱讀和大數據信息時刻吸引著讀者的視線,海量又迅速,容易使讀者養成“淺閱讀”和“快餐式”的閱讀習慣,這樣會導致讀者逐漸遠離圖書館,放棄深層次的研究式、經典式的閱讀。圖書館現在運營的服務模式面臨著較大風險。任何事物都具有兩面性,帶來風險的同時,大數據也給圖書館帶來了巨大的潛在價值。圖書館界同仁應該具有大數據的核心思維,讓數字圖書館和大數據思維緊密結合起來應對挑戰。
高校圖書館的大數據從來源上分為系統數據、傳感器數據和社交媒體數據;從生成類型上可分為館藏知識數據、圖書館員工的工作數據和用戶使用圖書館的信息數據。
當下的高校圖書館館藏資源是傳統的紙本資源和數字化資源并存,除了紙本圖書和期刊外,占比例較大的數字化資源有各類數據庫、電子書、紙質圖書轉換的數字資源,另外還有各類的視頻、音頻和圖片等資源。
工作數據則主要包括圖書館工作人員在各自的相關工作過程中產生并留存的數據信息,其中有一部分是用戶和圖書館工作人員的交互信息:借閱信息中人工操作的委托借閱、預約借閱、館際互借;咨詢信息中圖書館工作人員對互動的信息記錄,咨詢交互數據,電子郵件、基于Web的表單、留言板、即時消息或實時聊天等都是圖書館大數據的一部分。
用戶使用圖書館過程中產生的數據包括:①傳感器數據,如門禁系統,其保留有大量用戶的進館與出館信息,用戶的到館學習、參觀及參與圖書館組織的各種比賽的行為記錄,還有圖書館不同位放置的傳感器,長時間對所在的環境與資源采集到的巨大的數據量。②用戶的網絡行為數據,如社交網絡服務SNS、搜索、網站和點擊流是典型的大數據源,這些數據源產生的數據高速增長。自2000年初期以來,許多Web2.0的應用,從在線社交網絡,如論壇、博客、社交媒體網站中產生了大量的用戶交互內容,參與人數眾多,且交互的內容非常豐富,有用戶情感的傾訴,其中包含很多對圖書館服務的評價,這是值得圖書館重視的一個大數據來源。隨著高校移動圖書館的普及,平板電腦、智能手機、iPad、移動App,校內用戶都可以直接在手機等移動網絡設備上,登錄校內的網絡智能圖書館系統,圖書館利用移動互聯技術,可以獲取大量用戶的訪問數據。另外,像聯機公共目錄查詢系統(OPAC)里也包含著用戶豐富的信息內容,如用戶的檢索記錄、對數據庫的訪問記錄、下載記錄等,這也是圖書館大數據的重要來源。③科學研究數據,科研數據是指高校的不同學院,不同課題組的研究人員在科研過程中產生的能夠存儲在計算機上的任何數據,其中也包括調研和實驗數據、來自傳感器或遙感勘測數據、模型測試的仿真數據、神經圖像等可以轉換成數字形式的非數字形式數據。也是圖書館需要重點收集的一個大數據來源[3]。
在大數據時代,圖書館的信息記錄已經成為最重要的資源,大數據的價值有描述價值、時間價值和預測價值等特征,圖書館的大數據具有生產要素性、數據恒溫性、價值潛在性等幾個主要屬性。數據的價值具體表現為:用戶個性化、精準化及集知識、能力、資源、過程融合一體的智慧化服務產品的生產提供和推送;圖書館運行風險的預測與規避及服務模式的變革等方面[4]。如何存儲、管理數據并利用大數據技術分析挖掘這些數據的潛在價值,已經成為圖書館界同仁們必須面對的問題。
圖書館需要利用大數據技術對用戶群體進行類別劃分,對其感興趣和關注的主題類型進行標簽化處理,通過智能化標簽判定不同用戶的動態需求,把館藏信息和推薦材料發給特定群體,為不同的圖書館用戶群體,提供針對性和個性化的服務產品,并及時獲取用戶的反饋信息,不斷補全和更新最受用戶關注的信息和借閱率較高的圖書資料,通過為不同用戶進行的探測性推薦服務,逐步提高推送服務的針對性和精確度。
圖書館通過數據流聚類算法對學科進行聚類分析,預測學科研究的熱點,尋找學科之間的交叉和關聯,運用引文分析、神經網絡分析和可視化分析等手段,構建學科的知識網絡。為高校學生的選修、選課、畢業論文的撰寫方向等提供有價值的參考信息;為碩士生和博士生的研究提供指導,可以讓他們節約文獻查閱的時間,盡早確定自己的選題方向,準確把握研究領域的研究進展;也可以與其他數據來源方通過合作協商的方式,采集高校科研人員通過調查、實驗、觀測、探測等科學手段積累的大量科學數據,這些數據不僅具有研究價值,而且對同行的科研人員有分享價值,圖書館有義務為他們搜集并提供共享科研數據,構建虛擬社區,形成學術交流圈[4]。
通過分析用戶對圖書館資源使用的數據記錄,如圖書借閱、數據庫訪問及下載歷史等,可以有效評估圖書館各種館藏資源的利用效率。預測讀者關注的熱門圖書和熱點內容,進而為圖書館準確采購信息資源提供決策依據,避免有限的資金浪費。
總之,大數據可能使圖書館節省資金,提供更合適的程序,滿足更多用戶的信息需求,意識到其收藏的差距和優勢,并成為用戶更有效的信息來源;大數據可以為圖書館管理者必須做出的決策和資金要求提供基于數據的理由;大數據可以提供知識管理的過程和產品,這些過程和產品在高校圖書館中變得越來越重要。
隨著技術的進步,圖書館大數據的數據呈現更加多樣化,有知識數據、交互數據、傳感數據,從數據格式上有文本、圖片、音頻、視頻、光譜等,像社交網絡呈現的多是短文本數據信息,由于信息量少給文本挖掘帶來很大的困難。從數據結構上有結構化、半結構化和非結構化數據,像傳感器、社交網絡、移動計算等產生的非結構化數據已成為大數據的主流形式,相對組織凌亂,數據價值密度低,且這類數據所占的比重日益增多,這給數據的存儲能力和處理分析能力都提出了更高的要求。因此,圖書館對復雜繁多的大數據存儲必須提高其可靠性、擴展性和規范性。
大數據的數據本身的不確定性,原始數據的不準確,數據采集處理的程度有別等因素都會給數據分析帶來困難,數據分析需要從繁雜無序的龐大數據中發現規律,預先人工建立模型,這是數據價值挖掘的關鍵。其不確定性就會導致很難建立與這些非結構化,多源異構的網絡數據相匹配的顯性數學模型,這樣就會導致數據的利用價值降低。如果要建立新的模型,也很難把握模型的表達與數據復雜程度之間的平衡,由于涉及模型參數的學習,在很多情況下,很難找到模型的最優解,都是采取近似的方法來尋找一個相對不錯的解,但是這種傳統近似的方法需要面對規模與時效的挑戰[5]。所以,如何構建強大的計算平臺,通過深度學習和高級分析,發展更加智能化的數據挖掘技術快速完成數據價值的挖掘,依然是企業和高校圖書館亟待解決的難題。
目前,大部分高校圖書館的個性化服務都是淺層次的,大多只是根據一些咨詢信息、面對面提出的服務訴求,或師生的專業特長推送信息,去完成一些差異化服務。但是大數據是要求圖書館通過動態數據挖掘,可視化手段,智能化標簽等去判斷現在用戶需要什么樣的服務,挖掘出圖書館當下的服務關系中正在發生什么、預測并分析將來會發生什么,以便圖書館管理者能夠做出正確的決策,規避運營風險,找到更好的服務模式[6]。
大數據時代,高校圖書館要想能夠穩定地生存發展下去,核心競爭力不只是擁有大數據的規模,更為重要的是對大數據的采集、存儲、管理并挖掘分析其潛在的價值。而這些專業工作都需要大數據的專業人員進行操作。目前,大部分高校圖書館的所謂專業人才都是有情報專業背景而數學基礎薄弱的文科畢業生,或是有計算機基礎僅可以排除電腦故障的工作人員,大數據方面的專業人才匱乏。人才關乎圖書館的生存,而高校圖書館通常沒有引進人才的自主權,又沒有學校的政策支持,只有對在職人員進行專業培訓來滿足圖書館對大數據人才的需求。培訓內容涉及機器深度學習和數據挖掘技術等方面的知識。只有努力培養一批懂數學軟件和數學算法、懂數據采集和數據管理、懂數據分析預測和市場應用的復合型“數據型”人才,才能支撐未來圖書館的發展和信息服務模式的變革。當信息化服務占據主要內容時,技術人員的作用是非常重要的。傳統的高校圖書館管理人員比較多,這種狀況已經不能滿足用戶多元化和個性化的需求,引進或培養大數據技術人才,及時處理各種供需矛盾勢在必行。
大數據時代,數據帶來效益和價值的同時也存在丟失和信息泄露的風險,圖書館必須保護其用戶不被濫用個人可識別的數據記錄,如電話、郵箱、社交網絡信息等;必須在用戶信息保護與創新服務(如個性化功能)之間找到平衡。既要保障信息的完整性,又要保障數據存儲的安全性。因此,高校圖書館對數據的管理應該從人力和技術兩方面加強,首先,應該嚴格控制不同用戶的授權權限;其次,將數據結構化,方便數據加密;使用純數據模式,防止人為故意破壞;建立防火墻,加入內部監控功能等措施。