張崢嶸 劉亞麗
(東北林業大學圖書館 黑龍江哈爾濱 150040)
大數據帶來的信息風暴正在變革人類的生活、工作和思維。在大數據時代,滲透到各個行業、領域的數據成為了推動社會發展的要素之一,因此有人稱大數據時代的數據就是“金礦”。但這種“金礦”的價值挖掘與實現需要借助相應的技術與平臺,也需要人類智慧的參與,于是,對大數據資源的高效利用成為了相關業界如IT、企業、科研等普遍關注的問題。以信息組織、信息利用為所長的圖書館,也感受到了大數據時代所帶來的變化,在近年來也展開了大量的圖書館視野下的相關理論研究。
大數據帶給圖書館的影響與變化主要是數據的變化,即圖書館從面對傳統的有序、單一、少量的結構化數據如數據庫數據向無序、多元、海量的非結構化數據、半結構化數據方向轉移。其中,作為大數據組成部分、集合了理念與實踐的開放數據(Open Data)也受到了關注與研究。本文在概述大數據與開放數據的基礎上,對開放數據視角下的圖書館角色進行了審視與分析,最后對大數據時代開放數據環境下的圖書館創新服務如數據監管、知識發現等服務進行了列舉和概述。
目前,業界對大數據還沒有一個明確的定義,但也一般都認為大數據是不可能用常規軟件和分析工具進行分析的巨大數據集。此外,大數據既有結構化數據,也有非結構化數據和半結構化數據,涵蓋了文本、數字、圖像、視頻等多種類型,并可跨越多個數據平臺,如社交媒體網絡、網絡日志文件、傳感器、智能手機的定位數據、數字化文檔及歸檔的照片和視頻等。
互聯網與開放獲取(Open Access,OA)運動的發展,既使得人們的信息交流更加便捷與方便,也讓對開源和開放知識、數據、資源的利用逐漸成為人們獲取信息的主要組成部分。由此而產生的自由開放思維也成了人們信息獲取的主要思維,總是期待著出現解決不局限于軟件、開放格式和數據自由公開與再使用的開放信息,于是一種實現了更廣范圍的公開與再使用數據即開放數據便應運而生。
對開放數據的定義存在爭論,不同的組織、機構也存在不同的理解視角,但對于開放數據的內涵即其是一種理念及實踐、數據不受版權與專利等機制限制、可以被任何人自由獲取還是都能接受與認可。有學者也曾對開放數據的內涵闡釋為:按照用戶特定的需求和一定的互聯網協議、規則、框架,對Web數據進行存儲和組織的活動,而利用的數據來自不同的數據源或是不同的數據類型,最終目標是實現信息在網絡空間的開放、共享與重用,以尋求信息數據最大可能的無限獲取與重用。
開放數據與一般的數據相比,其最大的特征就是數據集增值方式,即對象數據包含了所有的事實、數據、信息乃至智慧和知識,也不如其它傳統數據可以直接獲取、利用和分析,依賴于見證者而存在,不是我們接受或不接受的數據或其它,是我們給予、分享和接受的記憶。同時,開放數據還具有開放性增值方式,因而在用戶多、普及率高的政府網站及公共信息服務、商業應用等領域應用廣泛,目前,英、美、澳等政府和淘寶等商業組織都應用開放數據進行信息公開等服務,以增強與公眾、用戶之間的交流與互信。
在開放數據的具體實踐如開放存取運動、開放研究出版、科學家電子實驗筆記開放及科學知識的出版與交流等形式中,圖書館都是各個實踐形式的主要參與者與推行者,但由于開放數據運動目前在各國的實踐主體主要是政府,并且世界主要發達國家如美國、英國、法國等也均承諾政府將把公眾的需求放在重要位置,通過征求公眾意見逐步開放有價值的數據集,體現了政府在開放數據運動中的絕對推動者、踐行者地位。在這種環境下,圖書館必須準確定位自己的角色,發揮自身優勢為開放數據的發展提供服務,如基于開放數據的館藏目錄發布、開放獲取等。
Hope Leman認為在開放數據運動中,圖書館員是知識工具箱與支持專家,即實現對概念的知識注釋、實驗及相關技術研發的知識支持。我國學者劉春麗、徐躍權則認為在開放數據環境中,圖書館可能扮演與研究周期各個階段的科學產出匹配的知識服務中心和開放數據的管理和保存中心兩大角色。
(1)知識服務中心。隨著科學研究的周期不同,圖書館在科研過程中所發揮的作用和提供的服務也隨之不同,如在科學研究的概念階段,圖書館可為進行科學理念、研究計劃討論的用戶提供開放書目等服務,并將討論結果等形成新的知識分享數據;在數據分析與出版階段,圖書館可借助于在開放存取期刊發表、提交到機構知識庫中等途徑將科學研究的結論、實驗數據、科研過程等進行開放獲取與共享交流;在同行評審階段,圖書館可以發揮科研情報中心的作用,基于學術社交網絡及開放存取平臺,分析科學研究論文與數據的使用與評價活動,提取基于使用與評價的選擇性計量指標(Altmetrics),對科學論文和科學數據的科學價值進行評價,進而評估論文與作者在某一個研究領域的學術影響力。
(2)開放數據的管理與保存中心。歐洲研究圖書館協會主席Paul Ayris博士認為在科學研究的開放工作流中,要增加專業圖書館的可見度,要重視科學數據的再利用及科學數據保存的可持續性。筆者以為在以數據密集型為科學研究特征的第四代科研范式下,數據特別是產生于實驗、記錄了科研過程等重要信息的科學數據是科學研究所重視和再利用的數據對象,圖書館有責任與義務扮演開放數據管理與中心的角色,以為科學家等用戶群體提供開放數據的檢索、分析、保存等服務。基于開放數據的連續利用視角,圖書館還需進行諸如開放數據的關聯與發布、標示與引用等服務。
大數據帶給社會以數據驅動的社會創新與發展動力,因此如美國總統科學技術顧問委員會給總統和國會的報告所說“聯邦政府的每一個機構和部門,都要制定一個應對大數據的戰略”一樣,包括政府在內的社會各個機構如美國政府、歐盟等都制定了應對大數據的戰略對策。2010年11月,歐盟通信委員會向歐洲議會提交了“開放數據:創新、增長和透明治理的引擎”報告,首次將開放數據與大數據關聯到了一起,并以開放數據為核心,對大數據時代的挑戰進行了戰略部署。但將大數據概念應用到開放數據上,則首先意味著數據的規模和類型有了變化,產生于社交媒體、智能終端、傳感器上的海量非結構化數據、半結構化數據都是開放數據的范疇;其次,意味著數據的應用發生了變化,即數據不再是單一領域的數據,而是覆蓋了用戶的所有需求領域,并可直接獲取和應用。
大數據賦予開放數據的新要求也意味著大數據時代的圖書館開放數據服務將被賦予新的要求,筆者認為,大數據時代的圖書館開放數據服務,主要有:
(1)多領域數據源的整合與開放服務。從目前的開放數據運動發展來看,主要實踐有開放政府數據、開放存取學術期刊與機構知識庫,距大數據時代所要求的多類型、多領域發展程度要求尚遠。圖書館由于有著涵蓋了所有領域的豐富館藏資源,是大數據時代數據開放與整合的最佳實踐者。因此,圖書館可整合多方資源,如科技、人文、氣象、政務等諸多領域的報告、實驗數據等資源,進行數據的整合與開放發布,讓公眾通過圖書館的一站式檢索服務平臺來獲取所需的數據。
(2)基于知識聯盟的數據開放與共享服務。由于大數據時代的開放數據是整合了不同系統、政府和部門之間的數據集,這就需要建立一個數據共享和互操作的框架,如新澤西州運輸部利用采集到的數據(在汽車制造商的管轄下)能夠發現諸如擁堵和交通流等問題,而這些功能通常是由當地或全國的政府交通運輸部門負責。圖書館可借鑒這些成功的案例進行構建或參與到由政府、企業、社會機構組成的知識聯盟,利用協作分析技術對數據和系統進行無縫隙整合。
(3)基于一站式服務平臺的知識發現服務。數據“開放”的核心是為了用戶更高效的發現和利用,以縮小信息所有者和用戶的信息不對稱距離。EDS、PRIMO、SUMMON等一站式知識發現平臺的應用為圖書館的開放數據知識發現服務提供了方便,圖書館可應用這些平臺對用戶提供知識咨詢等服務。
(4)數據的開發、創建、共享與轉換服務。此類服務在圖書館界已有著成功的實踐,如開源站點biblios.net采用了類似維基模式向圖書館界提供開放MARC數據的開發、創建、共享、轉換服務,目前以3000萬余條數據成為為全球最大的免費圖書館編目數據平臺,德國國家圖書館、大英圖書館也宣布對外提供開放數據服務。
(5)數據監管服務。開放數據的檢索、價值挖掘與應用實現,必須經過一定的排列、存檔與管理過程,而這些數據有可能是來自于有數據組織經驗和能力的政府、企業、公益組織等,也可能是來自于只提供數據而沒有數據組織或沒有組織意愿的公眾、機構。圖書館可發揮自身的信息組織、信息分類特長,對這些數據進行修改、合并、標引、分析與索引,即提供數據監管服務,使數據集合之后獲取最大收益。
(6)數據分析服務。大數據時代的信息服務主要是數據分析服務,如可視化分析、影響力分析等,開放數據的價值也需要此類以工具、平臺應用為基礎的數據分析才能實現,圖書館可為用戶提供這一服務,以提高開放數據的應用效率和價值。
(7)政策、標準的制定與咨詢服務。數據的統一格式與數據源的互相提供,保證了開放數據的信息易被用戶檢索、獲取與利用。為了保證不同機構、聯盟、系統間的數據格式統一和共享機制成熟,以及避免可能出現的版權等政策限制,開放數據的相關標準、政策制定必不可少。圖書館可積極參與到這些標準、政策的制定之中,提供咨詢等方面的服務。
[1]中科院專家:大數據帶來信息風暴變革人類生活http:
//finance.chinanews.com/it/2013/11-17/5511708.shtml.
[2]Wohlsen M.Big Data Helps Farmers Weather Drought’s Damage[EB/OL].[2014-03-27].http://www.wired.com/business/2012/09/big-data-drought/.
[3]John Carlo Bertot.鄭磊,徐慧娜,包琳達譯.大數據與開放數據的政策框架:問題、政策與建議[J].電子政務,2014,(1):6-14.
[4]吳旻.開放數據在英、美政府中的應用及啟示[J].圖書與情報,2012,(1):133-136.
[5]李佳佳.信息管理的新視角—開放數據[J].情報理論與實踐,2010,(10):35-39.
[6]Leman H.Open Sesame:the Open Science and Open Data Movements and Their Implications for Librarians [J].Oregon Library Association,2010,16(3):29-32.
[7]劉春麗,徐躍權.開放科學和開放數據環境中專業圖書館的新角色[J].圖書館建設,2014,(2):83-88.
[8]Ayris P.Knowledge and Wisdom:the Role of Research Libraries inSupporting the European Research Agenda[EB/OL].[2014-03-27].http://www.slideshare.net/libere urope/knowledge-and-wisdom-therole-of-research-librari es-in-supporting-the-european-researchagenda#btnNext.
[9]Executive Office of the President President’s Council of Advisors on Science and Technology.Designing a digital future:federally funded research and development in networking and information technology [EB/OL].[2014-03-27].http://www.whitehouse.gov/sites/default/files/.../pcast-nitrd-report-2010.pdf.
[10]Communication Commission.Open data engine of innovation,economic growth and transparent governance[EB/OL].[2014-03-27].http://ec europa.eu/information_society/.../opendata2012/...data.../es.pdf.
[11]Ovide S.Tapping “Big Data” to Fill Potholes[N/OL].[2014-03-25].http://online.wsj.com/article/SB1000142 4052702303444204577460552615646874.html.
[12]About biblios.net[EB/OL].[2014-03-27].http://biblios.net/faq.
[13]German National Library.Linked data service of the German National Library [EB/OL].[2014-03-27].http://www.d-nb.de/eng/hilfe/service/linked_data_service.htm.
[14]The British Library.Free data service[EB/OL].[2014-03-27].http://www.bl.uk/bibliographic/datafree.html.作者簡介:張崢嶸,女,東北林業大學圖書館副研究館員;劉亞麗,女,東北林業大學圖書館館員。