路瑩 郝繼英 王紅軍
〔摘 要〕文章簡要介紹了開源軟件及其發(fā)展優(yōu)勢,分析并例舉了開源軟件在圖書館的典型應用,指出開源軟件在圖書館應用中應注意的問題,并就如何選擇符合需求的開源軟件進行了初步的分析。
〔關鍵詞〕開源軟件;數字圖書館;應用
1 開源軟件及優(yōu)勢
1.1 開源軟件
開源軟件即開放源代碼軟件。區(qū)別于商業(yè)軟件和免費軟件,開源軟件是基于通用性公開許可證(GPL,General Public License)等各種相關許可協議規(guī)范發(fā)布的軟件。其顯著特性是任何人不僅可以免費自由獲得軟件的源代碼,還可以根據自身需要不同程度、不同方式地使用、復制、研究、改進并重新發(fā)布源代碼[1]。
開源軟件起源于上世紀90年代,它倡導的是“自由、開放、共享”的開源精神。其低成本、開放自由、可靈活定制、公開透明、可消除軟件“后門”隱患等特點,正好克服了成熟商業(yè)軟件購買費用高、源代碼封閉、后續(xù)開發(fā)困難、可擴展性差、不能滿足個性化需求的弊端,具有強大的創(chuàng)新性和發(fā)展動力。隨著開源運動的深入,人們開始認識與認可開源理念,并積極投身于開源運動。他們關注開源、研究開源,并為開源軟件的發(fā)展做出自己的貢獻,開源軟件項目的數量和開源系統(tǒng)的規(guī)模也隨之呈指數增長。其典型代表是Linux操作系統(tǒng),自1991年由芬蘭赫爾辛基大學的林納斯·托瓦茲開發(fā)以來,經眾多軟件精英修改、完善,以其低成本、高品質、安全穩(wěn)定等特性,形成對微軟視窗系統(tǒng)強有力的挑戰(zhàn),并已成功應用于各個領域。
1.2 開源軟件獨特優(yōu)勢
1.2.1 節(jié)約軟件開發(fā)成本、縮短開發(fā)周期
開源軟件零許可證費用,直接降低了軟件整體擁有成本。且開源軟件共享開發(fā)成果,避免重復建設,能極大地縮短軟件系統(tǒng)開發(fā)實施周期。
1.2.2 軟件質量性能優(yōu)越
開源軟件雖然免費,但優(yōu)秀的開源軟件往往能吸引大量的軟件高手,聚集群體的力量,使軟件性能不斷提升,保證了軟件的適用性和先進性。
1.2.3 公開透明,安全性強
開源軟件開放、共享。能充分接受軟件使用者們的評審。軟件的漏洞、缺陷能夠被及時發(fā)現并進行修補,還可避免軟件“后門”的發(fā)生,具有比一般商業(yè)軟件更高的可靠性和安全性。
1.2.4 標準規(guī)范、可靈活定制
開源軟件開發(fā)、擴展都必須遵循開放規(guī)范標準,兼容性和互操作性強。可根據自己的實際情況進行定制開發(fā)和功能擴展。還可以進行軟件本地化,以滿足特定區(qū)域的需求。
1.2.5 可學習性、創(chuàng)新性強
最流行的和被廣泛認可的開源軟件往往是最有創(chuàng)意的軟件,社區(qū)化開發(fā)環(huán)境下,好的想法被大家共享。閱讀源代碼可了解軟件工作原理,豐富軟件開發(fā)經驗,激發(fā)自主創(chuàng)新熱情。開發(fā)效率比在集中開發(fā)環(huán)境下反而要高許多。
2 圖書館開源軟件典型應用
開源軟件打破組織邊界,徹底改變了軟件的開發(fā)模式,使持續(xù)創(chuàng)造出高品質、安全、易用的軟件成為可能,是當代信息技術產業(yè)發(fā)展的源動力。如今開源軟件已不再僅限于Linux環(huán)境,基本上能跨躍所有操作系統(tǒng)的界限,遍布Web服務器、操作系統(tǒng)、瀏覽器、數據庫、電子郵件等諸多方面。使得軟件業(yè)經歷著從技術、應用到服務模式的深刻變革,連微軟也推出了自己的開源實驗室。
不可避免,開源軟件也同樣深刻地影響著圖書館的發(fā)展建設。其中既包括Linux操作系統(tǒng)、Apache服務、MySQL數據庫、PHP程序設計語言等通用基本軟件;也包括Koha、OpenBiblio、Learning Access ILS等開源圖書館自動化管理軟件;還包括知識倉儲、數字對象長期保存等數字圖書館專用軟件,比較典型的應用有:
Dspace是由美國麻省理工學院圖書館與惠普實驗室經過2年多的合作研究,于2002年10月開發(fā)完成的[2]。旨在為麻省理工學院的教學科研人員提供保存、共享和檢索數字研究成果的平臺,實現本校的電子研究成果穩(wěn)定長期地保存和共享。
DSpace遵循Mozilla協議基于BSD開放源代碼許可,是一個專門的數字資產管理系統(tǒng),是目前國內外用于機構存儲的比較成熟的、代表性創(chuàng)建工具。DSpace系統(tǒng)定義了社區(qū)、合集、條目、數字包和比特流5種數據模型,并采用DC元數據標引數據模型為數字信息資源的存儲、索引、檢索、定位和利用提供良好的數據基礎。此外,DSpace系統(tǒng)支持OAI-PMH協議,通過OAI接口,可以實現系統(tǒng)元數據定期或不定期收割,加快數字資源傳播與利用。
DSpace系統(tǒng)結構合理、標準規(guī)范、具有較為完善的功能和實用性、可擴展性強,不僅適用于單一數據庫建設,也適用于跨組織的機構存儲,利用虛擬存儲技術,還可以實現虛擬館藏等。是國內外學術機構普遍采用的機構知識庫系統(tǒng)平臺。截止目前,在全球著名的開放獲取倉儲檢索網站OpenDOAR上登記收錄的2 000多個知識庫系統(tǒng)中,采用Dspace構建的就有890多個。除麻省理工大學圖書館、紐約大學圖書館、美國國家航空和航天局外,我國被OpenDOAR收錄的中國科學院知識網格、中國西部環(huán)境及生態(tài)數據中心、廈門大學學術典藏庫都是采用DSpace構建的[3]。
2.2 Lucene
Lucene是由Apache軟件基金會提供的一個開放源代碼的全文檢索開發(fā)包,包括完整的查詢引擎、索引引擎和部分文種的分析引擎。作為一個高性能的全文檢索引擎架構,Lucene為數據分析、管理、查詢、獲取提供了簡單、通用的應用程序接口,便于嵌入各種系統(tǒng),使用戶在實際應用中能快速建立起一整套全文檢索機制,實現全文索引和檢索[4]。
Lucene采用面向對象的設計,體系架構開放、藕合度低,易于二次開發(fā)。支持字段檢索、停用詞、詞干等多模式檢索,可跨平臺調用,支持多種語言環(huán)境。Lucene對數據源格式沒有特定的要求,它采用一個通用的Docuemen對象來接受索引。不管要建立索引的數據源是什么格式,只要調用相應的解析轉換器將數據源構造成Docuement對象,映射到Lucene的存儲結構或接口中。就可以被Lucene分析利用,經語法分析、內容提取和詞語切分后后,建立倒排索引。常見的文件格式Word、PDF、Html甚至數據庫等等都可以是數據源,實現全文檢索。
信息技術的發(fā)展,一方面極大豐富了現代讀者的信息資源需求,另一方也使他們面臨無法快速、準確、全面地獲取需要信息資源的難題。傳統(tǒng)的以題名、著者、出版社等關鍵詞進行檢索的方式顯然已不能滿足讀者的需求, 建立數字資源全文信息索引, 實現基于內容的全文檢索已成為當前數字圖書館建設的重要課題。Lucene以其優(yōu)異的架構設計、開放共享的特性和卓越你的全文索引、檢索性能得到全世界范圍的廣泛認可。利用Lucene構建全文檢索系統(tǒng)在國內外圖書館界已得到廣泛應用。
2.3 Drupal
Drupal是2000年發(fā)布的開放源碼內容管理框架,包括內核、模塊、主題3個部分,并通過Hook機制緊密相連。由于它整體設計思想先進、架構靈活,擴展方便且源碼開放,吸引了全世界數以萬計的WEB開發(fā)專家,經過他們不斷地修改、完善,如今Drupal已經發(fā)展成為一套強大的內容管理系統(tǒng),支持從個人博客到大型社區(qū)等各種不同應用的網站項目,具有業(yè)界頂級的網站開發(fā)能力[5]。
Drupal的定制開發(fā)能力、靈活擴展性、代碼安全性和系統(tǒng)健壯性等方面都具備世界最高水平。這使得它成為眾多有技術實力的網站建設公司優(yōu)先選用的網站開發(fā)平臺,包括聯合國、美國白宮、法國政府、哈佛大學等著名政府和機構紛紛采用采用基于Drupal的框架建站。
2011年,Drupal7把RDF 相關模塊作為Drupal的核心。作為一個內容管理系統(tǒng)平臺,Drupal對關聯數據的支持把Drupal帶入一個全面應用RDF的富語義時代,為Web20時代的遺留系統(tǒng)向語義網進化做出了貢獻。2005年7月,美國密歇根州安阿伯市地區(qū)圖書館率先開通了基于Drupal的新網站,隨后Simon Fraser University Learning Commons、University of Alaska Fairbanks Libraries等紛紛利用Drupal進行圖書館門戶網站建設、圖書館原有系統(tǒng)整合和圖書館20化,提高用戶參與度,改善用戶體驗。
Drupal聚集了全世界WEB專家的智慧,任何一個公司自己開發(fā)的系統(tǒng),在技術上都無法達到Drupal水平。相反,是否具有Drupal技術的開發(fā)能力已成為鑒別網站建設公司實力的試金石。Drupal的學習曲線相對漫長和陡峭,只有精通XHTML、CSS、Javascript、PHP、MySql的開發(fā)人員,經過長期刻苦的學習,才有可能真正的駕馭Drupal,這也給在圖書館的普及應用帶來一定的挑戰(zhàn)。
3 圖書館界應用開源軟件應注意的問題
開源軟件給圖書館建設帶來機遇也帶來挑戰(zhàn)。開發(fā)、利用、共享開源軟件提高了數字圖書館建設的起點和層次、避免了重復勞動、提高了效率。但國內外可供圖書館界開發(fā)、利用的開放源碼軟件有上千種之多,幾乎遍布數字圖書館各業(yè)務領域。這一方面滿足豐富的應用需要,另一方面也給如何有效地選擇、科學評估、合理利用開放源碼軟件提出了更高的要求。
雖然遍歷自由軟件基金會等綜合性開源軟件登記門戶網站、查看國內外數字圖書館項目介紹等能一定程度地幫助我們找到適合自己功能目標的開源軟件。但開源軟件的非組織性更要求我們在選擇評價開放源碼軟件時必須從軟件質量、生命力等多方面全面衡量考察。而開源軟件技術方案和源代碼的公開性,其開發(fā)過程的開放性也為我們了解軟件技術架構、實施方案等各種指標,評估開源軟件質量特性等提供了便利。直接閱讀、分析開源軟件源代碼,可以對代碼的質量做出準確的、公正的判定。此外,由于大多開源軟件是依托社區(qū)而建立并發(fā)展的,所以社區(qū)建設和社區(qū)參與就成為衡量該軟件開發(fā)活躍程度以及軟件應用支持力度的重要指標。
此外,針對不同的應用目標考察評價開放源碼軟件側重的重點也不同。例如內容管理系統(tǒng)軟件要將涉及文件、表格、圖片、數據庫中的數據甚至音、視頻等各種格式的信息數據集成在一個平臺下,統(tǒng)一管理。其難點是要在解決各種非結構化或半結構化的數字資源的采集、管理、發(fā)布、檢索和利用的同時,將其有機集成到結構化數據的系統(tǒng)環(huán)境中。所以選取開源內容管理系統(tǒng),除要考察上述技術架構、代碼質量、社區(qū)活躍度外還要從以下幾方面進行考察:
31 元數據
對內容數據的查詢、修改和檢索,必須以元數據為依托。系統(tǒng)對DC、EAD、MARC、LOM、METS、MODS等元數據架構的支持,是否支持Unicode字符集和特定元數據字段的增刪及元數據缺省值設置等,都將直接影響軟件最終質量。
3.2 內容數據管理
內容數據管理包括提交管理、提交查看、內容發(fā)布等。涉及數據提交權限管理;提交表單的自定義生產;提交內容數據的自動轉換、元數據抽取、對接、索引和存儲;發(fā)布格式的自定義確立等等。
3.3 檢索支持
系統(tǒng)是否支持全文檢索和特定元數據字段檢索,及檢索點瀏覽檢索。檢索結果相關度排序。
3.4 權限控制
用戶權限管理是否可限制不同的訪問層次,對用戶角色管理、加密、數字簽名等安全措施的支持。
3.5 I/O管理
對結構化、非結構化文檔格式、元數據格式、圖像格式和多媒體格式等多種形式、多種格式內容的輸入/輸出管理,系統(tǒng)能自動生成使用統(tǒng)計,支持個性化使用報表生成。
3.6 標準規(guī)范互操作性
系統(tǒng)能支持OAI-PMH、兼容Z3950協議以及其它研究協議。具有跨平臺操作能力。
4 結 語
數字圖書館建設集網絡、通訊、信息技術為一體,一個完整的數字圖書館信息系統(tǒng)往往是集成多個開源軟件的綜合應用平臺。而開源軟件不是由一個統(tǒng)一的組織進行開發(fā)的,所以不同的軟件之間沒有整體性,雖然各自有標準的開發(fā)接口,但多個開源軟件間整合開發(fā)必不可少。這對長期在Windows平臺體系中學習、工作的軟件開發(fā)人員也是一個挑戰(zhàn)。作為數字時代圖書館人,必須緊緊跟上信息領域發(fā)展潮流,積極學習開源軟件新理念、新知識、新技術,并投身于開源軟件應用與開發(fā)中,促進和推動開源軟件在圖書館中的應用。
參考文獻
[1]耿慶軍,王朋,孫華瑋.開源軟件在教育信息化中的應用研究[J].軟件導刊,2010,(4):26-28.
[2]李師龍.開源軟件Dspace的本地化及開發(fā)探討[J].科技情報開發(fā)與經濟,2011,(35 ):65-67.
[3]http:∥www.opendoar.org[EB].
[4]孫西全,馬瑞芳,李燕靈.基于Lucene的信息檢索的研究與應用[J].情報理論與實踐,2006,(1):125-128.
[5]馬建玲.開放源代碼的內容管理系統(tǒng)Drupal[J].現代情報,2007,(2):50-52.
(本文責任編輯:孫國雷)