張計龍+殷沈琴+張用+郭耀東+張瑩


摘要 介紹國內外社會科學數據共享與服務的現狀,分析比較四款主流平臺軟件Dspace、Fedora Commons、Dataverse、Nesstar和一款在線分析軟件SDA的特點。然后,以復旦大學社會科學數據共享平臺建設為例,介紹其數據管理、數據服務、數據交換和數據監護等主要功能以及共享與服務情況。最后對未來進一步的工作提出建議。
關鍵詞 社會科學數據 數據共享 開源軟件 Dataverse復旦大學
l 引言
科學數據是指人類在認識世界、改造世界的科技活動中所產生的原始性、基礎性數據,以及按照不同需求系統加工的數據產品和相關信息。它既包括了社會公益性事業部門開展的大規模觀測、探測、調查、實驗和綜合分析所獲得的長期積累與整編的海量數據,也包括國家科技計劃項目實施與科技工作者長年累月科學實踐所產生的大量數據。社會科學數據對于社會科學領域的實證研究具有重要價值和決定性意義,目前主要集中于經濟、社會領域,其中使用最多的有兩類數據:一類是國家統計部門的統計數據,另一類是為社會科學研究和相關政策制定提供數據支撐的各種調查數數據。
社會科學數據的收集和管理需要耗費巨大的人力、物力以及時間成本,因此對其的共享與服務對國家、研究機構和研究者個人具有重要的意義,能最大化利用現存的社會科學數據,產生更大的研究成果。然而,社會科學數據的共享不同于一般意義上的研究成果或者匯總結果的共享,對原始的社會科學數據進行微觀層面的共享需要在國家層面制定相應的鼓勵政策,并建立適用的共享平臺,制定相應的元數據標準規范,實現原始社會科學數據的深入揭示與發現。歐美國家很早就意識到社會科學數據管理、共享與服務的重要性,如美國國家科學基金( Na-tionaIScienceFoundation,NSF)規定其資助的項目必須將所有數據進行共享。我國在這方面的工作起步比較晚,規模小,科學成就及其影響力遠未形成氣候,差距十分明顯。這與我國社會科學調查研究長期未得到應有重視、國際交流歷史較短不無關系,亟需加強這方面的工作。
2 國內外研究進展
歐美國家在社會科學數據的共享與服務方面起步較早,為獲取國外最新的研究進展,筆者于2012年9月專門赴美國走訪了幾所一流的社會科學數據研究機構。同年10月、12月利用教育部CALIS、CADAl_管理中心組織的數字圖書館前沿技術國外調研活動,分別對歐洲和澳洲的科學數據研究學術機構進行了實地調研。
美國全國民意調查研究中心(National OpinionResearch Center,NORC)成立于1941年,白1947年起與芝加哥大學合作建設,目前總部設在芝加哥大學。1972年創立的綜合社會調查(General So-cial Survev,GSS)是NORC最重要的品牌標志性調查項目,是美國國家科學基金迄今為止支持的最大的社會科學調研項目。除了美國人口普查局的人口普查數據,GSS數據是社會科學領域被分析利用最頻繁的數據。據統計,至今已有超過2.2萬個研究項目使用了GSS數據,每年有約40萬名學生在社會研究相關課程的學習中使用GSS數據。GSS的原始調查數據為SPSS和STADA兩種格式,平臺采用伯克利大學開發的SDA和挪威的Nesstar系統。
密歇根大學社會研究院(Institute for SocialResearch,ISR)成立于1949年,是目前世界上最大的社會科學調查與研究機構。成立于1962年的校際社會科學數據共享聯盟(Inter-university Con-sortium for Political and Social Research,ICPSR)是ISR下屬的一個研究機構,在全球有700多個成員,包括394個美國機構。它的工作包括:獲取和存儲社科數據、向研究者分發數據、長期保存數據、提供定量方法的培訓。ICPSR數據平臺為自主開發,在線分析采用伯克利大學的SDA,用Nesstar進行編碼本工作。
哈佛一麻省理工數據中心(Harvard MIT DataCenter,HMDC)是一個由哈佛大學和麻省理工學院聯合創建的數據中心,是定量社會科學研究所( TheInstitute for Quantitative Social Science, IQSS)的一個成員。Dataverse是HMDC于2007年構建的一個開源軟件,能夠對研究數據進行發布、引用、存儲、發現和在線分析,旨在讓研究者創建、提交、監護和傳播研究數據。Dataverse的開發與維護以IQSS為主,哈佛大學圖書館、檔案館、信息服務部門共同承建。它使用DDI作為元數據標準,并擁有自己的在線分析模塊。Dataverse既可以典藏數據,也可以典藏期刊論文、學位論文,既可以作為研究機構存儲或個人研究者發布數據之用,也可以用于制定數據管理計劃。
成立于1967年的英國數據檔案館(The UKData Archive,UKDA)是一個國際知名的機構,主要負責英國全國范圍內數據的搜集、保存、傳播和利用,目前收藏了數千個數據集,是英國人文社會科學領域數字化數據最大的收藏中心。UKDA也為其他機構提供數據保存服務,支持國家e-Social Sci-ence計劃,提供國際數據交換服務。
英國信息系統聯合委員會(Joint InformationSystems Committee,JISC)是于1993年4月成立的英國信息共建共享組織。JISC的管理研究數據項目通過管理和共享研究數據來提升科學研究活動,包括5大工程。2011年JISC通過調研英國各大科學數據中心,發布了報告《科學數據中心:使用、價值、影響》,闡明數據共享的意義和重要性。
《澳大利亞科學數據管理文件》由澳大利亞政府在2007年制定,旨在規范本國研究所和科研機構的科研行為,與科學數據共享相關的內容分為科研責任和研究數據管理兩部分,提供了學術界普遍可接受的全面框架,對科學數據共享提出明確要求。在澳大利亞的大學中,莫納什大學的科學數據管理計劃最為著名。2010年10月,莫納什大學學術董事會通過了兩項核心政策文檔:《莫納什大學研究數據管理制度》和《大學職員與訪問學者研究數據管理規程》;2011年,研究生院科研委員會提出并批準了一份更為細致的文檔:《高等學位研究生研究數據管理規程》。在《莫納什大學研究數據管理戰略規劃2012-2015》中提出五個戰略目標:卓越影響力,世界一流研究數據管理基礎設施建設,技巧和知識儲備,數據整合和職業化,領導地位與合作,闡述了莫納什研究數據管理的目的。endprint
國內開始重視并啟動科學數據共享與服務是在2000年以后,主要依賴國家科技基礎條件平臺設施和諸如“863計劃”等國家級項目的支撐。其中,科技部于2003年啟動的地球系統科學數據共享網是一個致力于數據共享的應用型網站,其主要功能在于對數據集的處理。用戶通過郵寄方式申請數據服務,獲得審批后可通過ftp等方式獲取數據。此外,中國人民大學的中國綜合社會調查(ChineseGeneral Social Survey,CGSS)是中國第一個全國性、綜合性、連續性的大型社會調查項目,從2003年開始至今,每年一次對全國范圍內的10000多戶家庭中的個人進行調查。CGSS于2007年被國際社會調查合作組織接納為代表中國的會員單位。在科學數據共享政策制定上,CGSS推動學校在科研項目申請書上加入了有關研究數據必須提供共享服務的條款。北京大學中國社會科學調查中心(Insti-tute of Social Science Survey,ISSS)是開展中國社會問題實證研究的跨學科平臺,目前承擔兩個大型社會調查項目——中國家庭動態跟蹤調查和中國健康養老追蹤調查。兩個項目的目的均是收集反映我國民生狀況的高質量微觀數據,用以分析社會民生方面的問題,為政策制定提供依據,同時推動社會、經濟、教育等跨學科研究工作。在數據共享服務方面,ISSS組織業界專家學者共享利用這些數據撰寫研究報告并提供服務,用戶已經超過9000人,目前已經出版六期《中國民生報告》。2014年7月召開《中國民生發展報告2014》發布會,會上同時推介2010年的中國家庭動態跟蹤調查數據并公開2012年的數據。
通過文獻調研發現,國內圖情界對科學數據管理主要以理論研究為主,在實踐層面以武漢大學圖書館為代表,該館在CALIS資助下進行了高校科學數據管理標準規范研究,選擇Dspace為原型二次開發定制科學數據管理平臺,并在二個課題組進行了試點探索。
3 主流社會科學數據管理與共享平臺
通過網絡調研和對美國、歐洲、澳洲的實地調研,筆者發現國內外主流的社會科學數據交換共享平臺主要包括以下三種情況:
(l)自建平臺:如美國密西根大學的ICPSR;
(2)開源軟件:美國MIT的Dspace,康乃爾大學的Fedora,哈佛大學的Dataverse;
(3)商業軟件:歐洲常用的社會科學數據共享平臺Nesstar。
除此之外,社會科學數據在線分析平臺包括美國伯克利大學的SDA和歐洲的Nesstar。
美國密西根大學ICPSR的社會科學數據共享平臺完全根據ICPSR的具體需求而專門定制開發,應用至今已有二十多年的歷史,不具有系統移植和二次開發的特性,故本文不再詳細介紹,重點對其他幾款主流的數據共享平臺進行介紹。
DSpace是MIT與HP公司合作開發的數字資產管理系統,它實現了知識資源的收集一保存一發布的一般過程。DSpace具有可擴展的框架結構、層次化的數據模型。目前比較多用于機構庫建設,如CALIS三期機構庫建設等。
Fedora(Flexible Extensible Digital Object Re-pository Architecture)即“靈活可擴展的數字對象倉儲結構”,是由康奈爾大學提出方案,在美國國家科學基金會和美國國防部尖端研究項目機構支持下進行的研究項目,于1997年開始實施。該項目旨在解決內容管理、數字資產管理和數字資源保存等方面的問題,實現系統的通用性。在后續幾年中,康奈爾大學和維吉尼亞大學合作,在梅隆基金的支持下,共同開發出符合Fedora體系結構的開放源系統。Fedora系統自2001年發布1.0版以來,目前已經發布3.6.2版。
哈佛大學Dataverse平臺是由哈佛大學IQSS為主導,聯合哈佛大學圖書館、檔案館、信息服務部門共同承建的。Dataverse自2007年構建以來,一直用于研究數據或成果的檢索、存儲、發布以及在線分析。目前全世界使用Dataverse平臺的典型機構包括美國、歐盟、丹麥和泰國的高校、學術機構和圖書館等數十家機構。
伯克利大學開發的在線分析軟件SDA是一款用于社會科學數據在線分析的軟件,它的主要功能體現在以下四個方面:數據分析功能、創造變量功能、數據下載、數據搜索。其中數據分析功能包括頻數與交互列表、均值比較、相關矩陣、相關性差異檢驗、多元回歸、邏輯/概率回歸等。
Nesstar是數據發布和在線分析的軟件系統,處理調查數據、列聯表以及文本資源。用戶能使用該軟件包含的工具在網絡上發布自己的數據,并搜索、瀏覽和分析在線數據。Nesstar的所有者是挪威社會科學數據服務中心( Norwegian Social ScienceData Services)。目前,Nesstar的用戶大約有一百多家機構,并且安裝數量正在迅速增長,無論是學術部門還是公共部門,世界各地都在使用Nesstar傳播和處理數據。
4 復旦大學社會科學數據共享與服務
4.1 建設背景
社會科學數據的搜集、提交、保存、管理、共享與利用對于研究者、科研機構、高校、國家均具有重大價值和意義,是促進學術交流、推動學術發展的重要保障。國外知名的社會科學數據中心至今已有五十余年的發展歷史,已構建了比較成熟的數據交換共享平臺。反觀國內,社會科學數據中心起步較晚,針對科研機構產生的社會科學數據的長期保存和共享利用雖有嘗試,但仍處于初級階段,亟待發展。復旦大學社會科學研究中心(Fudan Uninversity Institu-te for Social Research,FISR)于2011年成立,擬建立社會科學領域的數據交換共享平臺,為全校師生、研究者、學術機構提供數據提交、保存、管理和共享服務,幫助提高研究者個人和社會科學數據中心在國際上的學術地位和影響力,推動人文社會科學的交流與發展,以期能為國家政策的制定提供理論依據與輔助決策支持。FISR設有學術委員會和國際學術顧問委員會,指導中心業務發展。FISR下設數據服務部、社會調查部和研究部,其中數據服務部的職責主要包括研發與維護社會科學數據共享平臺,制定元數據及其著錄規則以及推動學校層面制定科學數據共享的支持政策,人員主要來自校圖書館、社會政策學院、計算機學院。endprint
4.2 技術選型
在全面、充分調研國內外一流社會科學數據研究學術機構的基礎上,復旦大學社會科學數據共享平臺(以下簡稱“復旦數據平臺”)項目組分析了復旦大學的實際需求,對上文中介紹的國際主流社會科學數據共享平臺軟件按照自建軟件、開源軟件和商業軟件進行分類,并分別從經濟、技術和法律角度進行了可行性分析,重點對各軟件平臺的系統功能、可否進行二次開發以及系統可維護性進行評估。主要過程如下:
首先,ICPSR的軟件平臺從二十世紀九十年代發展起來且沿用至今,盡管其軟件功能非常貼近復旦數據平臺的需求,但由于屬于完全的自建平臺,其軟件架構無法進行第三方移植和二次開發,故首先被剔除。
其次,對余下Dspace、Fedora、Dataverse和Nesstar四款軟件就系統功能比較、二次開發可能性和系統可維護性等進行二輪比較、評估。
在第一輪比較中,Dspace和Fedora屬于通用的機構庫平臺軟件,并非針對社會科學數據平臺研發,對于研究成果和社會科學數據的描述信息比較簡單,沒有專門針對社會科學數據的在線分析和評論功能,不能滿足需求,首先剔除。第二輪比較在Dataverse和Nesstar之間進行:功能上Nesstar無開放給研究者和用戶的提交數據功能,僅限內部發布數據;其次,Nesstar是商業軟件,源代碼不開放,不能進行二次開發。Dataverse在科學數據、基于科學數據的研究成果和衍生出版物的提交、審核、發布、檢索、瀏覽、下載、在線分析等方面相比較更加符合復旦需求,且是開源軟件,便于二次開發和系統移植。
由上可見,四款軟件中,Dataverse的功能更完善,軟件架構更合理,更易于實現復旦數據平臺的建設目標。在元數據支持方面,Dataverse支持DDI元數據,對科學數據的描述更加全面、完整,具有更好的兼容性和可擴展性,既能夠描述宏觀數據,也可以深入到數據的微觀層面。
4.3 復旦社會科學數據共享平臺簡介
復旦數據平臺是一個為研究人員提供數據的訪問、長期保管、傳播共享以及研究方法學習交流的平臺,提供提交、保存、共享、發現、交換、傳播復旦大學各研究團隊的社會科學數據及其研究成果的服務,其功能主要有:
(l)數據管理:a)科學數據和基于科學數據的研究成果、衍生出版物的提交、審核與發布;b)科學數據文件格式的校驗與轉換,例如在上傳數據時自動轉換為當前主流統計分析軟件兼容格式,包括SPSS、Stata、S plus、R data等。
(2)數據服務:a)科學數據和基于科學數據的研究成果、衍生出版物的檢索、查看、瀏覽和下載等;b)資源導航、搜索引擎;c)在線分析和數據可視化,如支持時間序列可視化在線分析展示,可以對數據進行重新編碼和重新分組,可以進行描述性分析和高級統計分析等。分析結果在瀏覽器窗口顯示。
(3)數據交換:支持基于數據標準協議(如(OMI-PMH協議、Nesstar格式協議等)的社會科學數據共享平臺與國內外的其他數據共享平臺進行后臺數據收割和交換。比如復旦數據平臺可和哈佛大學、密西根大學等的社會科學數據中心建立數據交換、收割機制。
(4)數據監護:a)對用戶按照受限站點訪問者、數據貢獻者、數據管理員、Dataverse管理員和Data-verse網絡級(Dataverse Network,DVN)管理員不同角色進行授權訪問數據文件.b)對Dataverse、課題、文件分別設定不同的訪問限制,確保數據安全;c)科學數據的更新等版本配置管理;d)科學數據的監護與長期保存。
從數據管理對象角度看,復旦數據平臺基于開源軟件Dataverse開發,數據結構包括DVN、Dat-averses級、課題級以及文件級,見圖1。
通常,一個社會科學數據管理平臺可以作為一個獨立的DVN存在,下面可以包含一個或者若干個Dataverse,而一個Dataverse下面可以有一個或者多個研究課題或者研究課題集,研究課題(集)下面包含若干個文件,這些文件可以是目錄信息、文本文件、數據集文件或者多媒體文件等多種格式文件。
按照服務對象劃分,復旦數據平臺可以分別為研究機構、研究者個人以及期刊雜志社、檔案館、論文庫等機構知識庫提供科學數據管理服務,例如可以將個人的研究成果和研究數據存放在Dataverse,并與個人主頁鏈接,這樣可以很好地將個人信息和科學研究關聯到一起。
復旦數據平臺首頁見圖2,可以按照資源類型、院系專業或者首字母A-Z等途徑瀏覽和檢索科學數據,在數據頁面可以對數據文件進行在線分析和數據可視化展示。
4.4 共享與服務
復旦數據平臺從2012年3月開展需求調研、原型系統測評,2013年1月通過專家論證,開始進行研發,3月份與哈佛大學簽訂合作備忘錄,5月份投入試運行,目前已經有長三角居民消費與碳排放數據庫、新中國歷次人口普查分省數據庫、中國人口、消費與碳排放數據庫等科學數據庫進人數據共享平臺,共計662余個研究課題,1033個數據文件,初步實現科學數據長期保存和公開獲取。在科學數據共享方面初步實現不同課題組和不同數據庫之間數據的共享利用,例如復旦能源研究中心和中國人口地理信息系統研究課題組通過共享平臺實現了在人口信息GIS系統上整合中國人口、消費與碳排放數據庫,形象展示各地區之間的能源分布、流向和碳排放情況。此外,為更好揭示、共享科學數據.建立了基于DDI的元數據著錄規范,解決了以往無法有效管理研究數據、研究數據描述不清、元數據不規范等問題,并通過平臺實現了規范元數據描述和受限數據安全訪問共享的功能,進一步促進了學校科學數據的共享與服務。
2014年6月份,在學校科研部門支持下,平臺首頁建立了“文科科研”專屬資源目錄,下設:a)教師風采:已為承擔科研項目的1319名教師開通平臺服務,建立個人信息、教案課件、科研項目、媒體報道、社會服務、學術活動、研究成果等專屬模塊.b)科研項目:建立了“文科科研項目”dataverse,已導人文科科研項目5000余個;c)研究成果:建立了“文科研究成果”dataverse,已導入學術論文45835余條。
5 未來工作
在復旦數據平臺已經完成漢化版本和部分功能定制開發的基礎上,未來將進一步擴大參與平臺試用的用戶范圍和科學數據庫的種類、數量,制作宣傳視頻材料,開設官微,加強宣傳推廣力度,讓數據共享平臺為師生所共知、共建、共享。另一方面,研究學校層面的科研政策保障措施,促進學校制定相應的科學數據共享服務鼓勵政策。同時,逐步開展科學數據用戶素質教育,培訓研究人員科學數據管理的基本技能。endprint