陳麗君



〔摘要〕E-science環境迫切要求對存在于學校內部各個部門管理系統中孤立的科研數據進行搜集、聚合與可視化。以德克薩斯A&M大學數學系為例,進行基于Viewshare的學術群體的可視化,幫助院系科研人員找到潛在可能的合作者并共同開辟新的研究領域便于創建新的科研競爭優勢,為學校人事管理部門的人才引進、科研部門進行科研成果的評價提供指導,為圖書館優化館藏資源、開展學科服務提供數據支撐。基于Viewshare的學術群體可視化過程包括數據采集、數據規范與清洗、數據導入、數據多維可視化、數據分析和數據導出。
〔關鍵詞〕Viewshare;學術群體;可視化;圖書館;德克薩斯A&M大學;數學系
DOI:10.3969/j.issn.1008-0821.2016.07.029
〔中圖分類號〕G250252〔文獻標識碼〕A〔文章編號〕1008-0821(2016)07-0160-06
圖書館的使命與大學的使命緊密相連,圖書館員應該對大學的科研前景所面臨的挑戰做出積極的反應。LWendy[1]指出,圖書館應持續關注學術與信息技術的發展變化,尤其信息技術的發展與科學研究相互交織可能帶來的新挑戰。LRichard E[2]指出,圖書館正在成為新型的復合組織的一部分,E-science環境下科研活動的開放性、共享性和協同性決定了圖書館服務應進行前瞻性延伸,并以扮演不同利益相關者召集人的角色創新性地開展工作。本文以德克薩斯A&M大學數學系為例,探討如何基于Viewshare實現該大學數學系研究優勢、研究成果、研究人員協作關系的可視化和其他研究環境特征的可視化(PhD學位的授予機構及其所在地,虛擬國際規范文檔(VIAF)規范記錄和作者性別)等等,進而推動德克薩斯A&M大學所有院系教職員工數據的可視化,從而更直觀地揭示不同系別教職員工間潛在可能的科研協作關系,幫助他們找到其他院系潛在可能的科研合作者并共同開辟新的研究領域,創建新的科研競爭優勢,為學校的人事管理部門的人才引進、科研部門進行科研成果的分析與評價提供指導,為圖書館優化館藏資源、開展學科服務提供數據支撐。MJessop[3]指出,數據可視化應該被當做一種學術活動,因為它創造知識并被應用于研究各種類型的數據及其之間的多維關聯。HJeffrey等[4]指出,Viewshare有助于重要關系分析、特定領域上下文情景分析和因果模式分析。ALauren[5]指出,從許多學科的視角來看,基于Viewshare的可視化工具對進行探索性的科學研究來說十分珍貴,并指出Viewshare有助于反復地探索、比較數據趨勢,有助于科學研究從可視化視角產生新的靈感。
1Viewshare平臺概述
Viewshare(http:∥viewshare.org/)由美國國會圖書館負責的國家數字信息基礎設施與保存項目(NDIIPP)和Zepheira公司合作開發,是一個免費的基于關聯數據的館藏數字資源可視化平臺,它允許用戶輸入不同格式的(結構化的CSV或Excel格式的數字表格、JSON格式的數據、XML MODS文件、基于OAI-PMH的元數據以及ContentDM大型數據)館藏數字資源數據,產生和提供個性化的交互式可視化用戶界面(地圖、時間線、標簽云、復雜的分面導航),并支持用戶將可視化界面嵌入到網頁中分享給其他用戶。因此,它具有可視化、交互性和共享性的特點。向Viewshare平臺輸入JSON格式的數據、XML MODS文件、基于OAI-PMH的元數據以及ContentDM大型數據時,所產生的可視化視圖會伴隨著數據的更新而更新,這些類型的數據適合通過網絡服務器的形式導入Viewshare平臺,因此,適合對那些經常更新的館藏數字資源進行可視化,而結構化的CSV或Excel的數據格式較適用于相對封閉的、較少或幾乎不進行更新的相對封閉的館藏數字資源的可視化。該平臺的具體使用方法見使用指南(http:∥viewshare.uservoice.com/knowledgebase/articles/77925-10-minute-viewshare-tutorial)。Viewshare已經在Viewshare在CWIHP數字檔案館[6]、密西西比大學檔案館[7]、布魯克林公共圖書館[8]和加州數字圖書館[9]等等都得到了較好的應用,然而,目前國內外尚無將Viewshare用于學術群體可視化方面的研究。
2德克薩斯A&M大學數學系研究人員數據集的可視化實現過程
21數據采集
德克薩斯A&M大學現有3 800名教職員工、58 809名學生,據《美國新聞與世界報道》報道,該校位居美國公立高校的前25名和公立性工科院校的前10名,它是美國西南部最大的研究型大學,其教職員工的研究經費高達82億美元。以德克薩斯A&M大學最大的院系之一數學系為例,該院系共有75名終身教授、25名客座教授和29名講師。該系教職員工數據的采集來源包括學校名錄主頁(https:∥services.tamu.edu/directory-search/)、數學系名錄主頁、(http:∥www.math.tamu.edu/directory/faculty.html)教職員工個人主頁、數學家譜系項目的鏈接(http:∥genealogy.math.ndsu.nodak.edu/)、虛擬國際規范文檔(VIAF)的鏈接(http:∥www.viaf.org/)和地理數據庫GeoNames(http:∥www.geonames.org/)。采集的數據包括教職員工的姓名及其研究領域,教職員工學位(學士、碩士、博士)授予日期、機構及其地理位置(經度、緯度)信息、聘任日期等等,這些數據被手工輸入到電子數據表格中。這些數據類型多樣,從靜態的數據到動態的關聯數據詞匯表。采集數據時通過對該系教職員工的研究者與貢獻者身份識別碼(ORCID)進行核對,發現大部分教職員工都注冊了ORCID。
22數據規范與清洗
并非采集的所有數據的格式都適合被Viewshare平臺進行自動收割,需要進行規范與清洗。以Catherine Yan老師為例,對采集到的數據按照如下標準和格式進行規范(見表1)。主題元素“College”、“Bachelor granting institution”、“Master granting institution”和“PhD granting institution”依據美國國會圖書館名稱規范文件(LC NAF)進行規范,研究領域依據國會圖書館學科主題詞表(LCSH)進行規范,主題元素“PhD date”和“Hire date”依據ISO 8601標準進行規范,主題元素“PhD location”轉化為經度與緯度數據。表1清晰地展示了“各主題元素”的數據格式。由于數學系所有教職員工的數據數量較大,將按照表1經過初步規范化、標準化的數學系所有教職員工的電子數據表格輸入到Viewshare平臺之前,有必要進行數據清洗,如對輸入的錯誤數值、錯別字,異形同義詞或者縮寫詞等的清洗。本文采用免費開源數據清洗工具OpenRefine(http:∥openrefine.org/)對所有的數據進行快速、高效地清洗。
23數據導入
將數據導入到Viewshare需要首先在該平臺上注冊用戶名??蓪氲臄祿ńY構化的CSV或Excel格式的數字表格、JSON格式的數據、XML MODS文件、基于OAI-PMH的元數據以及ContentDM大型數據等多種格式。被導入的電子數據表格中行和列里面的數據被Viewshare轉化為RDF,用戶在可拖放的可視化創建工作區可以以不同的方式方便、快捷地看到被導入數據的可視化視圖。
24數據多維可視化
Viewshare允許用戶添加小工具Widget(基于研究領域的標簽云圖、研究領域列表、教職員工姓名列表、可對可視化數據進行檢索的檢索框、機構的Logo、滾動條、檢索范圍等等)便于對數據集進行更好的可視化檢索。基于Viewshare創建的德克薩斯A&M大學數學系數據集的可視化視圖見(http:∥viewshare.org/share/1a848a62-d6fa-11e2-8aa1-4040e007d488/)。默認的可視化視圖是按照研究領域進行劃分的該系教職工的個人數據記錄列表,見圖1。
在列表視圖設置表中,標簽被設置為按照研究領域的首字母順序進行升序排序,鏡頭設置列表中,題名字段設置為鏈接到數學系主頁教職員工的姓名,教職員工的個人記錄包括搜集到除來自OCLC的權威記錄編號外的所有個人屬性數據。圖2的標簽是博士學位授予單位,便于以地圖的形式顯示該系教職工博士學位授予單位的地理位置信息,地理位置為具體的經度/維度數據,在地圖中離得較近的機構以帶顏色的氣球進行區分,地圖的縮放級別設置為“自動”,便于看到整個地圖的全貌。在地圖鏡頭設置中,題名為教職員工的姓名,被鏈接到教職員工的個人主頁中。
圖3是教職員工獲取博士學位的時間與被聘任到德克薩斯A&M大學時的時間線視圖。每條線都以教職員工的姓名作為標簽,并鏈接到他們的個人信息記錄上。上面那段時間線以年為單位,下面那段時間線以10年為單位,并以不同的顏色區分不同的單位。時間線鏡頭設置列表中,題名為教職員工的姓名,包含一個個人主頁的鏈接。博士畫廊視圖是按照博士授予單位的首字母順序進行排序的,其列表鏡頭設置中包括機構屬性圖像,圖像來自數學系的網站。圖像下面的姓名被鏈接到教職員工個人的虛擬國際規范檔(VIAF)中,如果沒有個人VIAF,圖像下面的姓名被鏈接到按照研究領域劃分的個人記錄列表視圖中。鏈接到VIAF的鏈接被直接鏈接到OCLC的身份檔(WorldCat Identities),國會圖書館名稱規范文檔(LC NAF)和國際標準名稱標識符(ISNI),每個教職員工的VIVF相當于一個RDF記錄。目前OCLC的身份檔中共有30 000 000個名稱,包括個人、小說或電影中的虛擬人物(如哈利波特)、對象(如坦泰尼克號)和機構等,它提供機構或個人的作品及其相關信息、合著者的鏈接、個人的不同身份信息等等。創建的研究領域視圖是按照研究領域的首字母順序對教職員工進行排序的。題名為教職員工的姓名,并附有連接到他們所在院系主頁以顯示他們的研究成果的超級鏈接,大多數研究成果被鏈接到預印本或者arXiv.org上的相關信息中。
數據的可視化可以更加直觀、快捷地揭示隱藏在數據之間有趣的語義關聯關系。例如,如果用戶在研究領域搜索小插件里輸入“group”,檢索結果中會顯示研究領域與“group”相關的4個教職員工,其中3個人的研究領域是 “Combinatorial Group Theory”,另外一個人的研究領域是“Group Representations”(圖4)。
當選擇“Combinatorial Group Theory”時,會顯示與之相關的不同視圖和與該研究領域相關的每個教職員工的個人信息(圖5)。圖6是研究該領域的每個教職員工的博士學位授予單位的信息地圖。
如果用戶點擊地圖上的指針,就可以看到某個選定的教職員工的所有個人信息視圖。當點擊時間線時,就可以看到某個教職員工從獲取博士學位到現在的所有重要的個人經歷信息。從圖中可以看到,從2000年開始,大多數教職員工每年都有個人聘任經歷信息,一直持續到2009年該學校財政縮減時。2010-2011年德克薩斯A&M大學數學系沒有新招聘老師,2012年僅招聘了一名新老師。研究領域的餅狀視圖將德克薩斯A&M大學數學系所有教職工按照研究領域進行劃分,并顯示了從事每個研究領域的教職員工人數占總教職員工人數的百分比。研究領域餅狀視圖顯示,德克薩斯A&M大學數學系目前最具代表性的研究領域是“Partial Differential Equations”,而“Operator Theory”已經不再是該系目前的研究熱點。這對新教職員工的招聘、該系的管理層制定該系的科學研究發展規劃、圖書館管理者制定圖書館館藏資源建設與發展規劃和學科館員開展學科服務來說,都具有較大的參考價值。圖6基于特定研究領域的教職員工博士學位授予單位所在地的地圖
26數據導出
可視化數據可以從Viewshare中以RDF/XML,JSON和wiki標記語言的形式導出重用。該研究中所有的視圖都允許其他用戶從Viewshare中以自己所需的格式免費下載。用戶也可以基于Viewshare創建HUML視圖,并將它嵌入到圖書館網站中,便于館員更好地開展個性化的學科嵌入式服務?;谘芯款I域列表視圖創建的HTML視圖的主要內容包括個人姓名、性別、畢業院校及其地理位置、所在院系鏈接、性別、個人主頁鏈接、個人照片、研究領域、個人的VIAF等。
3需要注意的問題與結論
(1)要充分保護個人的隱私問題。在搜集教職員工個人數據時,可能牽涉到個人隱私問題,然而有的教職員工不想讓其公開,所以在搜集教職員工個人數據時,可以通知到他們個人,并讓他們決定哪些信息可以搜集并公開,哪些信息不允許公開。德克薩斯A&M大學學術群體的可視化,可幫助圖書館員、學生、教職員工和其他利益相關者檢索教職員工信息時,將所有的教職員工的個人信息作為一個整體進行瀏覽,并發現某個院系的教職員工參加的其他院系的跨學科的科研項目或科研活動。(2)數據的規范問題不可忽視。在進行可視化之前,需要對教職員工的個人數據進行規范,主要涉及到兩個方面。一方面是使用前文所述的免費開源數據清洗工具OpenRefine去掉數據后面尾隨空格,處理數據大小寫問題,并糾正拼寫錯誤等等;另一方面是用國會圖書館名稱規范文檔(LC NAF)對有關機構的名稱進行規范。(3)要善于利用有關工具輔助數據處理過程。因為在本文的研究中發現并非所有的教職員工博士學位授予單位的地理位置(經度、緯度)信息都可以被添加到Viewshare平臺,所以在以后的大型數據可視化研究項目的開始就需要用地理數據庫(GeoNames)。(4)倡導研究人員申請注冊并使用ORCID。作為非專著性的出版物,在線研究ID有必要鏈接到教職員工的個人出版物中,這就需要用到ORCID。如果每個教職員工都有ORCID,用Viewshare進行的可視化可能更加完美。
對學術群體進行可視化可以直觀地揭示不同部門研究人員間潛在的聯系,有助于他們之間的溝通與合作,便于他們找到來自其他學科的潛在的可能的科研合作者,并開辟新的研究領域,創建新的科研競爭優勢。正如CLBorgman[10]所述,科學與人文之間的界限正日益變得模糊,這種界限的模糊急需學校進行管理與服務的延伸與重組。E-science環境下科研活動的開放性、共享性和協同性迫切要求對存在于學校內部各個部門管理系統中的孤立的科研數據進行搜集、聚合和可視化,圖書館在這種新的科研環境中應該走在前列,充分發揮自身在信息組織方面(創建控制詞表、對采集到的個人數據和機構數據名稱按照一定的標準進行規范等等)的優勢,積極應對。比較遺憾的是,目前國內還沒有開發出像Viewshare這樣的免費的基于關聯數據的可視化平臺。E-science環境下,面臨用戶日益復雜多變的信息需求,國內圖書館界應該與國內外盟友攜手緊跟時代的發展,以扮演不同利益相關者召集人的角色創新性地開展工作,幫助科研人員找到潛在可能的合作者并共同開辟新的研究領域,創建新的科研競爭優勢,為學校的人事管理部門的人才引進、科研部門進行科研成果的評價提供指導,為圖書館優化館藏資源、開展學科服務提供數據支撐,惟有如此,才能享受智慧地球帶來的種種便利,實現人類社會的飛躍式發展。
參考文獻
[1]Wendy Lougee.The Diffuse Library Revisited:Aligning the Library as Strategic Asset[J].Library Hi Tech,2009, 27(4):610-23.
[2]Richard E.Luce.A New Value Equation Challenge:The Emergence of eResearch and Roles for Research Librar-ies[EB/OL].http:∥www.researchgate.net/publication/263261432ANewANewValueEquationChallengeTheEmergenceofeResearchandRolesforResearchLibraries,2015-05-10.
[3]Jessop,M.Digital visualization as a scholarly activity[J].Literary and Linguistic Computing,2008,23(3):281-293.
[4]Jeffrey Heer,Ben Shneiderman.Interactive Dynamics for VisualAnalysis[J].Communications of the ACM,2012,55(4):45-54.
[5]Lauren Algee,Jefferson Bailey,and Trevor Owens.Viewshare and the Kress Collection:Creating,Sharing,and Rapidly Prototyping Visual Interfaces to Cultural Heritage Collection Data[J].D-Lib Magazine,2012,11(18):3.
[6]Deal,Laura.Visualizing Digital Collections[J].Technical Services Quarterly,2015,32(1):14-34.
[7]How Gloria Uses Viewshare:Exploring and Sharing Community History Through Interface Design[EB/OL].http:∥viewshare.uservoice.com/knowledgebase/articles/238997-phay-user-story,2015-06-30.
[8]The Brooklyn Collections Fulton Street Trade Card Collection and Viewshare[EB/OL].http:∥viewshare.uservoice.com/knowledgebase/articles/239606-the-brooklyn-collection-s-fulton-street-trade-card,2015-06-30.
[9]California Wildfires 2007 Web Archive[EB/OL].http:∥viewshare.uservoice.com/knowledgebase/articles/238378-overview-user-storie.s,2015-06-30.
[10]Borgman,C L.The digital future is now:A call to action for the humanities[J].Digital Humanities Quarterly,2009,3(4).
(本文責任編輯:孫國雷)