隨著大數(shù)據(jù)時代的到來和數(shù)據(jù)密集型科研環(huán)境形成,科學研究從重視結(jié)果轉(zhuǎn)變?yōu)檫^程與結(jié)果并重,科研過程中產(chǎn)生的數(shù)據(jù)作用和價值凸顯,數(shù)字工具、數(shù)據(jù)平臺成為了科研人員開展工作的必備條件,數(shù)字化科研成為學術(shù)研究的主要特征和發(fā)展趨勢。數(shù)字化科研的領(lǐng)域也從天文、環(huán)境、地球、生物科學領(lǐng)域擴大到社會、歷史等人文領(lǐng)域。在這種環(huán)境下,數(shù)字學術(shù)(Digital Scholarship)的概念應(yīng)運而生。由于尚未完全成熟,數(shù)字學術(shù)的內(nèi)涵與外延仍在不斷演變與擴充,目前學界尚未對其定義形成統(tǒng)一的認識。華盛頓大學將數(shù)字學術(shù)定義為廣泛利用數(shù)字媒體獨特能力提供的一種或多種教學和研究新可能性的學術(shù)活動
。印第安納大學普渡分校圖書館認為數(shù)字學術(shù)包含構(gòu)建(building)、創(chuàng)造(creating)和利用(using)3個方面,構(gòu)建是指為了進一步研究和分析而進行數(shù)字化館藏建設(shè),創(chuàng)造是指為館藏建設(shè)、分析和研究館藏而創(chuàng)建適當?shù)墓ぞ吆头?wù),利用則是指利用數(shù)字館藏和分析工具來產(chǎn)生新的知識產(chǎn)品
。曾熙,王曉光將數(shù)字學術(shù)定義為利用數(shù)字技術(shù)與方法介入學術(shù)研究全過程的新型研究模式
。
圖書館以文化傳承為已任,擁有豐富的信息資源,專注于資源的組織、檢索和管理,配備了數(shù)字展示、保存、出版及開放獲取和數(shù)據(jù)管理的軟硬件環(huán)境,與數(shù)字學術(shù)具有天然的聯(lián)系
。一方面,圖書館是數(shù)字學術(shù)的孵化器,能夠為數(shù)字學術(shù)的理念推廣、研究討論與實踐探索提供良好的人才、空間、設(shè)施設(shè)備等條件;另一方面,數(shù)字學術(shù)是圖書館的新引擎,為圖書館的發(fā)展創(chuàng)新、轉(zhuǎn)型與變革提供新的機會
。目前,國內(nèi)學者的研究主要集中在后一方面,即圖書館圍繞數(shù)字學術(shù)如何實現(xiàn)服務(wù)創(chuàng)新和空間變革方面,比如劉茲恒和涂志芳對數(shù)字學術(shù)環(huán)境下學術(shù)圖書館發(fā)展新形態(tài)進行了全面總結(jié)
,鄧靈斌對美國圖書館界數(shù)字學術(shù)服務(wù)的實踐進行了分析
,鄂麗君對美國研究圖書館協(xié)會的數(shù)字學術(shù)支持教育活動進行了考察
,宋家梅等對英國和愛爾蘭研究型圖書館的數(shù)字學術(shù)服務(wù)進行了調(diào)研
,鄂麗君
和黃曉軍
都對高校圖書館數(shù)字學術(shù)空間建設(shè)問題進行了探討。有關(guān)圖書館如何發(fā)揮數(shù)字學術(shù)孵化器作用的研究尚不多見。鑒于此,本研究從當好孵化器這一視角,分析總結(jié)圖書館推動數(shù)字學術(shù)發(fā)展的實踐,即圖書館如何能夠,并確實為數(shù)據(jù)管理、分析、可視化和監(jiān)管提供基礎(chǔ)設(shè)施,教育和服務(wù)以促進數(shù)字學術(shù)發(fā)展的方式。
ESR檢測:空腹采集患者靜脈血,1.6 mL靜脈血加入到0.4 mL含109 mmol/L枸櫞酸鈉溶液的真空管中,混合均勻后放入Monitor-100型自動紅細胞沉降率分析儀(美國Monitor公司產(chǎn)品)的檢測位,靜置30 min后自動報告結(jié)果。正常值參考范圍:1~20 mm/h。
隨著從事跨學科研究的科研人員和學生開始探索新興技術(shù)(例如機器學習、容器化和高性能計算)在學術(shù)研究中的應(yīng)用,許多研究圖書館建立了數(shù)字學術(shù)計劃,以支持科研人員應(yīng)對研究方法的轉(zhuǎn)變。學術(shù)和研究圖書館是數(shù)據(jù)活動天然的合作伙伴,圖書館員擁有在整個生命周期中管理數(shù)據(jù)所需的學科、信息管理和技術(shù)知識,可以說,在數(shù)據(jù)服務(wù)方面也具有天然的優(yōu)勢。但由于圖書館數(shù)據(jù)服務(wù)受多種因素影響,包括對人文和社會科學領(lǐng)域數(shù)據(jù)驅(qū)動研究的日益重視,以及對將數(shù)據(jù)視為資產(chǎn)的基礎(chǔ)設(shè)施和服務(wù)的需求等,因此,圖書館還需在開發(fā)適用于跨學科研究的數(shù)據(jù)服務(wù)方面,從以下三個方面具體體現(xiàn)。
數(shù)據(jù)是數(shù)字學術(shù)的基礎(chǔ),從傳感器和網(wǎng)絡(luò)設(shè)備連續(xù)生成的海量數(shù)據(jù)集,到大量的文本數(shù)據(jù),再到精心收集和監(jiān)管的圖像集。與數(shù)字學術(shù)的發(fā)展相適應(yīng),許多圖書館將可用于挖掘和分析的授權(quán)數(shù)據(jù)集納入其館藏范圍,精心設(shè)置對公開可用數(shù)據(jù)的訪問權(quán)限,并對數(shù)據(jù)使用和重用有關(guān)的知識產(chǎn)權(quán)問題給予指導(dǎo)。圖書館可以利用其信息管理專業(yè)知識及其與供應(yīng)商的關(guān)系,提供用于挖掘和分析的(大)數(shù)據(jù)館藏,并促進對專有或敏感數(shù)據(jù)的獲取。例如,在紐約大學(New York University),整個大學中數(shù)據(jù)科學的發(fā)展影響到了圖書館的館藏,紐約大學圖書館購買了更多供應(yīng)商產(chǎn)生的數(shù)據(jù)集,以滿足用戶對大數(shù)據(jù)的需求(例如大型社交媒體數(shù)據(jù)),并將API集成到其館藏和發(fā)現(xiàn)環(huán)境中
。與此同時,許多圖書館已經(jīng)承擔起了談判和解釋許可,以允許對圖書館館藏進行內(nèi)容挖掘的角色
。
在許多機構(gòu)中,研究計算基礎(chǔ)架構(gòu)正逐漸從本地數(shù)據(jù)中心遷移到云
。云計算可促進分布式團隊之間的協(xié)作,并為無法訪問本地計算資源的科研人員提供解決方案。但是,它也帶來了風險。存儲在商業(yè)云中的數(shù)據(jù)不再完全由科研人員控制,容易受到黑客入侵或災(zāi)難性損失的影響。根據(jù)所使用的特定服務(wù),科研人員也可能會授予第三方獲取或使用其數(shù)據(jù)的權(quán)限。無論是將數(shù)據(jù)存儲在云中還是本地數(shù)據(jù)中心中,托管數(shù)據(jù)存儲庫基礎(chǔ)設(shè)施的圖書館必須考慮網(wǎng)絡(luò)的安全性。
跨機構(gòu)研究圖書館計劃(Cross-institutional Research Library Initiatives)努力嘗試正式獲取大規(guī)模數(shù)據(jù)集以進行學術(shù)分析的方法。例如,在2019年十大機構(gòu)利用其集體購買力從Web of Science得到了每年13 TB的文獻計量數(shù)據(jù)的授權(quán)許可。為了使十大園區(qū)的用戶均可以使用這一數(shù)據(jù),由美國博物館和圖書館協(xié)會(Institute of Museum and Library Services,IMLS)資助的CADRE項目將原始數(shù)據(jù)處理到印第安納大學高性能計算中心的關(guān)系數(shù)據(jù)庫中。完成后,CADRE將采用標準化的數(shù)據(jù)格式,提供多種格式的數(shù)據(jù),包括關(guān)系數(shù)據(jù)庫和圖形數(shù)據(jù)庫格式以及平面表和本機格式,共享的和自定義/私有的計算資源,提供一個跨學科的平臺,一個用于共享和存儲查詢、算法、派生數(shù)據(jù)、分析結(jié)果、工作流和可視化的空間
。
數(shù)據(jù)科學家、人文主義者和社會科學家越來越多地將圖書館館藏作為創(chuàng)建和發(fā)現(xiàn)新知識的數(shù)據(jù)源。將圖書館館藏用于計算研究有很多潛在優(yōu)勢,它們通常包含高質(zhì)量的元數(shù)據(jù),一些館藏是開放獲取的,對數(shù)據(jù)挖掘的限制少,并且許多館藏已經(jīng)使用機器可讀的標準進行了結(jié)構(gòu)化處理。以Collections as Data為代表的一些項目,鼓勵文化遺產(chǎn)機構(gòu)認真開發(fā)支持“計算驅(qū)動的研究和教學”的數(shù)字館藏(許可、購買和獨有的)和相關(guān)服務(wù)(例如研討會、咨詢、數(shù)字平臺)。圖書館可通過開發(fā)和實施從文本或其他媒體中提取數(shù)據(jù),清理數(shù)據(jù)并以適合分析的數(shù)據(jù)庫或其他格式提供數(shù)據(jù)的過程,建立機器可讀的館藏?;贑ollections as Data框架,使館藏機器可操作,從而增加館藏的價值。猶他大學的圖書館員對《女人指數(shù)》(一家鹽湖城的報紙)的整個流程進行了數(shù)字化處理,重點關(guān)注摩門教女性,開發(fā)了用于基于網(wǎng)絡(luò)查詢的數(shù)據(jù)挖掘工具,并提供了可下載的語料庫訪問權(quán)限。通過繪制黑人摩門教徒的歷史,探索了將計算分析應(yīng)用于與其社區(qū)相關(guān)的數(shù)字化館藏材料的可行性
。
為了重現(xiàn)結(jié)果,科研人員不僅需要獲取有據(jù)可查的、公開可用的數(shù)據(jù),還需要獲取用于處理和分析數(shù)據(jù)的代碼。獲取用于處理數(shù)據(jù)和生成結(jié)果的計算步驟與獲取數(shù)據(jù)本身一樣重要
。許多數(shù)據(jù)科研人員進行探索性研究的電子實驗室筆記本身并不支持廣泛的共享或發(fā)布數(shù)據(jù)。與同事共享時,電子實驗室筆記對環(huán)境的依賴使行為無法預(yù)測。相同的代碼可能在不同的環(huán)境中產(chǎn)生不同的結(jié)果,或者無法完全計算出
。
隨著資助機構(gòu)和出版商的數(shù)據(jù)存儲要求的提高,以及有關(guān)數(shù)據(jù)共享研究的不斷深入,支持數(shù)據(jù)共享和長期保存的基礎(chǔ)設(shè)施需求也相應(yīng)增長。圖書館維護的數(shù)據(jù)存儲庫、學科存儲庫和通用存儲庫(例如figshare和Zenodo)迅速增加。但是,圖書館在數(shù)據(jù)管理服務(wù)上的投入遠超過了對基礎(chǔ)設(shè)施的投入
。除了圖書館提供的有價值的數(shù)據(jù)管理計劃和咨詢服務(wù)外,學者也需要基礎(chǔ)設(shè)施來支持各種格式的超大型、異構(gòu)、實時、聯(lián)網(wǎng)和復(fù)雜的數(shù)據(jù)集。他們希望基礎(chǔ)設(shè)施能夠促進分布式協(xié)作、數(shù)據(jù)重用和長期保存。但是,研究圖書館的數(shù)據(jù)存儲庫并不總能符合這些期望。當前的數(shù)據(jù)存儲庫傾向于支持與論文相關(guān)的經(jīng)過處理的數(shù)據(jù)集,而教師所需要的是一種活的有機體,一個不斷發(fā)展的數(shù)據(jù)庫。
為了實現(xiàn)協(xié)作,重用驅(qū)動的數(shù)據(jù)存儲庫正在利用工具減少與分布式團隊和分散數(shù)據(jù)集一起工作所需的計算資源和花費的精力。例如,iRODS數(shù)據(jù)管理軟件將其數(shù)據(jù)存儲資源虛擬化,以便用戶無論在哪里,使用什么設(shè)備均可訪問數(shù)據(jù)。數(shù)據(jù)虛擬化支持用戶跨系統(tǒng)查詢,而不需要下載到某一設(shè)備或在系統(tǒng)之間復(fù)制數(shù)據(jù)。
與許多針對數(shù)據(jù)存檔進行了優(yōu)化的數(shù)據(jù)存儲庫不同,重用驅(qū)動的數(shù)據(jù)存儲庫旨在支持內(nèi)置分析工具,使數(shù)據(jù)與計算資源的共置,并實現(xiàn)持續(xù)協(xié)作,包括復(fù)雜的權(quán)限選項及地理位置分散團隊的訪問權(quán)限設(shè)置。使用和重用驅(qū)動的存儲庫類似于一個熱鬧的車間,該車間配備了強大的工具來處理作為原材料的大數(shù)據(jù)集,而不是作為倉庫來存儲數(shù)據(jù)
。在數(shù)據(jù)存儲庫中內(nèi)置可視化工具正成為流行功能。普渡大學(Purdue University)圖書館的科研數(shù)據(jù)存儲庫PURR通過將GIS服務(wù)器添加到其存儲庫基礎(chǔ)結(jié)構(gòu)中,從而合并了地理空間數(shù)據(jù)可視化工具。Web映射功能可有效地使最終用戶在下載之前預(yù)覽數(shù)據(jù)集并確定其與研究興趣的相關(guān)性,而不需要查看和處理大量地理空間數(shù)據(jù)所需的專用軟件。弗吉尼亞大學(University of Virginia)圖書館與人文科學高級技術(shù)學院(Institute for Advanced Technology in the Humanities)合作,將這種方法應(yīng)用于3D數(shù)據(jù),從而為存儲在Dataverse中的數(shù)據(jù)集創(chuàng)建了增強的接口,使用開源Web 3D瀏覽器3D Heritage Online(3DHOP)提供交互式3D模型供用戶在下載前瀏覽數(shù)據(jù)
。
強調(diào)數(shù)據(jù)的使用和重用,要求存儲庫基礎(chǔ)架構(gòu)從原有的重視存儲和檢索功能轉(zhuǎn)變?yōu)橹匾暦治龊凸蚕砉δ?。弗吉尼亞理工大學圖書館采用了使用和重用框架作為其數(shù)據(jù)管理及服務(wù)基礎(chǔ)架構(gòu)的“原動力”
。將學術(shù)數(shù)據(jù)集與用于創(chuàng)建、顯示或解釋它們的算法和計算環(huán)境相分離變得越來越困難。即使有大量有關(guān)“數(shù)據(jù)及其使用環(huán)境”的文檔,將數(shù)據(jù)從分析的自然環(huán)境中剔除以保存在孤立的存儲庫中,也會大大降低其價值。
當科研人員試圖通過挖掘和其他數(shù)據(jù)處理方法從不斷增長的數(shù)據(jù)量中提取信息時,他們需要越來越強的計算能力。這就要求圖書館與研究計算中心之間建立程序化合作伙伴關(guān)系,以確保計算需求與數(shù)據(jù)管理需求之間保持一致。提供用于高速網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)需要在國家層面進行合作。由美國國家科學基金會(National Science Foundation,NSF)資助的太平洋研究平臺(Pacific Research Platform,PRP)是區(qū)域協(xié)調(diào)的一項嘗試
。由NSF資助的項目通過擴展這種方法開發(fā)了國家研究平臺(National Research Platform,NRP),該平臺將有助于訪問分布式數(shù)據(jù)集,并使科研人員能夠利用國家超級計算機設(shè)施的計算和存儲資源。
目前,中國的有效灌溉面積已達到0.6億hm2,約占全世界灌溉面積的20%。灌溉面積占全國耕地面積的49.6%,灌區(qū)生產(chǎn)的糧食占全國糧食總產(chǎn)量的75%。這正是中國以占世界6%的水資源和9%的耕地解決了占世界21%人口的糧食問題的重要基礎(chǔ)。
隨著數(shù)據(jù)授權(quán)和館藏活動的成熟,圖書館已經(jīng)注意到有必要實施同樣有據(jù)可查的、系統(tǒng)的工作流程,以收集其他學術(shù)資源。目前,很多大學圖書館主要是應(yīng)教師的具體要求購買或授權(quán)數(shù)據(jù)集。這些數(shù)據(jù)集不會被集成到圖書館館藏目錄中,也無法提供給其他潛在用戶使用。弗吉尼亞理工大學圖書館(Virginia Tech Libraries)有關(guān)數(shù)據(jù)許可工作流程回顧的內(nèi)部報告明確指出,這種臨時方法存在固有挑戰(zhàn)
。該報告指出“由于供應(yīng)商擔心專有數(shù)據(jù)的安全性以及涉及在線傳輸大型數(shù)據(jù)集的問題”,數(shù)據(jù)集通常通過CD、USB驅(qū)動器或硬盤驅(qū)動器提供,但是這些載體缺少相應(yīng)的目錄記錄,因此很難控制存儲情況并促進數(shù)據(jù)的發(fā)現(xiàn)。
北京大學房地產(chǎn)研究中心主任樓建波表示,《房產(chǎn)測量規(guī)范》提到的公攤面積計算方式在《住宅設(shè)計規(guī)范》中無相應(yīng)體現(xiàn),致使國內(nèi)報批、設(shè)計、施工每個環(huán)節(jié)都不是特別清楚公攤?cè)绾斡嬎悖荒艿戎孔由w出來,測繪部門最終來測公攤大小,導(dǎo)致出現(xiàn)不少亂象。
數(shù)據(jù)密集型研究支持和數(shù)據(jù)管理要求圖書館跨界工作。除了組織數(shù)據(jù)存儲庫,圖書館還需要根據(jù)學科或研究興趣,通過基礎(chǔ)設(shè)施、監(jiān)管指導(dǎo)、知識產(chǎn)權(quán)專業(yè)知識和社區(qū)建設(shè)為跨機構(gòu)科研人員社區(qū)提供支持
。這些“數(shù)據(jù)社區(qū)”從圖書館獲得資金和人力資源,或者與作為校園大使和作為監(jiān)管人的圖書館員合作。盡管學科和其他公共數(shù)據(jù)存儲庫(例如figshare)顯示出了很高的存儲率和參與度,但是他們?nèi)狈π@數(shù)據(jù)管理員和館員可以建立的機構(gòu)聯(lián)系和關(guān)系?;跈C構(gòu)的數(shù)據(jù)專家和與機構(gòu)無關(guān)的數(shù)據(jù)存儲庫之間的協(xié)調(diào)與協(xié)作可以通過確保研究人員遵循最佳實踐,并且其研究成果得到保留和可重復(fù)使用來推進
。
本研究的不足:(1)樣本量較少;(2)由于倫理要求,未能對同一患者同時行兩代320排螺旋CT掃描;(3)觀察者內(nèi)和觀察者間在灌注參數(shù)測量上的可重復(fù)性存在較多爭議,觀察者內(nèi)的一致性可能優(yōu)于觀察者間[16],但臨床中患者的檢查與隨訪測量較難由同一位觀察者完成。
科學進步取決于科學研究結(jié)果的可復(fù)制性。隨著基于計算密集型方法進行的科學研究越來越多,驗證和復(fù)制結(jié)果變得越來越復(fù)雜。圖書館通過數(shù)據(jù)服務(wù)鼓勵學者將數(shù)據(jù)存儲在開放存儲庫中,并以重用性為目的考慮組織、記錄和授權(quán)數(shù)據(jù)的方式。圖書館還開發(fā)軟件和基礎(chǔ)設(shè)施幫助科研人員創(chuàng)建和保存可復(fù)制的數(shù)據(jù)集。
隨著生命科學和歷史等各個領(lǐng)域的科研人員探索以新技術(shù)為基礎(chǔ)的方法來查詢原始資料,廣泛獲取現(xiàn)有數(shù)據(jù)的需求也日益增長。單個大數(shù)據(jù)語料庫可以由不同的科研人員提出不同的問題來無限挖掘,或由計算機科學家用來訓練機器學習模型。要利用數(shù)據(jù)集帶來的可能性,產(chǎn)生這些數(shù)據(jù)的科研人員必須共享它們,并使數(shù)據(jù)以被其他人解釋和重用的方式進行共享
。越來越多的研究表明,已發(fā)表的科學文獻和現(xiàn)有數(shù)據(jù)集包含了許多隱藏的假設(shè)、見解和聯(lián)系,可以通過數(shù)據(jù)挖掘和應(yīng)用機器學習技術(shù)來發(fā)現(xiàn)
。比如科研人員以多種方式使用機器學習對抗COVID-19的大流行,通過對CT掃描圖像進行分類,幫助疫苗開發(fā),并嘗試預(yù)測新的疫情。
虛擬容器為應(yīng)對這一挑戰(zhàn)提供了一種解決方案。容器技術(shù)或容器化通常被描述為“虛擬機的輕量級替代品”,它將代碼、軟件和操作系統(tǒng)捆綁在一起,以便用戶可以準確地重現(xiàn)計算研究。諸如Docker和Singularity之類的容器技術(shù)已被廣泛采用。諸如ReproZip和Binder之類的項目旨在通過學術(shù)研究界廣泛使用的容器化技術(shù)來提高可重復(fù)性。ReproZip的工作方式是自動跟蹤工作的執(zhí)行情況,然后將所有依賴項打包在一個可分發(fā)的程序包中(RPZ文件),并與各種數(shù)據(jù)分析工具、腳本和軟件語言、數(shù)據(jù)庫及Jupyter等電子實驗室筆記兼容
。Binder可以檢索托管在Git存儲庫中的Jupyter筆記,建立一個容器圖像來為其服務(wù),并將該圖像開放給網(wǎng)絡(luò)上的任何人。
圖書館通過創(chuàng)建和重新定義員工角色支持可復(fù)制的科學研究。紐約大學于2017年首次在可復(fù)制性服務(wù)中設(shè)立了專門職位;佛羅里達大學圖書館也刊登了類似的招聘廣告。在紐約大學,科研數(shù)據(jù)管理和可復(fù)制性研究支持的館員是圖書館和數(shù)據(jù)科學中心(Center for Data Science,CDS)共同任命的雙重職位,主要負責教育和宣傳活動,以及支持數(shù)據(jù)服務(wù)的工具和基礎(chǔ)架開發(fā)和建設(shè)活動
。亞利桑那大學圖書館整合數(shù)據(jù)管理最佳實踐對可復(fù)制性提供支持,推廣腳本/軟件實現(xiàn)工作流程的自動化,推廣支持可復(fù)制研究的工具(例如Jupyter筆記),并在工作坊和講座中倡導(dǎo)采用開放式研究實踐
。德克薩斯大學圖書館預(yù)測,圖書館員將成為嵌入式研究的合作伙伴,為科研人員自由獲得科研數(shù)據(jù)、實驗記錄提供支持
。在2020年舉行的首屆“圖書館員建立可復(fù)制性研究的驅(qū)動力”會議上,探討了圖書館支持可復(fù)制性的方式,包括將復(fù)制性教育納入研究生和本科生的學習計劃,研究仿真服務(wù)和其他圖書館管理的工具,并將可再復(fù)制原則應(yīng)用于圖書館學研究中
。
美國國家科學院(National Academies)描述了一個愿景——科研人員可以立即獲取最新出版物,并可以自由搜索論文檔案,包括預(yù)印本、研究軟件代碼、其他公開出版物、研究結(jié)果數(shù)據(jù)庫,以及與物理標本有關(guān)的數(shù)字信息,這些信息全免費且不存在其他障礙??蒲腥藛T使用最新的數(shù)據(jù)庫和文本挖掘工具來探索這些資源,確定嵌入在研究中的新概念,明確可以在哪里做出新貢獻
。這一愿景實現(xiàn)的前提是機器可操作館藏的可用性。
由于鐵路線路呈長帶狀,這種GPR探測測線的布設(shè)導(dǎo)致每條測線都很長且勘探所獲數(shù)據(jù)量巨大,與GPR探測配套的專業(yè)數(shù)據(jù)處理與解釋軟件例如常見的RADAN7等,往往需要對每條測線分段進行數(shù)據(jù)處理和翻漿冒泥病害的人機交互解釋圈定,尤其是各個翻漿冒泥病害區(qū)域底界控制點的標定,根本無法按比例尺沿鐵路正線進行狹長帶狀區(qū)域翻漿冒泥病害底界深度等值線圖的繪制。有鑒如此,本論文結(jié)合RADAN7和Surfer軟件,提出了一種用于GPR勘探的鐵路翻漿冒泥病害底界的等值線圖繪制方法。
機器可操作的館藏不僅非常適合于計算研究,而且非常適合人工智能和機器學習工具的開發(fā)。人工智能和機器學習工具依賴于大量結(jié)構(gòu)化數(shù)據(jù),在不久的將來,人工智能和機器學習訓練算法可能會成為圖書館館藏的主要用戶。IFLA的最新博文指出圖書館館藏包含用于開發(fā)機器學習技術(shù)的最豐富的資源
。但是,基于圖書館館藏進行人工智能訓練的陷阱也有很多。圣塔芭芭拉關(guān)于Collections as Data聲明的作者指出,有些館藏的規(guī)模也可能掩蓋了他們認為代表的歷史中隱藏或缺失的事物,文化遺產(chǎn)機構(gòu)必須牢記這些缺失,并提供應(yīng)對策略。與有爭議的做法(例如預(yù)測性警務(wù)試圖通過對歷史犯罪數(shù)據(jù)的計算分析來預(yù)測犯罪和再犯)一樣,數(shù)字化圖書館館藏的大數(shù)據(jù)分析也有可能發(fā)掘新的“見解”,再現(xiàn)甚至加劇文化偏見和歷史種族主義。該聲明鼓勵圖書館員在開發(fā)機器可操作的館藏時批判地對待這些可能的偏見
。
在過去的十年中,數(shù)據(jù)科學已經(jīng)無處不在,并且從STEM領(lǐng)域轉(zhuǎn)移到了許多其他領(lǐng)域。同時,大數(shù)據(jù)時代從事跨學科研究的科研人員通過使用網(wǎng)絡(luò)傳感器,挖掘和抓取技術(shù)以及其他方法可以獲得TB級的復(fù)雜數(shù)據(jù),其生成或操縱數(shù)據(jù)的能力已經(jīng)遠遠超過了他們管理、組織數(shù)據(jù),使其易于獲取的能力。美國國家科學院(National Academies)的報告指出現(xiàn)在許多科學領(lǐng)域都涉及對大型數(shù)據(jù)集的計算分析,人文和社會科學領(lǐng)域的科研人員也轉(zhuǎn)向數(shù)據(jù)密集型方法
。隨著數(shù)據(jù)科學的快速發(fā)展,即使本科生也存在獲取大數(shù)據(jù)以進行數(shù)據(jù)分析的需求。一方面,大數(shù)據(jù)數(shù)量巨大,而且具有窮盡性和多樣性,及時性和動態(tài)性,混亂和不確定性,高度關(guān)聯(lián)性等特點,致使處理大數(shù)據(jù)極具挑戰(zhàn)性。另一方面,由于缺乏必要的經(jīng)驗和專業(yè)知識,有效地從大數(shù)據(jù)集中提取價值成為科研人員面臨的最大難題。當使用海量、復(fù)雜、異構(gòu)和可變的數(shù)據(jù)集時,科研人員需要工具,同時也需要接受教育和培訓以進行數(shù)據(jù)分析、共享和發(fā)布。
為此,圖書館積極開展數(shù)據(jù)科學教育咨詢服務(wù),成為推動數(shù)字學術(shù)發(fā)展的主要力量。圖書館努力將大數(shù)據(jù)分析的能力帶給人文和社會科學領(lǐng)域的科研人員,支持他們探索新的研究方法,深化用戶對數(shù)據(jù)科學的認識,鼓勵用戶對數(shù)據(jù)科學進行批判性思考
。加州大學伯克利分校圖書館(UC Berkeley Libraries)數(shù)據(jù)科學服務(wù)的核心目標是揭開數(shù)據(jù)科學的神秘面紗,從各個方向構(gòu)建通往數(shù)據(jù)科學的新渠道
。為了讓跨學科的學者和學生了解和使用數(shù)據(jù)科學,一些圖書館啟動了包括工作坊和非學分課程在內(nèi)的教育計劃。例如,佐治亞理工學院(Georgia Tech)圖書館員以合作方式提供3D建模、編程語言、網(wǎng)絡(luò)抓取、其他數(shù)據(jù)科學和數(shù)字學術(shù)方法,以及針對非數(shù)據(jù)密集型專業(yè)學生的數(shù)據(jù)素養(yǎng)課程。哥倫比亞大學(Columbia University)圖書館提供研究計算基礎(chǔ)課程,為本校研究生和博士后提供非正式培訓,開發(fā)利用計算的基本技能,并建立起使用計算密集型方法的科研人員社區(qū)。一些圖書館開發(fā)了基于實驗室的教學項目,邀請協(xié)作團隊一起應(yīng)對數(shù)據(jù)科學和數(shù)字學術(shù)的挑戰(zhàn)。例如,99 AI挑戰(zhàn),它是由多倫多大學圖書館贊助的活動,該活動召集99名沒有技術(shù)背景的學生、教職員工和其他社區(qū)成員,共同學習和批判地使用AI技術(shù)
。以項目為中心的實驗室教學項目鼓勵用戶更深入的參與,并可以建立長期的合作伙伴關(guān)系。它還可以幫助圖書館為新興技術(shù)項目提供負責任的、可持續(xù)的支持,通過邀請“來自圖書館和信息技術(shù)組織的合作伙伴,以幫助創(chuàng)建適合實驗室任務(wù)核心的通用學術(shù)解決方案和最佳實踐。
獎品揭曉日期雖五花八門,但最多的還是在11月11日,剁手節(jié)。一些網(wǎng)友在看完獎品名單后感慨,獎是一個沒中,反倒被禮品清單種了草。我也是在微博和淘寶之間反復(fù)切換。
需要注意的是,圖書館在聘請數(shù)據(jù)專家方面面臨許多挑戰(zhàn)。亞利桑那大學圖書館內(nèi)部數(shù)據(jù)專家Jeffrey Oliver在數(shù)據(jù)管理計劃中與其他圖書館員合作,并為生命科學研究者提供生物信息學支持,尤其是在數(shù)據(jù)分析和可視化方面。Oliver認為就讓科研人員與圖書館內(nèi)部和外部的資源建立聯(lián)系方面,圖書館發(fā)揮著關(guān)鍵作用,應(yīng)提供基本的教育和指導(dǎo),并幫助建立起長期的研究合作伙伴關(guān)系。當雇用數(shù)據(jù)專家不可行時,提高現(xiàn)有館員的技能是一個不錯的選擇。例如,北卡羅萊納州立大學成立了面向圖書館員的數(shù)據(jù)科學和可視化研究所(Data Science and Visualization Institute for Librarians,DSVIL),通過提供一系列有關(guān)軟件工具和與數(shù)據(jù)分析、可視化、共享和重用相關(guān)的技能的強化培訓,解決了圖書館員當前在數(shù)據(jù)科學方面的技能差距
。
自主學習能力能夠在英語實踐中獲得有效的開發(fā)與提升。不但個體因素會對學生自主學習能力的培養(yǎng)與提高有著影響,外在因素也不容忽視。以往單一的教學模式已難以滿足學生發(fā)展的需求,而混合式教學模式則能夠為培養(yǎng)與提高學生的英語自主學習能力提供了一個重要途徑。具體培養(yǎng)策略如下:
圖書館數(shù)據(jù)服務(wù)長期以來一直專注于基礎(chǔ)設(shè)施,教育和倡導(dǎo)支持數(shù)據(jù)歸檔。新興技術(shù)和科研人員不斷變化的期望正在促使圖書館轉(zhuǎn)向開展以數(shù)據(jù)使用和重用為中心的數(shù)據(jù)服務(wù)。開展以數(shù)據(jù)使用和重用為中心的數(shù)據(jù)服務(wù),要求圖書館實現(xiàn)基礎(chǔ)設(shè)施的重新開發(fā),以支持數(shù)據(jù)分析和主動協(xié)作;要求圖書館使用軟件和工作流將科研數(shù)據(jù)集與解釋和復(fù)制結(jié)果所必需的代碼和操作系統(tǒng)包裝在一起;要求圖書館繼續(xù)倡導(dǎo)明確支持數(shù)據(jù)重用,重新定位和挖掘的許可條款。圖書館通過提供并維護機器可操作的館藏,為人類和機器用戶通過數(shù)據(jù)挖掘和分析從數(shù)字館藏中獲取見解做好準備,對機器可操作性的投資有助于進一步增強數(shù)字化館藏的價值,使其成為圖書館最有價值的資源。作為提供數(shù)據(jù)科學教育和咨詢的主要力量,圖書館主導(dǎo)的工作坊和教育計劃可以促進科研人員對數(shù)據(jù)科學進行批判性思考,通過將大數(shù)據(jù)分析方法和工具提供給人文和社會科學研究領(lǐng)域的科研人員,支持他們探索新的研究途徑。在促進數(shù)字學術(shù)發(fā)展的同時,圖書館面臨著專業(yè)人員短缺的難題,對于具有數(shù)據(jù)科學教育和經(jīng)驗的專業(yè)人員,圖書館將面臨行業(yè)的激烈競爭。由于圖書館員要在新能力與現(xiàn)有職責之間取得平衡,因此重新培訓現(xiàn)有館員也會面臨諸多挑戰(zhàn)。總之,圖書館應(yīng)密切關(guān)注新技術(shù)的發(fā)展,在收集和許可用于分析的數(shù)據(jù)集、開發(fā)支持數(shù)據(jù)使用和重用的基礎(chǔ)設(shè)施、支持科學研究的可復(fù)制性三個方面,不斷開發(fā)和優(yōu)化面向跨學科研究的數(shù)據(jù)服務(wù),同時通過提供并維護機器可操作的館藏增加館藏價值,擔當數(shù)據(jù)科學教育與咨詢主要力量等實踐工作,扮演好數(shù)據(jù)學術(shù)孵化器的角色,為數(shù)字學術(shù)的理念推廣,研究討論與實踐探索創(chuàng)造良好的環(huán)境和條件。
[1]University of Washington. About digital scholarship [EB/OL].[2021-02-15].https://lib.washington.edu/digitalscholarship/about.
[2]INPUI University Library. What is digital scholarship?[EB/OL].[2021-02-15].https://www.ulib.iupui.edu/digitalscholarship/mission.
[3]曾熙,王曉光.數(shù)字學術(shù):概念、特征與案例分析[J].數(shù)字圖書館論壇,2019(3):2-10.
[4]王賢.美國伊利諾伊大學香檳分校圖書館數(shù)字學術(shù)服務(wù)及啟示[J].圖書情報工作,2018,62(11):143-150.
[5]涂志芳,徐慧芳.國內(nèi)外15 所高校圖書館數(shù)字學術(shù)服務(wù)的內(nèi)容及特點[J].大學圖書館學報,2018,36(4):29-36.
[6]劉茲恒,涂志芳.數(shù)字學術(shù)環(huán)境下學術(shù)圖書館發(fā)展新形態(tài)研究:以空間、資源和服務(wù)“三要素”為視角[J].圖書情報工作,2017,61(16):15-23.
[7]鄧靈斌.美國圖書館界數(shù)字學術(shù)服務(wù)的實踐及其有益借鑒[J].情報理論與實踐,2020,43(11):187-191.
[8]鄂麗君.美國研究圖書館協(xié)會的數(shù)字學術(shù)支持教育活動考察與啟示[J].情報資料工作,2019,40(3):104-112.
[9]宋家梅,王芳,白如江.英國和愛爾蘭研究型圖書館的數(shù)字學術(shù)服務(wù)[J].圖書館論壇,2021,41(4):147-154.
[10]鄂麗君.美國高校圖書館數(shù)字學術(shù)空間建設(shè)調(diào)查分析[J].圖書與情報,2017(4):18-24.
[11]黃曉軍.高校圖書館數(shù)字學術(shù)服務(wù)空間的構(gòu)建與思考[J].圖書與情報,2019(1):106-110.
[12]MUILENBURG J, RUTTENBERG J. New collaboration for new education: libraries in the Moore-Sloan Data Science Environments [J].Research Library Issues,2019(298):16-27.
[13]MARCO C, GUIBAULT L. Baseline Report of Policies and Barriers of TDM in Europe [EB/OL].[2021-02-15].https://project.futuretdm.eu/wp-content/uploads/2017/05/FutureTDM_D3.3-Baseline-Report-of-Policies-and-Barriers-of-TDM-in-Europe.pdf.
[14]YOUNG P,HAUGEN I,LENER E F, et al. Library support for text and data mining: a report for the University Libraries at Virginia Tech[EB/OL].[2021-02-15].https://vtechworks.lib.vt.edu/bitstream/handle/10919/79483/DiggingDeeperIntoTextAndDataMi ning-VLAandVLACRL-2017.pdf.
[15]Indiana University Network Science Institute. Collaborative archive & data research environment[EB/OL].[2021-02-15]. https://iuni.iu.edu/projects/cadre.
[16]KITCHIN R. Big data, new epistemologies and paradigm shifts[J]. Big Data & Society,2014(1):1-12.
[17]RODRIGO G P, HENDERSON M, WEBER G H, et al.ScienceSearch: enabling search through automatic metadata generation[C].IEEE 14th International Conference on E-Science (e-Science).2018:93-104.
[18]FANIEL I M,CONNAWAY L S. Librarians’ perspectives on the factors influencing research data management programs [J]. College & Research Libraries,2018,79(1):100-119.
[19]XIE Z, FOX E A. Advancing library cyberinfrastructure for big data sharing and reuse[J]. Information Services& Use,2017,37(3):319-323.
[20]XIE Z, CHEN Y, SPEER J, et al. Towards use and reuse driven big data management[C]. JCDL ‘15:Proceedings of the 15th ACM/IEEE-CS Joint Conference on Digital Libraries. New York:2015: 65-74.
[21]CLIR. 3D/VR in the academic library: emerging practices and trends[EB/OL].[2021-02-15].https://www.clir.org/wp-content/uploads/sites/6/2019/02/Pub-176.pdf.
[22]RICHARD M. The second National Research Platform Workshop: toward a National Big Data Superhighway[EB/OL].[2021-02-15].https://ucsd-prp.gitlab.io/images/reports/2NRP_Workshop_Report_finalsmall-9-20-18.pdf.
[23]DIALANI P. The future: AI-fueled organizations[EB/OL].[2021-02-15].https://www.analyticsinsight.net/the-future-ai-fueled-organizations/.
[24]COOPER D, SPRINGER R. Data communities: a new model for supporting STEM data sharing[EB/OL].[2021-02-15]. https://digitalcommons.unl.edu/scholcom/109/.
[25]CHODACKI J, DANIELLA L, ELIZABETH H.Advancing data publishing: the future of Dryad[EB/OL].[2021-02-15]. https://ui.adsabs.harvard.edu/abs/2018AGUFMIN52B..07C/abstract.
[26]STODDEN V, MCNUTT M, BAILEY D H, et al.Enhancing reproducibility for computational methods[EB/OL].[2021-02-15].https://web.stanford.edu/~vcs/papers/ERCM2016-STODDEN.pdf.
[27]WATSON S, BENTON W. Why data scientists love Kubernetes[EB/OL].[2021-02-15].https://opensource.com/article/19/1/why-data-scientistslove-kubernetes.
[28]STEEVES V, RAMPIN R, CHIRIGATI F. Using reprozip for reproducibility and library services[J].IASSIST Quarterly,2018,42(1):1-14.
[29]STEEVES V. Reproducibility librarianship [J]. Collaborative Librarianship,2017,9(2):80-89.
[30]OLIVER J C, KOLLEN C, HICKSON B, et al. Data science support at the academic library[J]. Journal of Library Administration,2019,59(3):241-257.
[31]Task Force on the Future of UT Libraries[EB/OL].[2021-02-15].https://provost.utexas.edu/initiatives/task-force-on-the-future-of-the-ut-libraries/.
[32]OSF.Librarians building momentum for reproducibility[EB/OL].[2021-02-15].https://osf.io/meetings/LBM4R/#!.
[33]National Academies of Sciences, Engineering, and Medicine. Open Science by Design: Realizing a Vision for 21st Century Research [EB/OL].[2021-02-15].https://www.arl.org/wp-content/uploads/2018/09/2018.09.26_FLMM_McCray_OpenScience.pdf.
[34]WITTMANN R, NEATROUR A, CUMMINGS R, et al.From digital library to open datasets[J].Information Technology and Libraries,2019,38(4):49-61.
[35]IFLA Library Policy and Advocacy. The robots are coming? Libraries and artificial intelligence[EB/OL].[2021-02-15].https://blogs.ifla.org/lpa/2018/07/24/the-robots-are-coming-libraries-and-artificialintelligence/.
[36]THOMAS P, LAURIE A, HANNAH F, et al. The Santa Barbara Statement on Collections as Data[EB/OL].[2021-02-15].https://zenodo.org/record/3066209#.YCtqmkl7mUk.
[37]BOYD D, CRAWFORD K. Critical questions for big data: provocations for a cultural, technological, and scholarly phenomenon[J]. Information, Communication& Society,2012,15(5):662-679.
[38]University of Toronto Libraries. The 99 AI Challenge[EB/OL].[2021-02-15].https://onesearch.library.utoronto.ca/ai-challenge.
[39]NC State University Libraries. Data Science and Visualization Institute [EB/OL].[2021-02-15].https://www.lib.ncsu.edu/datascience-and-visualizationinstitute.