張路路,張 群,b△,賈 潔(江南大學 .圖書館,b.教育信息化研究中心)
伴隨著科學研究第四類范式——“數據密集型科學”的來臨,科學數據成為國家科技創新發展和經濟社會發展的重要基礎性戰略資源,[1]收集、創造、分析、利用、保存、共享數據的能力成為科研人員需具備的核心能力。為進一步探索數據素養的內涵,評測用戶的數據素養,加強數據素養教育,本文對國內外數據素養評價研究進行了調研、分析,總結了評價指標體系的類型和特點,揭示了相關實證研究類型及影響因素,構建了數據素養評價研究的基本框架,為開展數據素養評價、推進數據素養教育、提升用戶數據素養提供意見和建議。
為全面收集相關文獻,筆者在中國知網(CNKI)、讀秀、Webof Science、EBSCO等學術數據庫中分別以“數據”“素養”“data”“literacy”等為檢索詞進行篇名和主題組配檢索;在獲得初步文獻集合的基礎上,通過文獻追溯法進一步收集資料。數據素養評價指標的確立是開展數據素養評價的基礎,因此,本文主要從數據素養評價指標體系的理論依據、類型、體系構建、實證研究幾個角度進行闡述與分析。
在數據素養評價指標體系構建方面,主要在數據素養內涵、數據素養的認知評價框架、信息素養理論、數據生命周期理論、勝任特征模型理論等基礎上,借助于模糊綜合評價法、德爾菲法、探索性因素分析法、層次分析法等方法來構建具體指標體系。
在已有的數據素養評價體系研究中,構建體系的理論依據主要有三大類。① 根據數據素養內涵進行判定,主要指用戶在數據采集、管理、共享和知識發現等方面的能力,以及在整個過程中的道德及行為規范等。[2]Konkiel S將數據素養核心能力劃分為明確數據需求、熟悉數據格式與類型并對其進行自由轉換、具備數據可視化技能、具有數據倫理等17項具體指標。[3]弗吉尼亞理工大學圖書館數據素養咨詢團隊構建的數據素養經典模型包括數據組織與管理、數據轉換與互操作、數據獲取與共享、元數據與質量保障、數據科學、數據監護、數據保存和數據倫理7個維度,每個維度都有其具體要求。[4]② 基于現有成熟理論和評價體系(如信息素養能力評價標準),結合數據素養特性構建具體評價標準。Mandinach E B等從用戶認知的角度構建數據素養認知評價框架,主要包括解釋和使用數據的知識、明確數據分析的結論和最終用途、具備數據收集處理等的操作技能、了解數據可運用的環境與方式等。[5]Gummer E等在數據素養認知評價框架基礎上構建了數據素養評價的三層指標體系。[6]Carlson J等結合ACRL的信息素養能力標準,將用戶的數據素養劃分為對數據倉庫和數據形式的認知、數據發現與采集、數據管理與組織、數據管理和互操作性、數據可視化和數據道德等12項具體指標。[7]③ 將數據素養內涵與數據的生命周期或用戶特性(如勝任力等)相結合,構建數據素養評價指標體系。數據生命周期理論是指從數據產生,經過加工和發布,最終實現數據再利用的一個循環往復的過程。[8]Prado J C等結合數據素養定義和數據生命周期理論,構建了深刻理解數據內涵、查找并獲取數據、解釋和評價數據、管理數據、運用數據等5項數據素養評測指標。[9]有些研究基于用戶的勝任力來構建數據素養評價指標,勝任力是指擔任某一任務的角色所需具備勝任特征的綜合,用于區分用戶工作表現潛在的、深層次的特征。[10]張曉陽等基于研究生的勝任特征模型,運用德爾菲法和問卷調查法開展調研,采用探索性因素分析法構建研究生數據素養評測量表。[11]
從組織結構來分析,已有的評價指標體系主要分為單層指標體系和多層指標體系。
(1)單層指標體系。主要從數據素養的內涵、原則等角度出發,結合被評測對象的行為過程、數據生命周期等指標評測用戶的數據素養。王維佳等將數據生命周期理論與數據素養定義框架相結合,設計了包括對數據真實性認識、對數據生命周期認識程度、對專業統計軟件的使用技能等18項具體、詳細的測評指標。[12]
(2)多層指標體系。其構建可細分為3類。① 從數據素養內涵出發,包括數據意識、數據技能、數據倫理等一級指標,在此基礎上再進行細化。[13]Schneider R構建了數據素養評價二級指標體系。一級指標包括明確目標、規定范圍、操作計劃、數據分析、數據保護、數據評估、數據管理、數據評估8個方面,二級指標體系將一級指標進行了細化,如將“操作計劃”化分為數據建模、數據變換、標準開發等評測指標。[14]② 將評價對象與數據素養結合起來作為一級指標。Tenopir等提出了圖書館員數據素養二級評價體系。一級指標包括數據信息服務和技術服務。二級指標將數據信息服務細化為數據管理、數據與元數據咨詢,將數據技術服務細化為提供機構庫技術服務、在數據倉庫中進行數據處理等。[15]③ 以評價對象的特性為一級指標,二級指標是由用戶的數據素養內涵發展而來的。李紅以某高校10名本科生的采訪數據為基礎,運用扎根理論,將指標體系歸類為個人特質、輔助技能、核心技能。數據意識、基本規范、計劃與評估、收集與保存、數據分析、數據利用、數據共享、數據管理8個二級指標,在二級指標下又細化為63 個三級指標。[16]
在構建指標的過程中,研究者通常采用模糊綜合評價法、德爾菲法等方法。周兵在探索高校教師數據素養時,采用模糊綜合評價法構建高校數據素養評價指標集合,包括5個一級指標和18個二級指標,每個指標賦予了不同權重;[17]趙歡歡在構建中小學教師數據素養結構模型時,采用了德爾菲法對評價指標體系進行了修訂。[18]在指標權重的設置上,研究者常采用探索性因子分析法和層次分析法。王維佳在分析科研人員數據素養時,采用探索性因子分析法發現科研人員數據素養包括數據真實性的認識、數據生命周期認識程度等18項內容;[12]李青等采用層次分析法設置了一級指標的權重,采用專家排序法對二三級指標的權重進行設置,構建了教師數據素養評價指標體系。[19]
在數據素養的實證評價方面,評價對象側重于學習、研究型人員,包括學生、教師、圖書館員、科研人員等,也有部分研究關注社會公眾的數據素養。評價目的主要包括:評價改進型——調查某類用戶數據素養并對其進行評價,提出改進意見和建議,以提升其數據素養;比較研究型——比較分析不同類型的評價對象及其數據素養情況;影響因素探索型——從微觀、中觀、宏觀層面分別開展數據素養影響因素分析。
評價改進型數據素養研究主要包括兩類。① 評價某類用戶的數據素養,展示其數據素養特征和規律。雷擎在研究經濟管理類研究生數據素養的數據分析能力時,發現我國經濟管理類研究生整體數據素養在逐年提高,但在論文中運用信息技術和工具進行數據分析方面較為薄弱;[20]Frank EP等對挪威奧斯陸大學地球科學系氣象專業學生的數據素養進行調研,發現學生的自我數據素養評價較高,但實際數據處理技能、數據分析技能等方面有待提高,并認為圖書館應在學生數據素養教育中起作用。[21]郝媛玲等對我國不同地區的6所高校和研究機構的圖書館學專業在讀研究生及圖書館館員進行深度訪談,發現圖書情報人員對數據進行科學管理、分類、分析的能力較差,缺乏系統的學習。[22]② 在探索數據素養需求和能力的基礎上開展相應培訓。[23]Reeves TD等對美國中西部大學64名職前教師進行了訪談,開展針對性的數據素養培訓課程,參與培訓的教師表示,通過數據素養培訓提高了數據查找、數據管理等的效率。[24]Wu M等對中國科學院大學生命科學學院的59名研究生進行了問卷調查,發現大多數研究生認為數據素養很重要,但他們缺乏相關的理論知識、缺乏使用數據管理工具的技能等。[25]
比較研究型既包括對不同專業、不同職業用戶數據素養的橫向比較,也包括相同專業不同年級用戶間的縱向比較。[26]Wiorogórska Z等對波蘭弗羅茨瓦夫大學和華沙大學博士生和科研人員的數據素養進行了比較,發現博士生和科研人員的數據素養意識都很高,但科研人員更看中科學數據管理的重要性,而博士生更傾向于對于元數據的培訓;[27]Doucette L對加拿大三千多名社會科學和自然科學專業的碩士、博士生的數據素養進行了調研,發現博碩士生對自我數據素養評價很高,但在數據查找、數據管理、科研效率等方面存在不足;[28]郝媛玲等調查了上海6所高校的教師數據素養現狀和需求,發現理工科教師更注重更新研究中的科學數據,文科教師對數據分析處理咨詢和數據存儲平臺的需求比例遠高于理工科。[29]
對數據素養影響因素探索主要包括微觀、中觀和宏觀三個層面。① 微觀層面主要指用戶的人口學屬性、學歷、專業、知識背景、職業類型等。在學歷和性別對數據素養影響方面,曲德強等發現在數據意識、數據技能方面,碩士研究生的數據素養要強于本科生;在數據挖掘、數據存儲意識和數據倫理方面,女生的數據素養強于男生;在數據技能方面,男生的數據素養強于女生。[30]在職業類型方面,Crowell A等發現工作者的學歷對其數據素養影響很小,而職業類型影響其數據素養。[31]在專業方面,郝媛玲等對上海地區高校文理科研究生數據素養進行調研,發現在數據意識、數據倫理和數據道德方面,文科生認知度高于理科生,但在數據技能方面,理科生要強于文科生。[32]② 中觀層面主要包括教育環境、數據文化等因素。Rui MV等發現在數據素養培訓環境下開展相應的課程能夠提高用戶專業知識的同時增強用戶的數據素養,尤其是在批判性思維方面;[33]Piro JS對比了78名學生在接受數據素養教學干預前后的數據素養自我評測,發現教學干預提高了學生的數字素養知識和技能。[34]③ 宏觀層面主要包括社會文化、技術、經濟等因素對數據素養的影響。我國高校圖書情報人員表示學科背景是影響個人數據素養水平最主要的因素,近一半的受訪者表示政策因素、文化氛圍、軟硬件條件等在一定程度上決定了師生的數據素養水平;[35]Boychuk M等在調研加拿大公眾的科學數據需求時也發現政府的政策會影響公眾的數據素養。[36]
(1)從研究問題和內容來看,基本涵蓋了數據素養評價的主要方面,包括數據素養基本內涵、數據素養相關的理論問題、評價指標體系的構建及實證測評等??傮w而言,數據素養的評價原則、評價過程與評價方法與用戶的信息素養評價、數字素養評價相類似,差異性主要體現在數據素養評價更加注重用戶在數據方面的能力,強調數據采集、管理、共享和知識發現等。
(2)從研究方法來看,既有定性方法也有定量方法。其中,定性研究包括觀察法、訪談法、德爾菲法,定量研究包括問卷調查法、實驗法、內容分析法、文獻計量法等。此外,還有研究通過開發相應的軟件工具來對數據素養進行評價。在研究中,應兼顧定性方法與定量方法,既照顧被評價主體的主觀特征,同時客觀、全面、準確地反映評價主體的數據素養特征。
(3)從研究對象來看,涉及了不同職業、不同年齡階段的用戶,既有研究普通大眾群體的數據素養調查,又有研究某類用戶的數據素養特征;既有對相同職業(專業)用戶數據素養規律調查,也有對相同專業不同年級用戶的數據素養縱向比較。
(4)雖然數據素養評價的指標有所差異,但基本的出發點還是遵循了數據素養的核心要素,即從倫理意識、數據知識、數據技能和思維方式4個層面設立指標。[37]① 倫理意識層面主要是對用戶數據意識和數據倫理進行評價。對數據意識評價的指標一般包括認識數據的重要性、了解數據所屬范疇、關注數據來源、對數據的敏感度、數據獲取意識、數據基礎意識、數據安全意識等;對數據倫理評價的指標一般包括了解相關數據法律和法規、規范引用數據等。② 數據知識層面主要指用戶所具備的與數據相關的知識,用戶從理論層面對數據有深刻的理解和認識,了解數據的基礎知識,具備數據相關技能知識。③ 數據技能層面主要指用戶真正掌握的數據技能,包括采集、管理、分析、應用、表達等方面的技能。④ 思維方式層面主要指用戶的數據研究與實踐過程中所形成的思維方式,如創新性思維、批判性思維、反思性思維等。
(1)加強數據素養概念的全面性和規范性,這是開展數據素養研究的基礎問題。已有研究者從多個視角對數據素養進行探索,造成數據素養概念的模糊與多義,對數據素養內涵的不同限定會直接影響指標層級和指標權重等的設置。Herzog D L指出,數據素養是對數據獲取、處理、分析、可視化及評價的過程;[38]Calzada Prado J等指出,數據素養指用戶獲取、理解、評估、管理數據的能力,同時在此過程中遵守道德規范;[39]Hogenboom K等認為,數據素養是用戶閱讀、分析、思考、解釋并將數據作為證據的能力;[40]肖希明等將數據素養視為數據生命周期中數據發現、收集、選擇、評估、保存、共享等一系列所需的意識和能力。[41]因此,建立對數據素養概念的統一認識是開展研究的根本。此外,有必要區分數據素養與其他素養之間的關系,如數據素養與信息素養、數字素養、媒介素養、計算機素養等之間的關系。有研究認為數據素養是數字素養在大數據環境下的延伸,[42]有研究認為數據素養與數字素養是并列概念,[43]有研究將數據素養視為信息素養、網絡素養、數字素養、媒介素養等的連續統。[44]因此,對數據素養概念維度的正確界定是構建評價指標體系的關鍵。
(2)加強評價體系的科學性和可操作性。一方面,在明確數據素養內涵基礎上借鑒更多的成熟理論,運用扎根理論建立設計合理、層次分明、維度清晰、可操作性強的數據素養評價體系,包括評價目標和理念、評價原則及具體評價內容等。另一方面,數據素養評價方法更加多樣化,目前大部分實證研究以問卷調查、訪談法、實驗法、內容分析法等方法為主,開發相關評價軟件為輔。[45]可以借鑒其他的研究方法,如理想點法[46]、網絡分析法[47]等,指標權重的確定可采用回歸分析法[48]等。此外,對評價指標體系的構建原則、方法、過程、結論等進行理論的高度概括和總結,為開展更多的實證研究提供現實指導,也為同類評價提供參考。
(3)加強數據素養的比較性研究。從用戶主觀特征角度進行比較,分析不同人口學自然屬性、專業特征的數據素養差異,同時探索不同心理特征、認知特征、情感特征的用戶數據素養差異,為豐富用戶素養理論體系提供豐富的素材。此外,從客觀角度進行比較,分析在不同教育環境、學術環境、數據環境下用戶的數據素養特征,為學校開展數據素養教育,創造數據素養環境,創新素養服務機制和模式提供依據。最后,從地域、文化的角度出發,對處于不同社會文化、技術、經濟環境的用戶數據素養進行探索和比較,為國家制定素養教育戰略方針提供更多參考。在數據素養比較研究基礎上,發現更多影響因素,為構建數據素養教育內容框架、探索數據素養教育與信息素養教育銜接、數據素養教育與新媒體教育方式融合提供借鑒依據。