邵吉寧 解崟崟 劉俊曉
(山東師范大學圖書館,山東 濟南 250013)
新世紀以來,數據素養已成為信息時代人才的核心素養之一。5G時代,我國在通信技術領域已處于世界先進水平,國家積極實施大數據戰略,推進數據資源的整合、開放、共享,加快數字中國建設進程。國務院于2015年印發《促進大數據發展行動綱要》,提出要加強數字圖書館、數字檔案館、數字博物館、數字美術館、數字文化館等公益服務設施的建設,構建大數據綜合服務平臺,為社會提供文化服務,傳播博大精深的中華文化,彰顯國家對于大數據戰略的發展決心[1]。美國政府早在2012年就倡導實施“大數據研究發展計劃”[2],鼓勵國家科研人員自覺提升從復雜數據中獲取知識的素養,用大數據來助力國家科學工程的進步、科學研究的改進、國家安全的鞏固。可見,提升研究生群體的數據素養是順應時代發展大趨勢的必然要求。
面對“第四科研范式”帶來的機遇與挑戰,提升研究生的數據素養水平是新時期信息素養教育的進一步深化和發展。但實踐的開展需要理論的支撐,由于目前我國對數據素養的研究還處于起步發展階段,因此,明確數據素養研究目標,清晰界定數據素養概念,合理構建數據素養評價指標體系,對于開展數據素養研究非常必要。
數據素養(Data Literacy)一詞最早出現在1997年,由美國學者杰爾斯特(Gilster)最早提出。他認為數據素養是指“能夠識別理解電子計算機出現的各類信息資源的能力”[3]。Carlson[4]等認為數據素養是指個人對數據深層次含義的個人見解,諸如能從數據中獲得想要的結論,能夠辨別數據中不恰當的使用和錯誤。Calzada[5]等認為數據素養指的是個人進行數據評估批判和分析管理的能力,以及在使用數據過程中對數據道德的遵守。Brown[6]等認為數據素養指的是個人在數據環境中,能夠正確使用數據工具和設備對數據資源進行開發利用,能夠利用數據創造新知識,進行溝通交流的一種意識和能力。
澳大利亞統計局(ABS)從實際出發,認為公眾具備數據素養的標志是擁有良好的數據意識、數據分析理解能力和數據解釋交流能力[7]。美國學者在開展“數據質量運動”期間,將教師群體作為研究對象,提出將教師數據素養與教師工作評價標準相結合的觀點,對教師數據素養提出的要求為:知道如何從可利用的數據資源中收集數據,如何對數據進行重組與分析,如何使用不同類型的數據,如何利用數據為學生制定針對性輔導計劃,幫助學生提升個人數據分析能力[8];Carlson[4]通過一系列的實驗和訪談,概括歸納出數據素養的核心要素,包括對數據庫的認知,數據的發現、獲取、組織、管理、變換、實踐、可視化、數據道德。C.Ridsdale[9]等專家學者構建了數據素養能力矩陣,該矩陣由5大知識領域和22個能力指標及相應的技能要素構成。
從科研人員的角度來看,張靜波[10]認為數據素養是科研人員必備的一項專業技能。她揭示了利用科學數據進行科研創新的規律,認為國家應該盡快為年輕科學家的培養制定專門的數據素養教育機制。李楣[11]認為數據素養是指擁有數據意識和數據辯證思維,能夠對數據進行合理解釋、評估、分析、保存和共享,同時掌握借用數據進行科研論證和決策的能力。吳成[12]認為,數據素養是指能對數據的來源進行思考,理解數據分析、利用、評價結果,能利用數據創造新知識并應用于實踐的能力。Gebre[13]認為數據素養是采集、分析和整理學生作業數據,評估學生學習效果數據的一種能力。
從社會公民的角度,楊曉瓊提出的數據素養能力指標具有高度概括性,研究對象涉及范圍廣,適用于各行各業的群體。她認為數據素養可以看成兩部分,第一部分為數據意識的驅動作用,第二部分為能夠認識到數據技能的重要性[14]。數據素養概念的提出者之一Milo Schield認為,數據素養是統計素養和信息素養的組成部分,具有數據素養的人懂得如何高效獲取數據、如何正確評估處理數據、分析總結數據以及展示數據[15]。
筆者基于現實發展、政策引導和研究現狀,提出研究問題,探究山東省高校研究生群體的數據素養教育發展對策。在結合研究生數據素養相關研究的基礎上,對數據素養的維度進行劃分,構建能力評價指標體系,編制了研究生數據素養調查問卷。采用紙質問卷和電子問卷相結合的形式,隨機發放給山東省高校的碩博士研究生。先對回收的數據進行加工整理,再對數據結果進行描述性、差異性和相關性分析。總結出山東省高校研究生目前的數據素養現狀,以及在數據素養方面存在的問題,根據現狀與問題提出針對性對策建議,同時總結研究不足,并對未來研究進行展望,研究路線如圖1所示。

圖1 研究路線
科學系統的量化指標是構建高校研究生數據素養能力指標體系的關鍵,它將直接影響數據素養能力評價的效果[16]。對數據資源進行合理展現、描述、解釋,可為后續的分析環節做好必要準備。
截至目前,學界對于數據素養內涵和框架的界定尚未達成共識。筆者在結合國內外學者觀點并參考2015年出臺的美國《高等教育信息素養框架》的基礎上[17],構建了數據素養能力框架(如圖2所示)。該框架由4個大類,12個具體指標構成。這4大類分別為數據意識、數據知識、數據能力和數據倫理和道德,每個大類又細分為3個具體的指標。

圖2 數據素養能力框架
在閱讀大量國內外數據素養相關研究領域專家學者著作文獻的基礎上,結合高校學生個人知識管理的基礎理論知識[18]以及歐盟數字素養研究框架[19],從中提取出能力表征要素,初步擬定37個三級指標,具體數據能力要素指標體系[20]見表1。

表1 數據素養能力指標體系
基于調研目的,筆者采用問卷調查法來深入了解山東省高校研究生群體數據素養現狀。結合數據素養能力指標體系的內容以及研究生群體的特征因素,初步確定了調查問卷的內容框架,經過3輪的修改與完善,最終完成調查問卷的設計工作(見表2)。

表2 調查問卷設計項統計
為了保證自編問卷結構和題目設計的合理性,在問卷正式發放前先進行小范圍的預測試。選取山東省不同高校不同學科專業的研究生為預調研對象,共發放預調研問卷50份,根據被調查者反饋的共性和個性問題,對部分存在理解分歧、表述不合理的題目進行修改與完善,同時對問卷的信度和效度進行初步檢測,以確保最終形成的問卷能夠為開展研究服務。
本次問卷調查時間為2021年12月15日至2022年1月13日,采用發放紙質版和電子版問卷兩種方式,共得到問卷343份,其中有效問卷331份。調查對象為包括山東大學、山東師范大學、中國海洋大學、青島大學、山東農業大學、曲阜師范大學、魯東大學等十余所山東省高校在內的碩博士研究生。
信度分析又稱為可靠性分析,通俗地講就是用來研究調查樣本是否真實地回答了問題。筆者采用的是最常用的“Cronbach.α系數法”,同時運用專業的統計分析軟件SPSS26.0來進行量表的α信度測量,結果如表3所示。

表3 信度檢驗
效度分析能夠檢驗研究題項是否有效地表達了研究變量的概念信息,通俗地講是為了檢驗題項設計得是否合理。筆者以調查問卷數據結果和研究生數據素養能力評價指標體系為基礎,使用KMO值和Barlett’s Test來進行檢驗。通常情況下,KMO值>0.8說明問卷結構效度較好,數值越大說明越適合做因子分析。筆者對問卷進行“KMO檢驗和Bartlett的球形度檢”,結果如表4所示。效度分析是進行因子分析的基礎,當問卷的效度KMO值>0.6,Bartlett球形檢驗sig<0.05時,說明可以進行因子分析。從分析結果來看,相關性檢驗的KMO值為0.879,說明問卷有較好的結構效度,Bartlett球形檢驗的值為3623.387,自由度df為276,顯著性為0.000,小于0.001,達到了顯著水平,由此可知變量之間有公共因子變量存在,適合進行后續因子分析。采用主成分分析方法提取因子的結果見表5。從中提取了5個成分,并且因子解釋原有變量的累積方差貢獻率為59.5%

表4 KMO和巴特利特檢驗

表5 總方差解釋
本次調研有效人數共計331人,其中男生占比31.1%,女生占比68.9%,整體來看女生占比較多,男生占比較少。從樣本的年齡分布來看,21~25歲的研究生占73.97%,26~30歲的研究生占23.9%,其余年齡段研究生占2.13%,可以發現參與調查的對象主要集中在21~25歲這個區間,30歲以上的對象較少。 從年級分布來看,碩一占總人數的24.78%,碩二占44.61%,碩三占23.03%,博士研究生占7.58%,參加調研的碩士研究生中以碩二和碩三的學生為主體,博士研究生人數較少(見表6)。

表6 樣本性別及年齡構成
在研究其他維度現狀之前,將有關研究生對數據素養這一概念的認知程度的題目安排在前面。調查結果顯示,有41.11%的同學表示“聽說過但是不了解其內涵”,有29.45%的同學表示“基本了解其內涵”,“完全不了解”數據素養概念的同學占20.41%,“有較深了解”的人數僅占9.04%。從宏觀角度來看,山東省研究生群體對“數據素養”這一概念的認知程度并不高。
5.2.1 獨立樣本t檢驗
進行獨立樣本t檢驗是比較兩個組別在某個連續變量上是否存在顯著差異的統計學方法,檢驗之前分組和指標類型都要達到一定的前提要求。分組要求是兩組之間進行差異對比;指標類型要求是兩組都是連續數值型變量且都服從正態分布。
經過正態分布檢驗后可知,男女研究生在數據意識、數據獲取、數據加工與處理分析、數據交流這4方面的數值都服從正態分布(見圖3~6)。

?
5.2.2 單因素方差分析
(1)不同年級研究生數據素養方差分析
單因素方差分析,用于研究分類數據與定量數據之間的差異關系。為了判斷研究生所處的年級是否會影響其數據素養,對年級進行單因素方差分析。統計結果如表7所示。從統計結果可知,在數據意識(F=1.417,P=0.197)、數據加工與處理分析(F=1.639,P=0.124)、數據評價(F=0.957,P=0.463)、數據倫理道德(F=1.881,P=0.072)4方面P值都大于0.05,所以這4方面在不同年級之間不具有顯著性差異。在數據獲取(F=2.13,P=0.04)方面P值小于0.05,所以不同年級研究生在數據獲取方面具有顯著性差異。其原因可能在于,高年級的研究生學習了更多的課程知識,參與更多的實踐活動,數據方面的意識和態度都逐漸提升,在數據搜集與獲取方面也更有經驗,且撰寫論文發表文章的需求與計劃更多,所以在數據獲取方面擁有更強的能力。

表7 不同年級研究生數據素養的方差分析
(2)不同學科門類研究生數據素養方差分析
為了判斷學科門類是否會影響研究生的數據素養,對學科門類進行單因素方差分析。統計結果如表8所示。從統計結果中可以看出,在數據獲取(F=1.23,P=0.266)、數據加工與處理分析(F=1.642,P=0.086)、數據倫理道德(F=0.59,P=0.837)3個方面P值都大于0.05,所以不同學科門類在這三方面不具有顯著性差異。在數據意識(F=2.582,P=0.004)、數據評價(F=3.454,P=0)兩方面P值都小于0.05,可知不同學科門類研究生在數據意識和數據評價兩方面具有顯著性差異。其原因可能在于,不同學科門類的研究生所學的專業內容千差萬別,理工科研究生在學習生活中接觸到的數據比較多,社會科學類研究生接觸較少,經過時間的積累不同學科門類的研究生在數據意識和數據評價能力方面就產生了差距。

表8 不同學科門類研究生數據素養的方差分析
(3)多重比較方差分析
運用最小顯著差異法(LSD法)對數據進行事后檢驗發現(檢驗結果見表9),在數據獲取這一因變量上,碩一和博二的P值為0.02,小于0.05,說明這兩個年級在數據獲取方面差異是顯著的;碩三和碩一的P值為0.025,小于0.05,說明這兩個年級在數據獲取方面差異也是顯著的,其他年級之間是不顯著的;在數據加工處理與分析這一因變量上,碩一和博四的P值為0.035,小于0.05,說明這兩個年級在數據加工處理與分析方面差異是顯著的,其他年級之間是不顯著的;在數據倫理道德這一變量上,碩一和碩三的P值為0.002,小于0.05,說明兩個年級在數據倫理道德素質方面具有顯著差異。其原因可能在于,碩三是碩士研究生最后一個階段,博士研究生都經歷過碩士階段,通常來講碩三和博士研究生在知識儲備、學習經歷、學術道德、科研成果儲備方面都遠遠高于碩一研究生,這也就導致了彼此在數據獲取、數據加工處理分析、數據倫理道德方面具有顯著差異性。

表9 不同年級研究生數據素養的多重比較方差分析
相關性分析可以用來研究不同變量之間的相關關系,相關系數的大小是衡量相關關系的標準。相關系數分為皮爾遜(Pearson)相關系數和斯皮爾曼(Spearman)相關系數兩種,皮爾遜相關系數法是最常用的,所以筆者選用皮爾遜相關系數研究變量之間是否存在相關關系。通常情況下,皮爾遜相關系數的取值范圍介于-1~1之間,如果數值大于0,則說明變量之間存在正相關關系,反之則說明變量之間是負相關關系,檢驗結果如表10所示。

表10 相關分析結果
經過數據處理之后,可以發現“對科研數據的敏感性”與“能用圖表呈現數據并揭示數據中隱含信息”之間的相關性顯著性數值為0,小于0.01,說明二者之間存在顯著相關性關系。觀察數據可知,“對科研數據的敏感性”與“能用圖表呈現數據并揭示數據中隱含信息”之間的皮爾遜相關性系數值為0.325,大于0,說明二者之間存在正相關關系。即“對科研數據敏感性”越高,則“能用圖表呈現并揭示數據中隱含信息的能力”也越高;“能用圖表呈現并揭示數據中隱含信息的能力”越強,則“對科研數據敏感性”也越強。
同時,還發現“對科研數據的敏感性”與“對獲取的數據進行分析與解讀的能力”之間的相關性顯著性數值也為0,同樣小于0.01,說明二者之間存在顯著相關性關系。由數據可知,“對科研數據的敏感性”與“對獲取的數據進行分析與解讀的能力”的皮爾遜相關性系數值為0.412,大于0,說明二者之間存在正相關關系,且相關關系更加密切。可以得出“對科研數據敏感性”越高,“對獲取的數據進行分析與解讀的能力”也越高;“對獲取的數據進行分析與解讀的能力”越強,“對科研數據敏感性”也越強。
通過調研結果和數據分析結果可以看出,山東省高校的研究生在基本數據素養方面的表現是值得認可的,普遍對自身所處的數據環境比較滿意,初步具備良好的數據意識,能夠對自身的數據需求做出判斷,能夠利用數據與他人進行簡單的交流。在數據倫理道德素質方面,整體表現也較好,能夠明確自身在進行數據運用過程中應遵守的數據道德規范。
但是,在數據信息獲取能力、數據內容創建能力、獨立解決數據問題等數據素養綜合能力方面還存在不足。在數據素養各項維度中,數據意識與數據倫理道德的維度水平最好,而數據加工處理與數據交流的維度水平較差。在性別方面,男女研究生的數據素養水平在性別上差異不顯著;在學位類別方面,學術型研究生和專業型研究生的數據素養水平差異不顯著。在年級方面,不同年級研究生的數據素養水平差異顯著,年級越高數據素養水平越高;在學科門類方面,不同學科門類的研究生數據素養水平差異明顯,理工類專業研究生數據素養水平高于文史類專業研究生。在對數據素養內涵了解方面,近六成研究生不了解數據素養具體內涵,說明山東省高校研究生對數據素養的關注度仍需加強。
6.2.1 不同個體間數據素養各維度指標差異顯著
總體而言,高年級研究生優于低年級研究生,理工類專業研究生優于文史類專業研究生,而且相同年級和相同學科內部也存在差異。
6.2.2 數據知識的熟練掌握能力有待進一步提升
調查整體呈現的結果是研究生數據獲取、數據解讀、數據評估、數據可視化表達能力一般,對數據格式知識了解不足,對數據進行管理分析能力有待提升,對數據知識熟練掌握度較低,利用數據搭建起知識間關聯模型的能力較差。
6.2.3 缺少利用數據工具開展學習的主動性
在調查過程中了解到,能夠主動利用數據工具進行資料查找和文獻處理的人數占比不足1/5,大部分研究生只是到要進行數據加工處理時,才去嘗試探索學習數據工具的使用方法,而不會提前進行自主學習,做好相應準備。
6.2.4 缺少利用數據技能解決實際問題的創新能力
調研結果顯示,大部分研究生對新興數據技術僅保持觀望態度,不能扮演好數據知識貢獻者的角色。如果僅是被動地接受數據知識,而不主動去學習實踐,那么很快就會被數據時代淘汰,研究生利用數據技能進行創新的意識和能力亟待提升。
7.1.1 合力營造良好氛圍,推進研究生數據意識培養
數據意識是人類對數據的一種感知和對數據的迫切需求,是決定我們能否在數據素養起跑線上獲勝的關鍵。社會大環境對數據意識的培養有重要影響,社會各方應為研究生積極創造良好的數據素養環境,在全社會范圍內營造出一種重視數據、尊重數據的大環境,助力研究生早日培養良好的數據意識。新聞媒體要發揮各自優勢,開展諸如數據素養調查、數據素養原創視頻征集、數據素養知識競賽等活動,將培養研究生數據素養的努力滲透社會生活方方面面。其他政府機關和非營利性組織應做好數據素養教育宣傳工作,在宣傳教育過程中提升研究生數據素養。
7.1.2 強化數據意識,提升對數據信息的敏感度
研究生應該樹立良好的數據意識,增強對數字信息的敏感度,掌握熟練使用數據工具的操作技能。數據工具在研究生開展科研工作中發揮著不可替代的作用。在堅持數據知識學習的前提下,強化自身對數據知識的求知欲,鍛煉利用檢索網絡數字資源分析和解決問題的能力,并不斷提升自身的數據資源應用水平和利用能力。在提升自身數據意識的前提下,增強對數據資源的開發與合理利用。
7.2.1 整合優質資源,注重數據素養教育空間的創建
創建正式和非正式數據學習空間,可為研究生提供更為靈活和豐富的數據素養教育支持。正式學習空間可通過組建數據素養教學團隊、設置課程群、搭建大數據平臺來實現。而嵌入式學習、協作學習內容則可通過非正式學習來完成。高校圖書館應充分發揮在數據素養培訓中的作用,開展面向研究生的數據素養與技能挑戰賽,邀請數據領域的專家設計大賽流程、建設題庫、擔任評委。延伸和深化數據素養教育空間,實施嵌入式數據素養教育。采用分學科、分模塊的形式進行課程設置,提供學科化的數據素養課程服務。采用線上線下相結合的方式開設數據素養課程,利用信息化的開放教育平臺,對優質數據素養課程進行推廣宣傳,以此來打造全方位的數據素養教育空間。
7.2.2 借鑒成功經驗,廣泛開展研究生數據素養教育
首先要開展針對不同學科、不同年級的多維度數據素養教育。不同專業背景的研究生由于自身知識儲備的差異,在進行科研時表現出的數據行為也呈現出不同的特點。開展數據素養教育之前應先進行調研,提前了解不同學科領域學生數據素養現狀和數據需求,同時開設數據素養通識教育課程和專業課程,深化教學內容。其次,要開展統一協調各方機構的數據素養教育。數據素養教育的開展要依靠高校內各單位共同推進。各方機構應提前了解研究生的數據需求,提供科學數據咨詢服務,根據學生需求對學生群體進行細分,推行個性化定制服務,通過開放研討會、專題講座、基礎培訓課程等形式,不定期開展數據素養教育培訓。最后,發揮自身優勢,積極從內容和形式上進行創新,推出獨具特色的數據素養教育課程,各單位之間要加強數據素養教育過程中的經驗交流分享。
7.3.1 確立培養目標,全面提升研究生數據技能
結合山東省高校研究生數據素養調查結果和影響因素來看,首先要確立研究生數據素養培養目標。其次要主動培養研究生數據創新意識和科學數據精神,應以培養科學精神和科學數據意識為核心,以培育創新能力和批判理性精神為重點。再次要注重培養研究生自我評價能力,通過對研究生數據素養評價了解其在數據素養方面的不足,探尋解決問題的辦法。最后要培養研究生熟練使用數據工具的技能。數據工具范圍廣泛,包含有關數據獲取、數據查詢、數據分析、數據應用的各類自媒體、多媒體和應用程序。幫助研究生熟練掌握數據工具使用技能,有利于鍛煉培養他們的數據挖掘能力、數據分析能力、數據利用能力,進而提升數據素養。
7.3.2 重視能力提升,加強對數據知識的積累與反思
研究生要強化自身的數據獲取、處理、交流、分析能力。面對良莠不齊的數字信息,要進行合理選擇與摒棄,同時利用多方面的數據信息檢索,思考并尋求最優化答案,在實踐過程中提升數據能力,加深對數據的了解,增強對數據知識的思考。要主動加強數據知識學習經驗的交流與分享,相互學習,取長補短。在進行數據知識積累與反思的過程中,不斷提升自身解決數據問題的能力。
7.4.1 發揮社會各方主體優勢,推動數據素養服務平臺建設
當前研究生群體的數據素養教育工作主要是由高校承擔,而政府和企業參與度不高,缺少主動服務的實際行動。應聯合多方力量,發揮主體優勢,結成合作伙伴關系來推動研究生數據素養水平的提升。政府部門應充分認識到開展數據素養教育的重要性,合理地將教育資源向數據素養教育領域供給,推動完善研究生數據素養教育相關的法律法規建設,加強校企合作,助力形成“產學研一體化”教育體系。教育部門應建立合作關系,合力開發搭建公益性網絡教育平臺,為全省研究生提供平等的數據素養教育機會。高校研究生應主動加強與企業之間的聯系,共同完成數據知識項目。社會各主體要以提升研究生數據素養為目標,做到資源共享,共同完成數據素養科研項目。社會其他主體應在新時代提升研究生數據素養實踐中有新作為、新擔當,更好地為數字中國國家戰略服務。
7.4.2 端正科研態度,提升自身數據倫理道德素質
在互聯網快速發展的今天,數據的獲取和保存變得更加容易。有相當多的研究生對數據的正確引用規則缺乏了解。數據信息應該得到尊重,每一名研究生都應該自覺遵守學術倫理道德規范。研究生要強化自身數據倫理道德素質,牢固樹立學術倫理道德的意識,明確自身數據需求,不盲目獲取數據資料。要始終保持對研究數據的敬畏與尊重,嚴格遵守學術道德,不違反科研規定,不隨意竊取、編造科研數據,不隨意傳播虛假數據信息,對于學術不端的行為堅決說“不”。