趙福生,劉力
(沈陽師范大學教師教育學院,沈陽110034)
國外,計算思維作為21世紀的一系列關鍵技能已經進入了K-12[1]。國內,計算思維作為核心素養之一成為信息技術學科的核心議題,現正在向義務教育階段普及[2]。然而,計算思維評價仍然是具有挑戰性的任務,它不只評價專門領域內的技術和技能,也要評價與領域無關的元技能。找到這樣的解決方法是很關鍵的,因為評價不僅決定教育的目標是否達到,而且它還用于課程設計[1]。
Roman-Gonzalez等人將現存的k-12階段計算思維評價方法基于不同的視角分成了五類[3]:①終結性評價:一般是通過標準化測試進行;②形成性迭代工具,指的是在一個特定的編程環境下,通常是通過自動的反饋提高計算思維技能;③技術轉移工具,它是用來評價將計算思維技能轉移成不同類型的問題;④感知—態度量表,一個典型的例子是CTS,它用來檢測學生的創造力、算法思維、合作性,批判思維及問題解決能力;⑤詞匯評估,它基于這樣的理念,即領域內的語言可以幫助更有效地思考計算思維。
近5年,國內外學者對計算思維評價的研究都取得了一定成果,但鮮有文獻對最新的研究發展情況進行梳理。因此,為揭示國外計算思維評價的發展,本研究在對國外計算思維評價研究進展梳理與分析的基礎上,對國內計算思維評價研究提出一些期望與建議,以期為我國今后計算思維評價研究與實踐的開展提供借鑒與參考。
本研究選取ACM Digital Library(國際計算機協會數字圖書館)刊發的“計算思維評價”近5年相關期刊文獻,作為研究樣本。樣本的獲取方法為:使用Ad?vanced Search(高級檢索)功能,檢索項目選擇The ACM full-Text collection,內容檢索條件選擇Title,并輸入關鍵詞computational thinking,邏輯條件選擇“&”,同樣Title輸入assess,檢索日期選擇01/01/2016到03/31/2020,共檢索出文獻43篇,剔除非學術性及與計算思維無關的文獻后,將剩余的26篇作為本研究的有效樣本。主要采用內容分析法,從細節入手,闡述國外計算思維評價研究的最新進展。
國外學界對于計算思維的解讀存在著多樣性,但評價的依據多是根據Brennan&Resnick對計算思維三個維度的劃分,計算概念、計算實踐和計算觀點。這種劃分有利于將計算思維的培養融合到具體課程和不同的課程中[2],尤其是在K-12階段,極大地促進了計算思維概念突破了計算機科學的局囿,廣泛地用于指導具體的實踐,也有利于研究者們利用已被證實有效的工具進行評價或開發新的工具。現在國外學界計算思維評價的研究在工具內容上呈現兩個方面:非計算機科學的和計算機科學的。
這類評價主要針對低年級的學生,無須經過培訓,由于他們在生活中和學習中無意識地接觸了一些計算概念,為了測量他們的水平,采用了智力游戲類的工具。
基于游戲學習的測試工具(GBLA),這種類型以闖關游戲為測試環境,通過學生闖關的“行為記錄”測試其計算思維。Elizabeth Rowe等人用Zoombinis學習游戲軟件測試3-8年級學生的隱性計算思維[4]。他們認為隱性思維雖然難以言述,但可以通過行為表露出來,于是用Zoombinis評價計算實踐中的問題分解、模式識別、抽象和算法思維等計算思維技能,并根據它們在解決問題過程中的發生順序排列成線性關系,與之對應交織在一起的是人類問題解決的行為迭代過程——從試錯開始,至歸納通解結束。研究圍繞著“人類能可靠地標記出什么樣的內隱計算思維的行為作為測試指標”問題展開。首先,對不同年齡、不同經驗玩家闖關時采取的策略錄制視頻并加以分析;其次,將視頻中出現的人類行為指標和游戲產生的腳本合并,將日志數據提取為對測量策略有用的特征,尤其是那些與計算思維一致的策略;再次,在游戲腳本中建立玩家計算思維策略探測器,驗證探測器的有效性。Elizabeth已經找到了12個闖關游戲中的5個,下一步將用一致性信度驗證指標系統,最終建立隱性計算思維的自動探測工具[4-5]。
Satabdi Basu等人對計算概念中的“數據與分析”進行評價,他將這個概念進一步細分為:數據收集、存儲、可視化、轉換[6],并為每個子模塊設計了一套評價原則。實驗過程是讓學生使用一款形成性評價工具Beats Empire,這是一款音樂制作管理游戲,學生收集聽眾的興趣,使用收集的數據決定由哪位藝術家獻歌,獻什么歌并進行錄制。結論發現:①43%的錄制歌曲沒有依據任何歌曲的數據分析,而是更多的依賴“喜好”和“生活經驗”,說明學生的數據素養不高;②學生不能熟練地使用線型圖,區分線型圖和條狀圖上也存在困難。
Satabdi Basu等人采用循證方法(ECD)設計了12個任務[7],所有的任務都是基于情節的且不依附于編程知識。經過對香港54所學校14787名4-6年級學生測試后的數據信效度分析后,他們認為,盡管擁有實踐知識不等于在實踐中能夠創造出作品,但是學生在工具上的表現可以提供它們在嘗試參與這些實踐時將面臨的挑戰。
Kanaki Kalliopi等人用PhysGramming游戲軟件評價希臘1-2年級學生[8]。盡管游戲的項目與計算思維的維度建立了良好的對應關系,但是關于測試分數與計算思維水平之間的關系,即“高分數是高水平計算思維的充要條件嗎?”這個問題,Kanaki沒有回答。
Brandon Rodriguez等人將創始人Tim Bell的“不插電”的計算機科學活動(CS Unplugged)擴充到了10個[9]。他們假設“不插電”活動可以向其他方法一樣有效地教授基本的計算概念,例如二進制數、二元搜索和排序網絡。因此設計了兩個實驗,經過對兩個組測試的數據分析后,發現學生通過“不插電”活動至少是記住了計算概念,也學到了很多計算方面的知識。但是對每一個活動的數據分析后,Brandon認為,學生在被認為與數據表達技能對應的二進制字符編碼上的優秀表現,不意味著就能完全理解數據表達任務。
綜上,非計算機科學測試工具主要采用游戲類軟件,它的關鍵是什么內容的測試題目能準確地反映計算思維的維度及水平的高低。
這類工具的開發者認為編程是計算思維形成的土壤,只有用專業的知識評價,才能獲得準確的信息。它針對的是具有專業知識的學生或教師,否則要培訓后再測評。
Siu-Cheung Kong和Andrew Chan-chio Lao認為最有效的培養教師計算思維的方法就是通過編程培訓[10]。為此,他們設計了兩門課程,課程1聚焦于計算思維概念、實踐和觀點,課程2重點內容是計算思維培養的教學方法。測試后,經過數據分析和信效度計算,他們給出了在教學方面的建議:教師參加課程培訓后,取得了計算思維實踐能力的提高,教師應該在他們的教學初期和職業發展過程中接受編程訓練,并參與如何培養計算思維教學方法的研討,有助于教師在以后的職業生涯中回顧和反思他們入職初期所學,并在職業發展中不斷積累經驗。最后,認為未來值得研究的是,教師計算思維的形成對學生的影響。
Amy K.Hoover等人基于設計游戲能表達被試的計算思維的理念,且游戲的高復雜性和意圖代表著高層次的計算思維[11],他們對5位初中女生進行前期游戲設計培訓后,讓她們用Scratch設計一款反映“氣候變化”的游戲,并用三角驗證法(triangulation),目的是探索混合評價方式的約束條件,改進測評分數,為教師和學生提供更有意義的反饋。經過對比學生的作品,發現盡管量表得到了驗證,修復了對未使用的“積木塊”也進行了加分的弊端,但是在邏輯上、內容的合理性上還是存在天生的缺陷。質性分析得出的游戲設置過于簡單、不現實甚至不合理的判斷都無法通過量化分析體現,因為量化分析依據的是“代碼出現的頻率”,復雜代碼出現的頻率大(如if...else),得分就高,而不考慮復雜代碼的必要性、目標的可達到性與功能的關系等。
Eric Wiebe等人將Roman-Gonzalez的CTt量表和Bebras結合起來,開發了一個適用于6-8年級的“精益”的具有較高表面效度的計算思維評價工具[12]。CTt和Bebras天生的具有互補性,且都是經過驗證的成熟的工具。盡管它使用了類似于編程方式的“積木”工具,但是研究并沒有在預先沒有編程經驗的學生身上發現“地板效應”。二者的測量對象都是無編程背景的學生,CTt側重于實踐,使用了“積木式”工具,如圖1所示,Bebras更偏向于概念,所以使用了“填圖”類工具,如圖2所示。

圖1 CTt的一個樣例

圖2 Bebras競賽的一個樣例
綜上,計算機科學測試工具克服了尋找“替代品”的障礙,但被測對象要具備一定的編程基礎。還有,如何識別出代碼之間內部的邏輯關系也是一個難點。
目前,國內的研究相對落后,仍是以測試題或量表為主流工具。郁曉華(2019)采用測試題前后測方法證明培養實踐的有效性[13],顧小清(2019)以CT量表為工具,采用李克特5點計分法,對我國南方某省1015名學生測量計算思維[14]。去年,教育部印發的《2019年教育信息化和網絡安全工作要點》的通知[15],明確提出,將推動在中小學階段設置人工智能相關課程,普及人工智能教育,并逐步推廣編程教育。最近,教育部又發文,將編程課列為中小學必修課程[16]。鑒于此,我們在借鑒國外計算思維評價研究進展的基礎上,提出以下建議:
使用計算機科學(編程類)軟件工具作為測評環境,且按照以下順序評價計算思維。第一,以結果實現為第一準則。程序實現是計算思維評價的根本,復雜度再高的代碼,如果沒有實現程序要求,也無濟于事,因為這可能意味著程序邏輯上的錯誤;第二,在結果實現的基礎上,優先考慮代碼量最少(積木塊最少)。代碼行數少,意味著邏輯嚴謹,計算實踐性強,使用算法的可能性很大。如遞歸算法要比循環代碼量小;之所以不優先考慮代碼復雜性,因為無限制的代碼復雜性不一定代表著計算思維能力強。如,實現switch...de?fault語句功能可能需要多層if...else嵌套,但顯然前者執行效率高;第三,在前二者的基礎上,代碼嵌套層次越多,意味著程序越復雜,計算思維能力越強,國外已經開發出測試閱讀代碼能力的工具Nester[17]。
教育測量與評價是教育科學研究的三大領域之一,而思維的測量與評價是其中的難點,計算思維評價作為新興產物,在我國處于起步階段。縱觀國外的研究進展,大都在使用軟件自動測評法,并用三角驗證法衡量量化結果的有效性。鑒于國外測評軟件的使用情況及國內即將在中小學開設編程課程,筆者認為,我國學者應關注計算機科學類測評軟件的研究,并提出了提高評價有效性的3點建議,希望對相關研究提供一些幫助,共同推動我國計算思維教育教學的健康發展。