

關鍵詞:數據清洗實訓;教學改革;混合式教學
引言
數據清洗是高職院校大數據技術專業的一門必修課。該課程主要講授了數據清洗的相關理論知識,如何利用Kettle組件以及Python的Numpy.Pandas等庫完成數據抽取、清洗、集成、轉換工作。數據清洗實訓是數據清洗課程的延伸,通過教師開發的一系列專業實操訓練,把所學的數據清洗理論知識和方法應用到具體項目實訓中,是幫助學生掌握數據清洗技術、提高數據清洗項目的實踐能力的有效手段,是提高學生獨立操作能力、分析問題和解決問題能力的一個重要環節。
一、教學面臨問題
在之前的數據清洗實訓課程中,Kettle工具的五個實訓任務,主要集中在單純的拖動組件、配置參數,學生覺得課程內容略顯枯燥,興趣不高。
此外,Python工具的三個實訓任務,本質上都是先讀取數據,必要時合并數據,然后進行缺失值、異常值、重復值的處理,最后保存清洗后的數據,并對數據進行簡要的分析處理。由于整個過程都是使用Python語言進行編程實現,學生反饋代碼思路過于單一,缺少趣味性。
在數據清洗實訓課程中,關于Kettle的實訓項目,只涉及了如何創建和使用轉換(Transformation),并未涉及對多個轉換構建的整個工作流的抽象和控制(Job)。而在實際工作環境中,為了實現某些復雜場景下的數據清洗,需要先為子任務創建轉換,然后再創建Job,將子任務連接起來,完成一個完整的數據清洗過程。這使得學生在面對實際工作場景下的復雜任務時,沒有使用Job對多個轉換進行構建的意識,無法創建完整、清晰的數據清洗流程,缺少解決相應問題的能力?!?br>