肖卓宇 黎妍








摘? 要: 為了提高Python數據分析課程教學效果不佳的問題,以計算思維為導向,厘析了Python數據分析的核心知識點,設計了Python數據分析依賴包知識點調查問卷,探究了Python數據分析總體流程,構建了四階段的Python數據分析依賴包與計算思維能力映射關系,為Python數據分析課程教學改革提供了新思路。
關鍵詞: 計算思維; 問卷調查; 數據分析; 映射
中圖分類號:G642? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2021)12-121-04
Abstract: In order to improve the teaching effect of Python data analysis course, the core knowledge points of Python data analysis based on computational thinking were analyzed, the questionnaire of Python data analysis dependency package knowledge points was designed, the process of Python data analysis was researched, a four stage mapping relationship between Python data analysis dependency package and computational thinking ability was constructed, which provides a perspective for the teaching reform of Python data analysis.
Key words: computational thinking; questionnaire; data analysis; mapping
0 引言
信息技術與數據存儲飛速發展的今天,全世界每天產生EB級海量數據,2020中國通信院大數據白皮書預測,到2035年全球將產生2142ZB的大數據。如何充分利用數據、處理數據成為困擾行業的難題,因此,數據分析顯得尤為重要[1]。Python數據分析目前是眾多高校人工智能與大數據相關專業的核心課程,培養大學生數據分析思維素養已刻不容緩。為提升Python數據分析課程教學效果,眾多研究團隊做出了很多貢獻[2-5]。
李書影等[6]基于Python數據分析構建了國外社交平臺評論《道德經》的情感分析模型。謝紅霞等[7]設計了線上線下融合的Python數據分析課程教學改革。楊彩云等[8]提出以案例為驅動的Python數據分析課程教學改革。賈揚蕾等[9]分階段提出以成果為導向的Python數據分析教學改革。肖卓宇等[10]通過深度學習課程為例,關注計算思維與深度學習能力要求的映射關系。文獻[11]構建了計算思維與Python公共基礎能力要求的映射關系。
總而言之,目前眾多研究團隊在Python數據分析課程改革上提升了教學效果,但總體而言存在以下主要問題:
⑴ 缺乏用基于計算思維能力要求的視角實施Python數據分析課程教學改革;
⑵ 尚未建立Python數據分析課程與計算思維能力間的映射關系;
⑶ 部分研究關注到了計算思維與信息類課程的映射,但缺乏對Python數據分析課程的關注。
因此,本研究致力于從根本上探究提升Python數據分析課程的教學效果,以計算思維為導向,歸納了Python數據分析依賴包的核心知識點,設計了Python數據分析依賴包知識點調查問卷,探究Python數據分析總體流程,構建了四階段Python數據分析依賴包與計算思維能力的映射關系。
1 Python數據分析依賴包問卷調查設計
表1通過問卷星平臺進行線上調查,問卷調查對象為AI從業人員、大數據技術從業人員和相關專業的大學生。調查時間從2021年3月1日開始,截止日期為2021年6月1日。調查問卷涵蓋行業內主流的Python數據分析依賴包,如Numpy、Pandas、Matplotlib、Scikit-Learn、Scipy、Tensorflow、Keras等,共計發放647份,回收有效問卷589份,有效問卷占比為91.36%,調查對象可對問卷中的Python數據分析依賴包選項進行單選或多選。
表2通過降序對Python數據分析依賴包問卷調查的重要性進行了排序,其中,Numpy、Pandas、Matplotlib、Scikit-Learn四個依賴包分別以615、580、540、270的選中數占據前四。
參與問卷調研的人群,男性調查者占71.21%,女性調查者占28.79%。理科與工科占62.3%,管理類與文科專業占37.7%。年齡分布18至22歲占46.8%,23至35歲占36.7%,35歲以上者占16.5%。
圖1通過使用Wordart軟件對Python數據分析依賴包問卷調查結果進行可視化展示, 并給出了Python數據分析依賴包的關鍵字云圖。
2 計算思維導向下的Python數據分析教學改革
2.1 計算思維
2006年3月,Carnegie Mellon University周以真教授在權威期刊《Communications of the ACM》上提出并定義了計算思維[12]。計算思維實質是運用計算機的思維與概念對復雜問題進行求解,可通過仿真、遞歸、抽象、迭代與啟發式等方法將一個相對復雜問題進行分解、實現并行處理等。
目前,計算思維在信息類課程教學中取得了較好的效果[10-11]。為此,課題組基于前期工作基礎與圖1 中的Python數據分析依賴包關鍵字云圖,致力于研究計算思維導向下的Python數據分析教學改革,探究計算思維與Python數據分析依賴包Numpy、Pandas、Matplotlib、Scikit-Learn的映射關系,以提升Python數據分析課程的教學效果。
2.2 計算思維與Python數據分析依賴包映射
圖2描述了Python數據分析總體流程。首先,數據源階段獲取的數據需要通過Numpy和Pandas依賴包進行數據預處理;接著,預處理后的數據需要通過Scikit-Learn依賴包進行數據的訓練與建模;而后,需要繼續通過Scikit-Learn依賴包的特征指標對應用結果進行有效評估;最終,評估結果將通過Matplotlib依賴包進行可視化展示。
依據表2中的調研問卷結果與圖2中的Python數據分析總體流程,并綜合項目組前期工作基礎[13],構建四階段的計算思維與Python數據分析依賴包關聯映射:①計算思維能力和Numpy依賴包關聯映射;②計算思維能力和Pandas依賴包關聯映射;③計算思維能力和Scikit-Learn依賴包關聯映射;④計算思維能力和Matplotlib依賴包關聯映射。
2.2.1 計算思維能力與Numpy依賴包關聯映射
Numpy包是Python程序語言用于數據科學計算的基礎包,能夠有效處理多維數據、大型矩陣等的計算問題,并能夠對數據進行切片、整合等,有助于提升Pandas包的使用效率。
計算思維能力與Numpy依賴包映射階段主要關注Numpy數組、Numpy矩陣、Numpy函數、Numpy統計分析等知識點,同時需要探究學生掌握上述知識點所需具備的計算思維能力,如Numpy數組與Numpy矩陣需要學生具備概念化與抽象思維等能力,Numpy包切片函數需要具備抽象思維、遞歸和分解等能力等,見表3。
2.2.2 計算思維能力與Pandas依賴包關聯映射
Pandas 依賴包依托于Numpy依賴包,其中,Numpy依賴包是基礎。Numpy依賴包側重科學計算,而Pandas 依賴包側重統計分析。
計算思維能力與Pandas依賴包映射階段主要關注DataFrame操作、合并與聚合數據、清洗數據、標準化數據、數據轉化等知識點。其中,DataFrame操作需要具備概念化與抽象思維能力;合并與聚合數據需要具備分解、迭代等能力;清洗數據需要具備概念化、抽象思維、數學思維與迭代等能力;標準化需要具備數學思維、概念化與抽象思維能力等;數據轉化需要具備數學思維和分解等能力,見表4。
2.2.3 計算思維能力與Scikit-Learn依賴包關聯映射
Scikit-Learn依賴包的Model_selection模塊提供了部分監督學習、非監督學習和強化學習算法;Preprocessing預處理模塊提供了PCA降維、OneHotEncoder、Normalizer、Function Transformer、StandardScaler、Binarizer等處理方法。
計算思維能力與Scikit-Lear依賴包映射階段主要關注數據集劃分、數據預處理、模型構建、評估模型。其中,數據集劃分需要具備概念化與數學思維能力;數據預處理需要具備概念化、數學思維和抽象思維能力;模型構建需要具備工程思維、數學思維、數據建模和符號表示等能力;評估模型需要具備數學思維、概念化和符號表示等能力,見表5。
2.2.4 計算思維能力與Matplotlib依賴包關聯映射
通過Numpy、Pandas依賴包的數據預處理,而后使用Scikit-Learn進行數據訓練與建模,模型最終預測結果需要通過Matplotlib依賴包進行可視化展示。
計算思維能力與Matplotlib依賴包映射階段主要關注可視化語法、可視化參數、可視化特征關系、特征數據分布等知識點。其中,可視化語法與參數部分需要具備分解、抽象思維和邏輯思維等能力;可視化特征關系需要具備啟發式、遞歸、抽象思維等能力;特征數據分布需要具備數據仿真、抽象思維、啟發式和遞歸等能力,見表6。
3 結束語
本研究歸納了Python數據分析的核心知識點,設計了Python數據分析依賴包知識點調查問卷,探究了Python數據分析總體流程,構建了四階段的Python依賴包與計算思維能力映射關系,為Python數據分析課程教學改革提供了新視角。未來工作將致力于構建計算思維與Python網絡爬蟲、Tensorflow、Keras、Pytorch等技術的關聯映射關系,為人工智能與大數據相關課程學習效果提升提供支撐。
參考文獻(References):
[1] 中國大數據產業生態地圖暨中國大數據產業發展白皮書[R].大數據產生生態聯盟,2020:1-16
[2] 肖卓宇,徐運標,陳果,郭杰,黃俊.“人工智能+高職教育”融合的內涵與模型研究[J].中國教育信息化,2021.27(3):22-26
[3] 闕金煌.基于Anaconda環境下的Python數據分析及可視化[J].信息技術與信息化,2021.45(4):215-218
[4] 肖卓宇,陳果,郭杰,黃俊,徐運標.“人工智能+教育”融合視域下的人才培養研究[J].軟件工程,2021.24(1):57-59,50
[5] 肖卓宇,徐運標,陳果,郭杰,黃俊.“人工智能+教育”融合的實施路徑研究[J].計算機時代,2020.39(11):103-105,109
[6] 李書影,王宏俐.《道德經》英譯本的海外讀者接受研究——基于Python數據分析技術[J].外語電化教學,2020.42(2):35-41,6
[7] 謝紅霞,孟學多.“Python數據分析基礎”線上線下混合教學設計與實施[J].計算機時代,2021.39(4):89-91,94
[8] 楊彩云,詹國華.引導性問題案例在Python數據分析基礎課程的教學[J].計算機教育,2021.19(1):154-157,162
[9] 賈揚蕾,袁夢潔.基于OBE理念的《Python數據分析》混合式教學模式研究[J].洛陽理工學院學報(自然科學版),2020.30(4):93-96
[10] 肖卓宇,陳果,徐運標,郭杰.新工科視角下以計算思維為導向的高職信息類學生程序設計能力培養研究[J].計算機時代,2020.39(6):106-108
[11] 肖卓宇,黃俊,徐運標,陳果,郭杰.新工科視角下以計算思維為導向的高職Python程序設計公共課程教學改革研究[J].電腦知識與技術,2020.16(21):154-155
[12] Wing B J M . Computational thinking and thinking about computing[J].Philosophical Transactions A:Mathematical, Physical and Engineering Sciences,2008.49(3):3717-3725
[13] 肖卓宇,宋藝.基于CDIO的大數據技術課程教學研究[J].長沙民政職業技術學院學報,2018.25(2):125-126