999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python數據分析的學業預警研究

2022-07-05 18:50:59商惠華戴匯川
電腦知識與技術 2022年14期
關鍵詞:數據分析

商惠華 戴匯川

摘要:為了協助教師改善教學效果,提高教學質量,選取計算機應用基礎課程的在線學習成績為基礎數據,經過數據獲取、數據預處理、模型構建并進行數據預測等步驟,運用Logistic回歸、K最近鄰分類算法、分類決策樹、樸素貝葉斯、梯度提升分類樹、隨機森林分類6種經典的機器學習算法分別構建模型,對學生期末成績進行預測。通過對比真實結果,最后驗證LogisticRegression模型最優。運用該模型可對此類課程的學生學業成績進行預警,進而指導教學的提前重點關注和干預。

關鍵詞:在線學習成績;數據分析;機器學習算法;成績預測;學業預警

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)14-0022-03

1 引言

大數據時代,數據分析的應用已經在各個領域展現出卓越的價值。數據分析在教育領域的應用從不同角度提高了教育教學質量。如今的大學教育已不再局限于傳統的教學模式,以翻轉課堂為例,將學習知識的主動權交還學生,教師將知識課前傳遞,以引導為主。在課程教學的過程中,將數據分析的應用貫穿其中,從平時成績分析中預測學生的總平時成績和期末考試成績,根據預測結果,產生預警信息,教師進行提前干預與重點輔導[1],為下一步教師的教和學生的學提供指導。

2 研究思路與流程

研究思路主要流程主要包括5個步驟:數據獲取、數據預處理、建模與預測、模型評價與選取、模型的應用與部署[2]。如圖1所示。

1)數據獲取:是數據分析的工作基礎,數據獲取主要通過兩種方式:本地數據和網絡數據,本研究采用本地數據。

2)數據預處理:是指對數據進行數據合并、數據清洗、數據的標準化等,滿足后續建模分析的需要[3]。

3)訓練模型與預測:通過聚類模型、分類模型、回歸模型等模型與算法構建模型,對數據進行分析,并進行數據的預測。

4)模型的評價與優化:是根據模型的類別,使用不同的指標評價其性能優劣的過程。常用的聚類模型的評價指標有AMI評價法、FMI評價法、ARI評價法等。常用分類模型評價指標有Accuracy(準確率)、Precision(精確率)、Recall(召回率)、F1 Value(F1值)等。常用的回歸模型評價指標有平均絕對誤差、均方差、中值絕對誤差等。通過對比,選取評價指標最好的模型。

5)模型的應用與部署:是指將數據分析結果與結論應用于實際的教學過程中,進行學業預警。

3 研究設計

3.1 數據采集及研究對象

選取某師范學院2021~2022學年度第2學期期末的計算機應用基礎考試成績為研究數據。計算機應用基礎是該校必修的公共課,在大一的第一學期開設,課程的平時成績依托超星網絡平臺運行,采用翻轉課堂的方式教學,共32學時,其中16學時為線上學習時間,16學時為重點內容講解及答疑時間。數據的樣本總量為3933條數據,即3933個學生的平時成績記錄及考試成績記錄。學生的平時成績和考試成績均采用百分制,最終的期末總評成績為平時成績和期末考試成績各占50%。

研究數據的讀取與分析過程均在Jupyter notebook環境中完成,使用Python編程語言,研究目的將主要圍繞三個問題展開[4]:

1)在線平時成績數據選項中,哪些選項對學生之間的差距影響大,哪些影響不大?

2)依據在線平時成績,用哪種分析方法可相對準確地判斷期末考試成績的及格狀況?

3)依據在線平時成績,如何在期末考試前對學業預警?

3.2 研究算法

采用多種數據分析方法進行建模,并將模型的評價結果進行對比分析,選取最佳模型對學生的平時成績進行預測。為教與學分別提供指導意見。文中的算法均使用sklearn下的模塊。

1)logistic回歸

logistic回歸分類的主要思想是根據現有數據對分類邊界線建立回歸公式,以此進行分類。訓練分類器時的做法及時尋找最佳擬合參數,使用的是最優化算法。目標函數應該能接受所有的輸入,預測出類別。在兩個類的情況下,函數輸出0和1,該函數就是二值型輸出分類器的sigmoid函數[5]:

此文中數據分析應用模塊linear_model下的LogisticRegression函數。

2)KNN(K最近鄰分類)算法

KNN算法的思想是:如果一個樣本在特征空間中的K個最相鄰的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特征。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別[1],比較適合對于類域的交叉或重疊較多的待分類樣本集。

此文中數據分析應用模塊neighbors的KNeighborsClassifier函數。

3)分類決策樹

決策樹是一種樹形結構預測模型,表示基于特征對實例進行分類的過程。構造決策樹的首要問題是當前數據集上哪個特征在劃分數據分類時起決定性作用。為了找到決定性的特征,劃分出最好的結果,必須評估每個特征。完成測試之后,原始數據集就被劃分為幾個數據子集。這些數據子集分布在第一個決策點的所有分支上。再根據某個分支下的數據屬于同一類型,無須進一步對數據集進行分割。如果數據子集內的數據不屬于同一類型,則需要重復劃分數據子集的過程。直到所有具有相同類型的數據均在一個數據子集內[6]。決策樹算法很多,例如:ID3、C4.5、CART等。

此文中數據分析應用模塊tree的 DecisionTreeClassifier函數。

4)樸素貝葉斯

貝葉斯決策理論以概率為基礎的,樸素貝葉斯分類是貝葉斯決策理論的一部分,思想是基于條件概率的:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個概率值大,則該分類項屬于哪一類。F8016F3D-6810-4DD3-B089-F442405FF70C

此文中數據分析應用模塊naive_bayes下的GaussianNB函數。

5)梯度提升分類樹

梯度提升分類樹是一種迭代的決策樹算法,由多棵決策樹組成,所有樹的結論累加起來做最終答案。關鍵是利用損失函數的負梯度在當前模型的值作為回歸問題提升樹算法中的殘差的近似值,擬合一個回歸樹[6]。

此文中數據分析應用模塊ensemble下的GradientBoostingClassifier函數。

6)隨機森林分類

隨機森林分類是決策樹的組合,每棵決策樹都通過對原始數據集中隨機生成新的數據集來訓練生成,隨機森林分類的結果是多數決策樹決策的結果。

此文中數據分析應用模塊ensemble下的RandomForestClassifier函數。

4 數據分析過程

4.1 數據的讀取及變量的選取

將3933條學生的平時成績和考試成績整理到一張EXCEL表中,用Pandas模塊的read_excel函數將數據讀出。學生的平時成績包括課程音視頻、章節測驗、章節學習次數、討論、作業、測試考試、簽到、課程互動,共8項。

4.2 數據預處理

首先,查詢成績表中平時總成績為一位數(即不足10分)的記錄,直接刪除。這些記錄存在重修免聽課等特殊情況。

其次,尋找數據差異最大的選項。平時成績均相同的計量單位,采用方差來統計各項平均值的離散程度,得出對平時成績影響最大的幾個選項。結論如表1所示,分別為測試考試、作業、章節測試三項。該三列的數據,在后面的數據分析中重點選取。

4.3 訓練集和測試集的劃分

sklearn庫集合了多種機器學習算法,在數據分析過程中快速建立模型,且模型接口統一,使用起來非常方便。此研究中,在數據集的劃分上使用model_selection模型選擇模塊,將傳入的數據劃分為訓練集和測試集[2],使用train_test_split函數,其中test_size參數值取0.3。

4.4 對數據進行標準化的預處理

平時成績的各項的百分比占比不同,為消除特征之間取值范圍差異可能造成的影響,對數據進行標準化處理,此處采用標準差標準化的方法。使用sklearn庫的preprocessing數據預處理模塊的StandardScaler函數。

基礎代碼為:

from sklearn.preprocessing import? StandardScaler

sca = StandardScaler().fit(data_train)

sca_train = sca.transform(data_train)

sca_test = sca.transform(data_test)

4.5 模型的構建與預測

構建模型與預測的目的是根據學生的平時成績,對最后的期末考試成績做出預測,將期末考試成績根據是否及格分別備注為1和0(1表示及格,0表示不及格)。根據預測類型,構建模型為分類模型。

構建了幾種分類模型,進行預測,并分別給出了相應的評價指標對預測模型的性能進行評價,這些指標主要包括精確率(Pricision),準確性(Accuracy),召回率(Recall)和F1值(f1-score)。以下以邏輯斯蒂回歸算法為例:

利用sklearn庫的linear_model模塊LogisticRegression函數,建立模型,如圖2所示,預測訓練集的結果(取前50個),如圖3所示。

基本代碼如下:

from sklearn.linear_model import? LogisticRegression

log = LogisticRegression().fit(sca_train,target_train)

print('建立的linear_model模型:\n',log)

#預測結果

sca_target_pred_log = log.predict(sca_test)

print('預測的前50個結果為:\n ',sca_target_pred_log[:50])

4.6 評價指標的選取

為了有效判斷一個預測模型的性能表現,需要結合真實值計算出準確率、精確率、召回率、F1值等指標來衡量。以LogisticRegression模型為例,利用sklearn庫的metrics模塊中的accuracy_score,precision_score,recall_score,f1_score幾個函數,代碼及運行的結果如圖4所示,幾種評價指標都比較接近最佳值1.0,該模型效果較好。

4.7 模型的結果對比分析

用類似的方法,又構建了其他的幾種模型,并分別通過評價系數進行對比,找出最優的模型。各模型的評價指標對比分析如表2所示。

通過各種模型的評價指標的對比,可以分析得出, LogisticRegression模型最優,隨機森林分類也較好,各項系數也接近于1.0。

根據分類模型和評價參數,教師可以根據學生在臨近學期末的學習成績進行預測,對可能期末成績低于60分的同學進行提前干預,給予這部分同學個別的知識輔導或提醒,并督促這部分同學抓緊學習,可實現基于在線平時成績的期末總評成績的提前預警。

5 結束語

以大學計算機應用基礎課程為例,對依據超星學習平臺的在線學習平時成績的數據對影響學生期末總評成績進行了具體分析,主要解決了三個具體問題:F8016F3D-6810-4DD3-B089-F442405FF70C

1)在線學習平時成績的8項數據中,通過分析可得出,學生相差比較大的選項是測試考試、作業、章節測試三項,其他選項相差不大。在針對學生的個別預警中要重點關注。

2)在多種模型的應用中,通過對比各種模型的評價指標,可以分析出Logistic Regression模型最優,隨機森林分類也較好。針對類似的成績分析,可采用這兩種模型來分析和預測。

3)應用上述的兩種模型,依據在線的平時成績各選項的預測,教師可進行過程管控、預警,進而重點關注,教學干預[7]。

大數據時代,教師作為信息化教學的主導者和實施者,為了更好地了解課程、教學及學生學習等狀況[8],除應用現代化的教學方式外,應用現代化的技術和工具對教育數據進行分析,發現其規律并為教學提供幫助,將有利于教學質量的進一步提高。

參考文獻:

[1] 喻佳,白舒伊,吳丹新.基于機器學習的在線教學學生成績預測研究[J].電腦編程技巧與維護,2021(8):118-119,154.

[2] 黃紅梅,張良均.Python數據分析與應用[M].北京:人民郵電出版社,2018.

[3] 張運玉.基于Python的數據分析的研究[J].電腦知識與技術,2019,15(30):3-4.

[4] 熊思燦,農瑩.在線學習數據與學生學習成績的相關性分析——以大學概率論課程為例[J].西南師范大學學報(自然科學版),2021,46(11):84-89.

[5] 柳毅.Python數據分析與實踐[M].北京:清華大學出版社,2019:249-255.

[6] 石勝飛.大數據分析與挖掘[M].北京:人民郵電出版社,2018.

[7] 宋丹,劉洞波,豐霞.基于多源數據分析的課程成績預測與課程預警研究[J].高等工程教育研究,2020(1):189-194.

[8] 彭煥卜,謝志昆.基于Python的學習者基本數據分析與可視化研究[J].中國教育信息化,2021(15):60-64.

收稿日期:2022-03-09

基金項目:潮州市科技計劃項目(項目編號:2019ZC12);韓山師范學院科研項目-理科(項目編號:XN201924)

作者簡介:商惠華(1978—),女,河北滄州人,講師,碩士,主要研究方向為數據分析、計算機軟件與理論;戴匯川(1977—),男,湖北黃岡人,高級工程師,博士,主要研究方向為現代質量管理、物流信息技術。F8016F3D-6810-4DD3-B089-F442405FF70C

猜你喜歡
數據分析
電子物證檢驗的數據分析與信息應用研究
基于matlab曲線擬合的數據預測分析
商情(2016年40期)2016-11-28 11:28:07
分眾媒體趨勢下場景營銷的商業前景
商(2016年32期)2016-11-24 17:39:41
佛山某給水管線控制測量探討
科技資訊(2016年18期)2016-11-15 18:05:53
SPSS在環境地球化學中的應用
考試周刊(2016年84期)2016-11-11 23:57:34
大數據時代高校數據管理的思考
科技視界(2016年18期)2016-11-03 22:51:40
我校如何利用體育大課間活動解決男生引體向上這個薄弱環節
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務日常工作中的應用
淺析大數據時代背景下的市場營銷策略
新常態下集團公司內部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
主站蜘蛛池模板: 国产网站一区二区三区| 国产自在线播放| 国产资源免费观看| 久久综合结合久久狠狠狠97色 | 呦女精品网站| 国产后式a一视频| 久草美女视频| 国产av色站网站| 2020极品精品国产| 69国产精品视频免费| 国产免费怡红院视频| 国产精品污污在线观看网站| 久久www视频| 亚洲va精品中文字幕| 99久久无色码中文字幕| 狠狠干综合| 国产真实二区一区在线亚洲| 丰满人妻被猛烈进入无码| 一级在线毛片| 日本高清在线看免费观看| 久久精品aⅴ无码中文字幕| 尤物精品视频一区二区三区| 国产精品深爱在线| 精品少妇人妻无码久久| 啦啦啦网站在线观看a毛片| 中文字幕无码中文字幕有码在线| 欧美精品1区| 欧美日韩在线亚洲国产人| 国产区在线看| 青青青国产在线播放| 国产成人精品高清不卡在线 | AⅤ色综合久久天堂AV色综合| 欧美日韩在线第一页| 99在线视频网站| 凹凸国产分类在线观看| 国产精品一区二区在线播放| 亚洲久悠悠色悠在线播放| 欧美日本一区二区三区免费| 久久久亚洲色| 国产精品一区二区在线播放| 国产永久在线视频| 久久亚洲国产视频| 91在线中文| 国产视频入口| 国产成人综合亚洲网址| 色婷婷在线播放| 色妞www精品视频一级下载| 91九色最新地址| 国产一级妓女av网站| 青青草91视频| 伊人无码视屏| 色综合激情网| 亚洲精品无码av中文字幕| a级毛片毛片免费观看久潮| 国产精品天干天干在线观看| 高清乱码精品福利在线视频| 91亚瑟视频| 国产成年女人特黄特色毛片免| 亚洲黄色高清| 国产在线一区视频| 日韩在线网址| 国产在线一区视频| 好吊色国产欧美日韩免费观看| 日本色综合网| 国产成人精品一区二区秒拍1o| 色哟哟精品无码网站在线播放视频| 狠狠五月天中文字幕| 国产手机在线小视频免费观看| 欲色天天综合网| 在线观看网站国产| 97成人在线观看| 91九色国产porny| 亚洲成av人无码综合在线观看| www精品久久| 欧美在线伊人| 波多野结衣的av一区二区三区| 国产精品思思热在线| 91在线高清视频| 亚洲精品无码日韩国产不卡| 四虎成人在线视频| 国产91特黄特色A级毛片| 婷婷开心中文字幕|