周劍云 施秋萍 唐秀忠







摘要:隨著教育信息化的迅速發展,以及國家對高等教育高質量發展的進一步要求,人才培養質量評價的方法和技術手段的科學化和信息化在不斷增強。文章通過數字媒體技術專業的人才培養方案的課程相關性分析,發現專業主要課程的相關性信息,對專業主干課程為一線教師和教學管理者提供了一種方法和思路借鑒,從而不斷促進我們的教育教學水平和人才培養質量不斷提升。
關鍵詞:人才培養;課程;數據挖掘;關聯規則
中圖分類號:G642? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)34-0068-03
1 引言
“十三五”期間,我國已建成世界規模最大的高等教育體系,并提出了“雙一流”建設要求。進一步推動了各高校更加關注學科建設。而專業建設是學科人才培養的基礎,學科建設是專業持續發展的動力。可以說專業建設是高等學校最重要的教學基本建設,是教學工作中的重要生命線[1]。專業建設決定著人才培養的格局與辦學水平,對高等學校的改革與發展具有深遠的影響。
本文以本校數字媒體技術專業學生大學期間所上專業基礎課程、專業主干課程成績為數據對象,來示例分析專業人才培養方案中主要課程的相關性,從而為專業負責人和學院專業建設提供參考和決策支持。
2 相關技術
2.1 數據挖掘技術
隨著教育信息化的普及,教學過程管理產生了大量的數據,需要通信息技術把這些海量數據中蘊含的信息挖掘出來,幫助我們更好地開展教育教學管理和改革,從而數據挖掘技術在教育系統也得到了廣泛應用。
數據挖掘即指的是從數據準備到結果分析的一個完整的過程,該過程從大量數據中挖掘先前未知的、有效的、可使用的信息,并使用這些信息做出決策或豐富知識。數據挖掘按挖掘指導方法可分為有指導數據挖掘和無指導數據挖掘。有指導數據挖掘是利用可用的數據建立一個模型,這個模型是對一個特定屬性的描述。無指導數據挖掘是在所有的屬性中尋找某種關系。數據挖掘按功能來分,常見的有分類、估值、預測、關聯規則、聚類等,也即分類、估值和預測屬于有指導的數據挖掘;關聯規則和聚類屬于無指導的數據挖掘[2]。隨著信息技術、大數據技術的發展,數據挖掘已不只這些。
分類,它首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘技術,建立一個分類模型,再將該模型用于對沒有分類的數據進行分類。估值,與分類類似,但估值最終的輸出結果是連續型的數值,估值的量并非預先確定。估值可以作為分類的準備工作。預測,是通過分類或估值來進行,通過分類或估值的訓練得出一個模型,如果對于檢驗樣本組而言該模型具有較高的準確率,可將該模型用于對新樣本的未知變量進行預測。聚類,是自動尋找并建立分組規則的方法,它通過判斷樣本之間的相似性,把相似樣本劃分在一個簇中。關聯規則,其目的是發現哪些事項總是一起發生。
2.2 數據挖掘工具之——Weka
Weka (Waikato Environment for Knowledge Analysis) 即懷卡托智能分析環境,是新西蘭懷卡托大學基于JAVA環境下開源的機器學習(machine learning) 以及數據挖掘(data mining) 的著名開源軟件,該系統自1993年開始由新西蘭政府資助,至今已經歷近30年的發展,其功能已經十分強大和成熟。它包括對數據進行預處理,分類,回歸、聚類、關聯規則以及在新的交互式界面上的可視化。
3 研究示例
數據挖掘過程主要包括:數據獲取、數據預處理、模型建立、整體分析歸納[3]。本文數據直接從教務系統導出2016級數字媒體技術專業學生大學四年所修的10門主要專業基礎課、專業必修課成績作為研究對象。以此分析過程為專業人才培養課程相關性研究提供分析參考。
當得到原始數據之后,就需要對數據進行預處理,為后續建模奠定基礎。
3.1 數據預處理
預處理包括數據清理、數據變換和特征描述等。總體目的就是去除無效數據、不規范數據、錯誤數據,補齊缺失數據,對數據范圍、量綱、格式、類型等進行統一化處理,以便進行后續計算[5]。
對于初步獲取的數據,首先需要去除那些與最終分析不相關的字段列,如學生類別、姓名、性別、班級等,保留學號、課程號、成績值并刪除那些缺考或是多次重修的成績,保留所選的10門課程每名學生有一條記錄。然后,為了分析課程之間的相關性,需要把數據轉置為每名學生所修的全部課程為一條記錄。最后由于關聯分析需對數據進行離散化處理,處理數據對照表1,最終我們得到如表2的成績數據,其中sNO是學號,其他列的列名是課程號。
3.2 課程相關性挖掘
將預處理得到的Excel數據另存為CSV格式文件,選擇Weka數據挖掘軟件導入數據。這里我們還需要注意一定要把數值型(Numeric) 數據轉換為常規(Norminal) 數據,方法為選擇Preprocess頁的Filter組,點擊Choose按鈕選擇NumericToNorminal選項,如圖1。
關聯規則分析,選擇Associate選項卡進行挖掘算法選擇,這里我們選擇經典的Apriori算法進行關聯規則(Association Rule) 分析。該算法主要分兩步進行:第一步,生成所有的頻繁項目集。一個頻繁項目集(Frequent Itemset) 是一個支持度高于最小支持度閥值(min_sup) 的項目集;第二步,從頻繁項目集中生成置信度大于最小置信度閥值(min_conf) 的規則。支持度和置信度是衡量關聯規則強度的兩個重要指標,他們分別反映著所發現規則有用性和確定性。例如最經典的關聯規則的例子:嬰兒尿不濕-->啤酒(支持度=10%,置信度=70%) ,這個規則是說,在所有顧客中,有10%的顧客同時購買了嬰兒尿不濕和啤酒,而在所有購買了嬰兒尿不濕的顧客中,有70%的人同時還購買了啤酒。在Weka中對Apriori算法設置的參數可參照表3。
可反復嘗試設置最小支持度和最小置信度閾值,以發現最精練和有意義的規則。本文這里設置最小支持度0.3,最小置信度0.9,得到以下5條規則,如圖2。若最小支持度0.2,最小置信度0.9,得到規則,如圖3。
3.3 挖掘結果分析
在規則中課程號310200102是概率論與數理統計,14060093是繪畫基礎,618100603是計算機網絡基礎,618100902是廣告策劃與創意,618100803是計算機圖形學,618101503是計算機平面設計。通過挖掘結果可以反映出:
1) 從選擇的10門專業主要課程中,以上6門的相關性較高。
2) 課程之間,可以發現,若學生概率論與數理統計學不好,那計算機網絡基礎課程成績只是勉強及格的概率也極高。而繪畫基礎課程成績好的同學,廣告策劃與創意課程和計算機圖形學課程成績一般也較好。
3) 課程群,可以發現,要重點注意概率與數據統計、計算機網絡基礎兩門課程之間;繪畫基礎、廣告策劃與創意、計算機圖形學三門課程之間。
因此,對于該專業的人才培養方案中,要高度重視這幾門課程的安排。重視對課程的學期設置,即前導課與后續課程關系的安排,以提升專業課程結構設置的合理性。同時,要求相應課程教師,注意關聯課程中學生成績狀況,采取一定的改進措施,促進學生學業成績提升。
4 結束語
在教育信息化日益發展的今天,諸多研究都表明,教師和學校決策者對數據的有效利用可以促使學生獲得更高的學業成就,促進學校教學水平提升[6-10]。作為一線教師和教育工作者都需要掌握教育支持方法和分析工具,例如數據挖掘方法,開源的Weka工具等,通過了解并熟悉分析教育過程數據的方法,再借助方便的分析工具,對廣大教師和教學管理者都是一種極大的教育教學能力提升,從而不斷提高我們的教育教學水平和人才培養質量。
參考文獻:
[1] 胡欽太,伍文燕,馮廣,等.人工智能時代高等教育教學評價的關鍵技術與實踐[J].開放教育研究,2021,27(5):15-23.
[2] 張曾蓮.基于非營利性、數據挖掘和科學管理的高校財務分析、評價與管理研究[M].北京:首都經濟貿易大學出版社,2014.
[3] 葉福蘭.數據挖掘技術在教學質量監控中的應用[J].福建電腦,2020,36(6):102-105.
[4] 高鐵剛,杜娟,王寧.學校智慧教育生態建設研究[J].中國電化教育,2021(12):26-32.
[5] 廖宣植.數據挖掘在醫學高校課程關聯和成績預測上的應用[J].信息與電腦(理論版),2019(2):154-156.
[6] 馮仰存.數據驅動的教師教學決策研究綜述[J].中國遠程教育,2020,41(4):65-75.
[7] 付達杰.教育大數據對教學決策的影響及優化策略[J].湖北成人教育學院學報,2018,24(2):90-93.
[8] 管玨琪,孫一冰,祝智庭.智慧教室環境下數據啟發的教學決策研究[J].中國電化教育,2019(2):22-28,42.
[9] McNaughton S,Lai M K, Hsiao S.Testing the effectiveness of an intervention model based on data use: A replication series across clusters of schools[J]. School Effectiveness and School Improvement, 2012,23(2):203-228.
[10] Schildkamp K,Ehren M.From “intuition”- to “data”-based decision making in Dutch secondary schools?[M]//Data-based Decision Making in Education.Dordrecht:Springer Netherlands,2013:49-67.
【通聯編輯:王力】