



摘要:基于高校圖書館大數據的大學生成績預測對于推動高校圖書館的服務創新和高等教育數字化轉型具有重要意義。文章針對鮮有圖書館利用數據用于大學生成績預測模型構建的現狀,結合高校教務處學業數據和圖書館利用數據,基于機器學習方法構建了大學生成績預測模型。實驗結果表明,對邏輯思維要求較高的科目對學生成績有顯著的正相關性;圖書館利用數據(如圖書借閱、入館次數等)與平均學分績點(Grade Point Average,GPA)呈現明顯的正相關關系。該研究旨在為高校圖書館精準化服務提供有力支持,并為高等教育數字化轉型提供有益參考。
關鍵詞:教育數據挖掘;機器學習;大學生成績預測模型;高校圖書館
中圖分類號:G258.6" 文獻標志碼:A文獻標志碼
基金項目:2023年南京航空航天大學本科教育教學改革研究項目;項目名稱:基于圖書館大數據的大學生學業預警模型研究;項目編號:2023JGTS15Z。
作者簡介:劉存杰(1976— ),男,館員,碩士;研究方向:大數據分析與決策。
*通信作者:李小濤(1986— ),男,副研究館員,博士;研究方向:信息計量與科學評價。
0" 引言
教育數據挖掘(Education Data Mining,EDM)是近年來備受研究者關注的領域之一,是基于統計學和機器學習對教育大數據系統進行探索和研究的領域[1]。該領域的經典預測問題之一是預測學生成績,發現在學業上最有可能失敗的學生,以便提供幫助和支持。同時,教育數據挖掘可以幫助教師和管理者在設計課程時做出更明智的決策。例如,知道哪門課程對學生的成績影響最大,可以鼓勵教育者對這類課程給予更多的關注,并提供更多的資源。
國內外學者對學生成績預測工作進行了大量研究,大多數研究使用3類數據集:來自問卷調查或學生的自我報告數據、學生學院/大學數據庫的數據和在線學習平臺的數據[2-4]。與此同時,隨著智慧圖書館的興起,圖書館利用行為與學習成績的相關性研究也成為研究的熱點,國內外已經有不少學者通過量化研究的方法進行了積極探索。國外研究起步較早,Stone等[5-9]研究發現本科生圖書館利用行為,如圖書借閱、資源使用、入館次數等與GPA呈現明顯的正相關關系;國內,吳英梅等[10-13]的研究同樣證明了高校圖書館利用行為對于本科生學業的促進作用。
以上研究表明,國外學者的相關研究理論體系完備,實證研究豐富;而國內研究因起步較晚,近年才出現相對成熟的研究成果。以往的研究在研究方法、研究對象、作用關系等方面具有以下特點:(1)從研究方法來看,國內外的各項研究大多采用了問卷調查的研究方法,雖然可以獲取如電子資源利用、館員服務等更多維度的圖書館利用數據,但難免受到調查對象自身主觀情緒和環境影響,調查結果客觀性與準確性存疑。(2)在研究對象的選擇上存在著樣本量偏小、所在專業單一等問題,可能會導致研究結果偏差。(3)從作用關系來看,雖然研究表明圖書館利用與學業發展存在正相關關系,但并不能直接基于學業數據和圖書館利用數據等特征來預測學生的成績,并為他們提供影響其學業成績關鍵因素及時干預的目標。
本文旨在提出一種基于監督機器學習方法的預測分析模型,根據學生的歷史學習成績和圖書館利用行為預測學生的GPA。本文研究使用的數據集源自高校本科一年級教育數據,包括教務處學業數據和圖書館利用數據,基于機器學習方法構建大學生成績預測模型,并對模型性能進行評估。研究有2個主要目標:一是確定影響學生學業成績的關鍵因素,為學校和教師提供有效的預警和決策支持工具,實現精準教育目標。二是幫助厘清高校圖書館影響本科生學習成效的具體因素,為高校圖書館未來的創新建設和精準化服務提供實質性建議,深化高校圖書館“以人為本,讀者至上”服務原則[14]。
1" 研究設計
1.1" 研究框架
為了構建大學生成績預測模型并將其應用于高校學生,本文基于教務處學業數據和圖書館利用數據,應用機器學習方法預測學生的GPA。隨后,確定哪些特征影響學生的學業成績,并進一步研究圖書館利用行為對于學生學業成績的影響。本文提出的研究框架包括3個階段,第一階段收集和整合數據,第二階段對數據進行預處理,第三階段構建和評估模型。每個階段都有一些具體步驟,如圖1所示。
第一階段,原始數據集來自2個數據源,即包含學生成績的教務系統和包含圖書借閱的圖星系統。它們被集成到包含學生信息的唯一數據集。
第二階段對該數據集進行預處理,選取特征(采用簡單Pearson相關系數),去除缺失值、異常值和噪聲值,然后,轉換為歸一化的數據集。
第三階段是模型的建立和評估。歸一化處理后,按照給定的比例將數據集劃分為訓練數據集和測試數據集。隨后,將選擇的機器學習算法應用在訓練數據集上進行學習并構建模型。使用測試數據集來評估這些模型,并通過均方根誤差(Root Mean Squared Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)等多種指標來評估模型的性能。測試結果展示了機器學習算法在該數據集上對學生成績預測的能力。
1.2" 數據來源
本文的數據來源于南京航空航天大學教務處及學校圖書館提供的教育數據,包括教務處學業數據和圖書館利用數據。本研究的目標是在高等教育的早期階段預測學生的最終表現,因此使用了本科一年級基礎課程比較集中的學業成績,并將主機專業,即航空學院、能源與動力學院和機電學院的學生數據作為本研究的實驗樣本基礎。
1.3" 數據預處理
在教務處提供的原始數據集中,每個學生被表示為多行。例如,如果一個學生學習了20門課程,那么數據將擁有20行或更多,每門課程至少有一行。而本實驗的數據格式為(X,Y),其中:X為特征因子,Y為擬合目標。因此,在對原始數據集進行檢查后,本文編寫了一個數據處理程序來設計樣本數據集,使其更適合預測GPA的目的。
教務處學業成績中除了必修課之外,選修課占據很大部分,為了能達到樣本和特征數量的平衡,采取的方案如下:根據主機專業的學生課程成績數量,按照從高到低進行排序,選取前n門課作為特征,然后計算全部選擇這些課程的學生數量,作為樣本量。譬如主機專業2018級,選擇前20門課程,樣本量達到904條。
本文以各個科目課程成績、借閱冊數、入館次數為特征因子,GPA為擬合目標,其中科目為“數理統計Ⅱ”“線性代數”“創業基礎”“計算思維導論實驗”“高等數學Ⅱ2”“C++語言課程設計”“大學英語Ⅳ”“C++語言程序設計”“計算思維導論”“大學生心理健康教育”“大學生職業生涯發展與規劃”“毛澤東思想和中國特色社會主義理論體系概論”“電工與電子技術課程設計”“大學物理實驗Ⅰ2”“高等數學Ⅱ1”“中國近現代史綱要”“思想道德修養與法律基礎”“大學物理實驗Ⅰ1”“理論力學Ⅰ”“大學英語Ⅲ”。
模型訓練前,數據須要進行預處理(如對輸入變量進行min-max標準化),課程成績均采用百分制,同時把借閱冊數、入館次數映射到0~100范圍內,減少數據表征方式對模型結果的影響。研究使用Python3編程語言完成數據處理工作,形成的樣本數據集如表1所示。
1.4" 模型訓練
本文采用了深度學習(Deep Learning)、決策樹(Decision Tree)、隨機森林(Random Forest)、梯度提升樹(Gradient Boosted Tree)和廣義線性回歸(Generalized Linear Model)5種分類和回歸模型來預測學生的GPA成績,運用網格搜索方法進行模型訓練和參數優化,將最優參數下的模型運用于測試數據集。將均方根誤差、平均絕對誤差作為模型評價指標,進行各模型性能的比較。使用WEKA完成建模,采用十折交叉驗證,將數據集劃分為訓練集(90%)和測試集(10%)進行評估。
經過參數優化,當算法模型達到最優性能時,決策樹最大深度為4;隨機森林最優樹數量為100,最大深度為7;梯度提升樹最優樹數量為90,最大深度為2,學習率為0.1。
2" 結果與分析
2.1" 模型性能評估
本文構建的大學生成績預測模型主要關注預測結果的準確度,因此評價各個算法模型的指標選擇均方根誤差。此指標主要用于衡量預測值和真值之間的偏差,能夠很好地反映預測的精密度[15],均方根誤差值越小,表示模型的預測值與實際觀測值之間的差異越小,模型的性能越好。模型性能評價指標如表2所示。
根據以上對比情況可以看出,廣義線性回歸的預測值與實際觀測值之間差異最小,此模型性能在預測成績的準確度上最好,后續可以優先利用此算法構建的大學生成績預測模型進行部署推理。
2.2" 特征因子重要性分析
在大學生成績預測中,不同因子的特征重要性(Importance of Feature,IF)表示每個因子在預測中具有不同的強度,其范圍為0.145~0.736,如圖2所示。
從圖2可以看出,理論力學、數學類(“高等數學”“概率論與數理統計”“線性代數”)以及編程類(“C++語言課程設計”)等需要邏輯思維的課程與最后的GPA之間存在顯著的正相關性。進一步增加或改變模型的維度和數據量,研究不同的特征因子組合對模型精度的影響,是后續研究的重要方向。
圖書館“入館次數”相較于人文社科類課程(如“中國近代史綱要”“思想道德修養與法律基礎”等)更能正向影響大學生的成績,初步分析可能的原因主要有以下幾點:(1)學生的入館次數基本反映了學習時間,表明了時間特征在學生成績預測中的重要性。(2)圖書館可以為學生提供一個相對安靜、專注的學習環境,進而提升學生學習效率。(3)在圖書館可以隨時獲取學習需要的圖書、期刊等實體資源和電子資源,能夠及時滿足學生學習需求。
3" 結論與建議
3.1" 大學生成績預測模型的發現
本文利用高等教育大數據作為驅動,基于機器學習方法構建了大學生成績預測模型,主要研究結論如下。
(1)對決策樹、深度學習、隨機森林、梯度提升樹和廣義線性回歸5種成績預測模型進行了性能比較,廣義線性回歸模型在模型性能評估、預測準確率、運行時間等方面均表現優異,能夠提供較為可靠的成績預測結果。
(2)理論力學、數學類、編程類等對邏輯思維要求較高的課程對于大學生成績具有顯著的正相關關系,可以指導學生對這類課程給予更多的關注。
(3)圖書館利用(尤其是入館次數)相較于人文社科類課程更能正向影響最后的平均學分績點,表明了時間特征對于大學生成績的重要性。
3.2" 對高校圖書館實施精準化服務的建議
根據以上結論,本文為高校圖書館提出了相關建議,以推動高校圖書館未來建設更注重“以人為本”的服務原則,促進高等教育高質量發展。
3.2.1" 融合物理與虛擬空間的高校圖書館空間建設
圖書館空間與學生學習環境直接相關,直接影響學生的學習效果。在數字化環境下教育變革的背景之下,原有空間布局難以滿足用戶多元化、個性化的需求,在教育數字化背景下,高校圖書館應對未來學習場景進行重新定義和探索創造,更多關注個性化、定制化、多樣化和協作化。空間建設的探索主要包括豐富物理空間建設與加強虛擬空間建設2個方面:(1)在物理空間建設方面,可以設立靈活、多功能的學習區域,包括小組研討室、獨立研究區域、實驗室等,滿足不同學習活動的需求。(2)具備虛擬現實技術的虛擬空間可以為用戶提供如遠程實驗、虛擬實踐和在線協作等服務,為用戶提供更富有趣味性和互動性的學習體驗,深化對類似理論力學、編程類學科等抽象、晦澀學科知識的理解。
3.2.2" 文獻流視角下的高校圖書館信息資源管理
高校圖書館的信息資源建設對學術研究和教育等方面有著重要意義,面向用戶精準化服務的信息資源整合,關鍵在于感知用戶信息資源需求,提升用戶使用體驗。從文獻流的角度優化圖書館信息資源建設,包括信息資源建設、開發和利用3個環節。
(1)信息資源建設。高校圖書館信息資源建設在支持教學科研服務上具有重要意義,圖書館應嵌入教學和科研全過程,拓展信息資源的學科廣度和學術深度,既要關注重點學科的信息資源建設,也要關注非公開發表的特色館藏資源積累,促進信息資源的數字化轉型。例如在南京航空航天大學,圖書館可以針對邏輯思維要求較高的課程,通過構建知識圖譜建立知識點之間的關聯,將晦澀難懂的知識以結構化的方式組織,使其更容易被理解和檢索,提升學生學習效率。
(2)信息資源開發。在信息化時代,數字化存儲和網絡信息資源的開發利用已經在高校成為主流。目前圖書館信息資源的開發更多停留在信息資源的外部特征,將來為用戶提供更加智能化、個性化的資源,要求高校圖書館不斷細化文獻資源的組織與揭示粒度,強化文獻資源內容層面的語義關聯與知識重組,對信息資源進行更深層次的知識整合,提高文獻資源與讀者需求的適配度。
(3)信息資源利用。高校圖書館可以嘗試通過連接人、空間和數字化資源,打通校內外資源渠道,拓展文信息資源傳播與利用的渠道和方式,為用戶提供更加開放、便捷、廣泛的信息資源,實現用戶隨時隨地獲得信息資源的目標。
3.2.3" 基于數字化驅動的服務創新
服務作為圖書館業務流程中極為關鍵的一環,未來圖書館的建設要適應多樣化、學習化、個性化、現代化的學習需求。隨著信息技術的發展,互聯網、大數據、人工智能等技術為高校圖書館的服務創新提供了重要路徑。高校圖書館可利用數字畫像等技術識別學生學習興趣和潛在需求,為學生匹配個性化學習路徑,推薦與個人密切相關的學習資源,例如推薦與績點密切相關的學科學習資源。另外,加強館員隊伍建設是提升圖書館服務效能的關鍵舉措,圖書館應注重加強館員綜合素質和業務能力培養,開展館員專業能力培訓,提升館員數字素養和服務能力。
基于機器學習的大學生成績預測方法因具有較高的計算效率和較好的非線性表達能力,逐漸推動高等教育步入大數據時代。隨著圖書館利用數據的不斷豐富,為基于數據驅動的圖書館精準化服務創新成為可能。高校圖書館在新時代堅守“以人為本”的服務原則,依托新興數字化、網絡化和智能化技術,加強空間建設、資源建設和服務建設,以提供精準服務和有力支撐,推動高等教育實現個性化和智慧化學習的目標。
參考文獻
[1]HAN J,KAMBER M.Data mining:concepts and techniques[M].San Francisco:Morgan Kaufmann,2001.
[2]陸根書.大數據在高等教育領域中的應用及面臨的挑戰[J].重慶高教研究,2022(4):31-38.
[3]周慶,牟超,楊丹.教育數據挖掘研究進展綜述[J].軟件學報,2015(11):3026-3042.
[4]ALANGARI N,ALTURKI R.Predicting students final GPA using 15 classification algorithms[J].Romanian Journal of Information Science and Technology,2020(3):238-249.
[5]STONE G,RAMSDEN B.Library impact data project: looking for the link between library usage and student attainment[J].College amp; Research Libraries,2013(6):546-559.
[6]SORIA K M,FRANSEN J,NACKERUD S.Library use and undergraduate student outcomes:new evidence for students’ retention and academic success[J].Portal:Libraries and the Academy,2013(2):147-164.
[7]STEMMER J K,MAHAN D M.Investigating the relationship of library usage to student outcomes[J].College amp; Research Libraries,2016(3):359-375.
[8]JAN S U,ANWAR M A,WARRAICH N F.Library anxiety,library use and academic performance of undergraduate students in Pakistan[J].Library Review,2016(8/9):564-577.
[9]BANLEMAN K,ADJOA Y F.An analysis of the correlation between academic library use and student’s academic performance:a case study of UDS-Wa campus[J].Information and Knowledge Management,2017(3):13-20.
[10]吳英梅,何璨.高校圖書館對學生學業科研影響的實證研究:以北京師范大學為例[J].圖書情報工作,2014(20):73-77,90.
[11]王凌.大學生利用圖書館與學習成績的關聯性實證研究:以首都醫科大學為例[J].圖書情報工作,2017(24):39-44.
[12]李倩.本科生圖書館利用與學業成績的相關性實證研究:以南京林業大學為例[J].農業圖書情報,2019(11):72-79.
[13]沈迎新,丁國勇.圖書借閱能提升大學生學業表現嗎:基于傾向得分匹配方法的實證研究[J].揚州大學學報(高教研究版),2021(4):89-95.
[14]王世華.基于用戶需求的高校圖書館智慧服務大數據分析系統構建:以上海大學為例[J].高校圖書館工作,2022(6):43-47.
[15]賈俊平.統計學基礎[M].北京:中國人民大學出版社,2010.
(編輯" 沈" 強)
Research on university student performance prediction model based on library big data
LIU" Cunjie1, XIE" Ling2, LI" Xiaotao1*
(1.Library,Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China;
2.College of Economics and Management,Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)
Abstract: The prediction of college students’ grades based on big data from university libraries is of great significance for promoting service innovation and digital transformation of higher education in university libraries. The article focuses on the current situation where few libraries use data to construct prediction models for college students’ grades. Combining academic data from university academic affairs offices and library utilization data, a college student grade prediction model is constructed based on machine learning methods. The experimental results show that subjects with high requirements for logical thinking have a significant positive correlation with students’ grades; There is a significant positive correlation between library utilization data (such as book borrowing, number of entries, etc.) and average GPA. This study aims to provide strong support for the precision services of university libraries and provide useful references for the digital transformation of higher education.
Key words: education data mining; machine learning; university student performance prediction model; university library