劉金憶
(江蘇經貿職業技術學院 江蘇 南京 210000)
學生的成績至關重要,是衡量一所高校教育成果的重要標準。如今,每一所高校都十分重視學生的成績問題,每年高等院校都會通過各種方式考核學生的學習成果,例如:舉行各種競賽、課堂回答問題、校內活動參與、舉行一學期一度的期末考試,這些考核方式的結果最終會根據一定的比例換算成分數,都體現在教務系統錄入的學生成績單上。所以,現在的大多數高校雖然利用了互聯網技術收集了大量的學生成績,但當前存在的問題是對這些數據并沒有很好地利用,僅僅是簡單的查詢和統計,無法獲取成績之間隱含的大量信息,比如學生為何取得這些成績,開設課程之間以及學生的成績與課程的設置之間的聯系[1]。如何科學地解決學校安排與學生成績之間、教學計劃與提高成績之間的問題,更加充分合理科學地利用學生成績的寶貴數據資源,形成每一位學生獨特的“學生畫像”,為教學服務,為就業服務,為每一位學生的健康發展服務,是現在亟待解決的關鍵問題。
數據挖掘技術是一項充分利用了人工智能、模糊邏輯、神經網絡、機器學習及數據統計等理論知識和方法技術的數據庫的核心技術。數據挖掘是從大量的、模糊的、繁雜的實際應用數據中,提取隱含在其中的、人們事先不知道的,但是極為有用的潛在信息和知識[2]。數據挖掘技術可以從繁雜的信息中提取有用的知識,實現信息之間的相互連接,有效地利用數據信息的寶貴資源。數據挖掘技術通常要經歷數據清理、數據集成、數據選擇、數據變換、數據挖掘、模式評估、知識表示等6個步驟[3]。數據挖掘技術的產生和發展對數據庫的實際應用起到了重要的作用,這項技術可以對數據庫的內容進行檢索、統計、分析,對數據信息資源加以整合,用來解決實際應用中的問題。另外,數據挖掘技術還可以通過智能的分析數據信息,找出信息與信息之間的聯系,從而發現一些事物在發展過程中的規律性。所以,利用數據挖掘技術可以有效分析事件發展的規律,抽絲剝繭,預測事件未來的發展方向。因此,在我國的高校教育方面,利用數據挖掘技術對高校學生的成績進行分析和預測,從而研究和總結出學生的專業能力和學習水平、學校課程設置和學生成績的取得之間的關系,是教學實踐中的明智之舉。
大多數科研項目的進行都離不開提出問題、假設條件的過程。與此相同,根據數據挖掘技術建立數據庫模型也離不開對提出的問題的探索,只有提出了具體的問題,模型才能根據問題給出相應的解決策略。在這一過程中,要求提出問題、進行假設時要充分了解數據挖掘技術,熟悉這一數據庫研究和建設的經驗和知識,同時,還要有勇氣和創新力、想象力,大膽地進行假設,根據某一具體數據的數值,推斷出與之相關聯的信息,繼而要結合實際,小心謹慎地求證這些問題,得出結論。這一過程是實施數據挖掘技術應用于高校學生成績分析,建立相關數據庫模型的基礎,要求數據挖掘技術的研究者加強與相關領域的專家、學者相互溝通,充分協作。
一般情況下,收集數據的方法通常有“調查法”和“設計實驗法”兩種,“調查法”就是根據某一具體要求從特定的人群中得出的數據結果,有訪問調查、郵寄調查、電話調查、網上調查等。“設計實驗法”是根據研究主體的特點設置定量和相關變量,根據二者之間的關系得出大量數據,之后,研究人員還要根據數據的規律和研究,填補缺失數據。這兩種方法各有其特點,在實際應用中可以靈活地選擇使用。按照以上兩種方法收集的數據繁多、較為雜亂,有個別異常數據的存在或者個別數值的缺失,這些都會干擾數據挖掘中的信息提取結果,因此,收集到足夠的數據之后就要對這些信息進行初步的處理。對于異常數據的出現,可以在確定它的不合理性后,采用其他數據的平均值或者眾數進行測算,得出相近的、合理的數值結果進行替代。若存在缺位數據,可以使用數據中的出現較多的數值或者根據平均值選擇最為可能的數值來填補空缺的數值。
一般而言,收集數據是為了得出數據之間的關聯并由此推斷出數據信息的發展規律,進而分析它們產生的原因和影響的因素。所以,在收集到數據并對它們進行了初步的處理以后就要仔細分析,根據研究的需要建立數據挖掘模型。在這一過程中,要求減少人為干擾因素,保持數據模型的科學性和客觀性,還要確保數據挖掘模型的實用性和準確性,使普通人經過一般的學習就可以進行操作。在數據挖掘模型建設的科學性和準確性方面,要求數據模型開發者參考相關領域的資料,與相關領域的專家和學者進行合作,運用先進的建模技術,得出高精確度的、高實用性的數據挖掘技術模型。
數據挖掘技術不斷發展與進步,高校的數據庫建立也越來越完善,數據資源越來越多,然而大多數高校只是把這些統計的成績當作查詢和記錄的數據,這是對資源的一種浪費。如同電商領域的用戶畫像用于精準定位目標客戶,學生畫像可以將“因材施教”做到極致。及時了解學生成績的影響因素和學校教育與學生成績之間的關系,這些是完成學生畫像繪制的重要環節。
高校學生成績由多種考察的結果構成,因此,最終影響學生成績的因素也較多,要利用數據挖掘技術對高校學生成績進行分析就要選擇合適的挖掘內容,確立建立數據挖掘技術模型的目標。在高校學生的成績構成中,可以選擇期末考試成績為基礎數據,以研究影響學生期末考試成績的因素為目標,據此,建立數據挖掘技術模型,進一步分析和總結規律。
在數據挖掘技術模型中有多種算法,例如:分類分析、聚類分析、神經網絡方法、決策樹算法等[4]。在這里,數據模型建設者可以采用決策樹算法,首先對數據進行分類,列出一組組的數據,分析每一組挖掘數據,建設出清晰的決策樹。最后,對決策樹的每一個分支進行更詳細的分析和補充,進一步得出學生成績的影響因素。
例如:將學生的期末考試成績分成4個等級,不同的等級對應不同的分數段,它們分別是“優秀”,對應成績為85分以上者;“良好”,對應成績在75分到85分的學生;“及格”,對應成績在60分到75分的學生;“不及格”,對應成績在60分以下的學生。根據這些標準把學生成績分為4組,之后再分析不同組的學生成績的影響因素。最后,根據以上分析和研究結果得出結論。
分析高校學生成績,就要充分挖掘和收集學生成績的信息。由于目前高校對學生成績的收集較多且極為完善,包括學生的平時課業成績、課堂考核成績、考試成績,所以,構建模型的學生成績數據可以直接從高校的成績數據庫中提取。另外,要分析影響學生成績的因素還需要收集學生個人狀況調查數據,在這一方面可以班級或小組為單位,為保證數據的真實性,要統一收集獲取,在學生開班會,集體活動的課后,都可以進行收集。主要了解學生平時的生活習慣,他們對學習的興趣、對課堂聽講的參與態度、對學校課程安排的意見等,這些都是影響學生成績的關鍵因素。收集的數據可以利用表格或統計圖的形式表達,進行整理和分析,最后與學生的成績數值進行比較,從而得出結論,達到建立數據挖掘技術模型的目標。
收集過的數據和信息要進行整理和修正,在收集學生的成績數據時進行仔細核對、確保準確無誤即可,因為學生成績在導入高校教務系統的數據庫已經有專業人員進行過整理和確認。而對學生的調查信息就要進行仔細的檢查和分類整理。在調查開始前就要選擇合適的方式,盡可能地保證學生們反映信息的真實性。為此,數據收集要先設計科學合理的問卷調查,不可以將選項固定在一定的范圍內,也不可以設置全部肯定或否定的答案,例如:問題:你對學習是否有興趣?選項:A非常有興趣;B比較有興趣;C一般興趣。這樣的問題設置不能完整地反映學生對學習的全部心理,是一個失敗的問題調查。
對于收集完成的信息數據要開始清理和修補,對于異常或是殘缺的信息數據,無法修補,且結果影響較大的就要予以清除。對于可以修補的數據,要利用平均信息或常數進行補充[4]。
當今是互聯網的時代,大數據的開發與應用是我國發展的重要內容,各個領域的發展都離不開數據的統計與處理,數據挖掘技術已經滲透到各個行業的發展中。但在教育行業,數據挖掘技術的應用還不夠廣泛,高校教務系統收集著大量的學生信息,合理運用這些珍貴的資源,通過對學生畫像的繪制更深刻地了解學生,是當前數據挖掘技術在教育領域應用的重點研究內容。本文結合當今時代發展,根據高校教育的實施狀況、數據資源的收集和管理狀況,從數據挖掘技術的實施方案方面分析,提出了數據挖掘技術應用于高校學生成績分析中的具體措施,其中包括選擇數據挖掘的主要內容和研究目標;構建合適的模型,進行分析;對研究數據的挖掘和收集;對學生成績和調查信息的預處理4個措施。雖然當前我國數據挖掘技術在高校數據系統里應用不夠完善,但經過相關領域研究者的不斷努力,這種情況會得到改善。