杜可敬
隨著信息科學技術的不斷進步,社會的不斷發展,大數據已經滲透到我們生活的方方面面,應用的行業也是十分廣泛。其中大數據也滲透到高校的教學管理工作當中,基于大數據的精確學情診斷、個性化學習分析和智能決策支持,大大提升了教育品質,對促進教育公平、提高教育質量、優化教育治理都具有重要作用,已經成為教育現代化必不可少的重要支撐。借助教育大數據能夠對學習者的所有信息進行系統地整理和分析,如可以運用大數據設計教育環境,完善教學的場景,配置教育試驗場景等,這些都能夠充分的調動大學生群體在學習領域中的主動性和積極性,對教育領域的發展有著不可估量的作用。目前隨著我國大眾化高等教育的普及以及高等學校的不斷擴招,面對那么多的大學生每天產生的海量信息數據,如何從中挖掘出有用信息更好地反饋到教學管理上,無疑對高校教學工作是一個很大的難題。因此要想解決此類問題,就要提高大數據意識,應用數據挖掘技術探索數據中存在的潛在價值,從而不斷挖掘出高校教學管理中更高效的方法和策略。
當前大數據背景下高校教學管理中主要存在以下問題:(1)互聯網的迅速發展引起了網絡教育信息的海量增長,然而由于網絡結構的龐雜性以及教育信息自身分布的無規律性,信息的獲取與應用往往具有局限性。因此如何更加高效的獲取、利用教育信息資源更是一個重要的問題。(2)在高校的教學中,特別是高校的基礎課程教學上,普遍存在著師資力量不足、生師比過高。譬如在一些學校的高等數學、大學英語等基礎課教學中,師生比平均高達1:200人,授課的班級規模越來越大,使得教師在教學過程中很難對每一個學生的學習情況做到很了解。同時對于在對學生的課下輔導答疑等方面也顯得力不從心,這必然影響教學的質量。(3)每個學生的基礎不同。由于每個學生來自不同的地區,各個地方的教育水平也有所不同,這就導致班級中的學生基礎水平參差不齊。如何平衡這些差異、體現素質教育、對不同基礎的學生進行分類,進而因材施教是一個急需解決的問題。(4)大數據觀念不強及對教學大數據的分析處理能力較弱。大數據作為一種新興技術,將高校中的教育教學問題和其結合是一個長期、系統的工程,需要高校在教學管理中逐漸樹立運用大數據的觀念。高校的教學管理者及教師,都應該做到用數據管理、用數據決策,用數據進行評價,將大數據融入到日常的教學實踐中,使得教學方式、管理策略更加客觀化。
在教學實施過程中往往積累了大量的數據,但目前對于這些數據的處理還局限于表面層次的對數據進行備份、查詢以及簡單統計,使得這些寶貴數據不能發揮它應有的作用。如何開發這些“寶藏數據”,從中獲得有價值的知識是一個重要問題。這里我們考慮采用數據挖掘中的分類技術,可以將大量的數據轉化為分類規則,從而可以更好地分析和利用這些數據,得出有用的信息。
對教育信息進行分類,構建一個統一的資源檢索平臺,改善當前教育信息資源分布無規律、組織結構較為松散的狀況,為用戶檢索與使用教育信息資源提供了便利。另一方面,通過對相關數據的進行分類分析,能夠形成對于當前教育軟硬件資源分布狀況的統計描述,為教學管理人員、科研工作者等提供參考,有利于更好的依據宏觀統計把握與調配教育資源。因此,分類分析的思想在處理高校教育教學信息和數據方面發揮了重要作用,在教育領域展現出了極大的社會價值。
1.分類技術的基本思想
數據挖掘是從模糊的、不完全的、隨機的大量實際數據中來提取出那些隱含的、有潛在價值的、原先未知的有效信息。數據挖掘的主要任務有關聯分析、聚類分析、分類、預測、時序模式等。其中分類是數據挖掘領域中的重要技術和研究熱點。對于分類問題我們都不陌生,日常生活中我們每天都在進行著分類過程。例如,當你看到一個人,你的腦子下意識判斷他是學生還是上班族;你可能經常會走在路上對身邊的朋友說“這個人一看就是白領”之類的話,其實這就是一種分類操作。簡單說分類的過程就是對事物做出區別的過程,現在有一名學生叫張三,你想確定他是好學生還是差學生,這個確定的過程就是分類。
分類就是找到一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規則或決策樹模式表示。分類是利用訓練數據集通過一定的算法而求得分類規則。分類可被用于規則描述和預測。其本意是對我們的數據進行分類,把它們分到已知的某一個類別。舉個例子,就像一個果籃中有很多的梨子和葡萄,機器會通過我們訓練出來的模型對果籃中的水果進行分類。比如:綠色=梨子,紫色=葡萄。若要讓機器知道這種規則,我們就需要一定量的帶標簽的“綠/紫”標簽的數據,然后讓模型學習。所以分類往往需要“帶標簽”數據。目標數據有哪些特征以及這些特征對應什么標簽都必須是已知的。
“別和其他壞學生在一起,否則你也會和他們一樣”這句話通常來自父母的勸誡,但它透露了不折不扣的近鄰思想。在分類技術中,K近鄰是最簡單易于理解的算法。它的主要思想是通過待遇測樣本最近的K個樣本類別來判斷當前樣本的類別。家長希望孩子成為優秀的三好學生,因此可以不惜花重金買學區房、上私立學校或者參加各種補習班,原因之一是這些優秀的學校里有更多優秀的學生。與其他優秀的學生走的更近,從分類技術中的K近鄰算法的角度看,就是讓目標樣本與其他正樣本距離更近,與其他負樣本距離更遠,從而使得其近鄰中正樣本的比例更高,更大概率被判斷為正樣本。
“根據以往抓獲網癮少年的情況看,十個壞學生中有九個愛上網玩游戲”說這句話的教導主任就是根據分類技術中的樸素貝葉斯算法來區分好、壞學生。“十個壞學生有九個愛上網玩游戲”即“壞學生”上網玩游戲的概率P(上網玩游戲|壞學生)=0.9。假設根據教導主任處歷史記錄來看,壞學生占學生總數P(壞學生)=0.1,上網玩游戲發生的概率是P(上網打游戲)=0.09,那么此時若發生上網玩游戲事件,就可以利用分類技術中樸素貝葉斯算法判斷出當事學生是“壞學生”概率P(壞學生|上網玩游戲)=P(上網玩游戲|壞學生)*P(壞學生)/P(上網打游戲)=1.0。由此判斷該當事學生百分之百是“壞學生”。
“先看抽不抽煙,再看燙不燙頭,最后看講不講臟話”,這是社區大媽判斷一個學生是“好壞”學生的三項關鍵特征,那么這樣一個有先后次序的判斷邏輯就構成了一個決策樹模型。在分類技術的決策樹分類算法中,最能區別類別的特征作為最先判斷的條件,然后依次向下判斷各個次優特征。決策樹的核心就是在于如何選取每個節點的最優判斷條件,即特征選擇的過程。
分類技術應用的范圍也十分的廣泛。如在垃圾郵件的判別中,根據郵件正文中的單詞是否經常出現在垃圾郵件中,進行判斷。例如,如果一份郵件正文中出現“報銷”、“發票”、“促銷”等詞匯時,該郵件被判定為垃圾郵件的可能性比較大;如在商品圖片分類中,淘寶上含有數以千計的商品圖片,“拍照購”、“拍同款”等應用必須對用戶提供的商品圖片進行分類。同時,提取商品圖片中的圖像特征,可以進行按需推送,提高廣告的效果。
2.分類技術在高等教育中的應用案例
(1)分類技術在高校學生成績分析中的應用
高等教育的重點是提升教學質量,為社會培養具有高素質綜合能力強的復合型人才。而學生的成績作為衡量教學質量的一個重要依據,也是評價學生對知識掌握程度,學習態度的一個重要標志。因此對學生成績進行預測分析,可以為教學管理者深化教學改革,合理安排教學計劃,提高教學質量提供重要依據。隨著學生成績數據量的急劇增長,教師很難再像從前一樣直接根據學生成績的分布尋找規律,并根據此規律來進行決策。教師對學生成績的傳統分析處理一般僅僅是統計成績處于優、良、一般、差級別的人數,而對學生取得這些成績分布的原因無法了解。如果教師能充分了解引起學生取得這些成績的原因,必然能更好地“對癥下藥”提高教學質量。對于在教學過程中產生的海量數據,過去往往僅采用初級的數據備份、查詢及簡單的統計階段,使得這些數據沒有得到充分利用。現在可以采用數據挖掘分類技術將大量的數據轉化為分類規則,從而更好地分析這些數據,得出有用的信息。
(2)分類技術在高校教學質量評價中的應用
教學質量評價是高校教學質量管理中備受關注的一個重要環節,一個科學合理的教學質量評價是保證優質教學的前提。在大數據時代,傳統的教學質量評價體系以及跟不上教育改革的發展步伐,在大數據提供的新技術新思路下,我們嘗試構建基于大數據挖掘技術的新型教學質量評價體系,緊跟時代步伐積極推進教學改革。傳統的教學質量評價往往是按照以下步驟展開:首先教學主管部門按照本校的規章制度和實際情況制定一套評價指標和權重,然后通過網絡對評價表進行逐項打分,最后,教務處根據所得分數進行劃分教學質量考核等級,并以此作為重要參考對教師進行評獎評優和年終考核。一般情況下,評價主體包括學生評價、同行之間互評、教學專家評價等,各個評價部分按重要程度占不同的權重。網絡評分后,我們要合理的利用數據挖掘分類技術對這些大量的評教數據進行分析處理,尋找隱藏在其背后的有價值的信息,從而更好地反饋到教師的教學和管理當中。
(3)分類技術在大學生教學資源特點分析上的應用
高校的教學資源包括高等數學、大學英語、大學語文、大學物理、毛澤東思想概論、思想道德修養、體育等多個學科分類,是一個多分類問題。此外,高校的教學資源看似獨立,實質上內部之間相互聯系緊密。比如大學英語中出現的歷史文化內容,多為大學語文課教授內容。而思想道德修養、毛澤東思想概論同屬于政治科目,在內容上也存在著大量的交叉內容。所以我們說高等教育的教學資源具有多個類別標簽,根據此特點,我們利用分類技術,分析資源特點,進行類別的劃分。
(4)分類技術在高校教學管理中的應用
隨著我國目前高等教育的普及,高等學校的數量和規模也不斷增大,高校也面臨著越來越大的管理壓力。為了適應高等教育的多元化和大眾化,培養高素質應用型人才,很多高校在培養方案上也進行了大幅度的改革。大部分的高校采取“大專業、寬口徑、多方向”的培養模式。即在大學的前兩年,學習例如大學英語、大學數學等基礎必修課程,而后兩年,學生們可以根據自己的興趣、未來從業方向選一個方向進行深入學習。專業方向的選擇一定程度上決定了未來的職業規劃和人生發展,所以合理地選擇適合自己的專業方向是一件很重要的事。高校教學管理者可以利用數據挖掘中的貝葉斯分類技術,結合學生對專業選擇的實際要求,根據學生的實際學習情況和興趣愛好等方面進行科學合理的分類預測,給大學生選擇專業方向以及預測專業方向人數提供指導,更有利于大學生的職業生涯規劃。
(5)分類技術在高校教學管理中的應用
在高等學校中,貧困生工作也是學生管理中的一個重要部分。各大高校已經建立了自己的貧困大學生庫,面對大量復雜的貧困大學生信息,管理者的工作也越來越艱巨,對于貧困生的狀態和發展也越來越難以預測。現在面對海量數據,不應該僅僅停留在簡單的查詢和備份,而是需要通過對這些數據進行挖掘獲得對貧困生準確、有效的綜合評價,從而為更公平合理的獎助學金評定工作提供科學依據。可以利用數據挖掘中的決策樹分類算法得出影響評定貧困生等級的各種因素,為高校貧困生綜合評價提供科學的決策支持,從而使高校學生管理部門能夠更科學的了解學生。
3.總結
隨著云計算和移動互聯網的迅速發展,各類數據均呈現爆炸式的增長,大數據在教育領域也產生了深遠的影響。學習行為、思維方式、教育管理、教學評估等無不受到大數據的影響。本文主要討論了大數據背景下傳統的教育教學模式下存在的一些不足,如何利用大數據技術挖掘隱藏在教學管理過程中產生的數據背后的有用價值信息,從而更好地改善教學質量;最后本文簡單介紹了數據挖掘分類技術在高校教學管理中應用的幾個具體案例。總之,高校的教師及管理者應該增強自身的大數據意識,將傳統的教學管理模式和大數據挖掘進行結合,提高教學數據資源的使用效率,更好地應對未來的挑戰。
(基金來源:1.北方民族大學研究生創新資助項目;2.項目名稱:基于三支決策的原型聚類算法研究;3.項目編號:YCX21171。)