李成豐 黃致新
(華中師范大學物理科學與技術學院 湖北 武漢 430079)
?
數據挖掘技術及其在物理教育研究中的應用
李成豐 黃致新
(華中師范大學物理科學與技術學院 湖北 武漢 430079)
數據挖掘是20世紀末逐漸形成的一個多學科交叉、滲透、結合的研究領域.本文通過對美國《物理評論快報》特刊PRST-PER的研究,介紹了數據挖掘的概念、特點、功能及其在物理教育研究中的常見應用,提出了一些思考與建議,并展望了數據挖掘技術在物理教育研究上的未來.
數據挖掘 物理教育 教育研究
在知識社會創新2.0的推動下,“互聯網+”將互聯網與工業、商業、金融業等傳統行業進行了深度融合,創造了新的發展生態.無所不在的網絡與無所不在的計算、無所不在的數據、無所不在的知識共同驅動了無所不在的創新.面對浩瀚的數據信息,人們開始去粗取精,去偽存真,對自身所處領域的問題開始關注,并獨立地追求科學知識,這種能力和興趣正是現代社會成員所必需的基本能力和科學素養.在這種背景下,既是一門理論學科,又是一門應用學科的數據挖掘(Data Mining——DM)技術便顯得尤為重要.其在物理教育研究中的應用,對于物理教育的發展,也具有極大的促進和推動作用.
本文以2005~2015年PRST-PER中的物理教育研究論文為研究對象,采用文獻統計法和內容分析法,對數據挖掘技術在物理教育研究中的應用以及美國物理教育研究的特點進行了分析,力圖為改善我國物理教育研究現狀,促進我國物理教育研究發展提供一些參考.
數據挖掘是一門數據庫研究和人工智能、統計學、機器學習等領域相交叉的新興邊緣學科,近年來受到了社會各階層廣泛的關注.從廣義上講,數據挖掘就是對數據庫中大量的原始數據進行抽樣、清理、轉換,以及計算從而分析出有用知識的過程.簡言之,數據挖掘即是從數據庫中發現有用的模式,或者一種知識,也可以說是數據間的關系(這里的模式是指濃縮數據的邏輯結構和特征描述形式,如表格、決策樹、產生式規則等)[1,2].
數據挖掘也常稱為知識發現(Knowledge Discovery in Database——KDD),知識發現是從源數據中確定出有效的、新穎的,以及最終可理解的模式的高級處理過程(這里的模式可以看成知識的雛形,只需稍加驗證和完善便形成知識).嚴格來講,KDD表示底層數據轉換成高層數據的整個過程,是DM的一種更廣義的說法,DM可看作為是KDD整個過程中的一個特定步驟,并處于核心位置.基于數據庫的知識發現(KDD)和數據挖掘(DM)還存在著混用,通常這兩個術語可替換使用[3,4].
(1)數據量巨大
數據挖掘的源數據量是巨大的.我們需要從大數據庫中隨機或者有目的地選出與研究問題相關的樣板數據子集,而不是盲目地、模糊地去提取數據[5].這樣的篩選不僅能減少數據處理量,而且還能使規律更易凸現出來.
(2)數據類型繁多
現實世界里,我們需要處理的數據具有多種多樣的形式,這種多樣性將數據分為了結構化數據和非結構化數據.便于存儲的、以文本為主的結構化數據,已經進行了多次的數據挖掘研究,技術相對成熟.近年來,越來越多的非結構化數據成為了數據挖掘中日益重要的研究內容,如空間數據、多媒體數據、web數據等等.
(3)源數據常常缺少變量
我們在整理某些源數據時,通常發現這些數據原本是為了別的目的收集而成的,對于我們所要研究的問題來講,可能缺乏一個或者幾個重要的變量,從而使得數據挖掘工作停滯不前.例如,某大型超市每日有大量的交易數據,這是為了核對賬目而存儲的.如果我們想研究該超市里各個年齡層的消費水平,這些數據便缺乏了年齡這一重要的變量.
數據挖掘的功能一般可以分為兩大類:描述和預測[6].描述性數據挖掘任務刻畫了數據庫中數據的一般特性;預測性數據挖掘任務是在當前數據的基礎上進行分析和推斷.一般而言,數據挖掘按功能劃分主要有以下幾大類:
(1)概念描述
概念描述(Concept Description)就是對某類含有大量數據的數據集合進行匯總、分析和比較所獲得的簡明、準確的描述.一般而言,概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類別對象之間的差異.例如,我們可以對某高校物理學院講師和副教授的情況進行如下的概念描述:
滿足(papers<3)and(teaching courses<2)的講師所占比例為70%;滿足(papers>=3)and(teaching courses>=2)的副教授所占比例為62%.
(2)關聯分析
若兩個或多個變量的取值之間存在某種規律性,就稱為關聯.關聯分析(Association Analysis)就是通過分析發現數據庫中隱藏的某種關聯,但是大多數時候我們并不知道數據庫中數據間的關聯函數,于是通過關聯分析生成的規則顯得更有說服力.美國高中的物理課屬于選修課,一般實行學分制,學生在最低學分的要求之上,可以根據自己的情況和需要選擇不同的物理課程.例如,在PRST-PER關于“學生的興趣與高中的學習準備以及大學物理課程學習表現間的聯系”一文中[7].研究者對學習大學物理課程的在校學生進行調查,并分析大量的數據,得出高中學生對物理學的興趣和選修物理課這兩種變量間存在著一種關聯,可以說學生對物理學的興趣是選修物理課的充分不必要條件.換言之,對物理學有興趣的學生通常都會選修物理課程,學習大學物理課程也更加得心應手;但選修物理課程的學生并非都出于對物理學的興趣,因為除興趣之外還存在著學校規定,家長要求等外在因素.由此可見,學生對物理學的興趣有助于學生學好物理知識.
(3)分類
分類(Classification)是找出一組能夠描述數據集合典型特征的模型或者函數,以便能對未知數據進行歸屬和分類.首先,需要建立一個模型,模型的表示方法主要有分類規則、數學公式、決策樹和神經網絡;然后,開始使用模型進行分類.例如,研究課堂教學對學生在定性問題上表現的影響,以及研究興趣和高中物理課程對學生學習大學物理課程的影響等這些問題,涉及到一個重要的分類規則,即對采集的數據按照前測和后測進行劃分和分析.又如,美國著名教育社會學家Martin Trow教授通過分析大量數據在“從大眾向普及高等教育的轉變”和“高等教育的擴展與轉化”中于1973年提出了這樣一個世界公認的高等教育劃分理論:設X為18~24歲人中的大學生比例,則大學分為三類大學:(a)精英大學X<15%,(b)大眾大學15%≤X<50%,(c)全民大學X≥50%.
(4)聚類
聚類(Clustering)就是將數據集合分組成多個類或簇,根據對象之間的相似度進行數據聚集的方法,即為“最小化類間的相似性,最大化類內的相似性”原則[8].聚類中要使用的數據是未知類別屬性的,它屬于一種不依賴于預先定義好分類標記的訓練數據集的非監督學習.在物理教育研究中,通過聚類分析能夠幫助教師識別不同經濟地區的學生群體以及他們之間的學習特征,有助于教師進行教學研究.例如,城鄉學生差異研究等,這對于教師制定更好的教學方法大有裨益.
(5)偏差檢測
通常數據庫中的數據有許多差異和極端的異常記錄,大多時候人們都將其視為噪聲而丟棄,殊不知從數據庫中檢測這些偏差(Deviation)很有意義.偏差檢測的基本方法就是去尋找觀測結果與參照值之間有意義的差別.通過偏差檢測可以發現異常,可使研究者對特殊情況加倍注意.例如,在幾次物理考試成績的統計數據中,始終有幾位同學的物理成績(即實際值)遠低于其正常水平(即期望值),或者在近幾次物理考試中,一些同學的物理成績顯著降低等情況.這時,教師應當關注這些特殊個體,給予他們適當的關心,并尋找問題根源,對癥下藥,使學生們重拾學習的信心.
(6)時序演變分析
數據的時序演變分析(Temporal Evolution Analysis)就是尋找數據對象隨著時間變化的規律或趨勢,從而進行建模描述.它包括時序數據分析、序列或周期模式匹配,以及基于相似性的數據分析.例如,對某校的中學生每天上新課與老師交流互動情況的數據進行時序演變分析,可能得到這樣的規則:上課期間,通常老師提問過的學生及其周圍學生更多的與老師進行交流互動,學習效率也很好,而遠離講臺且缺乏與老師互動的學生,上課的精神狀態稍差,效率低下.
社會科學領域的研究主要采取定性研究方法和定量研究方法,事實上,定性研究方法與定量研究方法并非截然不同,它們有很多方面是相互重合和互補的.定性與定量研究的比較可參見表1.

表1 定性和定量研究的比較
近年來,在科學教育領域,較多的應用個案研究、觀察訪談等定性研究的方式與定量研究相結合,也出現了一些定性描述的文章.定性方法和定量方法的結合,使定量的數據鮮活起來,對學生認知結構的了解會更深入,對于學生科學推理的分析也更加立體和全面,這就是混合研究.筆者在前人研究的基礎上,并結合國內外物理教育研究論文的研究方法,列出了如表2所示的物理教育研究方法分類框架[9]:
通過對2005~2015年PRST-PER上總計346篇文獻的研讀,我們從圖1可以看出國外文獻中采用定量研究方法的文獻數最多.從發展趨勢來看,定量研究方法在國外物理教育研究中逐漸趨于平穩,數據分析時采用的統計方法也更加科學規范.同時,定性研究開始受到重視,混合研究的文獻也趨于一定的增長.總體上,國外物理教育研究方法呈現多元化、整體化、綜合化的趨勢.

圖1 PRST-PER應用的研究方法隨年份的變化
由此可見,美國的物理教育研究通常是實證型的量化研究,首先通過文獻調研、調查分析、觀察實驗等方法收集資料并確定選題,然后選取研究對象和研究方法開展實驗,再對實驗數據進行挖掘、分析、解釋,從而得出結論(有時包括相應的教學意義).筆者通過研讀PRST-PER上的文章,總結出了美國物理教育研究的一般模式,如圖2所示.

圖2 美國物理教育研究的一般模式
圖2表明,數據挖掘技術在物理教育研究中的應用性是非常大的.數據挖掘的基本過程主要有3個部分組成:目標數據的收集、挖掘分析、評估表示[10].以下,筆者會從數據挖掘的過程中列舉實例來說明其在物理教育研究中的應用.圖3描述了數據挖掘的基本過程和主要步驟.

圖3 數據挖掘的基本過程
4.1 目標數據的收集
目標數據的收集主要有兩個模塊:數據收集和數據預處理.當進行數據預處理時,首先要開始數據的收集,即需要從大量數據中精選出一個與要探索問題相關的樣板數據子集.美國教育研究者在收集數據時,主要采用了問卷、實驗、量表等方法.例如,在PRST-PER關于“課堂教學對學生在定性問題上表現的影響”一文中[11],研究的數據包括:“前測問題的選擇”和“班級的選擇”.數據預處理包括數據清理、數據集成和變換、數據歸約.研究者通過設定分類規則篩選出了研究材料和研究對象,然后對研究對象進行在線前測,并加以整理,便得到了目標數據.
4.2 挖掘分析
這一步是數據挖掘工作的核心環節.美國教育研究者多采用定量研究方法,在對數據定量分析時,主要采用數理統計的方法得出結論.數理統計作為數據挖據的主要支柱之一,有許多尋找變量之間規律性的方法,其中包括:回歸分析、方差分析、多變量統計分析、正交試驗設計等等.例如,在PRST-PER關于“加減矢量:箭頭表示存在的問題”一文中[12],研究者分別對學生在一維下矢量的加減法、二維下矢量的加減法以及物理內容下矢量加減法的表現情況用到了方差分析(ANOVA),得出了箭頭表示和ijk表示下學生表現效果之間的層級關系,進而總結出了學生對箭頭表示和ijk表示下的物理意義建構.而回歸分析(Regression Analysis)是其中最有效的方法之一,數據挖掘用到的回歸分析方法主要有線性回歸方程、線性相關的顯著性檢驗、非線性回歸分析、多元線性回歸分析、一般情況下的回歸分析以及逐步回歸分析等.例如,在PRST-PER關于“課堂教學對學生在定性問題上表現的影響”一文中,研究者對其他變量影響的數據建立了完整的回歸方程,顯著性檢驗嘗試將數據擬合為線性回歸模型,回歸分析的結果表明了課堂教學的影響.在數據挖掘中使用哪一種方法,這主要取決于目標數據的特征和所要探究的問題,實際上,這種選擇也不一定是唯一的.
4.3 評估表示
通過挖掘分析,我們將會得出一系列的分析結果、模式或模型,甚至可能是一個結論,但更多的時候,我們只得到了對所探究問題的多側面描述,這就需要我們進一步去解釋并評估結果.如,在PRST-PER關于“連續性圖表更能夠形象地反映出學生在前測和后測所發生的變化”一文中[13],研究者選取了一些物理問題.在3年時間內,每年的期中和期末考試對學生進行考查,記錄自己想要研究的數據(如學生每年做這個題選擇了什么方法、學生犯錯的類型等),然后根據數據進行分析,說明自己研究取得的相應成效及可能的缺陷.
研讀PRST物理教育研究論文,我們不難發現,美國物理教育研究有兩個最主要的特點:規范和嚴謹[14].規范是指嚴格遵循物理教育研究的過程,即注重在閱讀大量文獻綜述的基礎上或者在某些實驗結果的反思里確定研究問題,注重在教育研究中樹立“解決問題”的意識,即選取好研究對象和研究方法,注重數據挖掘過程中將理論研究和實證研究加以結合,注重對結果的解釋與評價.例如,“掌握組中生動形象的錄像解決方案”一文[15]和“在線活動中掌握學習模式與及時反饋學習模式的對比研究”一文[16],都是一系列研究中的一部分.研究對象是伊利諾伊大學香檳分校里一些學習電學和磁學的大學生們,研究的目的是通過整合形象的動畫解決方案與訓練掌握來提高在線物理作業活動的有效性,這個系列的研究過程都十分規范.嚴謹是指研究者在數據挖掘分析時采用數理統計的方法,排除無關變量的影響,前后對比測量考察,對多個對象的大量數據進行長時間的研究.例如,“使用互動的講課示范:一個10年的研究”一文[17],長時間的研究提高了實驗結果的效度和信度.又如,“課堂教學對學生在定性問題上表現的影響”一文中,研究者對華盛頓大學里大學物理的一些班級進行了長達15年的回顧性分析.
在國內的物理教育研究上,我們的研究者主要進行理論探討和定性描述,很少涉及大量數據的深度分析,大多都是思考、淺談、初探等.如此一來,研究者根據自身的經歷和研究得出的經驗和結論不具有普適應,效度通常受到懷疑,于是在一定程度上欠缺實用價值,難以付諸實踐,進而導致理論和實踐的脫節.因此,筆者建議我們的物理教育研究可適當借鑒自然科學研究的方法,多一些應用型的量化研究.當然,即使物理教育研究做到了量化,這并不意味著我們的教育研究步入了科學的軌道.物理教育研究的“科學化”,任重而道遠.我們應克服非此即彼的做法,要把定量研究與定性研究結合起來,使物理教育研究方法從對立走向統一,從單一走向多元,這應該成為我們進行教育研究必須遵循的基本原則,這也是物理教育研究方法發展的方向.
總而言之,在物理教育研究過程中,數據挖掘技術對于量化研究有重要的作用,特別是在教育統計、測量理論和評價工具方面.隨著互聯網、云計算、移動終端的發展,信息技術環境下的教學模式(如翻轉課堂、對分課堂等)以及教學方式(如慕課、微課程等)正引起越來越多的關注,基于E-Learning網絡教育的用戶大數據研究(包括教師的教學行為和學生的學習行為研究等)也逐漸引起學者重視.這是因為采用數據挖掘技術,并通過不同的展現形式顯示分析后的結果,可以輔助高等教育機構管理者做決策(包括改善教學模式、優化資源分配、及時發現學習困難的學生并提供幫助等).目前數據挖掘技術在國內物理教育研究領域的實際應用還很不成熟,筆者認為國內可以借鑒美國等先進國家的經驗,取長補短,但不要生搬硬套和全盤西化,要洋為中用,引入成功的系統進行本土化研究,開發適合中國學生的測試量表和教學策略.筆者相信,在國內,數據挖掘技術在物理教育研究領域的應用前景會越來越好,研究成果也會越來越多.
1 李愛國,厙向陽. 數據挖掘原理、算法及應用.西安:西安電子科技大學出版社,2012
2 胡可云,田鳳占,黃厚寬. 數據挖掘理論與應用.北京:清華大學出版社;北京交通大學出版社,2008
3 唐曉萍. 數據挖掘與知識發現綜述.電腦開發與應用,2002,4(15):31~32
4 孫吉紅,焦玉英. 知識發現及其發展趨勢研究.情報理論與實踐,2006,5(29):528~530
5 梁循. 數據挖掘:建模、算法、應用和系統.計算機技術與發展,2006,1(16):1~3
6 王光宏,蔣平. 數據挖掘綜述.同濟大學學報,2004,2(32):247~248
7 Jason J.B.Harlow, David M.Harrison,Andrew Meyertholen.Correlating student interest and high school preparation with learning and performance in an introductory university physics course.PRST-PER,10(1),010112(2014)
8 李菁菁,邵培基,黃亦瀟.數據挖掘在中國的現狀和發展研究.管理工程學報,2004,3(18):10~14
9 張靜,郭玉英.國外大學物理教育研究的現狀和發展動向.大學物理,2013,4(32):42~45
10 郝先臣,張德干,高光來,趙海. 數據挖掘工具和應用中的問題. 東北大學學報(自然科學版), 2001, 4(22): 183~185
11 Paula R.L.Heron.Effect of lecture instruction on qualitative questions.PRST-PER,11(1),010102(2015)
12 Andrew F.Heckler,Thomas M.Scaife.Adding and subtracting vectors:The problem with the arrow representation.PRST-PER,11(1),010101(2015)
13 Michael C.Wittmann,Katrina E.Black.Visualizing changes in pretest and post-test student responses with consistency plots. PRST-PER,10(1),010114(2014)
14 袁瀚,黃致新,孔鵬柯,朱遠稼. 美國物理教育研究的特點及其啟示.物理通報,2015(3):111~112
15 Noah Schroeder, Gary Gladding, Brianne Gutmann, and Timothy Stelzer. Narrated animated solution videos in a mastery setting.PRST-PER,11(1),010103(2015)
16 Gary Gladding,Brianne Gutmann,Noah Schroeder,and Timothy Stelzer.Clinical study of student learning using mastery style versus immediate feedback online activities.PRST-PER,11(1),010114(2015)
17 Manjula D.Sharma,Ian D.Johnston,Helen Johnston. Kevin Varvell,Gordon Robertson,Andrew Hopkins,Chris Stewart,Ian Cooper,and Ronald Thornton.Use of interactive lecture demonstrations: A ten year study.PRST-PER,6(2),020119(2010)

2015-12-10)