蔡金法 (西南大學數學與統計學院 400715 美國特拉華大學數學系 19716)
徐冉冉 (西南大學數學與統計學院 400715)
姚一玲 (杭州師范大學教育學院 311121)
實證研究是一種基于事實和證據的研究,是教育學走向科學的必要途徑[1-2].實證主義哲學創始人孔德(Auguste Comte,1798—1857)認為,一切知識都必須建立在觀察和實驗的基礎上,經驗是一切知識的來源,經驗范圍以外的知識都是不可靠的[3].縱觀包括教育學在內的學術發展史,可以發現實證研究是提高社會科學研究科學化水平的重要保證[4].在西方,實證研究已成為教育研究的主流,是學術交流和期刊論文的基本范式,也是美國制定教育政策的基本思維方式[5].例如,國際頂尖數學教育期刊“Educational Studies in Mathematics”和“Journal for Research in Mathematics Education”(簡稱ESM 和JRME)迄今刊發的論文多為實證研究[6].與之相比,中國教育實證研究才剛剛起步,實證研究論文不足論文總數的15%,大多數論文仍停留在主觀性的思辨和應然性的暢想階段[7-9].因此,加強和改進教育實證研究,是中國教育研究的當務之急.
近年來,國內關于加強教育實證研究的呼聲不斷高漲.特別是2017年初,14所大學的教育科學學院、32家教育研究雜志以及全國教育科學規劃辦公室和光明日報教育研究中心在華東師范大學聯合召開了“全國教育實證研究聯席會議”,共商加快教育研究發展、提高教育研究質量之策,共同發布了《加強教育實證研究,促進研究范式轉型的華東師大行動宣言》,推進和深化中國教育研究中的實證研究范式轉型.盡管越來越多的教育研究者開始注重實證研究,并使實證研究逐漸成為中國教育研究的主流,但中國學者的研究成果極少見諸于國際公認的高水平教育期刊上[10-11].比如,迄今為止,沒有任何一位中國大陸學者在國際頂尖數學教育期刊JRME上公開發表過科研論文.此外,研究范式和研究方法不能很好地與國際接軌,也使得中國學者在國際研究舞臺上很少能發出強而有力的聲音[12].
可見,我國的教育研究迫切需要加強對實證研究方法的運用,提高教育實證研究的科學化水平.因此,本文結合國際優秀實證研究案例,針對數學教育實證研究科學化提出幾點思考與建議.以期有助于更多教育研究者規范實證研究的范式與方法,擴大研究問題和研究領域,提高教育研究成果質量,增強中國教育研究在國際上的地位與影響力.
所謂實證研究,一是要仔細選擇問題,使研究的問題具有學術價值和實際意義;二是要了解該問題的研究情況,即別人已經做了什么,我能貢獻什么;三是根據問題選擇適當的方法(定性或定量),借以切實地進行論證[13].基于此,特從“數據說話與研究類型、數據說話與理論框架、數據說話與實踐智慧、數據說話與原因分析以及非認知能力——實證研究的重要內容”5個方面進行簡要介紹.
研究類型不同,所需要的數據也是不一樣的.美國教育科學研究所(The Institute of Education Sciences)和美國國家科學基金會(National Science Foundation)兩個機構出版的《教育研究與發展的共同準則》[14](Common Guidelines for Education Research and Development,2013)提出了6種類型的研究:基礎研究(Foundational Research)、早期階段或探索性研究(Early-Stage or Exploratory Research)、設計與開發研究(Design and Development)、效能研究(Efficacy Study)、有效性研究(Effectiveness Study)和大樣本的推廣研究(Scale-up Study).該報告介紹了每種類型的研究大概需要用什么樣的數據,為什么用這樣的數據可以回答該類型的研究問題,以及什么樣的數據是無法回答該類型的研究問題的.舉例來說,對“基礎研究”而言,如果用大量的調查進行研究是沒辦法說明它的研究問題的.例如,一項關于腦科學的“基本研究”通過對腦掃描的數據可以發現:以前認為大腦不可以改變,但現在的研究表明大腦可以在很短的時間內改變.即我們在學習新東西時,就是在我們大腦內建立聯系.然而,該研究結果通過調查等其他方式是無法得到的.又如,對“有效性研究”而言,其目的是在常規實踐條件下實施某個干預或策略,從而觀察這些干預或策略所產生的影響.因此,簡單做個訪談或調查也是無法揭示這些干預或策略的有效性.
研究問題是實證研究的開端,研究問題的類型決定了所需要的研究方法、數據類型及數據收集手段與分析方法等.如若不然,研究所得的結果將可能無法準確而深入地回答所研究的問題.用“兩種不同研究方法對同一研究問題進行研究”的例子加以詳細說明.例如,通過定量分析和定性分析兩種方式收集數據,研究“學生對數學的情感是怎樣的?”.
(1)定量分析:整體評分.在5個選項(1-5分進行賦分,依次代表非常負面、中等程度的負面、一般或態度不明朗、中等程度的正面、非常正面)中勾選出一個對數學的情感評價,收集相關數據,得出以下初步結果(圖1).
(2)定性分析:揭示學生所使用的比喻類型以及為什么?
a.編制研究工具
我們對你怎樣思考和感知數學很有興趣,請花一點時間思考下面的問題并寫下你的真實感受.另外,所有這些問題并沒有所謂正確或錯誤的回答.
①如果數學是一種食物,它可能是;因為.
②如果數學是一種顏色,它可能是;因為.
③如果數學是一種動物,它可能是;因為.
b.收集數據(學生回答),并得到以下兩類不同的結果.
一類是表明喜歡數學的例子:“數學像牛排,因為數學是一個面很廣的學科.然而,牛排有的部分很硬很難啃.雖然整頓飯的最后感受還是滿意的,但吃的過程挺費力的”;“蔬菜是對你有利的,就像數學對于日常的事物.生活中需要它.一些人喜歡它,而一些人不喜歡它,但健康的生活卻離不了它”.一類是不喜歡數學的例子:“數學像蚊子,因為無論你試圖怎樣躲避它,它總會回來的.讓我討厭的是每天都要上數學課,無論你試圖怎么逃避它,你總是不會得逞的”;“數學像口香糖,你嚼它并且用它來清新自己的口氣,但嚼到最后它變得毫無價值而且一點營養和維生素也沒有.學校里的數學能影響你的智力,但日后的生活卻用 不上”.
通過對比兩種不同研究工具對同一研究問題的調查結果發現:用定量分析作為研究工具進行調查,能夠說明樣本的總體情況,但無法揭示導致這一結果的具體原因;相反,用定性分析作為研究工具進行調查時,由于樣本量的限制,或許無法得到總體趨勢,但學生對數學的情感狀態和導致結果的原因卻可以更容易、更準確地描述.也就是說,在做一項研究時,首先要明確到底想要回答什么研究問題,然后用較多的時間去思考什么辦法能夠把這個現象測量出來,以至于可以深入地研究下去,從而讓現象可以精準地被描述出來.換言之,實證研究首先以研究問題為主,研究問題確定了用什么樣的數據和研究方法,方法、數據等皆是為回答研究問題而服務的,而不是數據的形式決定回答什么樣的研究問題.換言之,用什么樣的研究方法,是根據要回答什么樣的研究問題,怎樣才能更好地回答這個研究問題來確定的[15].
數據需要理論框架來指引.當設計需要收集什么樣的數據的時候,首先需要確定一個理論框架.同樣地,在進行實證性研究數據的收集、分析和解讀時,也需要借助理論框架來指導,而非讓數據引導整個研究.舉兩個例子加以說明.
第一個例子:檢驗中美學生對平均數算法的概念性知識與程序性知識的理解[15].
文獻研究表明,學生對數學知識的理解包括概念性知識理解與程序性知識理解兩個方面.在該理論的指導下,我們該如何了解學生的知識理解屬于哪種類型呢?又該如何分析所收集的數據呢?
只有在具體了解學生數學知識理解類型的情況下,才能在課堂上有效幫助學生在這兩方面的理解.用下面的例子加以說明,如何在理論指導下調查和分析學生對算術平均數的概念性和程序性理解.
1.在一次食品捐贈活動中,小張、小王、小李和小趙分別捐贈了一些罐頭.其中小張11罐,小王6罐,小李5罐,小趙2罐.這四人所捐罐頭的平均數是多少?
2.一商店出售帽子.圖2列出了該商店在前三個星期售出的帽子數.

圖2 商店每周出售帽子的情況
這家商店在第四個星期應該賣掉多少頂帽子,才能使售出帽子的平均數為7?請寫出你的全部解答過程.
研究表明(見表1),“第一題對但第二題錯”的中美學生約占1/4.由此可見,這1/4的學生具有如何計算平均數的程序性知識,但缺乏對平均數算法的概念性理解.隨后,對第二題做錯的人進行分析,80%以上都知道程序上加一加除一除,但不知道加什么除什么.因為在解答第二題平均數的問題時,學生不能簡單直接套用公式求解,他們必須憑借對平均數概念的理解來解答這道題.大多數學生都能認識到平均數的算法是必然會用到的,但往往未能適當地使用那些已知條件,這說明學生并非缺乏程序性知識,而是缺乏對平均數算法的概念性理解,因而不能更靈活地使用這一算法解決問題.因此,在進行實證研究時,需要在理論構架下將現象盡可能的詳細、精確地描述出來,并進行分析.

表1 中美學生解答兩平均數問題的正確率
第二個例子:美國的改革型(CMP)課程和非改革型(Non-CMP)課程在“解線性方程”的教材編寫中到底有何區別?[16]
如何定義變量?改革型課程認為,變量是一個變化的數量,是可以改變的;非改革型課程認為,變量是一個符號或字母,通常用來表示數.如何定義方程?改革型課程認為,含有變量或未知數的等式叫方程.該課程從函數的角度來定義方程,強調用變量來表示數量之間的關系,例如,“尋找表示變量之間關系的變化規律”“理解變量是一種可變化的量,認識現實世界中的變量”“確定變量及自變量、因變量的取值范圍”,這些都要求學生通過變量來表示關系;非改革型課程認為方程是含有等號的一個式子,它以代數結構為核心,強調代數運算過程及其背后的結構和模式.為了找到改革型課程與非改革型課程的區別,研究者對初中三年課程中涉及到方程的題目進行分類,發現主要有“含有一個未知量的方程”“二元一次方程”和“二元一次方程組”這三類(參見表2).

表2 兩種課程中涉及線性方程問題的百分比分布(%)
由表2可以發現,在改革型課程中,二元一次方程占比高達93.03%,一元一次方程與二元一次方程組占比僅有7%左右;而在非改革型課程中,占比最高的是一元一次方程,高達86.19%,其余兩類約占14%.這說明,改革型課程強調理解方程變量之間的關系,而不是獲得求解方程所需的技能.因此,方程求解是在討論線性關系的背景下引入的,且絕大多數線性方程涉及兩個變量.
可見,理論框架指導研究問題、研究方法和數據收集的選擇,好的研究問題可以明確回答研究問題所需要的數據類型,且必須與先前的研究或文獻相關.因此,通過文獻可知,改革型課程采用“功能方法”解方程式,它既強調了情境與語境中改變與變化的重要思想,也強調變量之間關系的表示;非改革型課程則采用“結構方法”,它要求學生抽象地使用符號并遵循系統解方程式的程序.基于先前研究的基礎,明確該研究的理論框架,并確定所需收集的數據及數據分析方法,產生令人信服的研究結果,并準確地回答了研究問題.因此,在實證研究中,對數據進行分析的前提是確定理論框架,再由理論框架引導數據分析,并為數據分析的結果作出解釋.
實證研究的目的在于透過表面現象看某一事物(事件)的本質及原因.然而,一些實證研究中不乏產生走極端的現象,且更偏重于為了數據而數據.
舉個有關牙線的故事加以說明[17].有一系列科學研究專門考察“使用牙線對牙齒是否有益?”,這一結果曾在2016年11月的紐約時報上登出.在對其25項相關文獻進行研究后發現,使用牙線并不一定能促進良好的口腔健康.換言之,用牙線比不用牙線對牙齒的影響沒有統計學上的顯著差異.然而,全美牙科協會和普通牙科學會指出,雖然這是在非常嚴謹和隨機控制實驗下產生的結果,但實際上,從一系列證據和臨床經驗中發現,使用牙線對齒間清潔是至關重要的、是有好處的.所以,對證據(數據)的強烈需求是好事,但培養更細致入微的專業知識觀應是這一需求的重要部分.
可見,實踐智慧是一種能夠將一般理論與實際情境相結合的智慧,且實踐智慧是教育實踐不可或缺的[18].因此,在研究中,一方面,需要用數據說話;但另一方面,也不要忘記平常的實踐智慧.所以,在科學研究中用數據說話是重要的,但不要走極端卻忽略了實踐中的智慧.有時候,在統計學上產生的偏差只是使用工具產生的結果.例如,在研究學生成績時,往往會收集身高、年齡、學校等背景變量,然后運用統計軟件對這些數據進行相關性分析,來研究其成績與背景變量是否相關;然而,在實際生活中有些人的身高與成績是相關的,但有些人并不相關.因此,“實踐智慧”是教育實證研究的重要部分,切勿為了數據而數據.
在實證研究中,不僅要考察一門課程、一種教學方法是否有效,更重要的是要看在什么條件下有效.以下面這個研究舉例說明[19].
該研究試圖通過調查美國實施新課程學校學生數學成績的變化情況,來說明新課程的有效性.研究者將20所實施新課程的學校(實驗學校)與實施原課程的學校(對照學校)進行一一匹配.從實驗學校開始實施新課程的學年起,即從1998年或1999年(部分實驗學校從1999年開始實施)至2004年春季學期,調查了所有實驗學校與對照學校中學生的數學成績.通過統計分析、對比研究后發現,20所實驗學校學生的數學成績平均增長與對照學校學生的數學成績平均增長相比,并沒有統計學意義上的差異,也就是說,所實施的新課程并不能更好地促進學生數學學習.研究者推測,新課程的實施也許受到學校及教師改革意愿的影響,換言之,學校和教師強大的改革意愿可能會促進新課程實施的影響,改革意愿低的學校或教師可能會阻礙實施新課程的影響效果.隨后,研究者又對所有實驗學校增加了一項以“改革意愿”作為變量的調查,調查結果如圖3所示.

圖3 從起始年(1998年或1999年)至2004年,實驗學校的數學成績增長減去與其相匹配的對照學校的數學成績增長(dMATH growth),與綜合改革意愿分數(COMPOSITE)的函數.
通過圖3可以發現,與所匹配的對照學校相比,在改革意愿上得分越高的實驗學校,其學生數學成績就會越高;而實施了新課程但改革意愿較低的學校,其學生的數學成績低于與其匹配的對照學校學生成績.換言之,有較強改革意愿的學校,在采用了新課程之后,該校學生的數學成績有了顯著提高;反之,改革意愿較低的中學,在采用新課程之后,數學成績卻大幅下降.
通過上述例子,可以發現,單從總體實驗學校的效果來看,并不能準確地說明新課程的實施是否有效.而從不同條件或角度來考察、衡量數據結果,也可以發現新課程實施的實驗效果.因此,在回答研究問題時,需要關注研究問題的不同側面及相關條件,從不同角度解釋數據與數據之間的關系,而不僅僅只是關注最直接的研究問題本身.
實證研究不僅要關注個體的認知能力,還應該關注非認知能力的發展.因為對非認知能力的正確認識與理解,直接關系到我國教育的成敗和我們所培養人才的素質與規格[20].近年來,非認知能力在預測教育成就、就業、健康、犯罪趨勢等廣泛的工作、生活方面顯得越來越重要[21-22].盡管一些國際大型教育研究測試已將非認知能力的影響作用納入到研究中,但實際上,通過近20年發表在JRME上的研究報告或簡要報告來看,只有10%的研究者將學生的非認知能力作為影響學習結果的因素/變量.但值得高興的是,不少研究者越來越強調非認知能力發展的重要性.例如,Lindqvist和Vestman[23]通過對瑞典14 000余名18歲入伍男性進行了認知能力和非認知能力兩方面的測試.20年后,通過調查他們生活狀況的各個方面,來研究勞動力市場與認知能力和非認知能力之間的關系.研究發現:認知能力雖然是勞動力市場成功的重要預測因素,但并不是唯一的因素;非認知能力也會影響未來勞動力市場的成功與否.事實上,非認知能力的總體影響大于認知能力(見表3).該表中選取工資、就業率和失業率3個指標進行解釋說明.就工資情況而言,18歲時,如果A比B在認知方面的分數高一個標準差的話,20年后(38歲時),A的工資很大程度上會比B的工資高5%;而如果A比B在非認知方面的分數高一個標準差的話,20年后(38歲時),A的工資很可能會比B的工資高9%.就業率和失業率在認知和非認知能力方面也存在類似的差異.換言之,非認知能力比認知能力對工資、就業率和失業率的影響更大.

表3 認知和非認知評分中增加一個標準差,20年后其工資、就業率增長和失業率下降的的百分比[22]
Cai和Morris[24]等人也強調:一是教育研究中不僅要考慮認知層面的因素,也要考慮非認知層面的因素;二是不僅要通過短期效應來衡量影響效果的大小,還要通過長期效應來衡量,且長期效應也需要考慮認知和非認知兩個層面所產生的影響.
Moyer等人[25]在Lie Cai項目中也從認知和非認知方面對學生數學態度進行了測試.首先在初中6-8年級學生中分別使用改革型、傳統型兩種不同的課程進行教學,長期跟蹤到12年級結束,測試使用不同類型數學課程的學生在數學態度上的差異.研究發現:使用改革型課程的學生,其測量的認知因素所改變的敏感性不如用非認知因素來測試長期的影響來得敏感.換言之,初中分別用兩種不同的課程進行教學,到12年級后,這兩組學生在成績上有一些差別(改革型的好一些);但是,在數學的情感方面,用了改革型課程的學生遠遠比用了非改革型課程的學生來的更正面、積極.
研究中我們往往只是將非認知方面的因素順便測一下,而主要關注其在認知方面的變化.通過這兩個典型研究案例可以發現,今后的發展方向是將非認知能力的改變作為一個干預來衡量其在認知能力的變化.換言之,今后無論是心理學還是教育學等領域,通過干預學生的非認知能力來提高認知能力都將是新的發展趨勢.
實證研究是當今國際教育研究的主流話語和主要方法,相比之下,我國教育實證研究數量少、質量弱的現況表明了加強教育實證研究的必要性和迫切性[4].目前,我國教育實證研究尚處在艱難的起步階段,在國際研究舞臺上的“聲音”亦是微乎其微.因此我國數學教育研究亟需更多、更規范、科學化和高水平的研究成果來提高中國教育研究在國際舞臺上的地位和影響力.由此,作為數學教育研究者有必要清楚地了解數學教育實證研究科學、規范的研究范式,避免陷入實證研究誤區.基于此,結合多個實證研究案例,提出五點關于數學教育實證研究的建議,希望能夠幫助研究者產出更多科學、嚴謹、高質量的研究成果.