

隨著人們對知識的需求不斷增加且變得越發迫切,知識發現研究日益受到關注,而基于大數據的知識發現有助于挖掘課堂教學行為和教師實踐性知識的數據樣貌,為理解教育教學現象及其本質提供深刻的洞見。首都師范大學教授王陸結合團隊22年來扎根中小學課堂的實踐,深入淺出地介紹了基于大數據的知識發現視頻課例中數據分析與挖掘的三種促進教師專業發展的應用模式。
作者簡介
王陸 首都師范大學教育技術研究所所長
首都師范大學現代教育技術重點實驗室主任
北京市基礎教育信息化實驗教學示范中心主任
引言
大數據即巨量的資料,指的是專業領域中所創造的大量非結構化和半結構化數據。什么是非結構化和半結構化數據?就視頻課例這一特定的研究情境來說,典型的非結構化數據就是我們在課堂中所錄下來的課堂錄像;半結構化數據就是包含圖形、符號、數據等形式的文檔,如教師課前撰寫的教學設計方案文本以及課后撰寫的反思文本。
在視頻課例研究中,我所在團隊開發的靠譜COP項目研究成果包含了兩大類型數據——非結構化型數據和半結構化型數據,分別對應了課堂教學行為大數據和實踐性知識大數據。在搞清楚什么是大數據、課堂教學行為大數據、實踐性知識大數據后,我將從四個方面對視頻課例進行分析和探究。
洞見大數據知識發現
的新見解
知識發現是指從數據集中提取有效的、新穎的、潛在有用的、可理解的模式的非平凡過程。同時,隨著計算與網絡通信技術、觀測與傳感儀器以及數字存儲的發展,教育學科同很多學科一樣,正在從數據貧乏轉變為數據富集的研究領域,一種新的透鏡——大數據正在影響著研究者看待和認識教育教學問題的方式,也逐漸形成了從數據中提取新知識的有效途徑?!白寯祿f話”開始成為教育學研究領域的一種理論主張,基于大數據的知識發現為教育學的研究找到了新起點,也將獲得更深刻的洞見。
數據是知識發現的基礎與前提,數據處理的理論、方法與技術勢必影響知識發現的過程與結果。大數據的知識發現主要取決于兩個關鍵部分:一是數據獲取能力,即對數據獲得、共享、整合、分析以及構建預測模型的能力,要獲取足夠多、足夠復雜、足夠蘊含復雜關系的數據;二是數據分析能力,即將精細的概率模型、統計推理、數據挖掘與機器學習相結合。
當然,知識發現不可能無中生有地創造知識,數據、信息、實物、現象之間普遍存在的各種關系是進行知識發現的基本依據,盡管在現實世界中有些關系是顯性的、直接的、較為容易發現的,甚至可以觀測到的,但是絕大部分關系還是隱性的,隱藏在我們數據信息事物和現象中,不容易被發現。其基本關系可以分為五種:因果關系,因時間而形成,是歸納、演繹等知識發現方法的基礎;相似關系,因特征相似而形成,是類比、想象、聯想等知識發現方法的基礎;結構關系,因空間而形成,是系統、綜合等知識發現方法的基礎;邏輯關系,因邏輯而形成,是分類、比較等知識發現方法的基礎;數量關系,因數據而形成,是統計學、數學等知識發現方法的基礎。
大數據時代知識發現的思維模式超越了傳統數據分析和數據演繹的思維局限性,特別強調三個特點。1.整體兼顧部分:從方法論上看,“全數據模式”注重運用整體方法把握事物,但要克服其局限性,兼顧部分,深化認識,重視還原事物的層次性。2.量化整合質化:從內容上看,質化研究與量化研究應該是統一的、相互補充的——質化研究為量化研究奠定基礎,是量化研究的依據;而量化研究是質化研究的具體化,使質化研究更為科學、準確。3.因果強調相關:因果關系是客觀存在的,是我們認識世界本質的邏輯前提;即便大數據更側重強調相關關系,也始終離不開對因果關系的追求,這是由思維的本性所決定的,側重相關分析并沒有否定因果分析。
目前,我們正生活在數據的海洋中。然而,數據不等同于信息,信息也不等同于知識,知識更不等同于智慧。如果我們不能將數據轉化成信息,再轉化為知識,再涌現出智慧的方法與技術,那么我們就會身處數據的海洋,卻忍受著知識的饑渴。此時,基于大數據的知識發現服務應運而生。我所在團隊開發的靠譜COP項目就是一種知識發現服務,著眼于課堂教學行為大數據和實踐性知識大數據,兩組數據相互影響,實踐性知識決定了教師課堂教學行為,而教師課堂教學行為的改進,可以反作用于實踐性知識,強化甚至重構實踐性知識。兩組大數據的常模數據庫集群為深度的視頻課例研究奠定了堅實的基礎。
破解基于視頻課例的知識發現方法
視頻課例一般具有四個工具屬性:一是可以跨越時空限制被反復觀看。視頻課例分析能夠提供研究者一種來自研究場域的、永久的且可以支持研究者重復觀察的研究資料,從而使得研究者可以發現傳統觀察方式無法獲得的、但也許很重要的線索與知識。二是能夠忠實地記錄復雜課堂教學的細節以及口語數據以外(動作、表情等)的事件信息。三是視頻課例記錄可避免教師自陳資料中發生的社會期望偏差。二、三兩個工具屬性可有效降低因研究者自身的經驗和自信而造成的個人主觀意見所形成的確認偏差,從而提高研究的可靠性。四是允許跨領域分析并可用于不同分析方法。視頻課例分析并不限定于特定的研究方法,可用于民族志、言語分析、互動分析、會話分析等研究中,也可以經過適當編碼、計數等轉換程序后,同時使用量化與質性等方法。因此,視頻課例為教育教學研究開辟了新的空間和新的領域。
基于大數據的視頻課例知識發現方法包括資料收集、資料管理和資料分析三個階段,包括“現象—表征—樣貌—知識”循環往復的知識發現路徑。
一、現象
教學現象是理解與研究課堂教學活動規律與本質的重要切入點。然而,無論是進入課堂的研究者,還是身處課堂的廣大中小學教師,即使有了研究的意識,面對復雜多變的教學現象,也不知如何研究,從而導致了當前的教學規律更多的是研究者通過主觀臆想或演繹推論得出的,較少是從復雜、多變的教學現象的觀察研究中得出的。
那么,教學現象是如何形成的呢?教學現象是由教學行為導致的,教學現象因課堂教學行為的差異性而具有豐富性和多樣性;大數據自身蘊含的模式與關系就可以對復雜的現象產生知識洞見。
在日常的課堂觀察中,我們往往會有這樣的評價:優秀教師的課堂教學很深入、很有效;低水平教師的課堂教學很淺顯,有效性很差。但評價從何得出呢?我們往往無法詳細列舉。但有了大數據的輔助——教學行為轉換序列網絡關系圖,我們就可以很容易地對其進行描述。教學行為轉換序列網絡關系圖分為六個層次,從低到高依次為記憶、理解、運用、分析、評價、創造,通過研究發現,優秀教師的課堂教學不僅在低級階層有很多的認知活動(記憶、理解、運用),同時在高級階層仍然有很多認知活動(分析、評價、創造),而且低級階層和高級階層之間有很多的互動;但低水平教師的課堂教學大部分停留在記憶和理解階層。由此我們便可以對之前的評價進行詳細的描述。
二、表征
表征是數據信息的呈現方式,特指當事物從“感性存在”轉變為“數字存在”時數據所構成的事物表象。大數據是對真實世界的表征與映射,由于任何形式的表征都會帶來信息的丟失,所以一般主張應該直接對視頻課例進行編碼而略過表征的環節。本文對此不作贅述。
三、樣貌
樣貌指意義上的表象,意為真實世界中的知識可計算與可視化地賦予數據的外貌。編碼體系和記號體系兩大類方法可以有效賦予課堂教學行為以數據的樣貌。編碼體系方法要求確定要觀察的具體項目,然后對準備觀察的具體項目進行編碼。編碼體系通常采用時間取樣法,觀察在特定的時間內發生的特定行為,并以行為編碼表示。記號體系也叫項目清單,是指預先列出一些需要觀察并且有可能發生的行為,觀察者在每一種要觀察的事件或行為發生時做個記號。
除此之外,人工智能機器學習等算法可以有效賦予實踐性知識以數據的樣貌。例如我所在團隊從六個維度(教育信念、自我知識、人際知識、策略知識、情境知識、反思知識)對實踐性知識數據進行了分析,結果顯示,新手教師和成熟教師的人際知識增長最快,而勝任教師策略知識增長最快。
四、知識
知識是人類在改造世界和社會實踐中獲得的認識與經驗的綜合,傳統的知識生產方式主要是理論驅動式的生產模式,這是一種精英化的知識生產方式。隨著大數據智能時代的到來,已經形成了從人類獲取與產生的各種數據中提取知識的新途徑,數據驅動的知識已經成為認識人和社會的全新的知識來源。大數據為什么可以產生數據驅動的知識呢?這是因為大數據具有三大特性:精準數據追溯能力、協同數據驅動能力、可視化數據決策能力。大數據解釋了一種新的知識發現路徑,從海量的數據中挖掘出其背后具有規律性的“小模式”。例如,我所在團隊針對福建省廈門市思明區教師三年的成長路徑數據挖掘出十條有效的發展路徑(見下表),這就是大數據背后發現的“小模式”,也是數據的一種高級表達形式。
從“現象—表征—樣貌—知識”的知識發現路徑,我們經歷了經驗科學、理論科學、計算(實證)科學、數據驅動型(大數據)科研四代范式。當前我們正經歷著第四代范式,與第三代研究范式相比較,其分析思路從“假設—驗證”變為了“發現—總結”,分析過程從“定性—定量—再定性”變為了“定量—定性”,邏輯關系從“分布理論—概率保證—總體推斷”變為了“實際分布—總體特征—概率判斷”。可以說,隨著研究水平的提高以及數據可得性、易得性的提升,我們的知識研究已經發生了根本性的轉變。