高桂平
摘 要:文本分類是數據挖掘方法,在話語分析上的應用較少見。本文提出用機器學習方法將課堂話語分類,從功能上分為:課堂組織話語、教學內容呈現話語、交互類型話語、評價反饋話語等,通過分類,構建課堂話語語料庫。為提高其分類準確率,本文先提取教學內容主題詞,再用貝葉斯分類器對課堂話語進行自動分類。
關鍵詞:數字化課堂 話語行為 主題詞提取 文本分類
中圖分類號:G642 文獻標識碼:A 文章編號:1674-2117(2014)08-0066-02
1 話語行為分類理論
美國教育家弗蘭德斯(Ned. Flanders)對不同年級、不同學科課堂教學的大量現場觀察,提出傳統課堂教學師生言語行為互動分析系統FIAS。將課堂師生言語行為總結為教師行為、學生行為、寂靜三大類,細分為10小類。[1]數字化課堂引進了數字化教學設備。顧小清等在弗蘭德斯課堂話語行為三大類的基礎上增加了技術這一類,[2]如下表第三列所示的13種課堂言語行為。通過對這13種課堂言語行為產生的話語分析,建立分類集表項,如表所示,課堂話語行為分為四類,課堂組織話語、教學內容呈現話語、交互類型話語、評價反饋類型話語[3-4],由于作用功能的不同,每種類型話語表述在語義方面呈現不同的特點。下表中的特征詞匯舉例展示了各類型話語常見特征詞匯。由于話語功能不同,每種類型話語的表述在語義上具有其獨有的特點。
目前對課堂話語分類是人工進行的,自動分類方法尚未應用于課堂話語行為分類。文本分類技術是在預先給定的類別標記集合下,根據文本內容用機器學習方法為文本指派預先定義的類別標記。[5]結合課堂話語特點,本文提出數字化課堂話語自動分類方法。
2 建立分類模型
課堂話語分類過程包括訓練和分類。處理訓練文本,首先基于初始語料庫(即課堂實錄視頻轉化過來的文本文檔)過濾教學內容主題詞,將剩余部分作為教學內容呈現話語,其他話語按其功能分類,建立訓練語料庫。再通過特征提取、權重計算完成訓練過程,得到分類模型。對測試文本的處理,首先進行文本預處理,如分詞、去停用詞,再提取課堂主題詞,分類。如右圖所示:
2.1 教學內容主題詞提取
課堂教學內容主題詞表示為完成教學目標實施教學的授課內容。為提高分類準確率,本文采用(1)式TF×IDF算法[6]過濾課堂內容主題詞,預處理后計算教學實錄文檔中各詞的文檔查詢詞頻(TF)和倒排文檔頻率(IDF)。
公式(1)中,P表示字數,D表示文檔,F(P,D)中的P表示在D中出現次數,S(D)中的D表示字數;D(P)中的P表示出現文檔數量;N表示文檔總數。例如,計算《雷雨》這篇課文的主題詞,將特征詞權重降序排列,分別是:雨、天空、彩虹、蜘蛛、樹、閃電、蟬、大風、垂、雷聲、太陽、景色、天空、悶熱、烏云等。過濾主題詞人工判斷句子類別,構建話語類型語料庫。
2.2 分類過程
特征提取采用信息增益方法,分類采用樸素貝葉斯分類算法[7],該方法簡單高效,通過先驗條件概率去估計后驗條件概率,前提是滿足特征間獨立性假設。已知某個課堂話語文本集D={d1,d2,…,dn},文本構成特征集是W={W1,W2,…,Wm}。計算權值后,用VSM表示課堂的每一句話語V(di)=(val(Wi1),val(Wi2),…,val(Wim)),類別C={C1,C2,…,C4},C1:課堂組織話語、C2:教學內容呈現話語、C3:交互類型話語、C4:評價反饋話語。根據貝葉斯公式(2)、(3):
P(ci):類先驗概率,有訓練集估計,P(wi|ci)用最大似然法估計,ni表示ci類所有文本中特征向量wi的出現次數,|W|表示ci類所有文本出現的特征總數。依次代入d1,d2,…,dn可計算其的最大P(ci|dk)值,將該話語歸為相應Ci類。
3 實驗過程與分析
課堂語料庫來自中小學課堂90個優秀教學錄像。訓練集制作過程為選取優秀教學視頻;將課堂教學視頻轉化為TXT文件,提取出教學內容主題詞;過濾教學內容主題詞,將txt文件轉化成XML文檔;解析xml文件,將每個訓練樣本每種課堂話語種類解析出來并寫入到相應訓練集語料庫中,形成分類訓練集。
測試課堂共206句話語。實驗性能數據為:課堂組織、內容呈現、交互類型、評價反饋的準確率分別為84.8%、95.0%、51.0%、74.0%;召回率分別為52.0%、61.4%、100%、89.5%;F1測試值分別為64.5%、74.6%、67.5%、81.0%。整體分類各項性能指標還不是很高,有待改進;課堂組織話語查全率較低;交互類型話語查準率較低。導致此類問題原因:①教學內容呈現話語涉及的內容面很廣,內容主題詞過濾不夠精確;②訓練庫中語料不能滿足樸素貝葉斯分類器各類之間完全獨立性的假設,而只可能讓其間獨立性最大;③語料庫規模不夠大。
4 結語
本文通過對90個上課實錄的分析和處理,構建了一個課堂話語類型語料庫。用樸素貝葉斯分類方法,實現了將課堂話語自動分類。實現課堂話語自動分類給課堂話語分析帶來了便利。該方法與人工分類方法相比有明顯優勢。人工分類方法費時費力、難以保證一致性和準確性(40%左右的準確率),難以避免專家差異。自動方法快速、準確率相對高,樣本源于真實文本,可信度高。語料庫構建是一個很重要的問題,貝葉斯分類原理重要假設是組成文本的字詞在確定文本類別作用上相互獨立。因此在建構語料庫時應盡量保證不同類型話語的語義正交。進一步要做的工作是:擴展語料庫,根據課堂話語的特殊性和規律性,在分類過程中加入一些統計規則,使分類效果更佳。
(華中師范大學教育信息技術學院,湖北 武漢 430079)
參考文獻:
[1] Flanders,N.Analyzing teacher behavior[M].MA: Addison- Wesley,1970,(107).
[2]顧小清,王煒.支持教師專業發展的課堂分析技術新探索[J].中國電化教育,2004(7):18-21.
[3]王成菲.中學英語課堂中教師話語重復的研究[C].廣西師范大學,2008.
[4]Sato.Classroom Foreigner Talk Discourse: Forms and Function of TeachersQuestion[A].Classroom-oriented Research in Second Language Acquisition,1983.
[5]蘇金樹,張博峰.基于機器學習的文本分類技術研究進展[C].軟件學報,2006,9,(17):1848-1859.
[6]王園,龔尚福.基于二次TF× IDF的互信息文本特征選擇算法研究[J].計算機應用與軟件,2011(04).
[7]李祥,周波.一種基于樸素貝葉斯分類的性能預測方法[J].計算機應用與軟件,2011(01).endprint
摘 要:文本分類是數據挖掘方法,在話語分析上的應用較少見。本文提出用機器學習方法將課堂話語分類,從功能上分為:課堂組織話語、教學內容呈現話語、交互類型話語、評價反饋話語等,通過分類,構建課堂話語語料庫。為提高其分類準確率,本文先提取教學內容主題詞,再用貝葉斯分類器對課堂話語進行自動分類。
關鍵詞:數字化課堂 話語行為 主題詞提取 文本分類
中圖分類號:G642 文獻標識碼:A 文章編號:1674-2117(2014)08-0066-02
1 話語行為分類理論
美國教育家弗蘭德斯(Ned. Flanders)對不同年級、不同學科課堂教學的大量現場觀察,提出傳統課堂教學師生言語行為互動分析系統FIAS。將課堂師生言語行為總結為教師行為、學生行為、寂靜三大類,細分為10小類。[1]數字化課堂引進了數字化教學設備。顧小清等在弗蘭德斯課堂話語行為三大類的基礎上增加了技術這一類,[2]如下表第三列所示的13種課堂言語行為。通過對這13種課堂言語行為產生的話語分析,建立分類集表項,如表所示,課堂話語行為分為四類,課堂組織話語、教學內容呈現話語、交互類型話語、評價反饋類型話語[3-4],由于作用功能的不同,每種類型話語表述在語義方面呈現不同的特點。下表中的特征詞匯舉例展示了各類型話語常見特征詞匯。由于話語功能不同,每種類型話語的表述在語義上具有其獨有的特點。
目前對課堂話語分類是人工進行的,自動分類方法尚未應用于課堂話語行為分類。文本分類技術是在預先給定的類別標記集合下,根據文本內容用機器學習方法為文本指派預先定義的類別標記。[5]結合課堂話語特點,本文提出數字化課堂話語自動分類方法。
2 建立分類模型
課堂話語分類過程包括訓練和分類。處理訓練文本,首先基于初始語料庫(即課堂實錄視頻轉化過來的文本文檔)過濾教學內容主題詞,將剩余部分作為教學內容呈現話語,其他話語按其功能分類,建立訓練語料庫。再通過特征提取、權重計算完成訓練過程,得到分類模型。對測試文本的處理,首先進行文本預處理,如分詞、去停用詞,再提取課堂主題詞,分類。如右圖所示:
2.1 教學內容主題詞提取
課堂教學內容主題詞表示為完成教學目標實施教學的授課內容。為提高分類準確率,本文采用(1)式TF×IDF算法[6]過濾課堂內容主題詞,預處理后計算教學實錄文檔中各詞的文檔查詢詞頻(TF)和倒排文檔頻率(IDF)。
公式(1)中,P表示字數,D表示文檔,F(P,D)中的P表示在D中出現次數,S(D)中的D表示字數;D(P)中的P表示出現文檔數量;N表示文檔總數。例如,計算《雷雨》這篇課文的主題詞,將特征詞權重降序排列,分別是:雨、天空、彩虹、蜘蛛、樹、閃電、蟬、大風、垂、雷聲、太陽、景色、天空、悶熱、烏云等。過濾主題詞人工判斷句子類別,構建話語類型語料庫。
2.2 分類過程
特征提取采用信息增益方法,分類采用樸素貝葉斯分類算法[7],該方法簡單高效,通過先驗條件概率去估計后驗條件概率,前提是滿足特征間獨立性假設。已知某個課堂話語文本集D={d1,d2,…,dn},文本構成特征集是W={W1,W2,…,Wm}。計算權值后,用VSM表示課堂的每一句話語V(di)=(val(Wi1),val(Wi2),…,val(Wim)),類別C={C1,C2,…,C4},C1:課堂組織話語、C2:教學內容呈現話語、C3:交互類型話語、C4:評價反饋話語。根據貝葉斯公式(2)、(3):
P(ci):類先驗概率,有訓練集估計,P(wi|ci)用最大似然法估計,ni表示ci類所有文本中特征向量wi的出現次數,|W|表示ci類所有文本出現的特征總數。依次代入d1,d2,…,dn可計算其的最大P(ci|dk)值,將該話語歸為相應Ci類。
3 實驗過程與分析
課堂語料庫來自中小學課堂90個優秀教學錄像。訓練集制作過程為選取優秀教學視頻;將課堂教學視頻轉化為TXT文件,提取出教學內容主題詞;過濾教學內容主題詞,將txt文件轉化成XML文檔;解析xml文件,將每個訓練樣本每種課堂話語種類解析出來并寫入到相應訓練集語料庫中,形成分類訓練集。
測試課堂共206句話語。實驗性能數據為:課堂組織、內容呈現、交互類型、評價反饋的準確率分別為84.8%、95.0%、51.0%、74.0%;召回率分別為52.0%、61.4%、100%、89.5%;F1測試值分別為64.5%、74.6%、67.5%、81.0%。整體分類各項性能指標還不是很高,有待改進;課堂組織話語查全率較低;交互類型話語查準率較低。導致此類問題原因:①教學內容呈現話語涉及的內容面很廣,內容主題詞過濾不夠精確;②訓練庫中語料不能滿足樸素貝葉斯分類器各類之間完全獨立性的假設,而只可能讓其間獨立性最大;③語料庫規模不夠大。
4 結語
本文通過對90個上課實錄的分析和處理,構建了一個課堂話語類型語料庫。用樸素貝葉斯分類方法,實現了將課堂話語自動分類。實現課堂話語自動分類給課堂話語分析帶來了便利。該方法與人工分類方法相比有明顯優勢。人工分類方法費時費力、難以保證一致性和準確性(40%左右的準確率),難以避免專家差異。自動方法快速、準確率相對高,樣本源于真實文本,可信度高。語料庫構建是一個很重要的問題,貝葉斯分類原理重要假設是組成文本的字詞在確定文本類別作用上相互獨立。因此在建構語料庫時應盡量保證不同類型話語的語義正交。進一步要做的工作是:擴展語料庫,根據課堂話語的特殊性和規律性,在分類過程中加入一些統計規則,使分類效果更佳。
(華中師范大學教育信息技術學院,湖北 武漢 430079)
參考文獻:
[1] Flanders,N.Analyzing teacher behavior[M].MA: Addison- Wesley,1970,(107).
[2]顧小清,王煒.支持教師專業發展的課堂分析技術新探索[J].中國電化教育,2004(7):18-21.
[3]王成菲.中學英語課堂中教師話語重復的研究[C].廣西師范大學,2008.
[4]Sato.Classroom Foreigner Talk Discourse: Forms and Function of TeachersQuestion[A].Classroom-oriented Research in Second Language Acquisition,1983.
[5]蘇金樹,張博峰.基于機器學習的文本分類技術研究進展[C].軟件學報,2006,9,(17):1848-1859.
[6]王園,龔尚福.基于二次TF× IDF的互信息文本特征選擇算法研究[J].計算機應用與軟件,2011(04).
[7]李祥,周波.一種基于樸素貝葉斯分類的性能預測方法[J].計算機應用與軟件,2011(01).endprint
摘 要:文本分類是數據挖掘方法,在話語分析上的應用較少見。本文提出用機器學習方法將課堂話語分類,從功能上分為:課堂組織話語、教學內容呈現話語、交互類型話語、評價反饋話語等,通過分類,構建課堂話語語料庫。為提高其分類準確率,本文先提取教學內容主題詞,再用貝葉斯分類器對課堂話語進行自動分類。
關鍵詞:數字化課堂 話語行為 主題詞提取 文本分類
中圖分類號:G642 文獻標識碼:A 文章編號:1674-2117(2014)08-0066-02
1 話語行為分類理論
美國教育家弗蘭德斯(Ned. Flanders)對不同年級、不同學科課堂教學的大量現場觀察,提出傳統課堂教學師生言語行為互動分析系統FIAS。將課堂師生言語行為總結為教師行為、學生行為、寂靜三大類,細分為10小類。[1]數字化課堂引進了數字化教學設備。顧小清等在弗蘭德斯課堂話語行為三大類的基礎上增加了技術這一類,[2]如下表第三列所示的13種課堂言語行為。通過對這13種課堂言語行為產生的話語分析,建立分類集表項,如表所示,課堂話語行為分為四類,課堂組織話語、教學內容呈現話語、交互類型話語、評價反饋類型話語[3-4],由于作用功能的不同,每種類型話語表述在語義方面呈現不同的特點。下表中的特征詞匯舉例展示了各類型話語常見特征詞匯。由于話語功能不同,每種類型話語的表述在語義上具有其獨有的特點。
目前對課堂話語分類是人工進行的,自動分類方法尚未應用于課堂話語行為分類。文本分類技術是在預先給定的類別標記集合下,根據文本內容用機器學習方法為文本指派預先定義的類別標記。[5]結合課堂話語特點,本文提出數字化課堂話語自動分類方法。
2 建立分類模型
課堂話語分類過程包括訓練和分類。處理訓練文本,首先基于初始語料庫(即課堂實錄視頻轉化過來的文本文檔)過濾教學內容主題詞,將剩余部分作為教學內容呈現話語,其他話語按其功能分類,建立訓練語料庫。再通過特征提取、權重計算完成訓練過程,得到分類模型。對測試文本的處理,首先進行文本預處理,如分詞、去停用詞,再提取課堂主題詞,分類。如右圖所示:
2.1 教學內容主題詞提取
課堂教學內容主題詞表示為完成教學目標實施教學的授課內容。為提高分類準確率,本文采用(1)式TF×IDF算法[6]過濾課堂內容主題詞,預處理后計算教學實錄文檔中各詞的文檔查詢詞頻(TF)和倒排文檔頻率(IDF)。
公式(1)中,P表示字數,D表示文檔,F(P,D)中的P表示在D中出現次數,S(D)中的D表示字數;D(P)中的P表示出現文檔數量;N表示文檔總數。例如,計算《雷雨》這篇課文的主題詞,將特征詞權重降序排列,分別是:雨、天空、彩虹、蜘蛛、樹、閃電、蟬、大風、垂、雷聲、太陽、景色、天空、悶熱、烏云等。過濾主題詞人工判斷句子類別,構建話語類型語料庫。
2.2 分類過程
特征提取采用信息增益方法,分類采用樸素貝葉斯分類算法[7],該方法簡單高效,通過先驗條件概率去估計后驗條件概率,前提是滿足特征間獨立性假設。已知某個課堂話語文本集D={d1,d2,…,dn},文本構成特征集是W={W1,W2,…,Wm}。計算權值后,用VSM表示課堂的每一句話語V(di)=(val(Wi1),val(Wi2),…,val(Wim)),類別C={C1,C2,…,C4},C1:課堂組織話語、C2:教學內容呈現話語、C3:交互類型話語、C4:評價反饋話語。根據貝葉斯公式(2)、(3):
P(ci):類先驗概率,有訓練集估計,P(wi|ci)用最大似然法估計,ni表示ci類所有文本中特征向量wi的出現次數,|W|表示ci類所有文本出現的特征總數。依次代入d1,d2,…,dn可計算其的最大P(ci|dk)值,將該話語歸為相應Ci類。
3 實驗過程與分析
課堂語料庫來自中小學課堂90個優秀教學錄像。訓練集制作過程為選取優秀教學視頻;將課堂教學視頻轉化為TXT文件,提取出教學內容主題詞;過濾教學內容主題詞,將txt文件轉化成XML文檔;解析xml文件,將每個訓練樣本每種課堂話語種類解析出來并寫入到相應訓練集語料庫中,形成分類訓練集。
測試課堂共206句話語。實驗性能數據為:課堂組織、內容呈現、交互類型、評價反饋的準確率分別為84.8%、95.0%、51.0%、74.0%;召回率分別為52.0%、61.4%、100%、89.5%;F1測試值分別為64.5%、74.6%、67.5%、81.0%。整體分類各項性能指標還不是很高,有待改進;課堂組織話語查全率較低;交互類型話語查準率較低。導致此類問題原因:①教學內容呈現話語涉及的內容面很廣,內容主題詞過濾不夠精確;②訓練庫中語料不能滿足樸素貝葉斯分類器各類之間完全獨立性的假設,而只可能讓其間獨立性最大;③語料庫規模不夠大。
4 結語
本文通過對90個上課實錄的分析和處理,構建了一個課堂話語類型語料庫。用樸素貝葉斯分類方法,實現了將課堂話語自動分類。實現課堂話語自動分類給課堂話語分析帶來了便利。該方法與人工分類方法相比有明顯優勢。人工分類方法費時費力、難以保證一致性和準確性(40%左右的準確率),難以避免專家差異。自動方法快速、準確率相對高,樣本源于真實文本,可信度高。語料庫構建是一個很重要的問題,貝葉斯分類原理重要假設是組成文本的字詞在確定文本類別作用上相互獨立。因此在建構語料庫時應盡量保證不同類型話語的語義正交。進一步要做的工作是:擴展語料庫,根據課堂話語的特殊性和規律性,在分類過程中加入一些統計規則,使分類效果更佳。
(華中師范大學教育信息技術學院,湖北 武漢 430079)
參考文獻:
[1] Flanders,N.Analyzing teacher behavior[M].MA: Addison- Wesley,1970,(107).
[2]顧小清,王煒.支持教師專業發展的課堂分析技術新探索[J].中國電化教育,2004(7):18-21.
[3]王成菲.中學英語課堂中教師話語重復的研究[C].廣西師范大學,2008.
[4]Sato.Classroom Foreigner Talk Discourse: Forms and Function of TeachersQuestion[A].Classroom-oriented Research in Second Language Acquisition,1983.
[5]蘇金樹,張博峰.基于機器學習的文本分類技術研究進展[C].軟件學報,2006,9,(17):1848-1859.
[6]王園,龔尚福.基于二次TF× IDF的互信息文本特征選擇算法研究[J].計算機應用與軟件,2011(04).
[7]李祥,周波.一種基于樸素貝葉斯分類的性能預測方法[J].計算機應用與軟件,2011(01).endprint