文章編號:1672-5913(2008)20-0087-03
摘 要:在大班授課的情況下,如何擺脫填鴨式教育、促進創新人才的培養,是一個值得深入研究的論題。本文介紹筆者在研究生“數據挖掘”課程教學中在這方面的一些初步實踐和探索。
關鍵詞:研究生課程教學;教學研究;數據挖掘
中圖分類號:G642 文獻標識碼:B
1 引言
隨著我國高等教育事業的飛速發展,尤其是近年來的研究生擴招,以往只在公共課教學中出現的“大班授課”模式開始廣泛出現在研究生課堂上。一個教室中七、八十名學生,甚至一、兩百名學生一起上課的情況很常見。即使在一些只進行了適度擴招的高校,也可能因為種種原因而出現大班授課。
在這樣的情況下,國際一流大學那種充分調動研究生的積極性,課堂上以研究生的討論交流為主、教師的引導和組織為輔,對某個論題深入研討的研究型教學方式基本無法采用。由于學生數量多,大班授課往往容易陷入單純的教師講、學生聽的“填鴨式”教學方式,這很容易使學生以死記硬背的方式來應付課程,對培養研究生的創新性相當不利。在研究生教育的這樣一個新時期,在大班授課廣泛出現的情況下,如何擺脫填鴨式教育、促進創新人才的培養,是一個值得深入研究的論題。
筆者2001年秋季開始在南京大學計算機科學與技術系講授“數據挖掘”課程,七年來該課程一直采用大班授課模式。本文將介紹筆者在這門課程教學中,對上面提到的論題所進行的一些初步的實踐和探索。
2 “數據挖掘”課程教學實踐
2.1 課堂教學
筆者2001年在南大開設“數據挖掘”課程時,國內類似的課程還不多見。筆者經過仔細挑選,確定了用Jiawei Han和Micheline Kamber于2000年出版的書[1]作為教材,并向國內相關出版社推薦引進該書的影印版。在隨后幾年中,該書被國外很多大學的數據挖掘課程用于教科書,國內很多大學也使用該書影印版或翻譯版作為教科書。該書的第二版于2006年出版。應該說,南大的這門課程在教材的選用上基本做到了與國際知名大學同步。
國際上一些著名的教材,其作者通常同時提供課件,筆者使用的這本教材也是這樣。很多教師樂于直接使用教材作者提供的課件進行教學。一個原因是這可以非常顯著地減輕教師的工作量,大家都知道,準備一套課件所要下的功夫是非常大的。另一個可能的原因,是大家往往認為,作者自己提供的課件當然是最能“發揮”教材所長的。但筆者認為,教材是為教師服務的,而教師并非為教材服務的。教材作者的課件是按照作者的思路在講授,這樣的思路對某一個具體的教師來說未必是最合適的。只有根據教師自己的情況“量體裁衣”,才有可能超越“照本宣科”讀課件式的教學方式,把教師自己的心得體會融入教學內容中。這對研究生課程教學尤為重要。因為研究生課程往往涉及到一些發展很快的前沿領域,如果拘泥于教材,就難免出現教學內容與領域發展的脫節,會導致學生覺得所學的東西已經“過時了”從而喪失對課程的興趣。另一方面,教材寫作時的一些觀點和看法在若干年后可能在領域內已經被更新甚至掘棄,而新版教材此時可能還未出版,如果照本宣科就很不適當了。
筆者在講授這門課程時,基本上是按照自己的思路重新組織教材內容,在涉及到筆者所知較多的內容時,補充講授了很多教材中沒有的東西,大致占全課程五分之一左右。此外筆者每年對課件進行更新,力求把一些新進展講授給學生。從效果來看,由于講授思路是基于筆者自己對該領域的理解,講授起來感覺比較“順”,能把很多重要內容的來龍去脈講清楚,使學生了解到一些要讀過很多材料之后才能悟出的東西,即使不能讓學生覺得聽課是一種享受,至少能使他們不覺得聽課是在浪費時間。
2.2 作業考核
對任何一門課程,作業和期末考試都是非常重要的成分,因為這直接關系到學生最后取得何等樣的成績。筆者認為研究生課程重要的是能力培養,如果完全依賴于書面考試來核定學生的成績,可能會有很大局限性。因此,筆者的課程采用了期末考試和兩次大作業各占一半成績的做法。
筆者設計的兩個大作業,第一個通常是筆者事先設定若干個論題,要求學生象寫綜述一樣寫出一個讀書報告。這個作業主要期望培養學生具備初步的對研究論題調研的能力,包括自己搜索、查閱相關文獻,順藤摸瓜弄清某個論題的來龍去脈,根據自己對該論題的了解對其下一步的發展進行預判,以及撰寫學術論文或技術報告的能力。無論是對今后走上科學研究道路還是在工業界就職的計算機系研究生,這些能力都是非常重要的。筆者盡可能基于當前的一些前沿研究方向設計論題,尤其是一些目前還沒有綜述性文章問世的研究方向,在這樣的論題上寫讀書報告,會給學生帶來更大的挑戰。
第二個大作業通常是一個具體的數據挖掘實踐。課程給出具體的問題描述以及待挖掘的數據,要求學生提交針對測試數據的結果、程序、以及相應的技術報告。通過這個作業,期望學生能夠真正對數據挖掘過程有一個感性認識,這對今后工作中會涉及數據挖掘的學生可能是很有好處的。筆者發現,學生們對這個作業非常有興趣,他們肯花大量的業余時間來鉆研,很多學生通過嘗試多種工具對一些常用的數據挖掘技術有了初步了解,有的學生還自己設計新技術或者對現有技術進行改進。研究生們的主動性被很好地調動了起來。
2.3 模擬會議
和筆者的作業布置有關的一個重要成分,是在課堂上模擬學術會議,邀請優秀作業的作者在課堂上做報告,時間大約是20分鐘,然后有5分鐘左右的提問時間。作為鼓勵,做報告的學生在課程總成績上會得到一個額外的加分。
之所以組織這樣的模擬學術會議,筆者主要是基于幾方面的考慮。一方面,中國學生和西方學生的一大區別,是大多數中國學生比較羞澀,不善于表現自己,這對發展創新型思維相當不利。另一方面,不少學生盡管有縝密敏銳的思維,但是不善于與他人溝通和交流,例如有些學生雖然想得很深入,但做起報告來卻一塌糊涂。學生們在步入職業道路后都不可避免地要參加各種類型的會議,要向他人表達自己的思想,在研究生階段讓他們有機會了解會議形式、嘗試做口頭報告,對鍛煉他們這方面的能力是有好處的。
當然,理想的情況是課堂上以研究生的討論交流為主、教師的引導和組織為輔,但是在大班授課的條件下這無法開展。花兩節課的時間舉行模擬會議,多少能起到一些彌補作用。
2.4 課程網站
因特網已經改變了人類的生活方式。對年輕人來說,最主要的信息獲取途徑已經不再是書報,而是因特網。國際一流大學的課程通常都有網站,在網站上放置各種相關的信息,作為對課程的有機補充。
筆者2001年開始就為課程開設網站,可能是國內最早的數據挖掘課程網站之一。網站[2]上除了課程的基本情況介紹之外,還有課程教材網站以及筆者推薦的三本參考書[3-5]的網站鏈接,通過鏈接訪問這些網站,學生可以找到教材作者等人所撰寫的教材課件等材料。筆者講課使用的課件在每次授課結束后都會放到網站上。課程網站上還有作業網頁,除了作業的題目和要求外,作業的收到情況、評分情況都公開在網站上。此外,優秀作業在征得作者同意后也放到網站上供其他學生參考學習。筆者對教材仔細閱讀之后發現的一些需糾正的地方,也總結在勘誤表中放在網站上。課程網站上還放置了一個筆者對教材的書評[6]。
由于課堂講授必須考慮大多數學生的能力和需求,對一些學有余力的學生,有必要提供額外的進階材料。為此,筆者在課程網站上為講授的六個部分各提供10篇論文供閱讀。這些論文大多是筆者煞費苦心根據自己的研究經驗挑選的相關論題的經典文獻,學生若能仔細精讀這些文獻,對數據挖掘的理解將很深入。此外,筆者的課程網站上列出了一些國內外數據挖掘課程的網站鏈接,通過訪問這些鏈接,學生可以了解到其他學校、尤其是一些國際一流大學,是如何教授這門課程的,從而有助于他們對這門課程有進一步的了解。
3 教學相長
不少青年教師對教學不太重視,一種常見的看法是教學要“浪費”很多時間,會影響自己的科研工作。
筆者認為,如果能使教師講授的課程與其研究領域密切相關,不僅教師可以講授得比較好,還可能教學相長。若能這樣,把教學當作包袱的青年教師應會少一些。
以筆者自己的體驗來說,雖然為上好課確實花了大量的時間和精力,但筆者在教學過程中也得到了不少收獲,不僅因為課程受到學生歡迎而心情愉快,還對科研也有一定促進作用。例如,筆者曾對有可能用作教材的三本書[1,4,5]做了調研,這三本書的作者的研究背景分別是數據庫、機器學習、統計。通過這個調研過程,結合以往的研究經驗,筆者形成了關于數據挖掘研究三個不同角度的觀點,總結成一篇述評文章發表在頗負盛譽的《Artificial Intelligence》上[7],這些觀點后來被不少國際同行承認和引用。
4 有待解決的問題
研究生課程中大作業的設置是非常重要的。很多學生在筆者的課程結束之后反映,通過大作業確實學到了很多東西。實際上,筆者認為,國際一流大學的研究生課程中最重要的就是大量的大作業。教師在布置大作業時,大多假定學生所有的時間或至少一大半時間都要花在本門課程上。這樣,雖然學生在作業上會有極大的壓力,但通過完成這些精心設置的大作業,學生對課程的理解必然會有質的提高。
然而要做到這一點,有一個必須的要求,就是有高水平的助教。事實上,國際一流大學的教師在承擔教學工作時,通常只需負責課堂講授或組織討論,課堂外的事情,包括作業的批閱和講解都是助教的工作。正因為這樣,教師才會樂于布置大量的大作業,也才會在高質量的教學之余仍有充分的時間從事科研工作。
目前在國內大學的課程教學中,幾乎沒有助教,或者即使有助教也起不到很多作用。一個重要的原因,是國外大學的助教是由學校出錢支付報酬,因此助教必須保質保量完成工作;而國內大學基本沒有此項經費,既然沒有報酬或者報酬很微薄,要求助教做很多工作也就不太近情理了。在這種情況下,教師布置大作業會給自己帶來很多麻煩。以筆者課程為例,雖然只布置兩個大作業,但其帶來的工作量已經對筆者的科研工作有所沖擊,所以在最初幾年筆者自己承擔大作業的批閱講解工作之后,筆者決定“雇”自己的博士生來做助教。由于筆者所能支付的酬勞很微薄,博士生其實是在幫忙,因此筆者也不可能布置更多的大作業。
5 結束語
筆者講授的數據挖掘課程最初是選修課,由于反映良好,2005年開始成為系內研究生的三門核心必修課程之一。筆者在課堂上沒有點過名,但大致估計,聽課人數超過應到學生數,甚至出現座位坐滿、學生站著聽課的情況。除了本系學生,每年都有若干位外系甚至其他高校的學生來旁聽。不少學生只聽課、不參加考試,這使得這門課程的上課人數大大超過實際參加考試的人數。雖然在計算教學工作量時筆者可能有所“損失”,但這顯示出學生認為這門課還值得一聽,筆者對此很感欣慰。
參考文獻
[1] Han J, Kamber M. Data Mining: Concepts and Techniques, Morgan Kaufmann. 1st edition, 2000; 2nd edition, 2006.
[2] http://cs.nju.edu.cn/zhouzh/zhouzh. files/course/dm.htm
[3] Tan P-N, Steinbach M, Kumar V. Introduction to Data Mining, Addison-Wesley, 2006.
[4] Witten I H, Frank E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, 1st edition, 2000; 2nd edition, 2005.
[5] Hand D, Mannila H, Smyth P. Principles of Data Mining, MIT Press, 2001.
[6] Zhou Z-H. Review on Data Mining: Concepts and Techniques. IEEE Transactions on Neural Networks, 2002, 13(5): 1251.
[7] Zhou Z-H. Three perspectives of data mining. Artificial Intelligence, 2003, 143(1): 139-146.