艾山·吾買爾,買合木提·買買提,汪烈軍
(新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)
隨著互聯網技術和人工智能技術的普及,尤其是近年來人工智能技術的迅速發展,使自然語言處理技術也成為學術界和工業界的熱點研究方向之一,國內外許多計算機專業學位點全部開設了“自然語言處理”課程。自然語言處理(Natural Language Processing,NLP)是未來所有人工智能技術的基礎和根本。微軟創始人比爾·蓋茨曾經表示:“語言理解是人工智能領域皇冠上的明珠”。隨著人工智能技術的普及,尤其是深度學習技術滲透到人工智能領域的各個研究方向,自然語言處理成為全社會熱點之后,學習該課程的學生人數猛增。隨著社會需求的不斷提高,研究機構和企業對自然語言處理人才的需求也不斷提高,國內面向研究生開設“自然語言處理”課程的高校也越來越多。“自然語言處理”是一門交叉學科,需要掌握數學、語言、計算機編程、心理學等多個學科的相關知識[1-3]。在大數據和人工智能快速發展的背景下,如何利用“自然語言處理”課程提高學生對該領域的認識,讓學生掌握理論原理、具備實踐能力,是一項非常具有挑戰性的課題。
新疆大學作為“雙一流”建設大學,具有計算機科學與技術一級學科博士學位授權點,長期以來開展“自然語言處理”課程,培養了不少該方向的高學歷人才。為了適應新的發展趨勢,在已有的基礎有機融合數學基礎、機器學習方法、深度學習基礎、自然語言處理基礎,對已有教學方案進行改革勢在必行,制定以團隊授課、導師參與、多階段多元化考核方式的案例式教學模式,使得學生掌握理論知識,同時,提高實踐能力。
根據前期教學情況的分析,對學生后續研究能力和科研成果的觀察發現,以前的授課模式存在以下問題:
(1)單人授課難以覆蓋全部知識點。因為自然語言處理是交叉學科,研究內容多,算法模型多,任務本質有差異,所以,任課老師難以深入、全面地講授所有內容。雖然大多數研究人員熟悉基本原理,但是在對每一種任務、方法的細節之處進行掌握和理解方面可能存在薄弱點,授課過程中可能會弱化對某個部分的深入講解。
(2)學生基礎差異較大。雖然錄取的研究生都超過了招生的分數線,但是畢業于不同學校的學生、跨學科的學生在本科階段所學習的相關課程、編程基礎、外語能力等方面都具有差異,會影響本課程的學習效率。尤其是隨著近年來人工智能技術越來越受到社會的關注后,不少學生選擇跨專業學習計算機科學與技術專業,雖然也會補學部分課程,但是難以在短時間內掌握相關知識。
(3)課程教學與導師的研究脫節。選修“自然語言處理”課程的研究生導師一般也會從事相關研究,導師希望自己的學生能夠很好地學習基礎內容,為進一步在具體研究領域的深入打好基礎。自然語言處理的研究進一步細化為詞法句法分析、語義分析、知識表示學習、問答系統、對話系統、閱讀理解等多個細分返崗,每個方向都有不少知識需要學習。在目前的教學模式中,導師不參與課程教學環節,也不參與考核階段,導致授課教師顧及不到每一名學生的具體方向,只能安排比較籠統的或者同質化的大作業來鍛煉學生能力,課程作業與導師沒有建立聯系,學生可能僅是為了任務而獨立完成作業,得不到導師更加細致的指導,可能會出現大作業流于形式的情況。
自然語言處理是以利用計算機程序模擬人類理解自然語言的過程,根據專家學者對人類學習和理解語言的認知行為的理解,與計算機程序的運行原理和處理能力結合提出的相關經驗方法、統計方法的總和[4-6]。目前,自然語言處理的主要研究內容為詞法分詞、句法分析、語義分析、文本分類、摘要抽取、機器翻譯、知識挖掘、問答系統、對話技術等,其中,詞法分詞、句法分析、語義分析等屬于基礎性技術,文本分類、信息抽取、摘要抽取、機器翻譯、知識挖掘、問答系統、對話技術、閱讀理解等屬于直接應用技術。對自然語言的處理方法包括基于規則的方法、基于統計的方法、基于深度學習的方法等;從分析任務方法本質來說,可分為序列標注任務、分類任務、端到端的生成任務。
新疆大學“自然語言處理”課程的教學目的是讓學生熟練掌握自然語言處理基礎技術的原理和實踐能力,熟悉語料庫標注過程,熟練掌握不同的方法和不同性質任務的算法,了解不同研究任務的基本原理,熟練掌握該項技術,并以此為目標制定教學內容和考試內容。
根據目前存在的問題和技術發展趨勢,筆者制定了團隊授課和導師參與的多階段多元化考核的教學模式,達到利用該門課程讓學生學會基本原理和實踐能力的目的,同時,引導導師參與具有針對性知識單元的教學、指導、評價,激發學生學習的積極性,加強對學生的過程考核,比較全面和客觀地評價學生的真實能力。在新疆大學碩士研究生的培養方案中,本課程具有2學分,每周學習2學時,教學周期為16周,每個階段的學習結束后,按照教學計劃進行筆試測試或者大作業評分比例核算最終成績,其中,任意筆試測試中成績低于50分,直接定為不及格。具體如表1所示。

表1 主要教學內容設置及考核方式、考核比例
可以看出,本課程通過多階段、多樣化考核和多人參與的方式,彌補了期末考試+大作業考核方式中存在的難以讓學生深入學習每一個知識單元的問題。通過單元化多人教學+導師引導的方式,引導學生從基礎知識入門到自己將來研究領域的入門。利用筆試測試+實踐性作業考核,引導學生同時具有掌握理論原理和算法實現能力。通過要求自學的方式鞏固Python編程學習和機器學習,利用現有網絡課程資源,對學生的編程能力進行有效提升,進一步加強學生的自學能力。
讓學生在一學期內鞏固數學基礎、強化編程能力、學習機器學習、深度學習基礎,全面、深入地了解“自然語言處理”課程中基礎技術的理論原理、掌握實踐能力,在自然語言處理細分研究方向上更加深入地學習,讓學生的學習內容與目前的技術基本保持一致,是具有較大挑戰性的教學活動。針對傳統教學模式存在的問題和發展趨勢,新疆大學計算機科學與技術學科碩士研究生“自然語言處理”課程教學和實踐應緊密結合技術發展趨勢,制定、改革新的教學模式,以達到課程學習與研究方向有機融合的目標,能夠有效提升教學效果。