蔣東辰 劉 源 張鍵飛
在語言學習中,閱讀、寫作、聽力、口語是交流的四項基本技能。閱讀是人們獲取信息、學習知識的主要手段(Charles Alderson 2011)。在非英語環境中,由于受現實條件的限制,閱讀往往在英語學習者各項技能訓練中耗時最多。提升英語學習者的閱讀水平,既能提升他們通過閱讀獲取信息的效率,又能促進他們其他英語技能的提升。因此,英語閱讀能力的培養在英語教學中具有重要作用。
閱讀往往被看作閱讀者與文本交互的過程。閱讀者通過閱讀理解文本、獲得知識,并以此為基礎推斷信息、運用信息。在閱讀過程中,閱讀者自身的知識、動機、策略、狀態會影響閱讀的效果,文本的詞匯、句法、篇章組織、主題等因素會影響文本可讀性(與“閱讀難度”“文本難度”同義)。從閱讀能力評價的角度看,閱讀者的主觀因素通常會被視為確定值,而將閱讀者能夠理解文本的難度水平作為衡量閱讀者閱讀水平的指標。當讀者能夠理解較難的文本時,其閱讀理解能力較強;反之,其閱讀理解能力較弱。因此,可通過分析影響文本可讀性的語言學因素確定提升英語學習者閱讀能力的關鍵。
可讀性研究的早期工作集中在創建難詞列表和人工設計可讀性公式(Vajjala 2021)。隨著自然語言處理和人工智能技術的發展,基于統計和機器學習的方法逐漸被用于可讀性評估:司和卡倫(Si&Callan 2001)最先將可讀性問題歸為文本分類這一機器學習問題,在傳統特征上使用統計語言模型,提高了Web文檔難度預測的準確性;瓦賈拉和默爾斯(Vajjala&Meurers 2012)利用陸小飛(Lu 2010)提出的第二語言習得測量方法,結合詞頻特征和心理語言學等相關特征,在二語語料庫Weebit上訓練,實現了二語文本難度的準確預測。瓦賈拉和盧契奇(Vajjala&Lui2018)將特征擴展到155個,包括傳統特征、語篇銜接、詞匯語義和句法特征等模塊,在二語語料庫Onestop上訓練預測模型。這些研究以文本的多種深層語言學特征為基礎,通過大規模語料訓練獲得具有高準確性的文本難度預測模型,用于文本篩選和難度判斷。
與當前文本難度分級預測的研究工作有所差異,本文的目標在于以分級閱讀語料為基礎,使用機器學習的方法分析影響文本難度的核心語言學要素,確定其影響程度,為英語教學設計提供數據支持。結構安排如下:第一部分回顧文本可讀性研究相關工作;第二部分介紹本文用于分析影響文本可讀性的語言特征;第三、四部分分別闡述文本可讀性影響因素的判定實驗及主要結果;第五部分是結論。
早期的可讀性研究主要使用一些淺層特征判定文本難度,如平均句子長度、平均單詞長度;部分文獻還利用難詞表、詞頻估算文本的可讀性(Dale&Chall 1948)。隨著計算語言學的發展,以語言學為基礎的多種數字化特征越來越多地被用于分析文本、預測可讀性和構建文本難度模型。
詞匯特征是文本可讀性研究最多的語言特征。陸小飛(2011)研究詞匯豐富度與英語學習者口語敘述內容質量之間的關系,分析詞匯密度、詞匯復雜度和詞匯多樣性對文本難度的影響,這些特征后來被廣泛用于二語語料的可讀性評估。勒羅伊和考查克(Leroy&Kauchak 2014)研究發現,單詞頻率與實際難度(人們如何選擇正確的單詞定義)和感知難度(單詞看起來有多難)密切相關。陳小彬和默爾斯(Chen&Meurers 2018)進一步研究不同形式的詞頻與文本可讀性的關系,他們發現:更豐富的詞頻表示可以構建出更好的難度預測模型。
在詞匯之外,各種語法特征也被用于文本可讀性預測研究。施瓦姆和奧斯滕多夫(Schwarm&Ostendorf 2005)在傳統特征和統計語言模型的基礎上增加了平均句法解析樹高度、名詞短語平均數量、動詞短語平均數量、從句平均數量等特征,他們發現:這些語法特征可提高模型的預測性能。海爾曼、柯林斯-湯普森和卡倫等人(Heilman、Collins-Thompson&Callan,et al.2007)提出帶有時態、語態、情態等語言特征的統計模型,實驗說明這些特征對二語文本可讀性預測有很好的效果。瓦賈拉和默爾斯(2012)研究發現,陸小飛(2010)篩選的14個句法指標對二語閱讀文本的可讀性測量十分有效。
除了常規的詞匯、語法統計特征,柯海特(Coltheart 1981)從心理語言學角度研究詞匯特征對文本可讀性的影響。克羅斯利、格林菲爾德和麥克納馬拉(Crossley、Greenfield&McNamara 2008)認為以認知為基礎的詞匯特征在二語文本的可讀性測量中尤為重要。田中、加藤和加藤等人(Tanaka、Jatowt&Kato,et al.2013)將具體性納入文本可理解性度量,實驗表明文本的具體性和可理解性存在正相關。這些研究中提出的多種心理語言學特征如具體性、熟悉性、可想象性、意義性、詞匯習得年齡等被廣泛用于二語文本可讀性評估。
此外,實體密度特征、文本連貫性等因素也被用于文本可讀性研究。皮特勒和內爾科娃(Pitler&Nenkova 2008)結合詞匯、句法、語篇等特征預測英語文本可讀性,認為語篇關系與文本可讀性密切相關。芬格、詹采和惠恩福斯等人(Feng、Jansche&Huenerfauth,et al.2010)討論了實體密度等語篇特征對文本可讀性的影響,提出了9個密度特征用于預測文本難度,取得了良好的效果。
本文的目的在于通過機器學習的方法,通過語料分析找到影響英語閱讀文本可讀性的關鍵語言學因素,為英語教學提供數據支持。為此,首先要確定潛在語言因素的范圍和指標。
庫珀(Cooper 1984)認為區分讀者閱讀能力的文本主要特征涉及時態/語態、詞匯、句子關系與句子連接、詞法關聯、上下文連貫性,以及讀者對主題的現有理解水平。本文選取了以往文獻中的140個語言特征并對其進行分類:88個特征可由瓦賈拉(Vajjala 2015)提供的 nishkalavallabhi工具提取,其包括10個傳統特征、10個詞匯特征、29個詞法特征、28個句法特征和11個心理學特征;52個特征可由李、張、李(Lee、Jang&Lee 2021)開發的LingFeat工具提取,其包括24個詞匯特征和28個語篇特征。
為保證特征選擇的全面性,實現與教學實踐的緊密結合,進一步調研了一線英語教師和英語編輯,結合他們的英語教學經驗,補充三組新特征并開發提取工具:語篇詞匯難度特征、句法結構特征和謂詞結構特征。這三組特征具體刻畫如下:
詞匯對語篇理解的影響除了與詞匯在語料庫中的頻率相關之外,還與其在語篇中出現的數量相關。因此,提出語篇詞匯難度這個概念刻畫上述特征。目標文本的語篇詞匯難度由a%word表示,它是目標文本前a%難詞的文本難度值累加。
一般來說,一個詞匯在語篇中出現得越多,其對語篇認知難度的影響越大;兩個在語篇中出現頻率相同的詞匯,在語料庫中出現頻率較低的詞匯對語篇認知難度的影響越大。基于上述分析,一個詞匯在語篇中的難度值計算公式如下:


語篇詞匯難度a%word由對文本難度影響最大的前a%難詞計算。對于讀者來說,當文本中生詞占比超過某一閾值時,就難以通過閱讀文本獲取信息。參考王金巴(2015)關于生詞密度對英語閱讀理解影響的研究,選擇前20%難詞累加其語篇難度,并將其作為語篇詞匯難度特征。
為了使特征構建與實際英語教學相一致,進一步細化實現了句法結構特征和謂語結構特征的計算機自動識別。
開發了細粒度的句法識別提取工具,該工具能夠識別常見的主語從句、賓語從句、表語從句、定語從句和狀語從句。以此為基礎,將文本中各類從句數量與文本句子總數的比值作為新的句法結構特征(見表1)。同時,新的工具還能識別包括時態、情態、語態在內的255種謂語結構和非謂語結構。從中選擇與日常英語教學及閱讀文本難度分級相關性最高的20個謂語結構,將這些結構在文本中出現的次數與文本句子總數的比值作為新的謂語結構特征(見表2)。

表1:句法結構特征

表2:主要謂語結構特征(按相關性強弱排序)
綜上,實驗關注的特征包括以往文獻中已有的140個語言特征和三類新引入的語言特征(包括1個詞匯難度特征、5個句法結構特征、20個謂語結構特征),總計166個語言特征。
使用《雙語學習報》小學四年級至高中三年級九個年級的900篇閱讀文本作為分級語料(每個年級100篇),將閱讀文本的年級歸屬作為文本難度的數值刻畫。
為了確定各類語言特征對文本難度的影響,實驗將全部166個語言特征分為傳統特征、詞匯特征、詞法特征、句法特征、語篇特征、心理學特征、謂語結構特征等7組。這7組特征內部的各個特征表現出很高的相關性,實驗將通過依次篩選代表特征的方法,找到影響英語閱讀的核心因素及其重要性排序。
本實驗使用線性核的支持向量機(SVM)算法基于各種語言特征在《雙語學習報》上擬合文本難度。在每次擬合后,選擇難度影響因素最大的一個特征保留,并將其所在組的其他特征刪除。然后,與剩余的其他組特征進行下一輪擬合,直到所有特征組篩選結束。由于傳統特征大都是其他各組基礎特征的組合,不能直觀展現各類特征的影響,僅對其他6組156個特征訓練文本難度預測模型。在評價指標方面,柯林斯-湯普森和卡倫(Collins-Thompson&Callan 2004)認為相鄰年級文本具有強相關性。因此,采用臨近準確度評價模型預測效果。具體實驗結果見表3。

表3:語言特征篩選結果
表4所示實驗篩選出的語言特征依次是詞匯特征20%word(語篇詞匯難度)、詞法特征POS_correctedVV1(動詞多樣性)、心理學特征AoA_Kup_Lem(詞匯認知年齡平均值)、句法特征SYN_num NPsPerSen(名詞短語句中占比)、語篇特征ra_NX To_C(實體在前句非主語賓語,在后句作為其他成分句子的比例)、謂語結構特征WAS/WERE_VBN(過去時+動詞原形)。6個特征組合預測的相鄰準確度達83.6%,較好地實現了文本難度預測。

表4:特征排序及含義
實驗結果表明,第一,詞匯相關的兩個典型特征對文本可讀性的影響居于首位:前20%語篇詞匯難度(可理解為讀者完全理解文本所需掌握的詞匯量)和動詞使用的多樣性。這一結果與馬克斯、多克托羅和維特羅克(Marks、Doctorow&Wittrock 1974)的觀點一致:在所有影響文本可讀性的因素中,詞匯難度的影響最大。瓦賈拉和默爾斯(2012)也有類似結論:詞匯特征比句法特征在第二語言閱讀文本預測中表現得更好。這說明提升詞匯量、加深詞匯的理解和靈活掌握對提升閱讀能力是最關鍵的。
第二,心理學語言特征單詞習得年齡對文本難度的影響在句法、時態之上。對單詞習得年齡特征的理解:單詞習得年齡是一語的語言特征,對于二語學習者,可以將其理解為語言使用者對相關事實、知識了解和掌握的年齡。對二語學習者來說,如果能夠理解詞匯背后所表征的事物和知識,那么就可以利用已有知識理解文本,而不再依賴于對句子的語法解析理解文本;如果缺乏相應背景知識,則只能通過對句子句法、語態、時態等語法特征的解析構建和理解知識。顯然,具有相關經驗、知識理解文本會更容易。因此,擴展認知廣度可能比學習語法知識更有助于理解能力的提升。
第三,文本連貫性是一個與文本寫作相關的因素:連貫性好,文本的可讀性好;連貫性差,文本內概念的跳躍和轉換越多,理解難度大。實驗結果顯示:語篇連貫性特征ra_NXTo_C影響效果比時態、語態等語法因素的影響大。這表明時態、語態等因素對于閱讀文本可讀性的影響較小。盡管通過與其他語言特征的融合,細粒度時態、語態特征能夠改善文本可讀性預測,但與詞匯、心理認知、句法、語篇等特征相比,其并非影響文本可讀性的重要因素。
語言特征重要性排序實驗說明了常見語言特征對英語閱讀文本可讀性影響的大小。下面通過實驗進一步闡述影響文本可讀性的核心語言學特征。
核心影響因素篩選實驗是在不考慮特征類別的基礎上,利用交叉驗證的遞歸特征消除算法(RFECV),從所有166個語言特征中篩選出影響文本可讀性的核心要素。具體的,采用Scikit庫RFECV算法實現,基模型選擇具有線性核的支持向量機。RFECV包括RFE階段(Recursive feature elimination)和 CV 階段(Cross Validation):在 RFE階段,算法通過遞歸逐步消除特征,實現對所有特征重要性評級;在CV階段,算法通過交叉驗證,選擇最佳的特征組合。
本文對比了使用瓦賈拉(2015)和李、張、李(2021)的研究中140個已有特征與引入本文提出的26個特征后的實驗效果,結果見表5。實驗顯示:在引入26個新特征后,使用RFECV方法獲得的相鄰準確度提升到86.2%,且核心特征數量由23個降到8個。在提升預測準確性的同時提升了文本可讀性影響因素的可解釋性。篩選得到的影響文本可讀性的8個核心特征見表6。

表5:核心影響因素的相鄰準確度

表6:特征排序及權重
綜合兩項實驗:影響文本可讀性的關鍵因素涉及詞匯、心理、句法和語篇,重要性依次遞減,時態、語態等謂語結構特征并非主要因素。結合英語教學經驗認為:提升英語閱讀能力的關鍵在于:提升詞匯量(包括詞匯數量、重點詞匯區分和使用)、擴展認知廣度、提升復雜長句解析能力。這些對學生英語閱讀水平的提高有重要意義。從實驗數據看,時態、語態等語法特征對英語文本可讀性的影響不大,但其對于英語學習的其他方面,特別是寫作和口語表達,依然具有重要意義,不應該被忽視。
利用自然語言處理和人工智能技術的研究成果,分析了《雙語學習報》小學四年級至高中三年級九個年級共900篇英語閱讀文本。實驗結果顯示:影響二語閱讀的關鍵語言因素包括難詞、詞匯豐富度、心理認知水平、句法結構和語篇連貫性等。通過與一線英語教師和英語教學編輯的交流,認為數據分析結果與一線英語教學經驗一致:英語閱讀能力的提升可重點從詞匯教學、認知擴展和句法分析等方面入手。希望這一工作可為廣大英語教育工作者提供數據支持:通過語料分析驗證英語工作者的經驗,實現信息技術與英語教學實踐的有機結合,利用人工智能技術助力英語教學。