閱讀是人類運用語言文字來獲取信息、發展思維的重要途徑。面對浩如煙海的閱讀材料,如何選擇、供應適合于不同年齡階段少年兒童閱讀所需要的讀物,成為困擾老師和家長的難題之一。如果學習者的閱讀水平與閱讀材料不匹配,即閱讀文本超出或低于學習者的水平,不僅會影響閱讀體驗,還可能會對基本文本信息的提取造成阻礙,因此,如何為學習者提供難度適宜的閱讀材料遂成為語言教學研究的重要問題
。
有學者指出,“文本易讀性(readability)”是指文本易于閱讀和理解的程度或性質
。文本易讀性的研究有著重要的理論意義和應用價值。在理論層面上,通過分析挖掘得到的關鍵文本特征,是影響文本閱讀難度差異的重要因素,能夠為閱讀心理學的相關理論及青少年分級閱讀標準的制定提供參考
。同時,易讀性的研究還要面對很多應用場景,對文本難度的評估分析,可以幫助教師和相關研究人員為學習者選擇合適的閱讀材料,為閱讀測試、課程規劃提供一定的參考價值
。此外,在自然語言處理領域,文本的易讀性分析可應用于作文自動評分等
。隨著人工智能、語言信息處理技術的發展,學界開始嘗試讓機器對文本的易讀性進行自動分析和判別,從而輔助教師、家長為孩子選擇適合的讀物。
文本易讀性研究起源于美國,針對英文文本的易讀性,在特征的選擇、分析、預測和效度驗證上,已取得豐富的成果。漢語文本易讀性研究則起步較晚,相關研究在借鑒英文易讀性公式的同時,也構建了適合中文特點的易讀性公式
。Yang首次從文字、詞語、句子三個層面出發,對85篇漢語文本的39個指標進行量化分析,最終選取最相關的難詞比、完整句子數和平均筆畫數三個指標,構建出易讀性公式
。孫漢銀認為,字均筆畫數、句子的平均字數以及平均詞數和難詞比例,是影響漢語文本易讀性的重要指標,并綜合這些指標構建了易讀性公式
。王蕾則以構建面向日韓留學生的可讀性公式為主,以90名學生的20篇記敘性短文的完型填空成績為因變量,對17個可能影響閱讀難度的變量進行量化,以總詞數、簡單詞數、虛詞數、分句數等變量為預測變量,來構建可讀性公式
。程勇等從字、詞、句子、篇章等不同層面,對影響文本閱讀難度的關鍵因素進行了統計關聯分析,主要涉及到頻率、長度、詞類、詞義類別、詞語豐富性、句子變化度等17類、53種因素,在這一基礎上,利用多元線性回歸方程來檢驗這些因素與難度級別的預測效度,并最終建立文本易讀性公式
。總體而言,通過構建易讀性公式能夠較好地預測文本材料的難易程度。不過,目前以漢語為母語的文本易讀性研究相對較少,因此,需要對影響閱讀難度的相關因素,如用詞、句式、語義、篇章等,進行深入探討,從而為母語人群提供閱讀支持。
有鑒于此,本研究以人民教育出版社出版的小學義務教育課程標準實驗教科書《語文》教材(以下簡稱“人教版”)、江蘇教育出版社出版的小學義務教育課程標準實驗教科書《語文》教材(以下簡稱“蘇教版”)、北京師范大學出版社出版的小學義務教育課程標準實驗教科書《語文》教材(以下簡稱“北師大版”)為研究對象,并構建教材語料庫,從字、詞、句、篇四個層面,將可能影響漢語文本的易讀性因素納入指標體系,對不同層面文本特征在漢語文本易讀性預測中的表現進行分析,為建立有效的易讀性預測模型奠定基礎。
本研究選取人教版、蘇教版、北師大版小學一至六年級的語文教材作為語料庫,在課文體裁方面則過濾掉了教材中的詩歌、文言文等類型,這樣一來,總共采集到976篇課文,其中,人教版353篇,蘇教版284篇,北師大版339篇。語文教材分級語料庫信息,如表1所示:

在漢語文本閱讀過程中,詞匯發揮著關鍵作用,是影響文本閱讀難度的重要因素。我們首先對課文的所有詞語進行了分詞和詞性標注,接著從詞形、詞性、詞義等方面,來探討詞匯與閱讀難度級別之間的關系。
圖4顯示的是工況三時滿載地鐵車廂截面半個周期的風速分布云圖,該云圖與圖3無太大區別,最大風速位置出現在幅流風機出風口,約為2.8 m/s,截面平均風速為0.51 m/s,符合人體舒適性要求。

漢字是構成漢語文本的最小單位,漢字的難度直接影響著文本的閱讀難度,而影響漢字難度的最重要因素便是筆畫數。通常來說,漢字越復雜,筆畫數就越多,識別起來也就相對困難。沈烈敏、朱曉平指出:“筆畫數效應的大小與漢字頻率的高低有關,即筆畫數在高頻字的識別中作用小,在低頻字的識別中作用大。”
字頻是影響漢字難度的又一重要因素。所謂“字頻”,是指漢字的使用頻率,也就是我們通常所說的漢字熟悉度。一般情況下,生僻字的出現頻率較低,識別起來比較困難。同時,字種數也不可忽視。所謂“字種數”,即字的種類數,指的是某一級別所有文本中所使用的字種數量。基于上述認識,在文字層面,本研究設計了字種數、平均字頻、平均筆畫、總字數四項指標,并統計了這些指標的相關數據。具體如圖1所示:

從圖1可以看出,隨著文本難度級別的提升,字種數、平均筆畫數、總字數均呈上升趨勢,平均字頻則呈下降趨勢。以蘇教版為例,小學一年級的字種數最少,共831個漢字;隨后逐年上升,六年級達到最高,共2435個漢字。平均字頻則從一年級的最高值0.1168下降到六年級的最低值0.0762。我們還計算了難度級別與這三種指標的Spearman相關系數,其中,總字數的相關度為0.683,字種數的相關度為0.754,平均字頻的相關度為-0.464,平均筆畫的相關度為0.257。數據顯示,總字數、字種數、平均字頻與文本難度級別有著很高的相關性,而漢字的平均筆畫與文本難度級別的相關性最小。
本文從文字、詞匯、句子、篇章四個層面,來挖掘與文本閱讀難度有關的語言特征因素。首先利用Python工具對每篇課文進行統計,提取相關特征因素,并統計了每篇課文的相關指標信息。具體如表2所示:
1.詞形分析
本文所設計的與詞形的相關因素,主要包括詞種數、平均詞長、平均詞頻、詞匯豐富度。其中,詞種數是指某一級別所有文本中所使用的詞語種類數量;平均詞長是指某一級別文本中使用的所有詞種的平均長度;平均詞頻是指某一級別文本中使用的所有詞種的平均詞頻值;詞匯豐富度是指文本中詞的多樣性。其計算公式是:K=(a-1)/ln(s)。其中,K表示文本中詞的多樣性,a為詞種數,s為詞語總數。
生物學學科核心素養是學生在進行生物課程學習中逐漸內化形成的品格和能力,初中生物課程教學中就要有意識地對學生進行核心素養的滲透內化,以下以福建省生物統考試題為例進行分析。
我們對這四項指標進行了統計分析,具體結果如圖2所示:

從圖2可以看出,隨著難度級別的提升,詞種數、詞匯豐富度隨之增加,平均詞頻則逐步降低,變化趨勢較為明顯。平均詞長的整體變化幅度較小,從一年級到四年級呈線性增長,四年級到五年級逐漸下降,五年級到六年級趨于穩定。其中,小學一年級的平均詞長最短,為1.760;小學四年級的最長,為1.881。在平均詞頻方面,以蘇教版為例,小學一年級最高,為0.1183;小學五年級最低,為0.0424。
水的問題解決了,就抓住了擺脫貧困的牛鼻子!省水利廳供水排水處處長石生新表示,飲水安全工程建成后,解放了農村大量勞動力,促進了勞務經濟的發展壯大。同時,帶動了農民種養結構調整,加快了脫貧致富步伐。
在詞性層面,我們主要統計了課文中所有詞語的詞性分布比例。在對詞語進行詞性標注時,主要采用的是北京大學現代漢語語料庫的標記集
,共包含名詞、動詞、形容詞等24種不同詞性標記。這里需要說明的是,本文將其中的介詞、連詞、代詞歸于篇章層面。我們統計了各類詞性與難度級別之間的相關關系,具體如表3所示:
我們還計算了難度級別與這四項指標的Spearman相關系數。其中,詞種數的相關系數為0.706,平均詞頻的相關系數為-0.535,平均詞長的相關系數為0.219,詞匯豐富度的相關系數為0.720。由此可知,在詞形層面,詞種數、平均詞頻、詞匯豐富度均與難度級別有著較高的相關性。
五六年級的孩子已開始步入青春期,開始對異性有一些朦朦朧朧的感覺。這說明孩子長大了,對自己的性別有了認同,對異性也產生了認識欲望,這是很正常的事。但我認為“談戀愛”三個字用在他們身上還不合適,頂多就是對異性的一種好感,一種認同。該如何疏導呢?說重了,怕給他們造成心理陰影,說輕了,反而使他們對異性更加好奇,說不定,還會影響其他孩子。思前想后,我決定從小雨身上找突破口。
在上文統計分析的基礎上,我們又過濾掉了Spearman相關系數低于0.4的影響因素,最終保留了3種漢字相關因素:總字數、字種數、平均字頻;3種詞匯相關因素:詞種數、平均詞頻、詞匯豐富度;2種句子相關因素:句子數、分句數;1種篇章相關因素:連詞比例。然后,在這些指標的基礎上,我們對人教版、蘇教版、北師大版的小學語文教材進行對比分析。
水庫擁有土地、山林、水面等豐富的資源,還有供水、供電等資產,要將資源和資產優勢轉化為經濟優勢,必須盤活存量資產,推進產權制度改革。一是組建股份制公司,按水庫供水、發電、旅游等興利項目組建股份制公司,將其推向市場。二是開展租賃經營和承包經營,水庫的土地、山林、水面、房產、設備可由個人或集體租賃或承包經營。三是轉讓使用權,把水庫部分資源或資產在一定期限內的使用權公開有償出讓。四是聯合經營,本著優勢互補、利益共享的原則,在自愿的基礎上,相近或同一流域的水庫在供水、供電、旅游等項目上實行多種形式的聯合經營、合作經營,以增加效益。

從表3可以看出,詞性與文本難度等級的相關性整體偏低。其中,難度級別與連詞、處所詞、慣用語等詞類的相關系數均在0.3以上,隨著難度級別的升高,文本中這些詞語的占比也逐漸增加。
數據顯示,一年級的句子數(1101)、分句數(2490)、平均句長(17.477)、句長變化度(6.532)都是最低的,句子重復率(0.007)則最高。這說明小學一年級的課文篇幅較短,句式簡單,重復率高。隨著年級的升高,課文篇幅也有所增加,其中,小學四年級課文的句長變化度(13.900)最高,小學四年級的平均句長(24.972)最長,小學六年級的句子數(5526)、分句數(14080)最多。
在詞義層面,本文主要借鑒了《同義詞詞林》的分類體系
,對每個詞語的語義類型進行劃分。此書由梅家駒等于1983年編撰,之后,哈爾濱工業大學信息檢索實驗室又對它進行了細化和補充,推出了同義詞詞林擴展版,共收錄詞語七萬多條。我們首先將語義劃分為人、物、時空、抽象、特征、動作、心理、活動、狀態、關聯、助語、敬語等12類,并把文本中的相關詞語歸入到這12個語義類中。然后,對不同級別文本中的詞義類分布情況進行統計,并計算出難度級別與所有詞義因素的Spearman相關系數。具體結果如表4所示:

從表4可以看出,難度級別與“抽象”“關聯”等語義類相關度較高。在小學學習階段,抽象概念類名詞的占比隨著年級的增長而增加,具體事物類名詞的占比則逐步下降,這遵循了小學學生認知發展從具體到抽象的客觀規律。“關聯”類詞語主要用于表達事物之間的聯系,在一定程度上增加了文本的復雜性。
改進LeNet-5模型所得到的CNN-4C模型各層具體的的卷積池化范圍特征圖矩陣大小以及特征圖個數如表4所示。
句子是表達意義、傳遞情感的最基本的語言單位,與閱讀難度高度相關。在句子層面,我們共設計了5項指標,它們分別是:句子數、分句數、平均句長、句長變化度、句子重復率。其中,這里的句子數是指以句號、感嘆號、問號、省略號結尾的句子的數量;分句數是指以逗號、分號等分割的句子的數量;平均句長則是指文本中句子的平均字符數。
對白藜蘆醇DPPC脂質粉霧劑進行的體外肺部沉積研究結果表明,甘露醇與DPPC質量比為2∶1時,制備得到的粉霧劑具有優良的粉末性質,有助于藥物在肺內不同部位的沉積。在60 L/min氣流速度條件下,接收盤2~7級藥物肺部沉積率為28.1%,明顯優于原料藥(13.3%)。分析原因,可能由于原料藥多為晶體結構相互吸附,流動性欠佳,易于聚集。最優處方制備的白藜蘆醇DPPC脂質粉霧劑更能滿足吸入顆粒的要求,易沉積在肺深部。
句長變化度反映了文本中句子長度的變化情況,它是文本中所有句子長度的標準方差值。其計算公式是:

句子重復率是指某一文檔中相鄰句子之間詞語的重復比例,其計算公式是:

句子層面的指標與難度級別之間的關系,可如圖3所示(見下頁):

3.詞義分析
我們還計算了難度級別與上述因素的Spearman相關系數,具體結果如表5所示:
現代翻譯學中等值或者說對等理論是一重要的思想。諸多西方翻譯理論家都在探討翻譯等值問題。當提及等值之時,并不是指本體論上的絕對等同,而是認識論上的等值,也就是說,在認識事物的實踐中是等值的。

從表5可以看出,在句子層面,分句數、句子數與難度級別之間的相關性最高,句子重復率與難度級別的相關性最低。
可以說,篇章在文本難度分析中最容易被忽略。實際上,篇章的段落組織方式、主題緊密程度、句間和段落間的銜接連貫等,都會對文本的理解難度產生影響。Graesser等從敘事性、指代銜接和深層銜接三個維度,闡述了它們與篇章難度的關系
。Sung等從指代、連接和隱喻三個方面,對文本的銜接程度進行衡量,其中,指代、連接分別是通過統計文本中代詞和連詞的數量來量化的
。基于上述研究,我們在篇章層面設計了連詞比例、代詞比例、介詞比例三個指標。在詞匯層面對詞性進行分析時,已經得出代詞、連詞、介詞與難度等級之間的相關性分別為0.132、0.428、-0.131。由此可知,在篇章層面,連詞比例對文本難度的影響是比較高的。具體可如圖4所示:

2.詞性分析
就如何安排、設計針對學生、家長和教師的正確激勵機制,以實現學習成績最優化問題。Hanushek et al(2003)在教育的同伴效應研究中指出經濟機制起著重要作用[24]。有大量證據證實學生學習成績受他們同伴影響,學生成績依賴于對其他人行為的研究(不僅僅是他們的個性特性和社會背景),這會導致個人最優行為和群體最優行為之間的差異,這一問題至今沒有被分析。
我們對這三種版本教材的文字層面的相關指標進行了比較,具體如表6所示:

從表6的相關統計數據中,我們可以得到以下結論:第一,隨著年級的升高,三種版本教材的字種數、總字數整體上是逐步增加的。其中,從一年級到三年級,每個年級的數量均大幅增加;四年級之后,增長率呈下降趨勢,并趨于穩定。同時,人教版教材的字種數、總字數均高于北師大版和蘇教版,蘇教版教材的字種數、總字數在三個版本中都是最低的。第二,從小學一到六年級,這三種版本教材的平均字頻在整體上呈下降趨勢。同時,從小學一年級到三年級以及小學六年級,蘇教版教材的平均字頻要高于人教版和北師大版;小學四年級、五年級,北師大版教材的平均字頻要高于人教版和蘇教版。
我們對這三種版本教材的詞匯層面的相關指標進行了比較,具體如表7所示:
根據土壤污染風險等級,將耕地劃分為3個類別,將無污染的耕地劃為優先保護類,低風險和中度風險的耕地劃為安全利用類,高風險和極高風險的耕地劃為嚴格管控類。稻田土壤重金屬污染風險等級見表2。根據現階段Cd污染治理技術水平,以0.5為間隔劃分農產品風險等級。

從表7的相關統計數據中,我們可以得到以下結論:第一,隨著年級的升高,三種版本教材的詞種數總體上呈逐步增加趨勢。其中,從一年級到四年級,每個年級的數量均大幅增加;五年級、六年級則趨于穩定。同時,除個別情況外,人教版教材小學階段的詞種數均高于蘇教版和北師大版,其中,蘇教版的詞種數最低。第二,隨著年級的升高,難詞比例增加,詞匯熟悉度下降,平均詞頻亦呈逐步下降趨勢。在這三種版本的教材中,人教版的平均詞頻基本上是最低的。
我們對這三種版本教材的句子層面的相關指標進行了比較,具體如表8所示:

從表8可以看出,作為使用最廣泛的語文教材,人教版的選文篇幅較長、內容豐富、涵蓋面廣,其課文的句子數和分句數在三種版本中基本上都是最高的。
在篇章層面,我們主要對這三種版本教材的連詞比例進行了比較,具體如表9所示:

從表9可以看出,三種版本教材中的連詞比例普遍較低;隨著年級的升高,連詞比例逐步增加,基本上是在四年級至六年級達到最高,并穩定在1%左右。
綜上所述,本文構建了以人教版、蘇教版、北師大版語文教材為基礎的分級語料庫,該語料庫共收錄了976篇課文。在這一基礎上,從字、詞、句、篇四個層面出發,考察了49項影響文本難易度的語言因素與難度級別之間的相關性,并確定了9項與文本難易度相關性較高的因素(相關性大于0.4),分別為:字種數、總字數、平均字頻、詞種數、平均詞頻、詞匯豐富度、句子數、分句數、連詞比例。然后,從這些影響因素出發,對這三種版本教材進行了對比分析。研究表明,作為使用最廣泛的語文教材,人教版的選文篇幅較長、內容豐富、涵蓋面廣,因此,在字種數、總字數、詞匯豐富度、句子數、分句數等影響因素的統計占比方面,均高于北師大版和蘇教版。在連詞比例方面,三種版本教材的占比則非常接近。需要指出的是,本文的研究主要是基于教材語料庫的統計與分析,下一步將以來自于真實數據的定量分析為基礎,構建文本易讀性公式,從而為文本閱讀難度標準的制定提供參考和建議,并為母語人群閱讀提供實證支持。
[1]Wolfe,M.B.W.,Schreiner,M.E.,Rehder,B.,Laham,D.,Foltz,P.W.,Kintsch,W. & Landauer,T.K.Learning from text:Matching readers and texts by latent semantic analysis[J].Discourse Processes,1998,(2-3).
[2]王蕾.可讀性公式的內涵及研究范式——兼議對外漢語可讀性公式的研究任務[J].語言教學與研究,2008,(6).
[3]李紹山.易讀性研究概述[J].解放軍外國語學院學報,2000,(4).
[4]白學軍,閆國利,等.閱讀心理學[M].上海:華東師范大學出版社,2017.
[5]Sheehan,K.M.,Kostin,I.,Napolitano,D. & Flor,M.The TextEvaluator tool:Helping teachers and test developers select texts for use in instruction and assessment[J].The Elementary School Journal,2014,(2).
[6]Sato,S.,Matsuyoshi,S. & Kondoh,Y.Automatic assessment of Japanese text readability based on a textbook corpus[A].Proceedings of the Sixth International Conference on Language Resources and Evaluation(LREC’08)[C].2008.
[7]王藝璇.漢語二語者詞匯豐富性與寫作成績的相關性——兼論測量寫作質量的多元線性回歸模型及方程[J].語言文字應用,2017,(2).
[8]程勇,徐德寬,董軍.基于多元語言特征與深度特征融合的中文文本閱讀難度自動分級研究[J].中文信息學報,2020,(4).
[9]Yang,S.A readability formula for Chinese language[D].Ph.D.Dissertation:The University of Wisconsin-Madison,1971.
[10]孫漢銀.中文易懂性公式[D].北京:北京師范大學碩士學位論文,1992.
[11]王蕾.初中級日韓留學生文本可讀性公式初探[D].北京:北京語言大學碩士學位論文,2005.
[12]程勇,徐德寬,董軍.基于語文教材語料庫的文本閱讀難度分級關鍵因素分析與易讀性公式研究[J].語言文字應用,2020,(1).
[13]沈烈敏,朱曉平.漢字識別中筆畫數與字頻效應的研究[J].心理科學,1994,(4).
[14]俞士汶,段慧明,朱學鋒,孫斌.北京大學現代漢語語料庫基本加工規范[J].中文信息學報,2002,(5).
[15]梅家駒,竺一鳴,高蘊琦,殷鴻翔.同義詞詞林[M].上海:上海辭書出版社,1983.
[16]Graesser,A.C.,McNamara,D.,Cai,Z.,Conley,M.,Li, H. & Pennebaker,J.Coh-Metrix measures text characteristics at multiple levels of language and discourse[J].The Elementary School Journal,2014,(2).
[17]Sung,Y-T.,Chen,J-L.,Cha,J-H.,Tseng,H-C.,Chang,T-H.& Chang,K-E.Constructing and validating readability models:the method of integrating multilevel linguistic features with machine learning[J].Behavior Research Methods,2015,(2).