寫作不僅是語言表達的一種重要產出形式,而且是二語學習者語言水平高低的重要標志之一,因此,它也是第二語言習得研究的重要問題之一。研究表明,漢語二語作文質量與詞匯
、句法
兩個因素密切相關,詞匯、句法維度區別性特征的選擇與使用,是第二語言口語測試和寫作測試評分的熱門議題之一。在大數據時代,以便捷的方式完成二語學習者寫作水平(Writing Proficiency)的自動評分,具有廣泛的應用價值,也是目前學界研究的熱點,選擇高效度、高信度的評價指標則是實現寫作自動化評分的核心內容。黃志娥等指出,在HSK自動作文評分的研究中,指標選取是關鍵環節之一,直接影響著評分模型的性能
。不過,在以往的研究中,由于研究角度、目的和語料來源有效性等方面的差異,無論是在指標的操作性定義方面,還是在測量體系的信度、效度方面,均未達成共識。
前景化概念對詩歌的解析具有重要的作用,可以從變異和過分規則化兩個角度入手,找出其語音、語相、詞匯、句法以及語篇等各個層次上的變異和過分規則化,更好地理解作者的選擇,欣賞前景化所帶給詩歌的美感,從而為詩歌解釋提供有力的依據。
語言表達的復雜度、準確度和流利度(Complexity、Accuracy and Fluency,以下簡稱“CAF”),是二語表達中既具有協同作用又存在競爭關系的維度
,因此,它們是評價二語學習者書面表達能力的重要特征變量,體現了心理語言的習得、表征和認知加工機制
。近些年來,基于CAF對二語表達水平評分的有效性的研究越來越多,其中,詞匯、句法維度的CAF指標更是研究的熱點,但已有的研究成果主要集中在英語習得領域。英語與漢語是兩種不同類型的語言,英語習得研究的成果無法直接應用在漢語習得與評價研究中,相較而言,漢語二語習得領域的相關研究較為滯后。
針對上述問題,本文將基于中國漢語水平考試(以下簡稱“HSK”)大數據,采取“大數據小樣本”策略,以韓國學生的HSK寫作測試語料為研究對象,從詞匯和句法維度篩選、界定符合漢語特征的量化指標,進而嘗試構建更加優化的、更具普適性的寫作評價回歸模型,以期完善漢語作為第二語言的寫作評價指標體系,為漢語作為第二語言的寫作自動評分系統的設計提供借鑒,并為漢語二語寫作教學提供參考。
本文所探討的問題主要包括三個方面:1.詞匯和句法維度的29個典型指標與寫作成績的關系如何?2.在詞匯和句法兩個維度中,哪一個維度對寫作水平的影響更大?3.由詞匯及句法指標所構建的韓國學生漢語寫作評價回歸模型中,哪些指標可以有效預測寫作分數?回歸模型的效度如何?
本研究所用語料來自于參加2010年4月HSK(高等)考試的韓國學生限時獨立寫作的命題作文《員工八小時以外是否應該自由》,依據HSK作文的標準分,將隨機選擇的90份(男、女各45份)韓國學生作文語料,劃分為低、中、高三個分數段。其中,50—60分為低分段,70—80分為中分段,90分及以上為高分段。通過對語料進行機器分詞、人工標注和統計等處理,考察韓語母語者書面寫作中詞匯維度、句法維度的語言特征表現。
表7需要說明的是,a.預測變量:(常量),零形成分數量,最常用詞比率,虛詞使用比率,話題鏈數量,話題鏈分句數量;b.因變量:作文分數。方差分析結果顯示,模型1(
[5,39]=8.543,
<.001)是有效的。回歸分析結果表明,虛詞使用比率、最常用詞比率、話題鏈數量、話題鏈分句數量和零形成分數量五個參項,最終進入回歸模型,它們能夠解釋寫作成績52.3%的變異(
R
=.523)。各參項的具體影響,如表8所示:
吳繼峰將HSK作文評分標準概括為語言特征和內容質量兩部分
,其中,詞匯維度和句法維度作為語言特征的兩個典型性維度,在寫作質量評價中起著不可忽視的作用。本研究以Read的詞匯豐富性框架為基礎,并借鑒王藝璇
、吳繼峰
的研究方法,將詞匯層面的考察維度操作性定義為詞匯多樣性、詞匯復雜性、詞匯準確性和詞頻概貌,最終選取了19個典型詞匯特征作為初始指標體系進行相關研究。其具體指標及計算方法如表1所示:
觀察組的腸鳴音恢復時間、肛門自主排氣時間以及護理滿意度 為(16.56±8.20)h、(22.12±7.85)h、(92.14±2.15) 分;對照組的上述指標為(38.15±14.33)h、(47.96±18.98)h、(81.23±3.65)分。


在句法維度上,Lasagabaster & Doiz認為,“跟那些能力較差的學生相比,能力較強的學生的文章會更長、更復雜也更準確”
。在漢語二語寫作研究中,王藝璇
、吳繼峰
的研究結果均證實了這一觀點。不過,由于已有研究中所選取的句法指標不同,因此,各位學者得出的結論也存在一定差異。基于這一考慮,本研究將句法正確性和句法復雜性作為考察對象,并借鑒井茁
、吳繼峰
的研究方法,從句法正確性和復雜性兩方面選取了10個特征變量。其具體指標及計算方法如表2所示:
二是實施組織優化方略,推進水資源一體化管理。鑒于水資源的流動性、循環性和基礎性等特征,將隔斷的水連接起來,推進涉水事務一體化管理。基于流域水資源合理配置,完善流域一體化管理;按照統籌城鄉、以城帶鄉的要求,積極推進城鄉供水統籌管理。加強水管理部門內部、水管理部門同環保、城建等部門的協調,進一步提高水資源管理的一體化水平,從短期來看,推進建立水資源統一管理機構;從長期看,建立資源環境一體化管理機構,從根本上改變水資源管理分散和割裂的局面,改善水資源的總體功能。

根據上述指標體系,我們對研究對象的寫作語料逐篇進行了指標統計,然后以詞匯多樣性、詞匯復雜性、詞匯準確性、詞頻概貌、句法正確性和句法復雜性這6個維度的29項典型特征為考察對象,進一步對韓國學生作文語料進行數據標注與統計檢驗,考察韓國學生在詞匯和句法維度上的語言表現特征。
本研究主要分為三個階段:首先,對語料進行分詞、標注等處理,依次采集本研究所需要的各項評價指標。其次,借助SPSS25.0軟件,進行各項寫作評價指標與寫作成績的相關性分析,選取顯著相關的詞匯、句法指標作為原始參項,以被試的HSK考試寫作分數為因變量,分別構建詞匯回歸模型、句法回歸模型以及詞匯句法綜合回歸模型。最后,對以上三個回歸模型進行效度檢驗,探究詞匯和句法因素對寫作成績的影響程度與預測效果,從而篩選出具有高效度、高信度的漢語二語寫作水平評價指標。
1.詞匯指標與寫作成績的相關性
我們首先對詞匯維度的19個指標與寫作成績之間的關系進行了Pearson相關分析,結果顯示:在上述19個初始詞匯指標中,有11個指標與作文分數呈顯著相關。其中,詞匯多樣性特征中的Guiraud指標、總詞數、詞種數、虛詞數量、虛詞使用比率和連詞數量,均與寫作成績顯著相關(
=.563,
<.01;
=.459,
<.01;
=.630,
<.01;
=.490,
<.01;
=.390,
<.01;
=.361,
<.05);詞匯復雜性特征中的復雜詞數量與寫作成績顯著相關(
=.398,
<.01);詞匯準確性特征中的無錯誤詞匯數量與寫作成績顯著相關(
=.385,
<.01);詞頻概貌特征中的最常用詞比率、常用詞數量和次常用詞數量,均與寫作成績顯著相關(
=-.405,
<.01;
=.479,
<.01;
=.402,
<.01)。其余8個指標與寫作成績的相關性均不顯著。
先說園。園因砧木不同分為喬化、矮化和短枝,矮砧又分為中間砧與自根砧兩種;園因建在不同地貌分為川地園、塬面園和山地園。應根據砧木、品種、密度、立地、樹齡、樹勢等綜合作出修剪研判。如果一個果園已經郁閉,僅在個體上做文章顯然是不夠的,必須通過間伐才能從根本上解決群體光照問題。同理,在一株樹上先要觀察并決定大枝的去留,然后才是枝組的精細修剪。
1.句法指標與寫作成績的相關性
表3需要說明的是,a.預測變量:(常量),詞種數;b.預測變量:(常量),詞種數,虛詞使用比率;c.預測變量:(常量),詞種數,虛詞使用比率,最常用詞比率;d.因變量:作文分數。方差分析結果顯示,模型1(
[1,43]=28.328,
<.001),模型2(
[2,42]=18.637,
<.001)和模 型3(
[3,41]=16.110,
<.001),均是有效的。回歸分析結果顯示,詞種數、虛詞使用比率和最常用詞比率三個參項,最終進入回歸模型,三者能夠解釋作文分數54.1%的變異(
R
=.541)。詞匯各變量的具體影響,如表4所示:

根據上述分析結果,我們選擇與寫作水平存在顯著相關的Guiraud指標、總詞數、詞種數、虛詞數量、虛詞使用比率、連詞數量、復雜詞數量、無錯誤詞匯數量、最常用詞比率、常用詞數量和次常用詞數量作為初始參項,以被試的作文分數為因變量,采用逐步回歸法(Stepwise)進行回歸分析。具體分析結果如表3所示:

回歸分析的結果顯示,詞種數(
=3.705,
<.05)、虛詞使用比率(
=3.168,
<.05)和最常用詞比率(
=-2.515,
<.05),對作文質量的影響均顯著。許宏晨指出,標準化回歸方程適合用來描述研究結果,但非標準化回歸方程的實用性更強
。因此,我們采用非標準化系數來建立詞匯回歸模型:寫作成績=60.489+0.271×詞種數+77.689×虛詞使用比率-56.799×最常用詞比率。以上三者的標準化回歸系數為:0.444>0.357>|-0.301|(詞種數>虛詞使用比率>最常用詞比率)。由此可見,詞種數對被試的寫作成績影響最大,虛詞使用比率和最常用詞比率的影響次之。
2.詞匯回歸模型
為了考察句法特征與韓國學生寫作成績之間的關系,以及句法指標對寫作成績的預測效果,本研究采用SPSS25.0軟件,對二者進行Pearson相關分析。相關分析的結果顯示:句法復雜性維度中的話題鏈數量(
=.345,
<.05)、話題鏈分句數量(
=.513,
<.01)和零形成分數量(
=.483,
<.01),均與作文分數呈顯著相關;其余7個句法復雜性指標和句法正確性指標,與寫作成績的相關性均不顯著。
2.句法回歸模型
(2)分析條件確定定的點,明確需構點.由條件可知△ACD的形狀確定,是一個頂角為138°的等腰的三角形,即可以先確定A、C、D三點,故只需構造點B;
由表6可知,以上三者的標準化回歸系數由大到小為:0.769>0.343>0.095(零形成分數量>話題鏈分句數量>話題鏈數量),即它們對寫作成績的影響程度逐漸減弱。相應的句法回歸方程是:寫作成績=53.654+0.633×話題鏈數量+0.557×話題鏈分句數量+1.084×零形成分數量。在這三個參項中,只有話題鏈分句數量對寫作成績的影響顯著(
<.05)。不過,出于對回歸方程整體性的考慮以及綜合相關分析結果,我們仍保留話題鏈數量、零形成分數量作為模型參項。

表5需要說明的是,a.預測變量:(常量),話題鏈分句數量;b.因變量:作文分數。方差分析結果顯示,模型1(
[3,41]=6.561,
<.01)是有效的。回歸分析表明,話題鏈數量、話題鏈分句數量和零形成分數量三個參項,最終進入回歸模型,它們能夠解釋寫作成績32.4%的變異(
R
=.324)。三個參項的具體影響,如表6所示:

根據上述分析結果,我們選擇與寫作成績存在顯著相關的話題鏈數量、話題鏈分句數量和零形成分數量作為初始參項,采用強制回歸法(Enter)進行回歸分析,并建立句法回歸模型。具體分析結果如表5所示:
由于寫作水平是詞匯和句法水平的綜合反映,因此,在分別考察了詞匯和句法維度對寫作成績的影響后,我們再以兩個維度中與寫作成績顯著相關的14個指標作為自變量,以被試的作文分數為因變量,采用強制回歸法,建立詞匯句法綜合回歸模型,并參考多重共線性(Multicollinear)的分析數據,對相關參項進行了調整。具體結果如表7所示:

通過復習課,學生具備了相對穩固的知識體系,具備了一定的科學探究能力與問題解決能力。教師可以引導學生結合本地資源開展多種形式的科學實踐活動,嘗試解決現實生活中與生物學息息相關的問題,進行社會責任的滲透。
為了綜合評估“一帶一路”背景下,東道國各項制度對中國直接投資雙邊經濟增長效應的影響,本文將采用索洛經濟增長模型作為實證分析的理論基礎。索洛經濟增長模型長期以來被用于分析經濟增長的理論分析和促進經濟增長的政策研究,對經濟增長問題研究的影響是廣泛和深遠的,后期許多經濟學家又對該模型不斷放寬并加以完善。

從表8可以看出,虛詞使用比率(
=3.188,
<.01)、最常用詞比率(
=-3.235,
<.01)、話題鏈分句數量(
=2.102,
<.05),均對作文質量產生顯著影響;話題鏈數量(
=0.936,
=0.355)、零形成分數量(
=0.396,
=0.694)的影響并不顯著。出于對方程整體性的考慮以及綜合相關分析結果,我們仍保留話題鏈數量、零形成分數量,并建立詞匯句法綜合回歸方程:寫作成績=88.246+82.658×虛詞使用比率-73.041×最常用詞比率+0.816×話題鏈數量+0.464×話題鏈分句數量+0.274×零形成分數量。回歸分析結果顯示,五個參項的標準化回歸系數由大到小依次為:|-0.387|>0.380>0.285>0.122>0.061,也就是說,最常用詞比率>虛詞使用比率>話題鏈分句數量>話題鏈數量>零形成分數量。這說明詞匯指標對寫作成績的影響程度要高于句法指標對寫作成績的影響程度。
為了驗證回歸方程的預測效度,我們從90份語料中隨機選取了45份語料,通過檢驗回歸模型的成績預測值與實際寫作分數之間的相關性,考察詞匯回歸方程、句法回歸方程和詞匯句法綜合回歸方程對學生寫作成績的預測表現。Pearson相關分析結果顯示,詞匯回歸方程和句法回歸方程的預測成績與寫作成績之間存在顯著的正相關關系,其中,
r
=.672,
<.001,
r
=.550,
<.001;詞匯句法綜合回歸方程與寫作成績之間則存在顯著的高度正相關關系,即
=.729,
<.001。上述數據表明,詞匯回歸方程的預測效果要好于句法回歸方程,而詞匯句法綜合回歸模型的預測效果最好。這是因為在交際表達中,詞匯與語法是密切相關、無法分離的,“詞語決定具體的特征,語法負責一般的規律,二者相輔相成,共同為表達意義服務”
。作為語言的建筑材料,詞匯是意義的載體,是二語能力發展的重要制約因素,學習者之所以能夠實現有效的二語交流,是因為掌握了充足和恰當的詞匯。句法則是語言的結構規則,只有在具備一定詞匯能力的基礎上,學習者才能掌握語法規則,從而在語言應用中真正發揮其功能。因此,詞匯能力評價在寫作成績評價中具有舉足輕重的地位,語法同樣也是寫作評價和語言習得中不可忽視的重要維度。
可以說,影響漢語二語作文質量評價的因素眾多,本文選取了詞匯和句法維度的29個典型指標進行考察。研究發現,在詞匯維度的19個指標中,只有詞匯多樣性和詞頻概貌的3項指標最終進入了寫作評價模型,能夠解釋寫作成績54.1%的變異。詞匯復雜性、詞匯準確性等8項指標與寫作成績顯著相關,這與已有研究中詞匯復雜性和詞匯準確性對寫作成績具有顯著影響的結論相一致。其中,詞匯多樣性指標——Guiraud指標和詞種數與寫作成績處于中等相關(r
=.563,p<.01,r
=.630,p<.01),這說明漢語二語寫作中使用盡可能豐富的語言表達方式是十分必要的。因此,無論是學習者,還是漢語教師,都需要對詞匯多樣性保持持續關注。
句法維度中,只有代表句法復雜性的話題鏈數量、話題鏈分句數量和零形成分數量三個指標顯著,三者組合能夠解釋寫作成績32.4%的變異。這一發現與吳繼峰
所得出的語法正確性與寫作質量顯著相關的結論并不一致。我們認為,研究所選取的樣本量、學習者的個體差異及回避策略的使用,都是影響相關顯著性的重要因素。
在構建詞匯句法綜合回歸模型時,虛詞使用比率、最常用詞比率、話題鏈分句數量、話題鏈數量和零形成分數量作為有效參項,其標準化回歸系數由大到小依次為:|-0.387|>0.380>0.285>0.122>0.061。這說明文本的詞匯特征對寫作成績的影響較大,句法復雜性次之。依據Cohen的效應量參照體系,R
的小、中、大效應量標準分別是0.02、0.13、0.26
。如果按照語言維度來統計,詞匯和句法指標均達到高等效應量,其中,詞匯指標對寫作成績的解釋力度更大(R
=.541,R
=.324,R
=.523);綜合效度檢驗結果,二者共同使用時對寫作成績的預測效果最佳(r
=.672,r
=.550,
r
=.729)。
全部入組患者年齡最小50歲,最大80歲,其中男性35例,女性25例,兩組患者在年齡,性別等一般資料上無顯著差異,P>0.05,具有可比性。
綜上所述,本文考察了詞匯多樣性、詞匯復雜性、詞匯準確性、詞頻概貌、句法復雜性、句法正確性等語言特征與寫作成績之間的關系,檢驗了詞匯和句法維度的29個典型指標對寫作水平的預測作用。研究發現,最常用詞比率、虛詞使用比率、話題鏈分句數量、話題鏈數量和零形成分數量,可以作為韓國學生漢語寫作自動評分的有效參項。這一結論對韓國漢語學習者作文的量化測評、自動評分和寫作教學均具有參考價值。需要指出的是,由于相關指標的處理難度較大,本研究所選取的樣本量有限,不能稱為嚴格意義的大樣本。如果在今后的研究中能進一步豐富被試樣本、完善語料體裁,那么其研究成果對第二語言寫作評價將更有價值,其結論也更具普遍意義。
[1]吳繼峰.語言區別性特征對英語母語者漢語二語寫作質量評估的影響[J].語言教學與研究,2018,(2).
[2]王藝璇.漢語二語者詞匯豐富性與寫作成績的相關性——兼論測量寫作質量的多元線性回歸模型及方程[J].語言文字應用,2017,(2).
[3]吳佩,邢紅兵.內容、詞匯、篇章特征對漢語學習者二語作文質量的影響研究[J].語言教學與研究,2020,(2).
[4]Jiang,W.Y.Measurements of development in L2 written production:The case of L2 Chinese[J].Applied Linguistics,2013,(1).
[5]王藝璇.HSK作文成績與句子長度、復雜度及語法錯誤的相關性[A].北京語言大學對外漢語研究中心.漢語應用語言學研究(第4輯)[C].北京:商務印書館,2015.
[6]吳繼峰.韓語母語者漢語書面語句法復雜性測量指標及與寫作質量關系研究[J].語言科學,2018,(5).
[7]黃志娥,謝佳莉,荀恩東.HSK自動作文評分的特征選取研究[J].計算機工程與應用,2014,(6).
[8]Norris,J,M. & Ortega,L.Towards an organic approach to investigating CAF in instructed SLA:The case of complexity[J].Applied linguistics,2009,(4).
[9]Crowhurst,M.Syntactic complexity in narration and argument at three grade levels[J].Canadian Journal of Education/Revue canadienne de l’éducation,1980,(1).
[10]Flower,L. & Hayes,J,R.A cognitive process theory of writing[J].College Composition and Communication,1981,(4).
[11]Larsen-Freeman,D.The emergence of complexity,fluency, and accuracy in the oral and written production of five Chinese learners of English[J].Applied linguistics,2006,(4).
[12]吳繼峰,周蔚,盧達威.韓語母語者漢語二語寫作質量評估研究——以語言特征和內容質量為測量維度[J].世界漢語教學,2019,(1).
[13]Lasagabaster,D. & Doiz,A.Maturational constraints on foreign-language written production[A].In García Mayo,M.P. & García Lecumberri,M.L.(eds.).Age and the acquisition of English as a foreign language[C].Clevedon:Multilingual Matters Ltd,2003.
[14]井茁.從中介語發展分析到高級漢語課程設置——內容依托型教學研究的啟示[J].世界漢語教學,2013,(1).
[15]許宏晨.第二語言研究中的統計案例分析[M].北京:外語教學與研究出版社,2017.
[16]王勇,李正林.詞匯和語法的關系——幾種語法模式的比較研究[J].華中師范大學學報(人文社會科學版),2015,(2).
[17]Cohen,J.Statistical power analysis[J].Current Directions in Psychological Science,1992,(3).