999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語篇銜接量化特征對機器分數的預測分析

2019-03-20 09:07:24西南交通大學
外文研究 2019年4期
關鍵詞:語義詞匯作文

西南交通大學 王 建

隨著自然語言處理技術的蓬勃發展,自動作文評分(Automated Writing Evaluation, AWE)系統應運而生,這些在線評估工具可以大規模地、即時地評分并提供寫作反饋,在一定程度上緩解了英語教師的作文批改壓力。大部分AWE系統首先利用自然語言處理等技術統計作文在詞匯、句法和語篇等層面的量化特征值,然后建立回歸模型計算文章得分。國內自主研發的AWE系統,如批改網、iWrite和冰果作文智能評閱系統等,已廣泛應用于高校英語寫作教學中。然而鮮有國內AWE系統開發者對系統打分模型的建立及量化指標的選取進行詳細的闡述,機器打分是否“考慮”語篇銜接不得而知。因此,本文將利用語料庫研究工具計算中國英語學習者作文在語篇銜接方面的量化特征值,探究其對機器分數的預測能力。

1. 語篇銜接與自動作文評分系統相關研究

為探究語篇銜接量化特征值與機器評分間的關系,本節對語篇銜接概念、相關研究及AWE系統研究的現狀進行概括性的梳理。

1.1 語篇銜接研究

(一)語篇銜接與語篇連貫

語篇是一個完整的語義單位,是由顯性的或隱性的銜接手段連接而成,自然的銜接是形成語篇的重要手段。(王志文 1994)Halliday & Hasan(1976)認為,語篇銜接指文本中某些語言線索的顯現或缺失,是使讀者對語篇中的觀點建立連接的淺層語言特征。相比,語篇連貫指讀者對文本的理解,是讀者大腦中對文本的心理表征,取決于銜接線索等語言因素及已有知識、閱讀技能等非語言因素。(O’reilly & McNamara 2007;Kim & Crossley 2018)王彩麗(2003:20)將連貫比喻為一種“無形的網絡”,存在于語篇的底層,通過邏輯推理達到語篇中語義的連接,而銜接是一種“有形的網絡”,通過語篇的表層結構來體現,并通過一定的語法詞匯手段實現結構上和語義上的銜接。語篇中有效的銜接可以更好地幫助讀者建立更連貫的心理表征。

Halliday & Hasan(1976)將語篇銜接定義為句子層面以上的非結構關系,包括所指、替換、省略、連接詞和詞匯銜接(包括詞匯重述、同義、上下義及搭配)5大類。Crossleyetal.(2016)提出了3類銜接手段:句子層面的局部銜接(local cohesion)、段落層面的整體銜接(global cohesion)及整個語篇層面的銜接(text cohesion)。局部銜接包括句子間詞匯和概念的重合以及because、therefore或consequently等顯性的連接詞;整體銜接包括語篇中段落間詞匯語義的重疊,即某個段落中的詞匯或概念在其他段落中復現;此外,讀者還可以通過計算某些詞匯在整個語篇層面的復現及指稱情況等來判斷文本的銜接程度。總體而言,整體及語篇層面的銜接更為隱性。

(二)語篇銜接與寫作質量的關系

哪些文本內部特征可以區分高質量與低質量的作文?為回答此問題,寫作實證研究多采取量化文本錯誤和句法特征的方法,表明高質量作文錯誤往往更少,句法結構更為復雜。然而大多數研究忽略了銜接性等句法以外的重要文本特征。寫作是篇章的建構過程,是一個復雜的語言心理學概念,寫作研究領域對英語母語(L1)及二語(L2)寫作者在建構文本過程中利用何種詞匯語義特征產出銜接的篇章關注已久,但語篇銜接手段與作文質量間的關系仍撲朔迷離,研究結果各異,甚至大相徑庭。(Crossleyetal. 2016)

早期的研究主要針對L1寫作者,發現局部的銜接手段對文章質量的預測力不強(Evolaetal. 1980),高水平者比低水平者使用更多的指稱銜接詞與連接詞。(Witte & Faigley 1981) 盡管特定的銜接手段(如同義詞和上義詞)與作文質量相關,段落銜接可以區分高、低分作文,但銜接手段總數無法判別作文的質量好壞。(McCulley 1985;Neuner 1987)近年來,隨著語料庫語言學、計算語言學及自然語言處理等技術的發展,許多自動文本分析工具用于該領域的研究中,表明L1寫作者局部語篇銜接手段的運用與寫作質量不相關或負相關(McNamaraetal. 2010),整體銜接與寫作質量呈正相關。(Crossleyetal. 2011)

早期針對L2寫作者的研究表明,局部與語篇層面的銜接與作文質量呈正相關。Jafarpur(1991)發現意大利本科英語學習者的作文分數與語篇銜接手段數量相關。Liu & Braine(2005)研究了局部銜接手段,表明中國本科階段L2學習者的作文分數與銜接手段數量中等相關,詞匯銜接手段數量與寫作質量高度相關。Yang & Sun(2012)亦發現中國英語學習者議論文中正確使用的銜接手段與作文質量高度相關。后期利用計算工具的研究表明局部銜接(相鄰句子實詞重疊、肯定邏輯連詞及相鄰句子語義相似度等)和語篇層面銜接(如體重復,aspect repetition)與作文質量呈負相關(Crossley & McNamara 2012;Guoetal. 2013),與整體銜接呈正相關。(Crossley & McNamara 2014;Jungetal. 2005)另一方面,Guoetal.(2013)發現局部銜接(如相鄰句子語義相似度)與基于閱讀材料(source-based)的寫作任務作文分數呈正相關,因為閱讀材料的融入可能對局部銜接要求更高;Crossleyetal.(2016)也發現局部銜接與L2說明文質量呈正相關。

國內發表的此類研究較少,而且結果也不一致。如徐玉臣(2000)分析了50篇英語專業學生作文的各類詞匯銜接手段與寫作質量的關系。研究表明,詞匯銜接尤其是同義詞、反義詞和同現關系詞與寫作質量有本質聯系,對寫作質量貢獻顯著,有50.28%的預測能力。趙芝英(2004)基于Halliday & Hasan(1976)的語篇銜接理論,比較了41名非英語專業學生優劣作文的語篇銜接特點,并探討了銜接手段與寫作質量間的關系。結果顯示: 5大類銜接手段并未對作文質量產生足夠的影響,并發現詞匯的簡單重復是導致作文質量差異的主要因素。梁茂成(2006)發現5項測量局部銜接性和4項測量整體銜接性的Coh-Metrix指標與EFL作文成績顯著相關,且高分作文整體銜接手段運用較好,而低分作文更多地依賴局部銜接性手段。該研究還發現,由于學生過多地使用人稱代詞與連接詞等銜接手段,影響了連貫文本的建構。杜慧穎、蔡金亭(2013)利用Coh-Metrix文本分析器探究了影響中國英語專業大學生議論文寫作質量的語言特征,回歸分析顯示相鄰句子詞干重疊能解釋17%的分數差異。

1.2 自動作文評分系統相關研究

自動作文評分系統的研究可追溯到20世紀60年代,最初旨在解決大規模考試作文評分,因此被稱為AES(Automated Essay Scoring)系統,后來發展為AWE系統被應用到寫作課堂,不僅能提供及時評分,也可形成自動反饋,作為課堂教學的補充。到目前為止國外相關的研究主要涉及以下幾個方面:1)介紹及述評系統的原理;2)打分模型的建立過程說明;3)機器評分的效度研究及影響評分的因素;4)使用者對機器評分的認知研究;5)自動反饋研究,包括反饋的質量、反饋對寫作結果的影響、對寫作過程的影響及使用者的看法。(白麗芳、王建 2018,2019)國內此領域的研究仍處于起步階段,各方面研究都有所涉及,但受到的關注不夠,AWE系統在國內方興未艾并大量運用到英語課堂教學中,一線教師甚至直接將機器分數納入期末成績,未來也有應用到大規模外語測試的趨勢,但國內鮮有研究者或開發者詳盡報道系統建立所選取的語言特征,機器評分的“神秘面紗”還未完全揭開。

目前,語篇銜接與機器評分的關系目前還未受到廣泛關注。白麗芳、王建(2018)進行了有益探索,該研究利用Coh-Metrix分析了300篇“中國學習者英語語料庫”中大學英語四、六級考試作文在詞匯、句法、語篇和錯誤等4類語言類定量特征對人工和機器評分的影響。結果顯示,相鄰句子詞干重疊、相鄰段落潛在語義重疊、相鄰句子論元重疊及代詞總數能夠預測四、六級人工分數,相鄰句子詞干及論元重疊、相鄰段落潛在語義重疊、連詞及代詞總數能預測四、六級機器分數。但該研究僅涉及5項語篇銜接量化指標,并不全面,研究的可推廣性有待商榷。為此,本研究將納入更多的語篇銜接量化指標,以進一步探討語篇銜接量化特征與作文機器分數的關系。

2. 研究過程

2.1 語料選擇

本研究的研究語料來自西南某應用型大學本科二年級3個教學班于國內某自動評分系統提交的一次作業,所有作文均為不限時作文,共計121篇。系統以100分制公式進行打分。

2.2 語篇銜接量化特征的選取

本研究基于Coh-Metrix分析器計算的語篇銜接資源考察銜接性量化特征與機器評分的關系。Coh-Metrix是由美國孟菲斯大學McNamara等人研發的基于網絡的文本分析工具,該工具以心理語言學、計算語言學、語料庫語言學、自然語言處理及語篇分析等方面的長足發展為基礎,可對文本的淺層及深層特征進行量化分析,能夠分析上百種包括詞匯、句法和語篇銜接的語言量化特征。該工具使用潛勢語義分析(Latent Semantic Analysis)技術,有效地分析文本的銜接性,主要包括3個維度及27項指標:指稱銜接、連接詞及潛勢語義分析。為避免Coh-Metrix誤判拼寫錯誤的單詞,影響研究結果,筆者對詞匯拼寫錯誤進行人工核對并一一糾正,然后將利用Coh-Metrix分析無單詞拼寫錯誤的作文,詳細的銜接指標見表1。

表1 語篇銜接量化指標

2.3 統計分析及結果

本研究以121篇作文語篇銜接3個維度的所有量化特征值為自變量,機器分數為因變量,采用SPSS 18.0進行多元逐步回歸分析,p值設為<.05水平。逐步回歸統計分析共得到兩個回歸模型(見表2),進入回歸模型的自變量與作文機器分數的相關性見表3。模型1僅引入一個自變量:相鄰段落語義相似度平均數,可以解釋10.2%的分數差異(調整R2=.102,F<1,119>=21.725,p=.000),機器打分模型為:機器分數=70.258+45.831×相鄰段落語義相似度平均數(LSAPP1)。模型2在模型1的基礎上增加一個自變量:轉折連詞比(CNCADC),兩個自變量不存在共線性問題,對機器分數有14.5%的預測力(調整R2=.145,F<1,118>=14.444,p=.009),新進入模型的預測變量有4.3%的貢獻,打分模型為:機器評分=67.541+45.097×相鄰段落語義相似度平均數+0.266×轉折連詞比。相關分析顯示,機器分數與兩項指標呈顯著弱相關,皮爾遜相關系數分別為.331(p=.000)和.231(p=.011)。其他25項語篇銜接量化指標對機器分數不具有預測力,因此未能進入回歸方程。

表2 作文機器分數預測模型匯總

表3 作文機器分數與自變量相關分析

為分析語篇銜接量化特征對機器高、低分作文是否存在不同的預測力,本研究以所有作文機器分數的中位數(74.5分)為分界線,將121篇作文分為59篇高分檔(High-quality Group,簡稱H組)和62篇低分檔作文(Low-quality Group,簡稱L組)。T檢驗顯示,兩組作文分數存在顯著差異(t=21.293,p<.001)見表4。

表4 高分作文與低分作文均值比較

然后分別以高、低分組作文分數為因變量,語篇銜接量化特征為自變量進行多元線性回歸分析。統計分析得到一個高分組機器分數的預測模型(見表5),并且只有一個自變量進入回歸方程:相鄰句子語義相似度平均數(LSASS1),下頁表6顯示該自變量與機器分數呈負相關(r=-0.124),能解釋5%的方差(調整R2=0.050,F<1,57>=4.037,p=.049)。回歸方程為:H組機器分數=84.775-9.784×相鄰句子語義相似度平均數。但該指標與作文分數未達到統計學上的顯著性(p=.350>.005)

表5 H組機器分數預測模型匯總

表6 H組機器分數與自變量相關分析

表7顯示,回歸分析共得到兩個L組機器分數預測模型。只有附加連詞比進入第一個模型,共解釋8.7%的分數差異(調整R2=8.7%,F<1,60>=6.823,p=.011),自變量與機器分數的相關系數較低(r=.320,p=.011,見表8),回歸方程為:L組機器分數=58.277+0.142×附加連接詞比(CNCAdd)。第二個回歸模型包含兩個自變量:相鄰段落語義相似度平均數和轉折連接詞比,共能解釋14.9%的分數差異(調整R2=.149,F<2,59>=6.332,p=.024),兩個自變量與機器分數的相關系數分別為.304(p=.016)和.245(p=.009),回歸方程為:L組機器分=55.001+0.123×轉折連詞比+12.517×相鄰段落語義相似度平均數。

表7 L組機器分數預測模型匯總

表8 作文機器分數與自變量相關分析

3. 討論

本研究發現只有相鄰段落語義相似度平均數及轉折連詞比能夠預測整體作文的機器分數,進入回歸方程的自變量能解釋14.9%的方差。總體而言,機器在打分時,如果發現相鄰段落語義越相似,轉折連詞越多,作文的質量越高。概念相似度是深層的銜接手段,利用LSA技術可以很好地反映文本的語義連貫性,(杜慧穎、蔡金亭 2013)可以判斷作文的中心思想是否連續、語義是否連貫,通過文本中相鄰段落的用詞重疊統計來計算相鄰段落之間的語義距離,從而得出文章是否緊扣主題。(胡珀 2005)轉折連詞的使用可以起到承上啟下的作用,使文章尤其是議論文的層次更加分明。根據筆者參加近幾年全國大學生英語四級作文閱卷的經驗,中國EFL學習者在行文中偏愛使用諸如but、yet、while等轉折連詞來暗示前后文的關系,使邏輯層次一目了然。但值得一提的是,轉折連詞用得多有時并不能使文章層次更清晰,反而會讓文章邏輯混亂,使文章意思不連貫,造成讀者的理解困難。不過,本研究發現,相鄰段落語義相似度及轉折連詞比兩個自變量與機器分數的相關系數雖然有統計學上的顯著性,但相關程度并不高,因此對分數的預測力十分有限。

本研究與白麗芳、王建(2018)的結果存在差異,后者發現相鄰段落潛在語義重疊(即語義相似度)、相鄰句子詞干及論元重疊、連詞及代詞總數方面對大學英語四、六級作文機器分數具有解釋力,高分作文需要具備更深層的語言特征如并非詞匯的簡單重復、上下文語義層次鮮明、利用代詞指稱避免概念的重復等。但該研究并未報道語篇銜接手段與機器分數的相關性程度。兩項研究結果的差異可能是因為二者研究語料為中國EFL學習者在不同寫作環境中產出的文本,本研究語料為非限時、低風險課后練習作業,而白麗芳、王建(2018)選取的是“中國學習者英語語料庫”中限時、高風險的現場作文。此外,兩項研究所采用的銜接性量化指標亦存在差異,本研究選取了Coh-Metrix中指稱銜接、連接詞及潛勢語義分析3大維度的所有指標,而后者僅選取了5項指標。

本研究還發現,語篇銜接量化特征對AWE系統判斷的高、低分作文的解釋力存在差異,語篇銜接主要預測機器判斷的低分作文。機器高分作文評分模型中僅包含相鄰句子語義相似度平均數這一項銜接指標,該指標與機器分數呈負相關但并未達到統計學意義上的顯著性,對分數的機器分數的解釋力十分有限;附加連詞比、相鄰段落語義相似度平均數及轉折連詞比分別進入低分檔機器分數的兩個回歸方程中,最高能解釋14.9%的分數差異。除相鄰段落語義相似度及轉折連詞比,附加連接詞對低分作文有預測力,因為這些銜接詞可以表達遞進作用。低水平寫作者限于詞匯及句法知識的欠缺,往往利用較為機械的連接詞如and、moreover、besides等串聯文章,使文章的層次分明。同轉折連詞的情況類似,并非附加或遞進的銜接詞用得越多,文章的銜接性就越好、語篇越連貫。有些作者過多地使用and和but等連接性詞匯,其文章意思仍然不連貫,從一個觀點到另一個觀點跳躍太大,過渡太突然。(王彩麗 2003)同樣,進入低分組作文機器評分模型的3大預測變量與機器分數間的相關系數仍然較低,預測力不大。

總之,本研究發現大部分預測變量未進入回歸方程,語篇銜接量化特征對機器分數預測力很小。這可能是因為一篇文章之所以優秀可能是因其詞匯準確、復雜多樣,或是句法準確、復雜多變,或是結構清晰,或是銜接連貫,或是觀點新穎,或是論證充分,或是所有特征的組合。(白麗芳、戴春燕 2013)而語篇銜接只是反映文章質量的一小部分,是表征語篇連貫性的一個手段,因此優秀作文甚至可能跟語篇銜接量化特征并不存在顯著關系。

有研究表明,人、機評分過程存在巨大的差異,機器評分更多地依賴淺層的量化值,對于復雜的語義、結構等無能為力,自動評分關注的只是細節,如連詞數量、復雜詞比例、主題詞數量、句子平均長度等,并且將所有的指標量化,再根據權重計算文章得分。(白麗芳、王建 2018)然而本研究27項量化特征值多數無法預測機器分數,由此可以推斷,國內該AWE系統在建立評分模型時較少考慮語篇銜接作為衡量寫作質量的一大維度。為解釋語篇銜接指標對機器分數預測力較小這一現象,本研究對該AWE系統的質性反饋和寫作文本進行了仔細研究,結果發現該系統總體反饋均比較機械(如例<1>和例<2>);如例(1)和例(2)相對應的高、低分作文中主要使用了eventually、but和so等淺層連接詞,甚至高分作文的主體部分中出現additionally一詞3次,然而具體的按句子進行的點評中并未涉及任何有關語篇銜接的反饋,由此可以推斷系統不注重語篇銜接手段使用的恰當性。本研究還發現機器反饋中主要包括文章的寫作規范(如大小寫、拼寫及標點等)、詞匯和簡單句法的錯誤使用,以及詞匯的辨析,很少涉及語篇的銜接及連貫方面的指導。

(1)文章用詞靈活多樣,高級詞匯使用也比較準確;采用了適當的銜接手法,層次清晰;作者在句法層面做得很棒。(90分作文)

(2)作者詞匯表達較多樣靈活,也能較準確地使用高級詞匯;增加一些從句的使用,文章會更不錯;銜接詞較不錯,但文章結構不嚴謹。(66.5分作文)

語篇銜接是實現語篇連貫的重要手段,但自動反饋并未體現,AWE系統只會從淺層的語言特征來進行反饋,深層次反饋如語義的銜接等方面的指導較為欠缺。因此,本研究結果對AWE系統未來的開發與完善有一定的啟示。隨著自然語言處理等技術的不斷發展,未來的系統開發者應注重針對銜接等語篇層面的深層次特征進行評分及提供更詳盡的、更深層次的反饋,包括語篇銜接、詞匯搭配、內容完善等各個方面,以更有效地提高學生的寫作能力。

此外,本研究對寫作教學也有一定的啟示。首先,機器評分的效度目前仍然不高(白麗芳、王建 2018),因此一線教師應謹慎將機器分數融入形成性考核中。因為與寫作質量不相關的概念也可能會影響機器評分,如有研究表明寫作長度與機器分數相關度較高(Deane 2013),即文章越長,機器分數越高。為了迎合AWE系統,學生可能會故意將文章寫長,而不注重文章的詞匯、句法及篇章銜接的質量。其次,寫作教學中教師不應完全依賴AWE系統,因為機器無法像人工評閱者那樣讀懂文章,無法更加全面地指導學生寫作。有研究曾指出一篇作文在機器面前就是一包文字的簡單堆積,作文和機器之間的關系是簡單的刺激-反應的關系,機器只能對程序中已經設定的刺激做出反應。(Ericsson & Haswell 2006;白麗芳、王建 2018)AWE系統主要依賴淺層的量化特征,因此教師在教學過程中可以結合系統進行教學,文章的淺層錯誤如寫作規范和詞匯辨析等可以交由機器來處理,但深層次的語義、篇章的銜接與連貫、內容的展開等還需任課教師悉心指導。

4. 結語

本研究以非英語專業學生的一次非限時寫作文本為研究語料,探究了語篇銜接相關的量化特征與機器評分的關系。研究表明,這些指標很少進入回歸模型,對機器高、低分作文的解釋力存在差異。總之,銜接性指標對作文的機器分數預測力較小,這也可以從AWE反饋的內容中得到印證。

本研究對未來AWE系統的開發與完善以及中國EFL寫作教學有一定的啟示作用。但值得一提的是,本研究僅利用Coh-Metrix中詞匯銜接、連接詞及潛勢語義分析3個維度的27項語篇銜接指標作為自變量,并未考慮其他文本分析工具(如TAACO,The Tool for the Automatic Analysis of Text Cohesion)計算的其他銜接性指標;其次,本研究僅關注了語篇銜接的量化特征,并未探討這些特征的質性特征(如語篇銜接手段使用的恰當性)能否預測機器分數,這也是語篇銜接研究領域中的一大空白。此外,本研究選取的作文樣本為非英語專業學生產出的非限時議論文,未來研究者可針對不同學生群體在不同寫作環境中(限時及非限時)產出的不同體裁的作文展開進一步的廣泛研究。

猜你喜歡
語義詞匯作文
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
本刊可直接用縮寫的常用詞匯
紅批有聲作文
紅批有聲作文
紅批作文
紅批作文
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲欧洲日韩综合| 99r在线精品视频在线播放| 小蝌蚪亚洲精品国产| 成人免费午夜视频| 婷婷激情五月网| 国模极品一区二区三区| 伊人久久综在合线亚洲2019| 首页亚洲国产丝袜长腿综合| 国产a v无码专区亚洲av| 久996视频精品免费观看| 国产精品嫩草影院av| 伊人久久大线影院首页| 精品国产免费人成在线观看| 亚洲中文字幕久久无码精品A| 国产免费怡红院视频| 国产乱人视频免费观看| 毛片在线看网站| 欧美α片免费观看| 香蕉eeww99国产在线观看| 999国产精品永久免费视频精品久久| 日韩毛片在线视频| 理论片一区| 久草热视频在线| 精品国产电影久久九九| 欧美精品高清| 欧美成人一级| 91精品国产自产91精品资源| 国产理论一区| a级毛片免费看| 亚洲另类色| 在线看AV天堂| 国产一级片网址| 久久人体视频| 亚洲美女一级毛片| 欧美v在线| 亚洲第一av网站| 亚洲中文字幕日产无码2021| 亚洲全网成人资源在线观看| 精品一区二区三区无码视频无码| 国产成人免费手机在线观看视频 | 亚洲成人在线网| 国产视频只有无码精品| 国产午夜人做人免费视频中文| 一级成人欧美一区在线观看 | 亚洲国产精品VA在线看黑人| 国产成人高清精品免费软件| 国产制服丝袜无码视频| 乱人伦视频中文字幕在线| 日韩欧美国产三级| 亚洲动漫h| 成人在线综合| 亚洲一区二区黄色| 日韩av无码精品专区| 日本一区中文字幕最新在线| 91视频日本| 在线观看国产一区二区三区99| 91黄视频在线观看| 日韩欧美高清视频| 亚洲精品第1页| 香蕉久人久人青草青草| 啊嗯不日本网站| 男人天堂伊人网| 亚洲欧美另类视频| 亚洲毛片一级带毛片基地| 亚洲h视频在线| 亚洲欧美精品日韩欧美| 亚洲综合天堂网| 免费看a级毛片| 久无码久无码av无码| 国产手机在线小视频免费观看| 亚洲中文字幕国产av| 中文字幕乱码中文乱码51精品| 91精品福利自产拍在线观看| 成年看免费观看视频拍拍| 国产精品香蕉在线观看不卡| 日韩在线欧美在线| 欧美在线中文字幕| 影音先锋丝袜制服| 国产在线一二三区| 亚洲综合色婷婷| 尤物成AV人片在线观看| 就去色综合|