999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于結構方程模型的普通話水平測試構想效度研究

2024-01-01 00:00:00原鑫
考試研究 2024年6期

[摘 要] 構想效度是效度論證的核心問題,也是檢驗測試質量的關鍵指標。以普通話水平測試實測數據為研究材料,考察普通話水平測試的構想效度。使用結構方程驗證性因子分析檢驗測試的構想效度,使用跨組別驗證性因子分析測試構想在男女考生組別的跨組別一致性。驗證性因子分析結果顯示:“有文字憑借模式下的普通話表達+無文字憑借模式下的普通話表達”兩因子模型與實測數據擬合最佳;參數估計結果顯示測試聚斂效度良好,判別效度較低。跨組別分析結果顯示:兩因子模型各項參數在男女考生群體中表現一致,測試結構表現出較好的穩定性。從實證角度論證了普通話水平測試的構想效度,并對命題說話題目提出設置情境、更新題庫、提高被試表達真實性等改進建議。

[關鍵詞] 普通話水平測試;構想效度;結構方程模型;因子結構

[中圖分類號] G424.74 [文獻標識碼] A

[文章編號] 1673—1654(2024)06—031—011

普通話水平測試(Putonghua Shuiping Ceshi,PSC)是專門測試漢語母語者標準語水平的大規模口試,是促進國家通用語言高質量推廣普及的重要舉措。該測試對象范圍廣、測試數量龐大,是相關職業及專業資格認證、學生學業成就認證的重要依據。效度是衡量測試質量的核心標準,“任何嚴肅的測試都必須提供令人滿意的效度證據”[1],測試最重要的效度證據就是測試的構想效度,即被試的考試成績與考試開發者所設想的語言能力理論相符的程度[2]。PSC測評質量的研究一直受到學界重視,相關研究也從不同角度論證了測試的質量,但幾乎沒有觸及構想效度這一測試質量的核心問題。關于PSC的構想及效度等諸多關鍵問題,需要深入研究和探索。

一、研究背景和提出問題

(一)口語測試的構想效度研究

測試的構想效度研究一直是語言測驗領域的一個核心課題。構想是一種語言能力理論在測驗中的體現。語言測驗涉及的一個重要假設就是測驗的構想與所測內容有著同樣的結構關系。研究構想效度是為了檢驗試卷結構與所測語言能力之間的相符程度,以回答“測試到底在多大程度上測到了其想測的能力”這一反映測試質量的關鍵問題。盡管研究者們對效度的分類法存在差異,但構想效度一直居于效度研究的中心地位,Cronbach將效度研究比作對以構想效度為特征的科學理論的評估,指出大多數教育測量都需要構想效度[2]。Messick認為構想效度也許不能代表效度的全部,但它是效度的核心[3]。Bachman引用Messick的論述[4-5],指出盡管研究者們將效度證據分為內容效度、效標關聯效度、結構效度等不同種類,但效度具有一元性,內容效度、效標關聯效度都是支持構想效度的輔助性證據[6]。可見,構想效度的論證是語言測驗的開發與使用無法回避的問題。

Messick的一元化效度觀認為,效度是一個綜合性的評價,效度證據來自多個方面[7]。效度是一種程度,有高低之分,不是非有即無。效度驗證是動態的、持續的過程,研究者可以通過多種渠道、從多個方面收集構想效度證據,以說明測試分數解釋和使用的合理性。

目前國內外直接研究PSC構想效度的文章相對較少。張國華通過面向應試人員的問卷調查和面向測試員的座談收集對PSC各類效度的評價數據,包括PSC的構念效度、內容效度、表面效度等;調查結果顯示應試人和測試員普遍認為PSC構念效度較高,但多數被試認為第一項“讀單音節字詞”內容效度較低;同時相當比重的應試人認為試卷表面效度較好,但仍需做很多改進[8]。常曉宇對PSC“朗讀短文”測試項進行效度研究,使用層次分析法確定了PSC朗讀短文測試項各評分要素的比重,使用多重線性回歸的方法構建了普通話朗讀能力要素的回歸方程[9]。張寵以華裔學生PSC實測數據為研究材料,從內容效度、校標關聯效度、構想效度、測試后效等效度的不同方面探討PSC對華裔學生的適用性[10]。總體上看,PSC的構想效度研究領域對測試效度的研究經驗探討多,實證研究少。

(二)口語測試因子結構的跨組別一致性研究

測試的公平性是影響測試效度的一個重要方面,只有公平的測試才可能是有效的測試,任何削弱公平性的行為都會損害測試分數解釋和使用的有效性[11]。進行因子結構跨組別的比較研究是為了檢驗測試構想在不同應試群體中是否存在偏差,即測試構想對不同群體是否公平。如果測試因子結構與不同考生群體測試數據的擬合具有跨組別不變性,那么可以認為測試構想對不同考生群體是一致且有效的。否則,測試可能會顯示出對特定考生群體的偏見。《教育與心理測量標準》(Standards for Educational and Psychological Testing)一書認為,當測試涉及不同的亞群體受試時,應該實施效度的跨群體一致性驗證[12]。已有研究涉及的亞群體類別包括社會地位、性別、語言和文化背景、專業背景等[13-16]。但已有研究多是針對紙筆考試的試卷結構,對口語能力結構模型的公平性研究較少。

在語言測試領域,性別對口語能力的影響是比較受關注的話題。有研究認為,男女在會話風格、語言互動方面存在較大差異,口語交際能力的構想在男女性別上并沒有做到公平一致[17];也有研究發現性別對口語水平并無明顯的影響[18]。可見,對于口語能力與性別的關系,研究者們觀點并不一致。PSC作為一項大規模的母語口語水平考試,測試構想對男女考生群體是否存在偏差是值得研究的課題。

(三)結構方程模型在測試效度研究中的應用

結構方程模型(Structure Equation Model,SEM)也稱為協方差結構分析或結構方程建模,是基于變量的協方差矩陣分析變量間關系的一種統計方法。SEM可分為測量方程(Measurement Equation)和結構方程(Structural Equation)兩部分。測量方程描述潛變量與指標之間的關系。結構方程則描述潛變量之間的關系。SEM通過假設模型與實測數據的擬合,估計觀測變量、潛在變量之間的關系,確定理論構想與實際數據表現的相符程度。20世紀80年代以來,SEM廣泛應用于語言能力結構、測試構想效度、測試公平性的研究[19-22]。SEM的最大優點之一就是能夠評估理論模型的構想效度[23],是一種“理論檢驗”的活動[24]。

PSC作為一項服務國家語言文字事業,對國家通用語言高質量普及提升起到重要助推作用的測試,其構想效度研究是重要的研究課題,也是推動國家通用語言高質量發展的應有之義。本研究將使用結構方程模型,在論證考試因子結構的基礎上,進一步探討測試結構在不同考生群體上的穩定性,為PSC的效度論證提供實證依據。具體研究問題有兩個:一是PSC的構想效度如何?二是PSC對男女性別的被試是否具有跨組別一致性?

二、研究方法與過程

(一)樣本數量的確定及樣本情況

目前學界對結構方程模型研究的最低樣本量并沒有確定且統一的標準,經常被引用的一種確定樣本量的方法是考慮樣本量與觀測變量個數的關系。Bentler和Chou認為對于呈正態分布和橢圓分布的數據,樣本量應該是觀測變量個數的5倍;而對于其他分布情況的數據,樣本量應該是觀測變量個數的10倍[25]。Muthen L和Muthen B認為,對于一個有10個觀測變量的模型,如果數據分布接近正態且無缺失值,則最低樣本量為150[26]。一般來說,觀測變量個數越少、數據越接近正態、缺失值越少,則需要的樣本數量越少。本研究的PSC包含4個觀測變量,在數據呈正態分布、無缺失值的情況下,100至200名被試可以保證研究的信度。此外,結構方程模型多組比較時,如不同組別的樣本量差異較大,估計值會盡量遷就人數較多的組,使總χ2最小,為保證模型估計的準確性,應保證各組人數等同或接近。

從某次普通話測試中抽取180名被試的語音樣本,其中男性90名,女性90名。180名被試的語音樣本均包含讀單音節字詞、讀多音節詞語、朗讀短文、命題說話4項。聘請兩名省級評分員對180名被試在4個題型上的表現進行分項評分,取兩名評分員評分結果的平均數作為測試最終得分。被試分項得分情況見表1。

(二)競爭模型的建立及指標的設定

《普通話水平測試大綱》(以下簡稱“《大綱》”)對PSC的試卷結構進行了描述。如表2所示,普通話水平測試包括“讀單音節字詞”“讀多音節詞語”“朗讀短文”和“命題說話”。“讀單音節字詞”“讀多音節詞語”“朗讀短文”屬于有文字憑借測試項,測查被試讀字詞的語音標準程度和朗讀書面作品的水平;命題說話測試項為無文字憑借測試項,測查被試在沒有文字憑借的情況下使用普通話所達到的規范程度[27]。

根據《大綱》對PSC試卷結構的闡述,本研究構擬了2個競爭模型。模型A包含普通話能力1個潛變量,將其命名為PT;4個觀測變量分別為讀單音節字詞、讀多音節詞語、朗讀短文和命題說話,分別命名為DZ、DC、DW和MS。模型B包含“有文字憑借模式下的普通話表達”和“無文字憑借模式下的普通話表達”兩個潛變量,分別命名為YWZ和WWZ;YWZ因子包含讀單音節字詞(DZ)、讀多音節詞語(DC)、朗讀短文(DW)3個觀測變量;WWZ因子的觀測變量為命題說話(MS)。結構方程模型進行指標設定時,每個因子至少有2個指標模型才可被識別。使用兩位評分員的評分結果作為WWZ因子的2個測量指標,分別命名為MS1、MS2。對于含有2個指標的多因子模型,侯杰泰等提出兩指標法則[28],即對于一個多因子模型,如果有因子只含兩個指標,模型可識別的充分條件如下:一是每個因子有兩個或兩個以上的指標;二是每個指標只測量一個潛變量;三是對每個潛變量,至少有另一個潛變量與之相關;四是誤差之間不相關。根據此法則對本研究各理論模型進行檢視,結果均符合法則要求,因此本研究模型的建立是可行的。

模型A和模型B的結構關系圖分別見圖1和圖2。

(三)數據分析步驟

對所有模型的擬合、參數估計均使用結構方程模型分析軟件Lisrel(8.80)。數據研究分為三步:一是數據一元正態和多元正態性檢驗,二是確立基準模型,三是跨組別分析。

一元正態及多元正態檢驗參考數據偏度、峰度顯著性檢驗以及總體顯著性檢驗,檢驗的零假設是數據符合正態分布,我們希望接受這個零假設,即希望p值大于0.01。使用極大似然估計(Maximum Likelihood,ML)進行數據擬合。模型與數據的擬合程度主要參考兩個標準:一是模型擬合指數,二是參數估計結果的合理性。基準模型的建立和跨組別分析參考一系列擬合指數。目前普遍認為評價模型擬合程度時應參考多個不同類型的評價指標。參考已有研究常用且普遍認為較穩定的擬合指數[29-30],擬選擇以下幾個擬合指數作為模型擬合的檢驗標準:χ2(越小越好)、χ2/df(<3)、χ2檢驗p值(>0.01)、GFI(>0.9)、AGFI(>0.9)、NFI(>0.9)、NNFI(>0.9)、CFI(>0.9)、RMSEA(<0.08)。

三、研究結果

(一)數據正態檢驗結果

對各項數據的正態檢驗結果顯示,只有命題說話項分數符合正態分布,其它數據正態顯著性檢驗均不符合正態分布(P<0.01)。其中DZ、DC呈負偏態,DW呈負峰度。根據Hair,Black amp; Babin針對不同偏態提出的轉換法則[23],對以上3個變量進行了處理1。處理結果顯示,變量均符合正態分布(P>0.01)。使用處理后的數據計算單因子模型和兩因子模型的協方差矩陣,作為模型驗證時參數估計的基礎。

(二)基準模型的確立

在結構方程模型中,要確定哪個模型與實測數據的擬合結果最佳,主要從兩個方面進行評估:一是用擬合指數對模型做整體評價,二是檢驗參數估計值的顯著性及參數的意義和合理性。

1.模型擬合指數比較

如表3所示,單因子模型(模型A)、兩因子模型(模型B)的各項擬合指數均符合評價標準。通過對比發現,除GFI值均為0.99,模型B的各項擬合指數表現均明顯優于模型A;模型B χ2檢驗的顯著性p值也明顯高于模型A。根據擬合指數的總體表現,模型 B兩因子模型擬合數據最佳。

2.參數估計結果檢驗

進而考察模型 B的參數估計合理性,參數估計值見表4。經過檢視,模型B所估計的誤差方差、標準誤等均未出現負值;標準化估計值都小于1;參數估計顯著性檢驗t值也都大于2,表明所有參數估計值都顯著地不等于0。從表4可以看出,標準化因子負荷均介于0.5~0.95,R2的值都介于0.5~0.9,表明觀測變量很好地解釋了潛在變量,模型擬合結果良好。因此,模型B作為基準模型是成立的。根據計算,PSC因素結構圖見圖3。

3.構想效度的考察

通過參數估計值考察測試構想效度。聚斂效度和判別效度是衡量構想效度的兩個主要指標:聚斂效度指測量指標多大程度上測到了所附屬的潛在變量;判別效度指各潛在變量之間的區別程度。根據Hair等的研究,聚斂效度的考察標準主要包括因子負荷、方差析出量(Variance Extracted)1和構想信度(Construct Reliability)2。Hair等對3個指數提出了具體的評價標準:一是每個指標在相應因子上的負荷越高,表明聚斂效度越好,一般標準化的因子負荷應至少達到0.5,0.7以上則較為理想;二是方差析出量達到0.5以上表明收斂性較好;三是構想信度達到0.7以上表示各指標具有內部一致性,說明指標測量了同一個潛在構想[23]。判別效度的考察方法為,將兩個因子間相關(標準化)的平方同這兩個因子各自的方差析出量進行比較,兩個方差析出量都大于相關的平方時,說明測量模型具有較好的判別效度。

根據表5,本研究所有5個指標在相應因子上的負荷均超過0.7,其中DW、MS1指標的標準化因子負荷達到0.9以上,每個因子的方差析出量都在0.7以上,構想信度也都達到0.9,表明測量模型具有非常好的聚斂效度。表6中判別效度檢驗結果顯示,兩個因子的方差析出量均略小于因子間相關的平方,因子間區別程度不明顯。綜合聚斂效度和判別效度的檢驗結果,本研究認為PSC具有較好的聚斂效度,判別效度有待提高。

(三)跨組別檢驗結果

多組驗證性因子分析的目的在于檢驗測試結構在男女考生群體上的一致性。根據侯杰泰等的建議[28],結合本研究具體情況,對基準模型在男女考生群體上的估計值進行逐層的等值限制,具體步驟如下:一是完形模型(Configural Model),模型形態等同,對兩組數據在模型上的參數估計不做限制;二是因子負荷等同,限定模型形態等同的基礎上,追加限定兩組對應的因子負荷相同;三是協方差等同,在前兩步基礎上繼續限定男女組別因子協方差等同,即限定各組因子的相關系數等同;四是在前3種限定的基礎上,繼續限定兩組指標截距等同;五是在前四步限制的基礎上,限定因子均值等同。五層限制分別產生了5個模型,5個模型的擬合指標見表7。

對比5個模型發現,整體上隨著限制條件的增加,GFI、NFI、NNFI、CFI幾個擬合指標并未發生顯著變化。RMSEA存在變好的趨勢。χ2/df結果越來越小。χ2顯著性檢驗p值也越來越大。每一步追加等同條件后模型擬合指數都在評價標準范圍內,模型擬合均比較理想。整體上模型擬合的結果越來越好。

一個經驗性法則是,觀察增加等同限制條件前后χ2和自由度的變化,如Δχ2/Δdf小于5,則認為增加同等條件后,擬合優度沒有顯著變壞,等同條件成立[28]。本研究將Model 2-5與基準模型Model 1進行比較,發現追加限制后的模型Δχ2/Δdf值均小于5。此外,基準模型與其它模型的卡方差異檢驗結果表明,每一層追加限制后的模型(Model 2-Model 5)與基準模型(Model 1)相比,在與實測數據的擬合程度上并不存在統計學意義上的顯著差異(p值均大于0.05)。這些分析說明,經過逐層等值限制以后的模型與基準模型在擬合上不存在顯著的差異,測試構想在男女考生群體中均可以保持較好的穩定性。

四、討論與建議

本研究使用結構方程模型驗證性因子分析檢驗PSC因子結構以及測試在男女考生群體中的穩定性,以考察測試的構想效度。研究對兩個競爭模型的驗證性因子分析顯示,“有文字憑借模式下的普通話表達+無文字憑借模式下的普通話表達”兩因子模型數據擬合結果最佳,兩因子模型的聚斂效度良好,判別效度偏低。跨組別分析結果顯示,兩因子模型各項參數在男女考生群體中表現一致,測試結構表現出較好的穩定性。

(一)關于PSC因子結構的討論

研究結果顯示,PSC試卷結構包含“有文字憑借模式下的普通話表達”和“無文字憑借下的普通話表達”兩個因子。從標準化因子負荷估計結果看,讀單音節字詞、讀多音節詞語、朗讀短文3個測量指標在“有文字憑借”因子上的負荷都比較高(分別為0.78、0.83、0.96),有文字憑借因子的方差析出量達到0.74,說明3個觀測變量較好地解釋了有文字憑借因子。從讀單音節字詞、讀多音節詞語再到讀語篇,3個觀測變量對有文字憑借因子的解釋能力逐漸增強。這也符合單音節字詞、多音節詞語、語篇對普通話應用的實際影響程度。命題說話題目在無文字憑借因子上的負荷也比較高。說明測試各項觀測指標都對相應的潛變量具有很好的解釋效力,PSC測試結構具備良好的聚斂效度。

有文字憑借和無文字憑借兩個因子達到0.93的較高相關。對參數估計值的考察也發現,兩因子模型中兩個因子各自的方差析出量均略小于因子間相關的平方,說明兩個因子間區別程度較低,測試判別效度不太理想。

(二)關于測試判別效度的討論和改進建議

一般來說我們希望兩個因子間具有一定的區別性,即希望測試結構中的兩個因子分別代表普通話表達能力下的兩種不同的微技能。“有文字憑借”是借助文字材料說普通話,由于文字材料已給定,應試人只需要朗讀出試卷內容,那么測試主要測查的就是語音標準程度和流暢程度。“無文字憑借”是在沒有文字輔助的情況下進行普通話表達,除了語音標準程度和流暢程度,也考查語法規范以及遣詞造句、修辭等語用能力。從理論上來說兩個因子間應當具有一定的區別性,為何兩個因子卻達到0.93的高相關呢?

從測評維度看,我國幅員遼闊,方言復雜,方言間差異最大的是語音,其次是詞匯和語法。PSC從設計之初就是為了推廣普通話,促進各民族各地區人民的交流。因而PSC題型設計和分值權重主要側重語言本身的語碼操作能力(即語音、詞匯、語法等語言結構系統中各要素的操作能力),尤其是語音標準程度。即便是應該體現交際能力的“命題說話”也主要側重語音標準程度的測評,較少涉及語用能力,交際策略能力則幾乎沒有涉及。有文字憑借測試項和無文字憑借測試項在測評維度上較為一致,因而相關程度較高。

從測試形式來看,PSC屬于獨白式口試,被試依據試卷上的文字引導語進行口語產出。無論是有文字憑借還是無文字憑借測試項,都不涉及交際情境,考官不參與對話交流[31]。PSC“命題說話”缺乏語境、情境等因素,交際性不明顯[32-33],因而無文字憑借的“命題說話”與有文字憑借的測試項間沒有形成明顯的區別。

從測試流程看,為達到以測促訓的目的,PSC說話題目的范圍是事先給定的,被試在考前充分培訓、準備的情況下,單向說話的表現由即興口頭表達變成機械背稿,“命題說話”并未在真實、即興的情境下表達,沒有實現口語測試真實性的目的。因而,有文字憑借與無文字憑借測試在測查表現上區別度較低。

總體上,PSC測試構想較好地反映了測試目的,無文字憑借與有文字憑借測試項相關度較高也有其客觀原因。但不可否認的是,為了達到以測促訓的目的,測試在一定程度上犧牲了真實性,進而影響了測試的構想效度。如何在確保被試充分訓練、以考促學的同時,提高測試的構想效度是測試需要解決的問題。

在測試中應保證命題說話測試的真實性,最大程度獲得被試日常普通話表達原汁原味的樣本,以確保分數推論的有效性。為此可以從以下4個方面對測試進行改進:一是在題型設置上,將命題說話題目改為貼近日常工作生活且具有一定語境情境的話題,引導貼近生活的真實口語表達;二是在考試命題方面,組織人員進行命題說話項的命題,定期更新題庫;三是在測試流程方面,命題說話的試題在考試時臨場給出,避免提前準備、背稿的問題,保證考生語言表現的真實性;四是在測試培訓和準備方面,在《普通話水平測試實施綱要》中只公開第一、二、三項測試的字表、詞表和朗讀篇目,并給出一部分命題說話項例題作為考前練習,但命題說話正式施測題目不在《綱要》中出現。這樣既達到通過訓練提高普通話水平的目的,也保證了測試的效度。

根據構想效度的研究結果,PSC測試結構包含“有文字憑借模式下”和“無文字憑借模式下”兩種普通話表達模式,且包含單音節字詞、多音節詞語、語篇、命題說話等測量指標。可見口語表達不是簡單的語言能力要素的組合,而是表達模式和表達內容相互作用的結果。

(三)關于PSC測試構想跨組別一致性的討論

測試結構在不同亞群體中的穩定性是效度的重要證據,測試構想的一致性關系到考試是否對所有考生一視同仁,這對考試的公平使用和決策至關重要。關于性別與口語能力的關系,研究者的觀點并不一致。一些研究認為男女在會話風格上存在明顯差異[34-35],在英語口語表現方面,女性的口試成績明顯高于男性[36]。但也有研究發現,不同性別的考生口語能力幾乎沒有差異[37]。O’ Loughlin、范勁松等分別考察了語言測試對男女考生群體的公平性,研究結果顯示,測試因子結構和評分在男女考生中具有較好的一致性[38-39]。已有研究得出不同的結論,可能與被試樣本選擇及測試內容存在一定關系。本研究效度的跨組別一致性檢驗結果表明,PSC測試結構在男女組別表現相同,具有較好的穩定性,說明測試構想在男女生被試群體中是充分且合適的,并不存在偏差。

五、結束語

本研究使用SEM驗證性因子分析檢驗PSC的構想效度,以及構想效度的跨群體穩定性。理論模型與實測數據擬合及參數估計結果顯示“有文字憑借模式下的普通話表達+無文字憑借模式下的普通話表達”兩因子模型較好地代表了被試的實際語言能力結構,且測試結構在男女考生組別上具有良好的穩定性,測試構想效度良好,但兩個因子區別度較低。構想效度的研究本質上是證明測試背后的理論有效[40]。研究論證了測試的理論構想的有效性,為PSC提供了實證性的效度證據,并為未來開展PSC的效度研究提供了一些方法和路徑上的參考。

本研究還存在以下尚待補充之處。首先,研究僅從測試因子結構的角度考察測試效度。隨著效度理論的發展,在新的效度理論框架下,效度是一個多層面的整體概念,效度驗證需要多方面收集不同類型的證據,使這些證據構成一個相互補充的效度論證鏈[41]。PSC的效度研究還有很多尚待探索的領域。測試的效標關聯效度、評分效度,以及測試效度的質性研究都是PSC效度研究值得關注的課題。在以后的研究中,可以考察測試分數與外部語言量表的校標關系,檢驗評分量表的效度;也可使用話語分析、有聲思維、專家判斷等質性研究方法考察PSC的構想效度,為PSC的效度驗證提供多方面的效度證據。其次,由于篇幅所限,跨組別研究只檢驗了構想效度在男女考生群體中的公平性。在普通話水平的測量中,文化背景、學歷背景、方言背景、語言水平、認知特點、年齡等因素都可能使測試構想效度存在偏差。未來可以使用DIF、多面Rasch分析、SEM多組驗證分析等方法全面考察PSC構想效度和評分在不同背景考生群體中的公平性。

參考文獻:

[1] HUGHES A,PORTER D,WEIR C J. Validating the ELTS Test:A Critical Review [M]. Cambridge:The British Council and the University of Cambridge Local Examination Syndicate,1988:4.

[2] CRONBACH L J. Test Validation [C]. // R L Thorndike(ed.). Educational Measurement(2nd edition). Washington DC:American Council on Education,1971:443-507.

[3] MESSICK S. Evidence and Ethics in the Evaluation of Tests [J]. Educational Researcher,1981,10(9):9-20.

[4] MESSICK S. Test Validity and the Ethics of Assessment [J]. American Psychologist,1980,35(11):1012-1027.

[5] MESSICK S. The Once and Future Issues of Validity:Assessing the Meaning and Consequences of Measurement [C]. // H Wainer,H I Braun(eds.). Test Validity. Hillsdale,NJ:Lawrence Erlbaum,1988:33-45.

[6] BACHMAN L F. Fundamental Considerations in Language Testing [M]. Oxford:Oxford University Press,1990:241-242,255.

[7] MESSICK S. Validity of Psychological Assessment:Validation of Inferences from Pearson’s Responses and Performances as Scientific Inquiry into Score Meaning [J]. American Psychologist,1995,50(9):741-749.

[8] 張國華.對PSC測試有效度的驗察[C].//第四屆全國語言文字應用學術研討會論文集,2005.

[9] 常曉宇.口語測試中朗讀類題型的效度研究——以普通話水平測試“朗讀短文”測試項為例[D].中國社會科學院研究生院博士學位論文,2017.

[10] 張寵.普通話水平測試對留學生的適用性研究[D].中國社會科學院研究生院碩士學位論文,2019.

[11] XI,X. How Do We Go About Investigating Test Fairness? [J]. Language Testing,2010,27(2):147-170.

[12] American Educational Research Association,American Psychological Association,National Council on MEASUREMENT in Education. Standards for Educational and Psychological Testing [M]. Washington,D C:Author,1999.

[13] STRICKER L J,ROCK D A,LEE Y W. Factor Structure of the LanguEdge Test across Language Groups [J].Ets Research Report,2005,(1):i-43.

[14] SHIN,S-K. Did They Take The Same Test? Examinee Language Proficiency And The Structure Of Language Tests [J]. Language Testing,2005,22(1):31-57.

[15] YOO H,Manna V F. Measuring English Language Workplace Proficiency across Subgroups:Using Cfa Models to Validate Test Score Interpretation [J]. Language Testing,2017,34(1):101-126.

[16] YAN X,CHENG L,GINTHER A. Factor Analysis for Fairness:Examining the Impact of Task Type and Examinee L1 Background on Scores of an ITA Speaking Test [J]. Language Testing,2019,36(2):207-234.

[17] COATES J. Women,Men and Language(2nd edition)[M]. London:Longman,1993.

[18] LUMLEY T,O' SULLIVAN B. The Effect of Test-taker Gender,Audience and Topic on Task Performance in Tape-mediated Assessment of Speaking [J]. Language Testing,2005,(4):415-437.

[19] MUTH?N B O,SATORRA A. Multilevel Aspects of Varying Parameter in Structural Models [C]. // Bock H(ed.). Multilevel Analysis of Educational Data. San Diego:Academic Press,1989:87-99.

[20] KUNNAN A J. Test Taker Characteristics and Test Performance:A Structural Modelling Approach [M]. Cambridge:Cambridge University Press,1995.

[21] PURPURA J E. Modeling the Relationships between Test Takers’ Reported Cognitive and Metacognitive Strategy Use and Performance on Language Tests [D]. Unpublished Ph.D. Dissertation,University of California,Los Angeles,1996.

[22] GINTHER A,STEVENS J. Language Background,Ethnicity,and the Internal Construct Validity of the Advanced Placement Spanish Language Examination [M]. // A. J. Kunnan(ed). Validation in Language Assessment. Mahwah,NJ:Lawrence Erlbaum,1998:169-194.

[23] HAIR F J,BLACK C W,BABIN J B,ANDERSON F R,TATHAM L R. Multivariate Data Analysis [M]. NJ:Pearson Education,Inc,1987:471-472.

[24] HUCK S. Reading Statistics and Research [M]. Boston:Pearson Education Inc,2012.

[25] Bentler P M,Chou C-P. Practical Issues in SEM [J]. Sociological Methods and Research,1987,16:78-117.

[26] Muthe'n L K,Muthe'n B O. Mplus User's Guide(Sixth Edition)[M].Los Angeles,CA:Muthe'n amp;Muthe'n,2007.

[27] 國家語委普通話培訓測試中心.普通話水平測試實施綱要[M].北京:商務印書館,2017:2-5.

[28] 侯杰泰,溫忠麟,成子娟.結構方程模型及其應用[M].北京:教育科學出版社,2004:114-115,190-192.

[29] RAYKOV T,TOMER A,NESSELROADE J R. Reporting Structural Equation Modeling Results in Psychology and Aging:Some Proposed Guidelines [J]. Psychology and Aging,1991,6(4):499-503.

[30] BOOMSMA A. Reporting Analyses of Covariance Structures [J]. Structural Equation Modeling:A Multidisciplinary Journal,2000,7(3):461-483.

[31] 聶丹.普通話水平測試研究概說[M].北京:語文出版社,2012:193-195.

[32] 朱麗紅. PSC中“說話”項的題型分析和改進建議[C].//第二屆全國普通話水平測試學術研討會論文集.北京:商務印書館,2004:152-165.

[33] 王暉.普通話水平測試依據研究[D].中國社會科學院研究生院博士學位論文,2016.

[34] MALTZ D,BORKER R. A Cultural Approach to Male–female Mis-communication [C]. // Gumperz J(ed). Language and Social Identity. Cambridge:Cambridge University Press,1982:196-216.

[35] TANNEN D. You Just Don’t Understand:Women And Men In Conversation [M]. New York:William Morrow,1990.

[36] 肖德法,向平.性別與PETS口試成績研究[J].山東外語教學,2005,(1):54-56.

[37] HYDE J S,LINN M C. Gender Difference in Verbal Ability:A Meta-analysis [J]. Psychological Bulletin,1988,104(1):53-69 .

[38] O'LOUGHLIN K. The Impact of Gender in Oral Proficiency Testing [J]. Language Testing,2002,19(2):169-192.

[39] 范勁松,季佩英,俞明理.語言測試效度研究的另一視角:考試的因子結構研究[J].外語教學理論與實踐,2014,(4):34-40.

[40] American Psychological Association(APA). Technical Recommendations for Psychological Test and Diagnostic Techniques [M]. Washington,D C:APA,1954.

[41] WEIR C J. Language Testing and Validation:An Evidence-based Approach [M]. New York:Palgrave Macmillan,2005.

A Study on the Construct Validity of Putonghua Proficiency Test Based on Structural Equation Model

Yuan Xin

Beijing Chinese Language and Culture College,Beijing,102206

Abstract:Construct validity is the core issue of test validation and a key criterion for test quality. This study examines the construct validity of the Putonghua Proficiency Test by using the testing data. Through confirmatory factor analysis and multi-group confirmatory factor analysis,the construct validity of the test and the consistency of the test construct among male and female candidates are examined. The results of confirmatory factor analysis show that the two factor model of \"Mandarin speaking under the mode with text support + Mandarin speak under the mode without text support\" fits the measured data better. The parameter estimation results show that the convergent validity of the test is good,while the discriminant validity is low. The results of multi-group analysis shows that the parameters of the two factor model performs consistently among male and female candidates,and the test structure shows good stability. The study empirically demonstrates the construct validity of the Putonghua proficiency test. Based on the research findings,some suggestion,such as setting situation,renewing item bank,enhancing the authenticity of the subjects’ expressions,are proposed for test improvement.

Key words:Putonghua Proficiency Test,Construct Validity,Structural Equation Model,Factor Structure

(責任編輯:吳茳)

作者簡介 原鑫,講師,北京華文學院。北京,102206。

基金項目 北京華文學院2023年度科研課題“普通話水平測試的效度研究”(HW-23-B08)。

1對負偏態的變量求平方,負峰度的變量取倒數。

1方差析出量的算法是:每個因子各指標因子負荷(標準化)平方的平均數。一般方差析出量達到0.5以上表明收斂性較好。

2構想信度的計算方法為,每個因子各指標因子負荷(標準化)之和的平方,比上各指標因子負荷之和的平方與該因子各指標誤差方差之和的和。

主站蜘蛛池模板: 久久久精品国产亚洲AV日韩| 成人亚洲天堂| 无码高潮喷水在线观看| 自拍亚洲欧美精品| 国产成人精品无码一区二| 亚洲人成日本在线观看| 国产永久无码观看在线| 国产成人高清亚洲一区久久| 国产国语一级毛片在线视频| 九色在线视频导航91| 日本成人在线不卡视频| 无码AV高清毛片中国一级毛片| 亚洲精品午夜无码电影网| 国产精品自在自线免费观看| 久久精品电影| 亚洲男人的天堂在线| 亚洲人成影院午夜网站| 欧美A级V片在线观看| 制服丝袜亚洲| 91午夜福利在线观看| 国产激爽爽爽大片在线观看| 一区二区理伦视频| 中文一区二区视频| 成人亚洲视频| 色偷偷一区二区三区| 天天综合网亚洲网站| 在线五月婷婷| 欧美成人精品一级在线观看| 国产在线八区| 国产欧美亚洲精品第3页在线| 免费视频在线2021入口| 天天色天天综合网| 久久综合成人| 香蕉伊思人视频| 国产亚洲视频中文字幕视频| 免费无码在线观看| 中文毛片无遮挡播放免费| 美女内射视频WWW网站午夜 | 亚洲欧美不卡视频| 日本免费精品| 国产成人免费| 亚洲区一区| 国产91丝袜在线观看| 亚洲国产成熟视频在线多多 | 久草视频福利在线观看 | 欧美国产精品拍自| 国产精品第| 国产小视频免费观看| 国产精品对白刺激| 91激情视频| 欧洲极品无码一区二区三区| 中文字幕在线一区二区在线| 欧美三级自拍| 精品久久国产综合精麻豆| 久久婷婷综合色一区二区| 伊人久久综在合线亚洲2019| 日本一区二区三区精品AⅤ| 色丁丁毛片在线观看| 欧美亚洲香蕉| 国产成人综合久久精品尤物| 91国内在线视频| 久久综合九色综合97网| 欧美三级不卡在线观看视频| 三上悠亚精品二区在线观看| 美女一级免费毛片| 免费国产不卡午夜福在线观看| 国产制服丝袜无码视频| 91精品国产自产在线观看| 免费国产高清视频| 久久精品丝袜高跟鞋| 精品成人一区二区| 亚洲欧洲日产无码AV| 高清欧美性猛交XXXX黑人猛交| 全午夜免费一级毛片| 欧美日韩国产在线人成app| 日韩无码黄色| 免费观看男人免费桶女人视频| 欧美午夜精品| 亚洲天堂2014| 天天躁夜夜躁狠狠躁躁88| 亚洲一区二区三区中文字幕5566| 日本免费福利视频|