項目生成技術(shù)的研究與發(fā)展

2008-01-01 00:00:00涂涓宋麗紅齊冰

考試周刊 2008年2期

摘要：項目生成技術(shù)作為新一代的測驗技術(shù)，與傳統(tǒng)測驗技術(shù)相比，它在節(jié)省大量人力物力的同時，又能充分保證測驗的結(jié)構(gòu)效度；它有助于擴充計算機自適應(yīng)測驗的項目數(shù)量及提高其安全性；它還可作為認(rèn)知診斷測驗開發(fā)的基礎(chǔ)。本文總結(jié)了國外項目生成方面的理論和技術(shù)成果，就項目生成技術(shù)的意義、發(fā)展、現(xiàn)狀和研究方法進行了闡述。

關(guān)鍵詞:項目生成技術(shù) 心理測驗開發(fā) 認(rèn)知心理學(xué)心理測量學(xué)

國外研究者對項目生成技術(shù)（Item Generation）的研究始于20世紀(jì)60年代，經(jīng)過幾十年的發(fā)展和S.Embretson、 I. Bejar等研究者的努力，項目生成技術(shù)的優(yōu)勢已經(jīng)凸顯，并將在二十一世紀(jì)得到迅速發(fā)展。項目生成首先應(yīng)研究所測任務(wù)的認(rèn)知策略、認(rèn)知加工過程和該領(lǐng)域的典型項目，歸納出影響此類項目心理計量參數(shù)的刺激特征和其他影響因素，及不影響項目參數(shù)的其他刺激特征。這樣既可以以此為基礎(chǔ)，通過已知的刺激特征及其權(quán)重來預(yù)測其項目參數(shù)，又可以以此形成項目設(shè)計原則，使得通過計算機程序在測驗施測的同時生成結(jié)構(gòu)效度良好、心理計量參數(shù)已知且具有最佳認(rèn)知診斷功能的項目成為可能。

有人稱項目生成技術(shù)的特點是三無，即無題庫、無需項目反應(yīng)理論（IRT）和無需太多投入（S. Irvine， 2002）。的確，項目生成誕生最初目的就是為大規(guī)模測驗服務(wù)，因此決定了它的特點就是：項目實時生成、不需使用IRT的方法去估計項目參數(shù)而可以直接通過項目刺激特征的權(quán)重直接計算項目參數(shù)、與傳統(tǒng)測驗編制相比較項目生成能夠節(jié)省大量的人力與物力。

1 項目生成技術(shù)的意義

項目生成技術(shù)作為新一代的測量技術(shù)，具有重要的理論與實踐意義。

1.1 項目生成技術(shù)歸納出項目認(rèn)知模型與設(shè)計原則，既節(jié)省了大量人力物力，又能充分保證測驗的結(jié)構(gòu)效度。

使用傳統(tǒng)方法人工編寫測驗費時費力，生成的項目又往往難以保證其品質(zhì)，造成此種局面的部分原因在于，它不管項目間有多相似，都將每個項目視為獨立體。而項目生成技術(shù)從研究其認(rèn)知過程與項目結(jié)構(gòu)著手，一旦確定認(rèn)知模型和項目設(shè)計原則，就可編寫計算機程序自動化地生成大量已知心理計量屬性的項目。

在智力測驗領(lǐng)域，過去的做法是通過測驗總分與外部效標(biāo)的相關(guān)求得效度。這種方法早已顯得太粗糙，而從測驗所要測量的潛在結(jié)構(gòu)的角度來證明測驗的有效性是十分必要的。因此對測量結(jié)構(gòu)和目標(biāo)的深層次理解，對其認(rèn)知過程、認(rèn)知策略、認(rèn)知成分與刺激屬性的研究，關(guān)注各認(rèn)知變量對總分的影響，這將有助于指導(dǎo)測驗的編制工作、保證其結(jié)構(gòu)效度。

1.2 項目生成有助于擴充計算機自適應(yīng)測驗的項目數(shù)量及提高其安全性。

計算機自適應(yīng)測驗（簡稱CAT）未能得到快速發(fā)展的原因之一是由于它需要大量心理計量參數(shù)已知的項目作基礎(chǔ)。人工項目編寫者很難滿足對項目這樣大量與急切的需求，而項目設(shè)計規(guī)則與程序能幫助項目生成者實時生成大量的項目，有助于改善這種艱難的局面，對于擴充CAT的題量具有極大的幫助。

Wainer認(rèn)為僅靠增加題量來維持題庫的安全性，這是不現(xiàn)實的；與擴大題庫的投資相比，竊題增加的費用卻是微乎其微的；這也意味著，隨著時間的推移，要維持測驗同等程度的安全性，就必須以指數(shù)級數(shù)增加題目量，而項目費用也是以指數(shù)級數(shù)增加的。而使用項目生成技術(shù)，項目在測驗過程中實時生成，從而減少了曝光機會、增加了安全性。

1.3 項目生成可以做為開發(fā)認(rèn)知診斷測驗的基礎(chǔ)。

測量技術(shù)發(fā)展到21世紀(jì)，人們對測驗結(jié)果的渴望已經(jīng)不能用只給出一個總分值來滿足，人們更期待出現(xiàn)針對不同個體的、能夠揭示其內(nèi)在特質(zhì)的診斷性測驗。項目生成技術(shù)基于對所測領(lǐng)域認(rèn)知加工過程與項目結(jié)構(gòu)的細(xì)致分析，確定了影響人們行為的刺激特征與其他因素，它與CAT相結(jié)合，就有可能為被試提供更有效且更個性化的基于項目認(rèn)知過程和刺激特征層面的診斷分析。

項目生成技術(shù)對于心理測量而言，除了具有現(xiàn)實意義，還具有理論意義。如果我們可以用項目生成技術(shù)生成某特質(zhì)的項目并得到預(yù)期的結(jié)果，則表示我們已經(jīng)開始真正了解這種特質(zhì)了；更進一步說，如果我們能夠準(zhǔn)確預(yù)測該項目的難度的話，則有了更大的突破。

2 項目生成方法及應(yīng)用

2.1 Embretson（1999）提出的認(rèn)知設(shè)計系統(tǒng)方法

美國測量理論學(xué)家Embretson總結(jié)了一套生成項目的認(rèn)知設(shè)計系統(tǒng)方法，該方法的核心是建立該類項目的認(rèn)知加工過程模型；此外，它還需要其他幾個支持系統(tǒng)，其中包括建立保證結(jié)構(gòu)效度的項目設(shè)計體系、選擇合適的心理計量模型和生成項目的計算機程序。認(rèn)知設(shè)計系統(tǒng)方法與其他傳統(tǒng)項目開發(fā)方法相比具有四大優(yōu)勢：第一、預(yù)測項目參數(shù)的能力較強。第二、可以在項目水平上評估結(jié)構(gòu)效度。如果認(rèn)知設(shè)計系統(tǒng)方法與合適的心理測量模型結(jié)合起來應(yīng)用，就可以預(yù)測具體的認(rèn)知成分對于項目難度的相應(yīng)影響。第三、該方法可以生成指定參數(shù)的項目。第四、該方法使得自適應(yīng)項目生成測驗成為可能。

2.2 Ian Dennis（2002）提出的項目生成方法1

Dennis曾對項目生成方法做過大量研究，提出了項目生成的兩種方法。在其方法1中項目總體是可以確定的，它由特定的項目刺激特征及其水平相結(jié)合所產(chǎn)生的所有項目組成。通過對總體項目結(jié)構(gòu)的分析，首先確定影響難度的控制因素與不影響難度的非控制因素，這樣只要項目刺激特征的值確定了，這個項目就確定了。控制因素用于確定難度，而非控制因素用于產(chǎn)生項目參數(shù)相近而形式不同的若干實例項目（又稱為同構(gòu)體）。用方法1適用于保密的環(huán)境當(dāng)中，用它生成項目耗費較小，可以生成大量平行測驗；但如果過度曝光，可能導(dǎo)致項目設(shè)計原則的泄露。

2.3 Ian Dennis提出的項目生成方法2

方法2中的項目總體是所有存在元素的任何一種可能的排列方式，因此在施以任何規(guī)則以前，對含有N個元素的集合，就有N！個可能的項目；方法2通過在題干和問題處施以規(guī)則來減少符合的項目個數(shù)。方法2中項目生成的程序要具備檢驗?zāi)Ｐ褪欠衽c給定的規(guī)則相容的邏輯分析能力。使用方法2時，只有在項目生成之后，其難度才能確定。方法2雖然可以解決項目泄露問題，但較之方法1，它需要投入更多。

3 項目生成能力的三種水平

Bejar（1993）認(rèn)為按照項目生成能力的不同，可以將項目生成分為三個水平。水平最低的是功能水平上的項目生成，它僅僅強調(diào)完成項目生成這個功能本身，而忽視測量結(jié)構(gòu)的探究與認(rèn)知模型的建立。根據(jù)Hively（1974）與Bormuth(1990)介紹，教育領(lǐng)域早期的一些工作就屬于這一水平。

項目生成的第二個水平是以模型為基礎(chǔ)的項目生成，它是在對有關(guān)項目進行了認(rèn)真的認(rèn)知分析后建立的認(rèn)知模型以指導(dǎo)項目生成；那些根據(jù)認(rèn)知理論所提出的能夠影響難度的變量，最終又可以應(yīng)用于指導(dǎo)項目的生成。他認(rèn)為生成測驗的先決條件是對測驗內(nèi)容做完善的結(jié)構(gòu)分析，多個研究結(jié)果證明這種項目生成是較有效的。

項目生成的最高水平是語義水平的項目生成，在此水平上，測驗開發(fā)者必須對認(rèn)知結(jié)構(gòu)與心理計量模型進行透徹的分析，從而不僅能生成項目，還可以解析項目以刻畫其心理計量屬性。這種方法雖然很吸引人，但在現(xiàn)實中很難輕易地實現(xiàn)它，它僅比較成功地應(yīng)用于分析推理等項目類型中。

4 項目生成技術(shù)在國外的發(fā)展

4.1 誕生和初步發(fā)展階段（20世紀(jì)60年代到90年代）

項目生成長久以來一直吸引著測驗開發(fā)者，從20世紀(jì)60年代開始，西方研究者如Hively、Guttman、Carroll、Bejar、Irvine、Dennis等人就對項目生成做了初步的理論探索與實踐研究（S. Irvine， 2002）。Hively（1968）、Guttman（1969）提出了一種可以生成大量算術(shù)題目的項目形式。這一時期的許多研究者都熱衷于實現(xiàn)功能水平上的項目生成，他們看重完成項目生成這種功能，而不重視研究項目所測品質(zhì)的認(rèn)知結(jié)構(gòu)，因此有些項目生成的結(jié)果并不如人意。

4.2 成熟發(fā)展階段（20世紀(jì)90年代至今）

早期失敗的歷史證明，想要對理論內(nèi)容不加分析就成功地生成項目是不可能的。成熟的認(rèn)知心理學(xué)理論是支撐項目生成技術(shù)成功的基礎(chǔ)之一，如：What One Intelligence Test Measures（P. Carpenter等人，1990）成為抽象推理測驗項目生成的重要理論基礎(chǔ)，而Using Algebra Word Problems to Assess Quantitative Ability(M. Sebrechts等人)成為數(shù)量推理項目項目生成的理論基礎(chǔ)。

如今國外研究者已經(jīng)在能力測驗、學(xué)績測驗與軍事選拔測驗等多個領(lǐng)域展開了對項目生成的研究與實踐。Embretson等人已經(jīng)對十余種能力測驗項目進行了項目生成研究，其中包括言語類比推理、言語分類、幾何類比推理、幾何分類、系列完成、段落理解、空間折疊、數(shù)量文字問題、矩陣完成問題等。奧地利測量學(xué)者Martin Arendasy開發(fā)出了項目生成器ITEMGEN，它可以生成6種測量非言語智力的項目類型，其中包括兩種矩陣完成任務(wù)、幾何類比推理、幾何系列問題和兩種空間能力項目。Bejar等人已將項目生成應(yīng)用于學(xué)績測驗領(lǐng)域以生成GRE數(shù)學(xué)項目。

5 項目生成技術(shù)在國內(nèi)的發(fā)展展望

在國外，項目生成已經(jīng)在眾多項目上取得了成功，在國內(nèi)相信其前景也會十分樂觀；但目前國內(nèi)仍未有研究者報告在此領(lǐng)域中獲得的成果，可見研究具有一定的難度。首先，想要成功地進行項目生成，就必須建立起合適的認(rèn)知模型，而認(rèn)知心理學(xué)未能提供更多可操作的認(rèn)知理論，測量開發(fā)者想要提出自己的認(rèn)知模型確實有很大的難度；其次，項目生成技術(shù)生成的項目要能不經(jīng)試測而直接施用，這是建立在所生成的項目能夠達到預(yù)計的心理計量屬性的假設(shè)之上的，而這種假設(shè)對于心理測量模型的要求很高，期待能有對項目參數(shù)的預(yù)測能力更佳的模型出現(xiàn)；再次，項目生成技術(shù)要求開發(fā)者能駕馭認(rèn)知心理學(xué)、心理測量學(xué)、計算機編程技術(shù)三個領(lǐng)域的知識與技術(shù)，但國內(nèi)這樣的人材卻少之又少。筆者認(rèn)為，國內(nèi)的心理與教育測量人員要改變這種局面，一方面可以引進國外學(xué)者一些較為成熟的項目生成方法與技術(shù)，而在認(rèn)知結(jié)構(gòu)或計量模型上嘗試突破創(chuàng)新，另一方面可以根據(jù)我國測驗自身的特點，嘗試創(chuàng)造出新的項目生成方法。

參考文獻：

[1] Ian Dennis (2002). Approaches to Modeling Item-Generative Tests. In Sidney H. Irvine Patrick C.Kyllonen， Item Generation for Test Development. Lawrence Erlbaum Associates， Publisher. Mahwah， NJ. P54-71.

[2] Isaac I. Bejar(2002). Genrrative Testing: From Conception to Implementation. In Sidney H. Irvine Patrick C.Kyllonen， Item Generation for Test Development. Lawrence Erlbaum Associates， Publisher. Mahwah， NJ. P199-217.

[3] Sidney H. Irvine (2002). The Foundations of Item Generation For Mass Testing. In Sidney H. Irvine Patrick C.Kyllonen， Item Generation for Test Development. Lawrence Erlbaum Associates， Publisher. Mahwah， NJ. P3-33.

[4] Susan E. Embretson (2002). Generating Abstract Reasoning Items With Cognitive Theory. In Sidney H. Irvine Patrick C.Kyllonen， Item Generation for Test Development. Lawrence Erlbaum Associates， Publisher. Mahwah， NJ. P219-250.

考試周刊2008年2期

考試周刊的其它文章: 會計信息質(zhì)量現(xiàn)狀及對策分析; 增值稅進項稅額轉(zhuǎn)出和視同銷售業(yè)務(wù)的確認(rèn); 情緒智力研究述評; 廣告創(chuàng)意中表現(xiàn)形態(tài)的差異性研究; 我國收入差距擴張的原因及縮小的對策; 從組織行為管理看當(dāng)代廣告公司經(jīng)營管理之路