
[摘 要] 數字化測評中的過程性數據為教育及心理評估帶來不可或缺的隱性價值。目前針對過程性指標的定義與研究仍處于探索階段,在分類體系和指標內涵上缺乏規范性。梳理國內外數字化測評中的過程性數據研究,將現有過程性指標劃分為時間、一般動作和復雜策略三大類別,剖析每一類別內的指標內涵及其研究進展。對于過程性指標的特征提取方法,從自下而上和自上而下兩個角度加以綜述與歸納,并針對指標與潛在能力之間的模型評估及模型適用性進行對比分析。過程性指標研究在數據采集、分析解釋、理論創新、方法技術及倫理法規等方面均面臨諸多挑戰,仍需不斷探究及驗證。
[關鍵詞] 過程性數據;日志文件;數字化測評;過程性指標
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2024)04—040—012
在教育及心理評估領域(以下“評估”均限指此領域),數字化測評產生的過程數據(process data)已經被高效運用于評價解析數據質量、提高測量精細程度、定義面向過程的潛在特質[1]、解決實質性研究問題[2]等方面。基于過程數據所提取的測量指標,不僅可以為隱匿的思維過程提供測量證據,還能通過豐富的行為軌跡提煉有意義的行為模式,為評價提供更加細化的評價顆粒及更加多元的證據來源。過程性數據的分析方法也從傳統的統計學和心理測量學范疇,擴展到了適用于大規模數據分析的數據挖掘和機器學習等領域中[3-4],并且體現了二者的有效結合[5-6],為評估帶來了前所未有的機遇與挑戰。
國內外大型評估驗證了過程性數據為教育測評帶來的優勢和潛力。由經濟合作與發展組織(Organization for Economic Co-operation and Development,OECD)開展的國際學生評估項目(Programme for International Student Assessment,PISA)自2009年起逐漸引入計算機測評形式,從中提取的過程性指標為數學素養、問題解決、閱讀素養等學生綜合能力評估提供了豐富多元的客觀證據。此外,由國際教育成就評價協會(The International Association for the Evaluation of Educational Achievement,IEA)組織的國際閱讀素養進展研究(Progress in International Reading Literacy Study,PIRLS)及國際數學與科學趨勢研究(Trends in International Mathematics and Science Study,TIMSS)也分別于2016年和2019年啟動在線測評模式ePIRLS和eTIMSS,納入過程性數據的運用,優化評估的科學性與精準性。同樣,被稱為美國“國家成績報告單”(The Nation’s Report Card)的“國家教育進展評估”(National Assessment of Educational Progress,NAEP),通過對原始過程性數據的不斷檢驗與剖析,結合所提取的過程性指標和統計模型,探究隱藏在學生作答動作序列中的認知信息。這些作答證據,可以更加精準地識別學生在問題解決過程中的隱性認知表現,進而深入表征和分析學生的作答思路及作答策略[7]。可見,數字化測評中過程性數據所帶來的測評優勢是傳統評估中的作答結果所不能比擬的。
相比于傳統評估,數字化測評下的過程性數據可以詳盡包含作答結果以及作答過程的行為記錄,在系統后臺中以日志文件(Log file)的形式存在。例如,開始與停止操作的時間、空閑時間、儀器操作及時長、鼠標鍵盤的操作、頁面工具的使用、終結動作的當前頁面操作、關鍵作答動作及其頻率、連續動作序列、嘗試動作、幫助行為等[8]。在教育及心理評估領域中,這些數據可以反映作答者的思維過程及認知行為,也提供了體現解決方案的思路與策略信息[9]。已有證據表明,即便在總分完全一致的情況下,過程性作答證據仍可作為衡量個體能力差異的顯著性指標[10]。
然而,盡管過程性數據的巨大價值已經日益凸顯,但其指標內涵的界定與分類體系仍處于發展的初期階段,缺乏規范性、系統性。由于教育及心理所涉及的評估方向和關注點復雜多樣,加之日志文件繁雜冗余,導致現有評估性質的過程性指標呈現出零散龐雜的特點,相同或類似的指標以不同名稱分散于多類研究中,其指標內涵與屬性也指向各異,這為過程性指標研究的推廣和發展帶來了困擾與阻礙。為使過程性指標發揮更大價值,為教育及心理領域后續的研究與實踐提供更加系統規范的理論參照,本文通過對1980年起至今的國內外近百篇過程性數據在教育及心理評估相關研究1的梳理及剖析,將眾多指標及其內涵和運用加以詳細解析并規整分類,以期為該領域的后續研究提供階段性的理論與實踐參照。
一、常見過程性指標歸類
過程性日志數據主要圍繞受測者行為的視角展開,目的是通過人機交互動作了解受測者的行為模式和內部認知過程。盡管日志文件包含“事件記錄”的多角度信息,具有類型、格式、來源、屬性等諸多分類角度,但適用于評估領域過程性指標的劃分角度從時間[11]和用戶[12]兩大方向切入更為合理,依據如下:
第一,時間和用戶屬性是日志文件最為基礎、典型且必備的兩個屬性信息,在其他領域的日志文件分類研究中已有類似驗證[13];
第二,教育評估領域對認知過程進行研究時,所關注的個體行為及動作序列與日志文件的用戶行為與時間信息緊密相關;
第三,在教育評估領域中,以往基于日志文件過程性指標的研究需求與這兩類劃分標準相互匹配[14]。
挖掘時間和用戶這兩類日志信息的基本需求,均體現在對個體行為模式的動作特點及認知過程的證據提取之上。在時間類日志數據中,時間屬性通常作為反映不同行為特點的側面驗證元素或時間節點證據,即通過比較關鍵的時間點、時長、周期[15]、一定時間范圍內的行為頻率、峰值或規律[16],依據日志數據的時間因素提取個體行為的內在邏輯證據。基于用戶特征的日志數據,是針對個體內或個體間行為操作的角度去辨別個體的行為特點,進而提取關鍵認知過程和行為證據。這種針對個體角度的行為證據提取情況更為復雜,還可繼續細分。He等人將問題解決過程中除時間類的日志信息再劃分為動作信息和行為指標[14],前者指作答動作和迷你動作序列,用于提取較為簡單的行為信息,如重復操作的分析[17];后者側重于作答者的人機交互操作和作答策略,可以反映測評過程中的不同應答策略及行為模式[18-19],或用于專家與新手的能力水平對比[20]等。
基于上述對日志文件及用戶角度的過程性數據歸類依據,綜合經典案例與研究需求,可以將國內外教育及心理評估研究中的過程性指標劃分為時間、一般動作和行為策略三大類別。前者對應時間角度,后兩者分別對應用戶個體角度的基礎性動作和復雜動作策略。具體如表1所示:
二、過程性指標表征內涵及應用
(一)時間類指標
時間類過程性指標基于一定的定義范圍,截取不同動作之間的時間點或區間,通常以秒數/毫秒數、0/1水平、等級水平、比例等數值形式記錄,以其直觀性且量化標準高的特點被視為反映內部過程的特征指標[21]。相比于早期時間類指標的認知屬性(如獲得更準確的熟練程度估計[22]、時間限制[23]、速度[24]、更準確地估計參數[25]等),數字化測評中的時間指標更為精準,記錄區間更加細化,可在時間維度上為內部認知過程、行為表現及影響因素提供更為豐富且精細化的外顯指標。時間類過程指標常用包括作答時長(time on task)、時間間隔(interval)、響應時長(response time)或第一反應時間(initial reaction time)(注:也有學者用“response time”表示作答時長[26],但大多數均作為響應時長指標)等。
作答時長是指受測者作答全過程的時長,最能直接反映受測者的作答速度,常與作答結果結合考察。通常被作為衡量作答準確性[27]、任務解決能力水平[28]、作答熟練水平[29]、堅持性[30-31]、非常規操作[28]、快速猜測行為[32]等的鑒別指標。有證據表明,作答時長與能力水平之間存在影響,具體表現為:正向關系,在問題上花費較多時間和采取較多行動的學生更有可能正確回答問題[33];負向關系,過長的作答時間并未與高能力水平有確定關聯[34];二次關系,在一個項目上花費時間過多或過少的作答者,其所測認知能力得分大多不高[27]。可見作答時長與能力表現之間的影響關系較為復雜,還需要更多的驗證與探究。
響應時長又稱作第一反應時間(initial reaction time),作為第一次主動干預前的時間量。經常被用作計劃[35]、速度[36]、測試動機[37]、作答努力性[28]、抑制控制[35]以及對于能力的預測性[35]等衡量指標。與作答時長類似,響應時間長短與受測者能力并無確定的線性關系。響應時長會與作答時長結合考慮,如將響應時長作為計劃指標時,二者可互為補償。即,如果計劃時間夠長,作答時間并不一定很長也可以獲得高分,如果計劃時間不充分,作答時間較長可加以彌補[31]。另外,響應時長也被看作閱讀能力的衡量指標,時間過長會被認為受測者可能缺少基本閱讀技能[38];如果時間過短,會被作為隨意猜測、缺少動機[39-40]。
時間間隔與響應時長類似,對應的是操作之間而非操作始末的時間空隙,也被稱為“停頓”。該指標被驗證與問題解決能力相關聯,體現為執行心理計算和下一步操作決策的內部認知過程所花費的時間,具備心理時間量的屬性[15],可作為堅持性[41]、計劃、快速猜測的判別指標[33]。尤其在評測作答努力與動機時具有隱蔽性好、偏見性低、數據來源豐富易取等重要特質[40]。研究發現,在具備控制條件的實驗心理研究中,通過分析微觀層面的反應停頓,即便在總分或任務完成時間不變的情況下,也能通過分析關鍵動作的時間間隔為解決問題能力的評估提供有效信息[42]。
時間類指標與所測特質水平之間的影響關系受到多方因素影響。第一,任務難度。基于不同任務難度的時間類指標對不同能力水平個體所產生的影響方向各異。過往研究顯示,高水平個體對待容易任務與低水平個體對待困難任務的時間效應影響方向是相似的,都傾向花費較短時長。而且,對于簡單的自動化任務,時長可以作為能力負向相關性指標[43-44]。而當任務難度加大時,作答時間越長則更容易答對[29]。第二,任務性質。不同類型和領域的任務對時間指標有不同的影響。例如,創造性任務可能比機械性任務所需時間更長[45],描述文字量大的任務更依賴于閱讀水平,閱讀能力強的個體所用時間越短[46]。第三,個體因素。個體的先驗知識[18]、焦慮水平、學習風格[34]、內容熟練度[45]等也會成為時間類指標與任務作答關系的影響因素。第四,設備與環境。在計算機交互任務中,設備性能、硬件響應速度等技術因素可能對響應時長產生影響[47]。第五,文化因素。受測者的作答時間量也會受到文化認知風格(如時間感知、時間管理及任務處理方式)、社會期望、實踐觀念、社會文化以及學習和教育文化等方面的影響[48]等。可見,時間類指標對能力水平的解釋對應關系十分復雜,可作為輔助證據加以多角度驗證。
(二)一般動作類指標
一般動作類指標是指從作答過程的操作動作中直接提取出的基礎類動作指標。這種動作指標無需指標定義,可基于計算機操作的單擊、按鍵、移動和拖放等動作直接產生。通常以計數、頻率、比例、等級水平或0/1水平等形式賦值。常見指標包括動作數(總動作數、子題動作數)、行動速度(平均操作時間、平均動作數)、監測行為(作答回看、修改前停頓)、修改行為、有效動作行為(正確操作行為、反饋后正確操作行為、有效動作數、關鍵行為等)、被提示行為、作答停頓行為、信息探究行為等。
動作指標所傳遞的信息量在某種程度上超過時間參數[46],這源于動作參數與作答過程直接相關的指標屬性。時間本身并不能對應正確或錯誤的操作結果,但表現在鍵盤或鼠標操作中的操作行為(即心理行為)卻可以更好地體現問題解決者的作答活動。雖然一般性動作指標可以從基礎動作信息中直接獲得,但其來自問題解決過程中的具體操作,直接反映作答行為和思維過程,能提供與問題解決過程更直觀的作答信息。在不同任務情景下,可以作為能力水平[49]、信息技術素養(Information and Communications Technology,ICT)[26]、閱讀素養[26]、自查修錯行為[50]、竭力堅持行為[30]等方面的判別或影響指數。
研究表明,一般動作類指標也可被看作是一種“干預”。動作的出現意味著操作者對任務信息獲取及結果嘗試時的一種干預,干預次數或頻率會作為任務知識的獲取及應用的衍生指標[27]。動作干預與評估結果性指標之間的影響關系并不確定,根據任務要求和研究需求會有所不同。一方面,部分研究顯示動作指標與能力指標呈負向影響關系。例如,動作數量與學生GPA(Grade Point Average)成績的關系是消極相關[10],對信息獲取或能力呈一次線性負向[27]及二次回歸負性關系[27],重復步數占比對失敗作答情況的貢獻較大[28]等。但另一方面,一些研究得出動作數量與能力表現之間存在積極影響的結果[29]。Yavuz發現作答中采取更多行動的學生更有可能正確完成作答[26],類似的結果也在其他研究中被驗證[51]。
這種影響差異引發了更多的研究進行深入探討。后續研究發現,在較為常用的一般性動作指標中,在作答失敗的情況下有較強預測效果的是“與最優步數差” “執行間波動”“重復步數占比”“與最優路徑重合比例”等指標;而在作答成功的情況下有較強預測效果的是“思考步數占比”“與最優步數差”“Ln(第一步時間/總時間)”等。與時間參數類似的是,一般動作指標對個體能力水平的評估情況也受技能水平或相對任務難度等與任務和個體相關的因素的影響。有研究表明,在相對容易的任務中,動作數調節了時間與表現之間的關系;在相對困難的任務中,時間指標在動作數對作答表現的影響關系中起中介作用,表現為作答者必須精心設計一個任務和材料陳述,并通過大量緩慢執行的動作來解決問題[29]。
(三)行為策略類指標
行為策略類指標是基于行為序列提煉而出的策略類動作指標,從動作發生的順序和時序關系中提取有意義信息,對應受測者內部認知過程,是思維能力與認知水平的直接體現。不同于一般性動作指標是記錄與統計基礎操作,策略類指標需要采用更加復雜的提取手段從一系列的動作序列中提煉與整合,整合后的指標通常以出現頻次、有無出現(1/0)、等級水平或比率(目標動作數/所有動作數)等形式賦值。在略復雜的任務情境中,作答者會通過有意向地干預策略來捕獲更加準確的任務信息,進行更加高效精準的作答操作。研究者對這些具有目的性、規律性的干預操作賦予其特定的策略性內涵意義,并根據任務需求和作答特點將其歸納為不同的策略指標,制定操作定義,以反映在傳統評估下難以顯性化的內部認知過程。行為策略類指標可根據其應用于任務作答過程的兩個關鍵階段,即信息獲取和問題解決進行分類[52]。
1. 信息獲取階段
信息獲取過程中的行為策略指標是指在任務作答過程中,為了獲取問題解決所需的任務信息和已知條件所采取的行為策略。復雜任務情景下,受測者在獲取任務信息時,需要通過任務作答時的干預操作,來獲取某個變量及該變量與其他變量之間的影響變化關系,進而掌握復雜任務關鍵環節的有效信息。依據受測者干預輸入變量的強度,常見的信息獲取策略包括觀察策略、有目的試誤、強干預、探究完全性、VOTAT及其系列策略等,可通過比較同類干預操作的成功率來作為過程學習效果的衡量指標。具體指標解析如下:
觀察策略,又稱非干預觀察(non-interfering observation)或首次干預前的無操作[50],在有些復雜問題解決研究中又被稱為無干預策略(NOTAT,vary-no-thing-at-a-time)。非干預觀察不同于無操作策略(指首次干預前的無任何操作策略),它并不是指完全無操作,而是在問題解決過程中,至少出現一次的將所有變量都設置在零位置上,以嘗試探究任務信息及結果關系[53]。一般表現為將所有輸入變量的值重新調整至初始位置后,不操作任何輸入變量,觀察輸出變量的變化趨勢。該策略的使用頻率與是否具備規劃意識有關,沒有規劃意識時一般會伴隨隨機探索問題模式,盡管表現出高頻率的互動,也較少出現觀察策略。研究表明,觀察策略的次數能顯著正向預測學生的作答結果[27]。在用這種策略出現的次數或頻率作為參數去衡量潛在的計劃性及能力表現時,發現對比那些盲目進行高頻率干預的學生,偶爾以非干預方式觀察問題環境的學生具有更好的復雜問題解決表現[27]。當然,也有研究發現,使用觀察策略行為的次數與作答結果沒有顯著相關[54],其影響機制尚需進一步驗證。此外,與觀察策略相似的第一次主動干預前的無操作策略[35]也被作為計劃性的衡量參數,通常結合響應時長加以辨識。
除了歸零設置的觀察策略外,有目的性試誤(purposeful trial and error)也是探索任務變量因果、獲得任務知識的一種有效策略。該策略不僅能縮減解題時間、提高效率,還能大大增加復雜問題解決正確作答的可能性,對學生的問題解決水平具有預測作用[55]。在試誤的過程中,作答者需要根據任務情境在探索和規劃階段進行預測,來決定是否需要增強干預操作以保證更好的干預效果,這種策略被稱為強干預[52]。在有些試誤操作中,作答者會采用冒險策略(risky strategy),即有意識地選擇極端或更大的設置及數值,使作答系統發生戲劇化的反應,以此推斷邏輯規則及邊界條件[56]。此外,如果需要分析作答者在整個信息獲取過程中對探究和內容獲取的程度,還可采用探究完全性指標[52]。
在諸多信息獲取策略中,VOTAT策略(vary-one-thing-at-a-time)受關注度最高,也是衡量作答思路最有效的策略指標之一[14]。VOTAT是指通過每次僅改變一個事件(變量值)同時保持其他變量值或設置不變,進而判斷不同的變量對結果影響關系的一種作答策略[53],亦指科學探究中的變量控制策略[57],是衡量復雜問題充分探索及信息獲取的重要策略[58]。其指標合成目前主要體現在:運用次數及環節數上的統計;運用頻次占總次數的比例;能夠系統運用VOTAT策略的人數比[59];針對此策略編碼的合成指標[27]等。VOTAT策略的構建基于探索問題環境時所應用的孤立變異原理,目的是找出每個問題元素的特指影響,被分為有意識的和無意識的兩種。它是一種用于探索和檢驗因果關系的多步驟探索策略方法,已被證明是問題解決過程中的正向影響因子[60],類似結論也得到了反復驗證[31,61–63]。
與VOTAT對應的還有HOTAT策略(hold-one-thing-at-a-time)和CA策略(change-all),前者指的是一次保持一個事件(變量)不變而其他變量發生變化的策略,后者是指同時變化所有變量或條件的操作策略[53]。對應的還有控制變量策略(control-variable,CV),指作答者需要從兩個或三個輸入變量的共變中找出因果關系。與VOTAT策略相比,CV策略需要更多的腦力計算或操作來判斷任務系統的規律性,在采用該策略獲取輸入變量和輸入關系時,其效率不如VOTAT高[64]。與上述變量控制策略相似的還有“保持特定事件的一致性策略”(hold particular things constant,HPTC)以及“適應性前進策略”(adaptive growth,AG)(如果成功則繼續向前,否則就保持不變或后退)[58],這些探索變量間因果關系的策略雖然并未像VOTAT策略那樣被廣泛驗證,但在問題解決的過程中也發揮著重要作用。
2. 問題解決階段
基于信息獲取階段對變量間因果關系的探索,作答者會采取最恰當的作答策略解決問題,目前提及的問題解決策略有最優性(optimality)、次優性、目標評估、計劃性等策略指標[15]。其中,最優性策略指在作答時使用從最初狀態到目標狀態的最優路徑,通常與任務情境緊密結合。在問題解決任務中則指解決問題的效率(有多接近最優解決路徑)或通過幾步來實現目標[52],多采取最優操作數、比例[65]、差異步數[28]等形式,被視為認知效率的有效衡量指標。次優策略(sub-optimal strategies)對應最優策略產生,其對作答結果的積極影響弱于最優作答策略[4]。與之類似的還有目標評估策略和計劃性策略,前者指在任務作答時,評估當前狀態與目標狀態的距離并設計如何達到目標狀態,以及評估如果達到了目標狀態后保持在目標狀態的一種策略[15];后者具體指向計劃性,是指根據目標制定計劃以便在限定的操作次數內達到目標,該指標能分析作答者有沒有計劃性,以及對任務變化方向、大小和操作步驟能否有效控制[52]。研究發現,頻繁進行無目的干預的學生成功可能性較小,明確的目標導向和計劃行為與解決復雜問題具有相關性[66]。問題解決階段的策略類指標同樣會受到任務性質、個體情況、技術設備及其他因素的影響,在具體的研究中需要加以調控處理[67]。
三、指標提取與模型評估
(一)指標提取
過程性指標隱匿在作答行為的動作序列之中,其特征提取方式相對于傳統評估數據而言更加復雜多樣。現有的特征提取方法可歸納為以下兩大類[68]:
1.自上而下的特征抽取方法。是指基于理論驅動的角度,圍繞所測特質的測評框架,采用文獻資料和專家評定相結合的方式,結合相應測量任務,從作答過程中尋找有意義的行為模式,制定指標的含義和操作定義,確定其提取和賦值規則,并經過統計方法(如kappa系數)來衡量有效性。目前國際大型測驗系統多采用這種方式,如PISA 2012 問題解決測驗、“21世紀技能評估與教育計劃”(Assessment and Teaching of 21st Century Skills Project,ATC21S)的合作問題解決測驗[69]和NAEP-TEL(Technology and Engineering Literacy,技術與工程素養)測驗[70]等。
2.自下而上的特征抽取方法。該方法以數據驅動的角度,從作答動作序列中提取信息。目前具體抽取方法可以總結為三類[68]:借用自然語言處理(Natural Language Processing,NLP)技術由反應序列建構指標的方法[71],降維算法構造反應序列的低維數字特征向量的方法[72-73],以及使用網絡指標表征反應特征的方法[74]。這些自下而上的特征提取方法尚處于初步探索階段,未形成成熟統一的研究范式[68]。
對比而言,自上而下的特征抽取方法與概念指標緊密對應,統計測量模型分析邏輯成熟,但也存在對專家依賴性強、任務特異性強和構建成本高等弊端;自下而上的特征提取方法雖然在某種程度上可以解決專家依賴和任務特異性的問題,但也存在理論架構不明晰、信息易遺漏、解釋性差等局限。建議二者有機結合、協同驗證。
(二)模型評估
通過上述方法提取出的過程性指標,需要經過進一步的模型評估來構建過程性指標與潛在能力之間的關系模型,以實現對特定能力的估計。目前針對過程性數據研究所涉及的模型評估體現在以下三類[68]。
1.傳統心理測量模型及其拓展。構建出的指標數據與傳統數據一樣,采用測量模型進行估計。如多維IRT模型[5]、診斷分析模型[75]、多水平模型[76]及其拓展模型[77]等。
2.隨機過程模型。將任務完成的動作步驟看作沿離散時間點的有序且相互依賴的反應系列[78],采用具備描述隨機過程功能的概率模型對前后依賴的過程性指標進行擬合,獲取重要時刻上的潛在狀態水平,這些可作為隨時間變化的知識掌握狀態或能力表現水平相關的證據。常用的隨機過程分析方法有隱馬爾可夫模型(Hidden Markov Model,HMM)和動態貝葉斯網絡(Dynamic Bayesian Network,DBN)[79]。
3.結合隨機過程思想的測量模型。該模型的參考邏輯是受測者采取的問題解決步驟是其特定反應狀態的表象,為了獲取攜帶動作順序關系的潛在能力估計值,采用結合隨機過程思想的測量模型進行分析。如馬爾可夫IRT模型(Item Response Theory)[70]、連續時間動態選擇模型(Continuous-time Dynamic Choice,CTDC)[80]、馬爾可夫決策過程(Markov Decision Process,MDP)[81]以及序列反應模型(Sequential Response Model,SRM)[68]等。
綜上對比,在基于過程性指標選用模型去評估能力水平時,過程性指標的有效構建及其與潛在能力之間的合理對應十分關鍵。傳統心理測量及拓展模型重點關注能力估計,指標與潛在能力之間對應關系強,可解釋性好,但也存在局部獨立假設限制和動作順序信息損失的局限性;隨機過程模型關注行為序列及順序信息,但指標與潛在能力之間的對應關聯較弱,可解釋性不強,較難滿足教育及心理測評中對能力特質連續穩定的評估需求,建議作為數據驅動或輔助證據加以選擇;結合隨機過程思想的心理測量模型,兼具了前兩者優勢,既可以考慮過程行為中的動作序列信息,又結合了理論及專家經驗將指標與潛在能力建立對應關系,增強了可解釋性,但由于其模型參數繁多,目前僅適用于相對簡單或結構良好的測驗任務類型,在測驗任務類型的適用性上仍有較大的探索提升空間。在實際的測評研究中,需根據研究目的構建和選擇合理的過程性指標,結合測評要求及任務類型選擇恰當的測量模型。
四、總結與展望
過程性數據的發展與運用為新一代測量帶來了寶貴的資源和契機。本文基于教育心理評估領域中過程性指標的內涵特點及研究應用情境,將過程性指標劃分為時間、一般動作、行為策略三大類別,并詳細闡述了各類過程指標的內涵定義,及其與被測潛在能力之間的預測和影響關系,為后續研究系統地了解、運用、解釋及驗證過程性指標提供參考,也為相關實證研究提供借鑒。
目前教育評估領域中關于過程性數據的探究與驗證尚處于初始階段,在此類數據的收集、分析、解釋、應用、理論創新、方法技術、倫理法規等方面均面臨一定挑戰。
具體體現在:第一,數據采集復雜度高,過程性數據的采集對方法技術和設施設備均有一定要求,對測試群體、測試硬件條件、測試環境、測前準備等方面均提出了更苛刻的條件需求[13];第二,數據分析技術要求高,過程性數據具有非結構性的冗雜特點,對研究人員在理論和技術層面的交叉融合、技術掌握與更新迭代上的要求更加嚴苛;第三,結果解釋的難度高,原始過程性數據隱匿冗余,以事件發生時序關系的日志文件形式記錄呈現,并不直接提供關于特質能力、測試動機等方面的信息。研究時需要先對原始日志數據進行預處理和提取分析,經過指標界定和解釋后才能獲取有價值的信息,這一過程不同于傳統測量模型的應用邏輯。在確定過程性數據分析結果與受測者潛在能力之間的因果關系時,需謹慎結合數據與理論邏輯進行反復驗證與思考,避免出現對因果關系的過度解釋[82];第四,與傳統測量模型有效結合難度大,過程性數據如何與成熟的傳統測量理論與技術進行科學結合[83],是提升過程性數據應用科學性與適切性的重要方向,在方法結合及研究運用上均具有諸多挑戰;第五,理論基礎的創新與驗證尤為亟需,為確保過程性指標與測評目標的嚴密結合,更需關注研究理論基礎的創新與驗證,為過程性數據的應用提供基礎性支撐,這也是解決過程性數據有效應用的根本所在;第六,倫理要求更加嚴苛,在使用過程性數據時,尤其需要增強道德倫理及法律法規等相關意識,確保受測者的個人隱私安全,保證過程性數據的使用具備合法性與安全性。
綜上,數字化測評下過程性數據的探究發展之路任重道遠,仍需在新思路、新方法、新渠道的適用性及有效性方面加以不斷嘗試與驗證。在指標的提取上,可以嘗試自上而下理論驅動與自下而上數據驅動的結合思路[49];在方法與模型上,可以探索將傳統測量理念與新的分析挖掘技術有效融合,結合多模態數據來源,豐富多元化交互形式,以獲取更加豐富多樣的過程數據,為未來教育及心理評估領域帶來更立體多元的探索視角、更精細科學的評價顆粒以及更寬闊多樣的評估廣度。
參考文獻:
[1] De Boeck P,Scalise K. Collaborative Problem Solving:Processing Actions,Time,and Performance [J/OL]. Frontiers in Psychology,2019,10.
[2] Naumann J. The Skilled,the Knowledgeable,and the Motivated:Investigating the Strategic Allocation of Time on Task in a Computer-Based Assessment [J/OL]. Frontiers in Psychology,2019,10.
[3] Goldhammer F,Scherer R,Greiff S. Editorial:Advancements in Technology-Based Assessment:Emerging Item Formats,Test Designs,and Data Sources [J/OL]. Frontiers in Psychology,2020,10.
[4] He Q,Borgonovi F,Paccagnella M. Leveraging Process Data to Assess Adults’ Problem-Solving Skills:Using Sequence Mining to Identify Behavioral Patterns across Digital Tasks [J/OL]. Computers amp; Education,2021,166:104-170.
[5] 韓雨婷,肖悅,劉紅云.問題解決測驗中過程數據的特征抽取與能力評估[J].心理科學進展,2022,30(6):1393-1409.
[6] 首新,田偉,李健,等.基于過程數據的人機“虛擬代理”協作問題解決測評研究——以PISA中國四地區為例[J].現代教育技術,2023,33:86-97.
[7] Bergner Y,von Davier A A. Process Data in NAEP:Past,Present,and Future [J/OL]. Journal of Educational and Behavioral Statistics,2019,44(6):706-732.
[8] Salles F,Dos Santos R,Keskpaik S. When Didactics Meet Data Science:Process Data Analysis in Large-Scale Mathematics Assessment in France [J/OL]. Large-scale Assessments in Education,2020,8(1):7.
[9] He Q,Von Davier M. Analyzing Process Data from Problem-Solving Items with N-Grams:Insights from a Computer-Based Large-Scale Assessment [M/OL]. 2016:749-776.
[10] Stadler M,Hofer S,Greiff S. First among Equals:Log Data Indicates Ability Differences Despite Equal Scores [J/OL]. Computers in Human Behavior,2020,111:106442.
[11] Beitzel S M,Jensen E C,Chowdhury A,et al. Temporal Analysis of a Very Large Topically Categorized Web Query Log [J/OL]. Journal of the American Society for Information Science and Technology,2007,58(2):166-178.
[12] Kotov A,Bennett P N,White R W,et al. Modeling and Analysis of Cross-Session Search Tasks [C/OL] // Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York,NY,USA:Association for Computing Machinery,2011:5-14.
[13] Dumais S,Jeffries R,Russell D M,et al. Understanding User Behavior Through Log Data and Analysis [M/OL]//OLSON J S,KELLOGG W A. Ways of Knowing in HCI. New York,NY:Springer,2014:349-372.
[14] He Q,Borgonovi F,Paccagnella M. Using Process Data to Understand Adults’ Problem-Solving Behaviour in the Programme for the International Assessment of Adult Competencies(PIAAC):Identifying Generalised Patterns across Multiple Tasks with Sequence Mining [R/OL]. Paris:OECD,2019.
[15] Arslan B,Jiang Y,Keehner M,et al. The Effect of Drag-and-Drop Item Features on Test-Taker Performance and Response Strategies [J/OL]. Educational Measurement:Issues and Practice,2020,39(2):96-106.
[16] Eichmann B,Goldhammer F,Greiff S,et al. The Role of Planning in Complex Problem Solving [J/OL]. Computers amp; Education,2019,128:1-12.
[17] Tyler S K,Teevan J. Large Scale Query Log Analysis of Re-Finding [C/OL] // Proceedings of the Third ACM International Conference on Web Search and Data Mining. New York,NY,USA:Association for Computing Machinery,2010:191-200.
[18] Liu H,Liu Y,Li M. Analysis of Process Data of PISA 2012 Computer-Based Problem Solving:Application of the Modified Multilevel Mixture IRT Model [J/OL]. Frontiers in Psychology,2018,9.
[19] Ren Y,Luo F,Ren P,et al. Exploring Multiple Goals Balancing in Complex Problem Solving Based on Log Data [J/OL]. Frontiers in Psychology,2019,10.
[20] White R W,Morris D. Investigating the Querying and Browsing Behavior of Advanced Search Engine Users [C/OL] // Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York,NY,USA:Association for Computing Machinery,2007:255-262.
[21] 詹沛達.計算機化多維測驗中作答時間和作答精度數據的聯合分析 [J/OL].心理科學,2019,42(1):170-178.
[22] Rasch G. Studies in Mathematical Psychology:I. Probabilistic Models for Some Intelligence and Attainment Tests [M]. Oxford,England:Nielsen amp; Lydiche,1960:xiii,184.
[23] Halkitis P N. Estimating Testing Time:The Effects of Item Characteristics on Response Latency [C/OL] // American Educational Research Association Annual Meeting,1996.
[24] Van Der Linden W J,Scrams D J,Schnipke D L. Using Response-Time Constraints to Control for Differential Speededness in Computerized Adaptive Testing [J/OL]. Applied Psychological Measurement,1999,23(3):195-210.
[25] Schnipke D. Assessing Speededness in Computer-Based Tests Using Item Response Times [C/OL]. 1995.
[26] Yavuz H C. The Effects of Log Data on Students’ Performance [J/OL]. Journal of Measurement and Evaluation in Education and Psychology,2019,10(4):378-390.
[27] Greiff S,Niepel C,Scherer R,et al. Understanding Students’ Performance in a Computer-Based Assessment of Complex Problem Solving:An Analysis of Behavioral Data from Computer-Generated Log Files [J/OL]. Computers in Human Behavior,2016,61:36-46.
[28] 孫鑫,黎堅,符植煜.利用游戲log-file預測學生推理能力和數學成績——機器學習的應用[J/OL].心理學報,2018,50(7):761-770.
[29] V?r?s Z,Rouet J F. Laypersons’ Digital Problem Solving:Relationships between Strategy and Performance in a Large-Scale International Survey [J/OL]. Computers in Human Behavior,2016,64:108-116.
[30] 李美娟,劉玥,劉紅云.計算機動態測驗中問題解決過程策略的分析:多水平混合IRT模型的拓展與應用[J/OL].心理學報,2020,52(4):528-540.
[31] 陸璟.基于log數據的國際學生評估項目(PISA)問題解決能力研究[D/OL].華東師范大學,2018.
[32] Goldhammer F,Hahnel C,Kroehne U. Analysing Log File Data from PIAAC [M/OL] // MAEHLER D B,RAMMSTEDT B. Large-Scale Cognitive Assessment:Analyzing PIAAC Data. Cham:Springer International Publishing,2020:239-269.
[33] Scherer R,Greiff S,Hautam?ki J. Exploring the Relation between Time on Task and Ability in Complex Problem Solving [J/OL]. Intelligence,2015,48:37-50.
[34] Zeidner M. Anxiety in Education [M] // International Handbook of Emotions in Education. Routledge,2014.
[35] Albert D,Steinberg L. Age Differences in Strategic Planning as Indexed by the Tower of London [J/OL]. Child Development,2011,82(5):1501-1517.
[36] Van Der Linden W J. Conceptual Issues in Response-Time Modeling [J/OL]. Journal of Educational Measurement,2009,46(3):247-272.
[37] Meijer R R. Diagnosing Item Score Patterns on a Test Using Item Response Theory-Based Person-Fit Statistics [J/OL]. Psychological Methods,2003,8(1):72-87.
[38] OECD. PISA 2015 Collaborative Problem?Solving Framework [R/OL]. Paris:OECD,2017:131-188.
[39] Lee Y H,Hao J,Man K,et al. How Do Test Takers Interact with Simulation-Based Tasks? A Response-Time Perspective [J/OL]. Frontiers in Psychology,2019,10(APR):undefined-undefined.
[40] Wise S L,Kong X. Response Time Effort:A New Measure of Examinee Motivation in Computer-Based Tests [J/OL]. Applied Measurement in Education,2005,18(2):163-183.
[41] Ventura M,Shute V. The Validity of a Game-Based Assessment of Persistence [J/OL]. Computers in Human Behavior,2013,29(6):2568-2572.
[42] Paquette L,Baker R S. Comparing Machine Learning to Knowledge Engineering for Student Behavior Modeling:A Case Study in Gaming the System [J/OL]. Interactive Learning Environments,2019,27(5-6):585-597.
[43] Dodonova Y A,Dodonov Y S. Processing Speed and Intelligence as Predictors of School Achievement:Mediation or Unique Contribution? [J/OL]. Intelligence,2012,40(2):163-171.
[44] Kupiainen S,Vainikainen M P,Marjanen J,et al. The Role of Time on Task in Computer-Based Low-Stakes Assessment of Cross-Curricular Skills [J/OL]. Journal of Educational Psychology,2014,106:627-638.
[45] Eichmann B,Goldhammer F,Greiff S,et al. Using Process Data to Explain Group Differences in Complex Problem Solving [J/OL]. Journal of Educational Psychology,2020,112(8):1546-1562.
[46] Goldhammer F,Naumann J,Stelter A,et al. The Time on Task Effect in Reading and Problem Solving is Moderated by Task Difficulty and Skill:Insights from a Computer-Based Large-Scale Assessment [J/OL]. Journal of Educational Psychology,2014,106(3):608-626.
[47] Heathcote A,Popiel S J,Mewhort D J. Analysis of Response Time Distributions:An Example Using the Stroop Task [J/OL]. Psychological Bulletin,1991,109(2):340-347.
[48] Li M,Liu Y,Liu H. 計算機動態測驗中問題解決過程策略的分析:多水平混合IRT模型的拓展與應用[J/OL]. Acta Psychologica Sinica,2020,52(4):528-540.
[49] 李美娟.基于過程數據的合作問題解決能力評分和測量模型構建[D].北京師范大學,2020.
[50] 首新,何鵬,陳明艷,等.基于教育數據挖掘的“探索和理解”問題解決過程研究——以PISA(2012)新加坡、日本、中國上海Log數據為例[J].現代教育技術,2018,28(12):41-47.
[51] Rosas R,Nussbaum M,Cumsille P,et al. Beyond Nintendo:Design and Assessment of Educational Video Games for First and Second Grade Students [J/OL]. Computers amp; Education,2003,40(1):71-94.
[52] Funke J. Dynamic Systems as Tools for Analysing Human Judgement [J/OL]. Thinking amp; Reasoning,2001,7(1):69-89.
[53] Tschirgi J E. Sensible Reasoning:A Hypothesis about Hypotheses [J/OL]. Child Development,1980,51(1):1-10.
[54] Grover S,Pea R. Computational Thinking:A Competency Whose Time Has Come [M/OL]. 2017.
[55] 首新,葉萌,胡衛平,等.教育大數據背景下log數據挖掘與應用——以PISA(2012)中國區問題解決測驗為例 [J/OL]. 電化教育研究,2017,38(12):58-64.
[56] Wittmann W W,Hattrup K. The Relationship between Performance in Dynamic Systems and Intelligence [J/OL]. Systems Research and Behavioral Science,2004,21(4):393-409.
[57] Croker S,Buchanan H. Scientific Reasoning in a Real-World Context:The Effect of Prior Belief and Outcome on Children’s Hypothesis-Testing Strategies [J/OL]. British Journal of Developmental Psychology,2011,29(3):409-424.
[58] Apedoe X S,Schunn C D. Strategies for Success:Uncovering What Makes Students Successful in Design and Learning [J/OL]. Instructional Science,2013,41(4):773-791.
[59] Greiff S,Wüstenberg S,Avvisati F. Computer-Generated Log-File Analyses as a Window into Students’ Minds? A Showcase Study Based on the PISA 2012 Assessment of Problem Solving [J/OL]. Computers amp; Education,2015,91:92-105.
[60] Zimmerman C. The Development of Scientific Thinking Skills in Elementary and Middle School [J/OL]. Developmental Review,2007,27(2):172-223.
[61] Kr?ner S,Plass J L,Leutner D. Intelligence Assessment with Computer Simulations [J/OL]. Intelligence,2005,33(4):347-368.
[62] Wüstenberg S,Greiff S,Funke J. Complex Problem Solving — More than Reasoning?[J/OL]. Intelligence,2012,40(1):1-14.
[63] Wüstenberg S,Greiff S,Molnár G,et al. Cross-National Gender Differences in Complex Problem Solving and Their Determinants [J/OL]. Learning and Individual Differences,2014,29:18-29.
[64] Yang Z. Evidence Model:Evaluate Complex Problem-Solving Competency from Process Data [D/OL] // Dissertation Abstracts International Section A:Humanities and Social Sciences:Vol. 81. ProQuest Information amp; Learning(US),2020.
[65] Csapó B,Ainley J,Bennett R E,et al. Technological Issues for Computer-Based Assessment [M/OL] // GRIFFIN P,MCGAW B,CARE E. Assessment and Teaching of 21st Century Skills. Dordrecht:Springer Netherlands,2012:143-230.
[66] Goldhammer F,Naumann J,Greiff S. More is not Always Better:The Relation between Item Response and Item Response Time in Raven’s Matrices [J/OL]. Journal of Intelligence,2015,3(1):21-40.
[67] Sireci S G,Zenisky A L. Innovative Item Formats in Computer-Based Testing:In Pursuit of Improved Construct Representation [M] // Handbook of Test Development. Mahwah,NJ,US:Lawrence Erlbaum Associates Publishers,2006:329-347.
[68] Han Y,Xiao Y,Liu H. Feature Extraction and Ability Estimation of Process Data in the Problem-Solving Test [J/OL]. Advances in Psychological Science,2022,30(6):1393-1409.
[69] Adams R,Vista A,Scoular C,et al. Automatic Coding Procedures for Collaborative Problem Solving [M/OL] // GRIFFIN P,CARE E. Assessment and Teaching of 21st Century Skills:Methods and Approach. Dordrecht:Springer Netherlands,2015:115-132.
[70] Shu Z,Bergner Y,Zhu M,et al. An Item Response Theory Analysis of Problem-Solving Processes in Scenario-Based Tasks [J/OL]. Psychological Test and Assessment Modeling,2017.
[71] He Q,von Davier M. Identifying Feature Sequences from Process Data in Problem-Solving Items with N-Grams [C/OL] // VAN DER ARK L A,BOLT D M,WANG W C,et al. Quantitative Psychology Research. Cham:Springer International Publishing,2015:173-190.
[72] Tang X,Wang Z,He Q,et al. Latent Feature Extraction for Process Data via Multidimensional Scaling [J/OL]. Psychometrika,2020,85(2):378-397.
[73] Tang X,Wang Z,Liu J,et al. An Exploratory Analysis of the Latent Structure of Process Data via Action Sequence Autoencoders [J/OL]. British Journal of Mathematical and Statistical Psychology,2021,74(1):1-33.
[74] Zhu M,Shu Z,von Davier A A. Using Networks to Visualize and Analyze Process Data for Educational Assessment [J/OL]. Journal of Educational Measurement,2016,53(2):190-211.
[75] Zhan P,Qiao X. A Diagnostic Classification Analysis of Problem-Solving Competence Using Process Data:An Item Expansion Method [M/OL]. PsyArXiv,2020.
[76] Wilson M,Gochyyev P,Scalise K. Modeling Data From Collaborative Assessments:Learning in Digital Interactive Social Networks [J/OL]. Journal of Educational Measurement,2017,54(1):85-102.
[77] Zhang S,Wang Z,Qi J,et al. Accurate Assessment via Process Data [J/OL]. Psychometrika,2023,88(1):76-97.
[78] Bellman R. A Markovian Decision Process [J]. Journal of Mathematics and Mechanics,1957,6(5):679-684.
[79] Biswas G,Jeong H,Kinnebrew J S,et al. Measuring Self-Regulated Learning Skills through Social Interactions in a Teachable Agent Environment [J/OL]. Research and Practice in Technology Enhanced Learning,2010,05(02):123-152.
[80] Chen Y. A Continuous-Time Dynamic Choice Measurement Model for Problem-Solving Process Data [J/OL]. Psychometrika,2020,85(4):1052-1075.
[81] LaMar M M. Markov Decision Process Measurement Model [J/OL]. Psychometrika,2018,83(1):67-88.
[82] Quellmalz E S,Pellegrino J W. Technology and Testing [J/OL]. Science,2009,323(5910):75-79.
[83] Mislevy J L,Rupp A A,Harring J R. Detecting Local Item Dependence in Polytomous Adaptive Data [J/OL]. Journal of Educational Measurement,2012,49(2):127-147.
Connotation and Classification of Process Indicators in Digital Assessment
Zhou Jing1 "Zhang Xiaoxia2 "Ren Xiaoqiong1 "Yao Xuezhong3 "Yang Tao1
1 Beijing Normal University,Beijing,100875
2 School of Psychology,Capital Normal University,Beijing,100048
3 Linxi County No. 1 High School,Chifeng,Inner Mongolia,025250
Abstract:Process data in digital assessment bring indispensable implicit value to education and psychological evaluation. Currently,the definition and research of process indicators remain exploratory,lacking normative guidance in terms of connotation and classification,thus impeding the promotion and development of digital assessment research. This paper systematically reviewed the research on process data in digital assessment at home and abroad,thoroughly analyzed the connotation and research progress of process indicators,categorizing them into three major types:time,general actions,and complex strategies. Additionally,it summarized and refined methods for extracting process indicators and evaluating models. Finally,it provided prospects for future research and applications of process indicators in the field of digital assessment in education and psychology.
Key words:Process Data,Log File,Digital Assessment,Process Indicators
(責任編輯:陳暢)