衛思彤
鞍山市鞍鋼高級中學
學生個體與監考人員間的博弈模型建立
衛思彤
鞍山市鞍鋼高級中學
本文將運用博弈和演化手段,通過構建考生個體與監考人員間的博弈模型,和考生群體在學校對監考人員采取不同激勵政策的條件下的演化模型,研究在一定條件下激勵政策與作弊人數比例間的關系。
學生個體;監考人員;博弈
考試是教學過程中的一個重要環節,考試作弊現象伴隨著考試制度的出現而出現,在各高等院校均有不同程度的存在,且有愈演愈烈的趨勢。除去考生自身方面的因素,如學業外的其它瑣事分散了時間和精力等,影響考生個人是否作弊之外,還有另一個重要的影響因素是監考人員(考場老師)對參與考試的所有考生的統一監考策略。具體分析如下:
一方面是學生個人與監考人員的博弈。作弊在一定條件下會使考生獲得更高收益,例如得到更高分數;同時也有一定風險被監考人員發現并除以責罰。作為經濟人,每位考生都將時刻遵循收益最大化原則做出決策,即自己承擔最小風險及付出最低成本以獲取最大收益。因此考生是否選擇作弊及選擇使用何種作弊手段將直接被監考人員的監考策略影響。監考人員采取兩種監考策略“嚴格監考”與“不嚴格監考”,和考生采取兩種應對策略“作弊”與“不作弊”及“作弊”策略中的三種作弊手段“手機作弊”“打小抄”“抄同學”,雙方都不能通過單獨改變策略或概率以改善自身的期望得益,因此構成混合策略納什均衡,也是該博弈模型的唯一納什均衡解。
另一方面是學校管理層給予監考人員一定激勵機制。監考人員采取兩種監考策略“嚴格監考”與“不嚴格監考”的意愿直接決定于學校管理層給出的對激勵其監考嚴格的機制,顯然激勵程度越高或稱為強策略(通常表現在更高的報酬﹑更優的評級),監考人員“嚴格監考”意愿越強烈即概率越大,考生作弊被發現風險越高,考生收益下降甚至為負。激勵程度越低則恰恰相反。因此單個考生的作弊決策也間接受學校管理層制定的激勵機制的影響。
1.博弈過程說明
t=0時,學校管理層給出激勵政策直接決定監考人員收益類型。在這里,假設學校采取強激勵策略的概率為θ,弱激勵策略的概率為1-θ。因此也可將θ視為激勵強度,此處θ可視為博弈過程中的外生變量,它影響模型中其他變量的值,但不受其他變量的影響。則θ可以作為考生與監考人員的共同信息,即學校管理層的激勵政策完全對另外兩方公開。因此考生能夠確定本場考試中所遇到的監考人員是何種收益類型的概率,雖然考生并不能確定監考人員的具體收益類型。
t=1時,監考人員進入考場的同時向考生給出其監考策略“嚴格”(t1)或“不嚴格”(t2),此步驟對應的實際現象是,考生可以在監考人員進入考場的幾分鐘及考試開始不久的短暫時間內,通過對監考人員言語和行為判斷出監考人員是否嚴格。
t=2時,選擇作弊的學生給出對應的作弊策略:“手機作弊”(s1),“打小抄”(s2),“抄同學”(s3),此博弈可進行重復博弈分析,即可在充分多次博弈后得到最佳混合策略。
2.符號說明

表1
3.模型過程具體分析

t1 t2 V1V2
分析,此時博弈完成,給出雙方受益矩陣及期望。
3.1 學生收益矩陣及期望
(1)T=t1,即監考人員采取嚴格策略,又在重復博弈中,監考人員采取嚴格策略的概率為,則。
(2)T=t2,即監考人員采取非嚴格策略,又在重復博弈中,監考人員采取不嚴格策略的概率為則學生收益期望為
3.2 監考人員收益矩陣及期望
(1)監考人員收益類型為V1,此時。所以期望為

(2)監考人員收益類型為V2,此時所以期望為

綜上

至此,博弈建立完成。
文章通過構建考生個體與監考人員間的博弈模型,和考生群體在學校對監考人員采取不同激勵政策的條件下的演化模型,結合數理推到與統計結果,經過計算機的演化模擬,最終得到作弊人數N關于激勵強度 的關系。
此結果對于學校的實際參考意義是:
(1)提供一個有價值的,能夠作為參考讓學校決定控制作弊人數手段的模型。論文中各項參數皆可通過統計學方法得到,學校可以用此模型從管理層面得到控制作弊人數在一定范圍內的最經濟手段。
(2)說明學校需要將激勵政策強度控制在一定范圍,當激勵政策達到一定強度時,學校若繼續加強,只會造成成本的浪費。即模型中激勵政策的調節函數與橫軸有交點。
[1]于久洪,張劍.基于貝葉斯博弈的銀行貸款定價研究;統計與決策,2010,(7)
[2] Gy¨orgy Szab′o, Kinga S. Bod′o, Benjamin Allen, and Martin A. Nowak.Four classes of interactions for evolutionary games; Physical Review E 92, 022820 (2015)