隨著評價理念的轉變,教育部辦公廳相繼頒布了《關于建立職業院校教學工作診斷與改進制度的通知》(以下簡稱“診改通知”)[1]《關于全面推進職業院校教學工作診斷與改進制度建設的通知》等文件[2],將“診斷”作為職業院校教學質量提升的重要抓手,這是職業教育評價方式方法的重大變革。按照《現代漢語詞典》的解釋“評估(評價)”就是“評議估計”,而“診斷”的原始意義還是估計和判斷,只不過針對特定對象采用了特定的方法和多元的診斷主體。研究發現,如果我們把一些文件中的“診斷”二字替換成“評估或評價”,會發現并沒有意義上的實質性變化。這說明,從“評估”到“診改”并非僅僅是字面之差,而是涉及更深層次的方法層面的問題,即哪些采用原來的評價方式解決不了的問題,可以通過新的評價(診斷)方式來解決,從而實現更有效的“改進”?解決好“評價(診斷)工具與方法”這個問題,是搞好教學工作診斷與改進的關鍵。基于“診改”理念,本研究開發了“授權評價”作為職業院校教學診斷的試驗工具,并對其實施效果進行了檢驗。
“授權評價”是國內學者對Empowerment Evaluation(EE)的普遍譯法,該詞最早由美國評價協會前任主席、斯坦福大學評價專家費特曼(D.M.Fetterman)教授在美國評價協會的年會上正式提出,其基本含義是通過綜合運用質性和量化研究方法,提供工具給利益相關者進行自我決策,用來指導實施計劃及開展自我評價,并將其內化為他們項目計劃與管理的一部分,以利于項目成功[3]。如此,授權評價意味著組織將內部的一定職責和權限授權給員工,使他們參與工作進展與決策,并有權利決定自己的工作。值得說明的是,“授權”不僅僅局限于“授予權力(grant authority)”的簡單理解,而是更加希望參與者或利益相關者能夠通過被授予話語權和決策權,參與診斷工作進展與決策,并在這個過程中不斷進行自身評價能力建設。
“診斷”源于醫學界術語,本義是通過特定的診斷工具檢查病人的病癥,并有針對性地開據處方。作為一種分析和解決問題的方法,“診斷”概念已逐步向其他領域遷移,并成為新型的引領組織建構反思意識、發現問題、提高效能、促進自主發展的教育技術[4]。本文將“授權評價”作為職業教育系統化的內部質量診斷工具,指通過創設民主、透明的環境,以職業院校自我檢查為出發點,由項目的利益相關者共同(“會診”)對學校某一項目實施過程中出現的問題(“病情”)進行多維度分析,對存在問題進行確認和總結(確診“病因”),提出解決策略(開出“處方”),從而保證教育教學質量的持續提升 (“健康”)。具體實施方式為:在評價會議主持人①的引導下,參與者展開交流與討論,共同確定評價指標體系,在此基礎上通過個人賦值、解釋分數、協商討論等方式對職業教育的現象和問題進行解釋,旨在共同識別項目運行狀況、盡早發現問題并能夠及時調整和改進。
美國著名的評價專家古貝和林肯提出的“第四代評估”對職業院校的“自我診斷與改進”工作的開展具有重要意義。第四代評估強調協商建構、全面參與、多元價值,關注不同利益相關者的不同主張、焦慮和爭議[5],該理論提示我們,在社會和教育多元發展的背景下,應充分尊重和發揮多元主體和利益相關者的作用,避免傳統的管理主義傾向和“科學式”調查。在這一理念下,評價者的工作就是“診斷”和“開處方”,其任務是通過協商建構、深度訪談等具體方法,與被評價者一起探究原因、謀劃對策。這就意味著管理部門的放權和授權,同時要求職業院校通過多種途徑加強自我評價能力建設。“第四代”并非僅僅基于歷史脈絡的概念確立,更是對傳統評價范式(筆者將第四代以前的評價范式稱為“傳統評價范式”②)的改變[6]。按照“第四代評估”理論,目前我國職業教育評價基本停留在傳統評價范式階段,它與職業院校和學習者多元化發展需求之間必然會產生矛盾。究其原因:當前線性的科學調查評價模式,無法滿足現代社會的多樣化價值的需求。職業院校教學診改強調的“需求導向、自我保證,多元診斷、重在改進”,體現的正是第四代評估理念。
對教學質量診斷效果進行檢驗,是基于先前對各試點院校進行的授權評價活動的再評價,也稱“元評價”。元評價所關注的是特定評價表現的評價[7],本文目的在于對基于授權評價開展的教學診斷活動做出判斷,即關注授權評價活動各個環節的效果,用于檢查并改善授權評價方案設計、評價操作、評價方法使用、評價報告撰寫、評價結果運用等各個環節,以持續改進診斷效果和教育教學質量。
為盡量保證樣本的代表性,研究分別選取北京、重慶和新疆、廣州、河北五個地區的樣本院校進行試驗。研究對象的選擇,主要兼顧了以下幾個維度,一是按照城市區域、整體發展水平和文化差異選擇地區,二是按照宏觀、中觀、微觀三個層面選擇診斷內容,三是學校層次涵蓋中職、高職和研究生院(職業教育研究人員角度)。
基于目的導向(purpose-oriented)和信息導向(information-oriented),研究采取非概率性抽樣方法(non-probability sampling),即根據研究目的,尋找具有某種特征的小樣本群體進行研究[8]。由于參與者的參與程度與個人滿足感緊密關聯,隨著參與者規模的擴大,受益遞減原開始顯現,即成員之間互動的概率會相應減少[9],因此,本研究要求每場授權評價會規模控制在8-15人。各地區學校層次、專業、參與者樣本分布如表1所示。
本研究采用問卷和訪談的調查方式。問卷設計了評價目標適切性、評價方案的可行性、評價過程的合理性、評價結果的有效性四個一級指標,每個一級指標所包含的二級指標和三級指標個數不同,三個維度共同組成了評價指標編制框架。采用五等級量表的方式,從5到1表示認同的程度,數值越大認同度越高。問卷數據為有序變量,題目均值大小代表參評人員對該項指標的認同度高低。評價由各學校負責人統一組織,要求各參與者根據授權評價的實際情況填寫問卷,完成后由負責人收回,發給研究者進行統計。問卷信度采用經典測驗理論中的信度分析方法,檢驗問卷內部各項目之間的一致性程度。本研究采用SPSS統計軟件包進行數據分析,信度系數為0.794,表明該問卷可以使用。
根據研究需要,選擇每個被評專業的代表性人員進行訪談,并分析原因。受研究成本和時間所限,問卷采用電子填寫和反饋方式,訪談采用面對面、網絡和電話訪談方式進行。
1.效標設定。效標是衡量評價有效性的外在標準。根據常用的10分值計分方式,設計了不同分數段的五級量表評定法,即對三級指標進行五等級評價。“a”表示達成度非常高,分值為“9-10分”;“b”表示達成度較高,分值為“7-8 分”;“c”表示達成度一般,分值為“6分”;“d”表示達成度較低,分值為“4-5 分”;“e”表示達成度很低,分值為“0-3分”。
2.計算方法。為統計一級指標的達成度,研究引入百分位數的概念③,即按照百分位數進行等級劃分,其劃分點為93%、68%、50%、25%。再將四個一級指標的原始分轉化為標準分,進而求平均數,即為最終標準分,將標準分對照百分位數即可知達成度等級。
由于每項一級指標所包含的二級指標和三級指標數量各不相同,需要將一級指標的達成度轉化為標準分。計算方法為:對三級指標的等級進行量化賦值,評定為“a”計 4 分;“b”計 3 分;“c”計 2 分;“d”計 1 分;“e”計 0 分。

表1 診斷試驗樣本概況
對不同試點授權評價的一級指標進行分析比較,統計結果如圖1所示。

圖1 授權評價方案一級指標統計結果
從圖1可見,一級指標“評價方案的可行性”標準分最高,“評價目標適切性”與“評價過程合理性”得分幾乎沒有差異,“評價結果的有效性”標準分最低,有效性涉及評價結果的有效利用問題,即是否將診斷結果及時、有效地用于質量改進工作。這一項分值較低,分析可能的原因是,授權評價結果的運用需要學校層面做出整體變革,而整體變革需要結構、資源重組來支持,在我國現有體制下,來自職業院校個體和組織的雙重壓力可能會為診斷結果的運用帶來一定的困難,主要影響因素包括:
第一,個體層面因素。人們由于傳統的思想和行為反應可能會對診斷結果產生抵制,主要表現在:首先,慣習因素。通常院校教師及相關人員依賴于習慣或程序化的行為,在面臨學校組織變革時,需要所有教職員工解放現有的行為方式和原有心智模式,創造一種新的思維和行為模式適應環境改變,而他們的慣常反應(通常是消極思想和行為)通常會成為一種阻力來源。其次,經濟因素。“診斷”工作結束后,質量“改進”環節需要相關教職員工付出較多甚至額外的時間和精力,而當工作量和激勵措施掛鉤時,那么工作任務或工作流程的變革可能會引發經濟方面的擔憂,從而影響教工工作積極性。
第二,組織層面因素。教學診斷結果的運用需要院校從多部門、多方面進行支持,如資源、人員、財物等,來自院校組織方面的阻力主要有:首先,結構惰性。學校擁有穩定性的內在機制,如工作規程和規章制度等,當質量改進工作需要某一方面的工作狀態發生改變時,這種結構惰性就會充當反作用力。其次,群體惰性。當某一個體或某些個體想改變自身行為和工作方式時,如果認為其他成員沒有盡到應有的職責,就可能會降低自己的努力程度。第三,有限的變革通常會被更大的系統抵消。如根據診斷結果,需要對于某門課程(或課程群)進行改革,雖然課程屬于微觀層面的工作范疇,但若開展實質性改革通常在單一的系、部難以完成,需要學校層面給予政策、人員、經費及管理等方面支持。而學校大系統的規制無形中很容易抵消子系統(如部門、系所等)的有限變革。第四,對專業知識的威脅。若診斷結果沒有得到所有人的認可,特別是院校內部具有權威知識人士的認可,則很可能會為后續“改進”工作帶來很大困難。
第三,其他因素。其他影響診斷結果有效性(即“改進”)的因素包括:首先,參與者學習力不足。學習力是個人或組織的反思力、接納力、探究力和生成力。從某種程度上講,教學診斷與改進的過程就是參與者之間相互并持續學習的過程。據筆者訪談可知,診斷活動的參與者通常認為評價會(診斷活動)結束后,即完成了工作任務,而對后續的質量改進工作沒有參與動力和學習動力,這與參與者個體的學習愿望有關,也與缺少激勵機制有關。其次,群體決策的弊端。授權評價是典型的群體決策模式,群體決策為診斷過程提供了多樣性信息,但缺點是責任分散且不明確,由于對診斷結果的利用無法歸因到某個具體成員身上,導致對結果的應用效果不佳,從而削弱了總體效果。
對不同地區和職業院校授權評價的總標準分的統計結果,如圖2所示。

圖2 各試點授權評價的總體效果
按照Stuffiebeam的元評價檢核表的統計方法計算,河北、廣州、北京地區三個試點的授權評價效果差異不大(見圖 2),總標準分分別為 77,75,74,符合“68(68%)-92分”范圍,達成度較高。總體而言,除新疆授權評價4達成效果一般以外,其他學校授權評價效果達成度均較高。
分析授權評價總體效果可知,同一地區的不同學校之間開展授權評價試驗,效果呈現明顯差異,如重慶地區試驗1效果明顯優于重慶試驗2,新疆試驗3效果明顯優于新疆試驗4。從前文研究結論可知,由于授權評價會時間僅為4個小時(前者為8個小時),以及新疆授權評價4中的參與者之間的語言障礙問題④,都成為影響授權評價效果的重要因素。
從各試點授權評價的總體效果可知,同一地區的不同學校開展授權評價試驗,出現了不同的效果;不同學校層次之間開展的授權評價試驗,未見明顯差異;不同專業之間開展的授權評價,沒有發現共性特征和規律可循。基于此,研究認為基于職業院校內部質量診斷的授權評價試驗,其效果與被評院校所在地區、所評專業、院校類型與層次等關系不大,而與管理者的意識與行為、參與人員比例、參與者資質及個性特征、參與程度、會前準備程度、評價時間、語言、主持人能力、組織結構、決策機制、院校文化等方面因素關聯度很高。任何一個因素的不同,都會使教學診斷活動出現不同的效果。
通過對授權評價試驗效果的調查結果可知,不同院校之間的診斷效果不同,即使在同一地區也是如此。從具體分項指標看,八個授權評價試驗的分項指標中,對“授權評價方案的可行性”普遍賦值較高,說明參與者非常認可授權評價的理念及操作規程。指標“評價結果的有效性”賦值最低,說明雖然診斷結果或結論得到了一致認同,但其診斷結果并未注入決策機制,即在“改進”階段遇到困難。究其原因可知,一方面由于我國現階段民主參與管理的意愿較低,民主的文化氛圍及科學、透明的表達機制的缺失成為診改實踐的阻滯因素;另一方面,作為一項自我診斷性很強的評估工作,需要在學校內部實現自下而上的組織變革,需要建立內部多元參與的管理機制和程序化決策制度,以期為診斷結果能夠反饋到工作改進過程提供保障條件。
目前,類似授權評價的診斷工具還有ERC(E-valuation of Regional Cooperation)法診斷校企合作狀況,指標控制法(Quid)和學習任務診斷法(SEVALAG)等。這些起源于西方的診斷工具均采用質性與定量方法相結合的方式,具有強調評價主體的多元化和參與性、評價指標的發展性、生成性和關聯性、評價結果的可視化和多維度解釋,以及診改結果追溯等特點,盡管這些工具與我國強調服從和權威的傳統文化有一定沖突,但其理念已經成為質量保障領域的共識。授權評價的結果不只是一個具體結論,而是針對評價對象各指標的深入描述和分析,帶有大量圖形和表格解釋。閱讀者在此基礎上不但可以從多方面了解不同院校人才培養質量,而且可以分析課程設置和實施過程以及校企合作狀況,從而為教育管理和教學改革提供依據。
綜上所述,要想在職業院校教學診斷與改進工作機制建設方面取得突破性進展,需要完成四個關鍵性任務:一、承認和接受現代社會多元價值需求對傳統評價范式提出的挑戰;二、學習和了解基于“第四代評估”的基本理念和原則;三、引進第四代評估范式的診斷方法和技術,并開展相關典型試驗;四、打破制度性障礙,建立常態化的內部“改進”機制和激勵制度,以推動診改工作順利進行。這幾項任務的理論性和技術性要求很高,給職業教育研究和實踐提出了巨大的挑戰。
注釋:
①授權評價的主持人是指引導參與者討論、協商,保證評價會順利進行的人員。主持人需要具備專業的評價理論知識以及基本的主持功底。本研究中的主持人為研究者本人以及所在研究團隊人員。
②美國著名的評價專家古貝和林肯將評價歷史劃分為四個階段:第一階段是測量階段(20世紀初—20世紀30年代);第二階段是描述時代(20世紀30年代-50年代);第三階段是“判斷時代”(20世紀50年代-80年代);第四階段是“建構時代”。前三個階段的評價筆者將其稱為“傳統評價”。
③通過百分位數劃分等級的依據是參考Stuffiebeam,D.L.在1999年編制的元評價檢核表(Program Evaluations Meta Evaluation Cheeklist)中的統計方法,50%是中間值,68%是正態分布中正負l個標準差之間的范圍,可以用于表示與中間值存在一定程度的顯著差異,即達成度較高。93%(68%+25%)用于表示與中間值存在非常顯著的差異,即達成度非常高;25%(50%-25%)表示達成度非常低。
④在新疆試驗4中,有2/3的維族教師參與者,有1/3的漢族教師參與者,診斷過程中兩種語言的交叉運用一方面影響了評價會進程,也從一定程度上影響了診斷效果。