鄭小龍,王丹濃,陳麗娜
(寧波第二技師學院 機械工程系,浙江 寧波 315012)
熵原本是一個熱力學的概念,用來表征熱力學系統內部微粒的混亂程度,熵值越大,系統中微粒分布越不均勻混亂程度越高;反之,越均勻,越有序。1948年,香農提出了信息熵的概念,將熱力學中的熵引進到了信息量化度量的問題中,用來表示信息的不確定性。[1]決策樹算法是在信息熵的基礎上,對數據處理的一種方法,其本質是在系統的多個變量屬性中,找到對結果而言可分辨能力最大的屬性,將數據分成若干子集,對應即決策樹的分支,然后循環以上分支過程,直到子集中對應的結果屬性統一為止。[2-7]該算法也是目前機器學習進行數據挖掘的一種重要手段。
本文以機械裝配技術課為研究對象,該課程的特征在于教學評價重點不僅在于結果性評價,還在于整個裝配和精度調整過程的規范性和工藝性,所以評價過程是一個形成性評價與結果性評價的綜合。結果性評價比較直觀,可通過有無零件遺漏、設備流暢性、檢測精度等方法來完成。形成性評價是教師觀察中間過程是否有不規范操作和錯誤操作,但教師很難將整個班級的形成性評價量化,并找出潛在規律,如學生多項操作都出現錯誤,錯誤操作是否有相關性,先糾正哪項錯誤操作最合理,該判斷更多的是根據教師已有經驗,所以教師的能力和經驗決定著該課程的教學效果。由于該課程的教學評價有相當一部分集中在形成性評價中,因此將信息熵引入到機械裝配技術的實訓課程中,使每一項操作都有相應的標準操作,即只要出現不規范操作就相當于出現了熵增。并且,通過計算熵值來確定某項操作的混亂度,從而對教學評價起到量化作用,避免了教師對整個班級大樣本的技能操作掌握程度的主觀估計。
首先進行采集數據,橫坐標第i項操作,縱坐標為第j個小組,得到一個矩陣A:


K=1/Ln(m),當學生只進行一種規范、標準操作時,信息熵最小,混亂程度低;當學生錯誤操作比較多時,信息熵大,混亂程度高。
在信息熵的基礎上計算各項錯誤操作的熵權:

通過熵權的量化,明確各項錯誤操作的權重,為學生糾正錯誤提供數據支持,形成性評分即概率值和熵權的乘積。

再利用決策樹ID3算法進行數據挖掘,確定各項錯誤操作信息增益,探究各項錯誤操作的前后的關聯性和糾正順序性。

在機械裝配技術課程中,以直線導軌與基準面的平行度為例進行研究,安裝前需要將安裝面先進行清洗,再將導軌滑塊副預安裝到安裝面上,用螺釘進行預緊,然后在滑塊上安裝杠桿百分表,測量頭對準基準面,如圖1所示。滑塊沿導軌滑動,通過觀察杠桿百分表的值來判斷平行度是否達標,如超標,則需要用紫銅棒或者橡皮錘敲擊導軌進行調整,最終達到要求得平行度。在筆者任教的機械裝配技術課程中,有20位學生,按前期表現均勻分成10組,每組2人,進行直線導軌平行度調整的教學,教學后進行平行度調整測試,結果性評價指標合格為導軌平行度≤0.02mm,調整時間≤5min,即結果性評價為Y,未達標則為N;形成性評價指標設置四項:D1為杠桿百分表判斷方向準確率、D2為判斷時間長度、D3為調節次數、D4為安裝百分表時間。建立表 1,其中,D2、D3、D4因為數值越大,越負面,所以將這三項數值取為負,利用公式(1)、(2)、(3)進行形成性評價計算,結果如表1所示。形成性評價的絕對值越小,該小組形成性評分就越好。
該過程對每個小組目前狀態進行量化,特別是各小組在量變的過程中且結果性評價尚未改變,形成性評價的得分就能體現這一變化。根據表1呈現的結果,形成性評價和結果性評價有高度的相關性,即使同樣Y或N的結果也有高低之分,可見形成性評價是對結果性評價的有力補充。

圖1 導軌滑塊副平行度調整

表1 直線導軌平行度調整測試信息熵采樣
采樣數據被量化后,利用決策樹算法采樣項目進行數據挖掘。由于決策樹的剪枝是針對離散變量進行計算的,如果當變量為連續值時,必須進行離散化,才能進行信息增益大小的判斷,即直線導軌平行度各變量優先級的判斷。[8]



根據以上的離散化的采樣項目集合,將四個采樣變量分為進行離散化劃分,結果如表2所示。
根據采樣項目離散化的結果,將結果代入公式3進行計算,信息增益值的結果如表3所示,表格中信息增益值越大,對應的優先越高。
表3中采樣項目信息增益值越大,說明該項被糾正或改進后,結果性評價會更大概率的趨向于統一,也就是能快速降低結果性評價的信息熵,所以信息增益值越大的采樣變量應該優先被關注,可以認為是教學中的重點,而在其他的采用變量按照信息增益值大小確定優先級,可以確定為第二、三、四重點,量化知識點,為教學提供支持。

表2 采樣項目離散化結果

表3 信息增益值結果
按照表3的優先級判斷,與教學經驗相結合分析得出以下五點結論:(1)由于班級人數和設備有限,D1判向準確率信息增益值出現1的情況,即D1將決策樹劃分到根節點,D1高對應的結果性評價都是Y,所以決策樹圖形無法形成,但本次研究只進行信息增益值計算和優先級的判斷,已滿足研究要求。(2)判向準確率對應能否準確使用杠桿百分表,如果使用錯誤,無法完成導軌平行度調整,學生可能沒有真正掌握杠桿百分表的使用方法。(3)調節次數過多,很大程度是由于導軌調整方向錯誤導致,另一種情況是銅棒調節力度未掌握到位,致使調節過度,需多次進行調節,此準確性須長時間練習提升。(4)裝表時間長短是熟練度導致,初學者在固定杠桿百分表時會將指針頂到極限位置,需重復固定,浪費時間。(5)判向時長也與熟練度相關,但判向的準確率更重要,所以判向時長的信息增益比較小,即相關性較低。
本研究的前提是利用教師經驗制定采樣項目,教師再利用計算數據輔助教學,兩者相輔相成。由于統計數據較小,本方法價值大于結論,如果依托決策樹理論,增加數據量,結合機器學習繼續實驗,可提供更準確、可靠的教學輔助信息。同時,該方法也可為護士、電工、運動員等的規范操作評價提供參考。