侯勇



摘 要 多實例學習作為一種典型的弱監督學習方法,在計算機視覺、生物識別、自然語言處理等許多應用中是有效的。本文提出了一種深度多實例學習算法,將神經網絡與多實例算法集成。最后將所提出算法應用于學生學習結果預測,取得了良好的效果。
關鍵詞 多實例學習;學習結果;預測;MIL 池
1深度多實例學習算法
在諸多機器學習問題中,如圖像分類,并假設圖像被清楚地表示類別(類)。但在許多實際應用中,會有多個實例,并且僅給出該類別的一般說明,這就是多實例學習(MIL)或基于弱注釋數據的監督學習。計算病理學、乳房X光檢查或CT肺篩查等醫學成像中,通常單個標簽(良性/惡性)或感興趣的區域(ROI)描述圖像,因此使用弱注釋圖像數據極為普遍。
MIL算法訓練包實例,生成能夠預測包類別標簽的模型,實現包標簽的預測。在醫療診斷中,廣泛應用MIL算法,通過發現關鍵實例,決定包標簽。在醫學領域中,人們提出了各種不同的方法,實現包分類,如包相似性分類法,嵌入層低維表示分類法,集成實例級分類器響應法等[1]。
本文中,我們提出了一種深度多實例學習算法-DMIL。DMIL分為Fc1-512 + ReLU,Fc2-256 + ReLU,Fc3-128 + ReLU,Fc4-64 + ReLU,dropout (rate=0.38)(fc3),MIL-max pooling ,fc5-1 + sigm,一共6層,如表1所示。將該算法應用于學生學習結果的預測,取得了良好的效果。
所提出的DMIL 可表述為:
(1)
其中,在包Xi中,多個實例通過DMIL傳遞。DMIL由L層組成,每個圖層都由非線性變換組成,其中索引圖層。可以是內積(或完全連接)或修正的線性單位 (ReLU) [22]等操作的復合體。我們將實例的第層的輸出表示為。在第(L-2)層中的實例特征,表示為,實例概率是[0;1]范圍內的標量,表示為。在最后一層中,有一個MIL池層,該層將實例概率作為輸入和輸出包概率,表示為。
2學生學習結果預測
預學生學習結果在任何高等教育計劃中都起著至關重要的作用。學生學習結果可以使用可測量和不可測量的屬性進行預測。所用的數據集如下表2所示。
表2描述了本工作中使用的數據。其中No_as_t:學生書寫作業數量;No_st_a:布置作業的學生數;No_as:學生作業數;No_qz:測驗數量;No_qzt:解決測驗所需的時間;Lab:實驗次數;No_t1:參加考試1的學生人數;No_t2:參加考試2的學生人數;score1:學生在考試1中得分;score2:學生在考試2中得分;TS_t:考試1和考試2的總分數;TS_a:作業總得分;TS_q:測驗總得分;TS_lab:實驗總得分;TotalE:除去實驗總得數;TotalA:上述分數總和;結果:通過/未通過。
學生學號就是包的id號,其他屬性被視為實例,結果屬性是目標值。在預處理階段將刪除所有缺失的值,以便數據集已準備好實現。各種MIL算法比較結果如表2所示。
3結束語
在本文中,提出了一種深度多實例學習算法-,該算法重點是對實例級標簽的估計 。將所提出的算法應用于學生學習結果的預測過程中,取得了卓越的效果。今后,將開發更有效的 MIL 池,并研究如何在數據有限的 MIL 中,訓練更深入、更廣泛的深度多實例學習算法。
參考文獻
[1] Xiao Y,Liu B,Hao Z. A Sphere-Description-Based Approach for Multiple-Instance Learning[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(2):242-257.