楊曉吟
(廈門醫學院信息中心 福建省廈門市 361023)
隨著大數據和人工智能技術的發展,醫學生綜合素質的評價手段普遍得到了提升[1-3],醫學生綜合素質與人民的生命和健康息息相關,因此醫學生綜合素質的評價成為當前醫學教育改革的的研究熱點之一[4-6]。
為了獲得理想的醫學生綜合素質評價結果 ,提出了基于大數據的醫學生綜合素質評價算法。相較于普通高等教育采用的綜合素質評價算法[7-9],該算法在醫學生綜合素質評價過程中引入大數據技術,通過數據化形式記錄并統計醫學生綜合素質變化過程,并找到醫學生綜合素質的相關影響因素,同時可基于實時數據匯總判斷醫學生綜合素質需求與需調節的評價內容等[10]。基于這種匯總、分析醫學生綜合素質中最真實可靠的數據的方式,即可顯示出大數據的宏觀掌控性能,同時還可詳細描述微觀數據的分析功能,使醫學院校從整體到細節均可更好的把握醫學生綜合素質變化特點,掌握醫學生的培養規律,提升醫學教育水平。
基于大數據的醫學生綜合素質評價方法主要分為三個環節:
(1)利用大數據中的聚類算法確定哪些因素是影響醫學生綜合素質的主要影響因素,集合這些主要影響因素構建醫學生綜合素質評價指標體系。
(2)根據所構建醫學生綜合素質評價指標體系內的各指標,采集相關數據,生成醫學生綜合素質評價的大數據集,對醫學生綜合素質評價大數據進行融合。
(3)選用約束參量分析法,分析融合后醫學生綜合素質評價大數據的控制變量和解釋變量,實現醫學生綜合素質的大數據評價。
作為大數據中的主要組成部分,聚類分析算法可理解為是一種非監督模式識別方法[11-13]。聚類分析算法運行過程中,將數據對象分為簇,令每一個簇內部具有較高一致度,并確保簇與簇之間具有較低一致度。聚類算法在分析數據內在規律方面產生關鍵性影響,聚類過程通過持續確定距離種子點最近均值的方式完成,圖1所示為聚類算法流程。聚類算法流程總共分為5個環節:
(1)用D表示樣本數據集,依照實際需求將樣本數據D集劃分為k個簇,同時確定k個樣本點,分別設定k個樣本點值的聚類中心。
(4)再次確定各簇的聚類中心距離。
(5)確定數據集D內全部點標準差E(t),并將其同前一次標準差E(t-1)實施對比,若E(t)小于E(t-1),表示計算過程不收斂,此時需轉到(2),相反表示計算過程收斂可結束。
依據大數據的聚類算法對所采集的醫學生綜合素質數據實施聚類處理,構建醫學生綜合素質評價指標體系,如表1所示。

表1:醫學生綜合素質評價指標體系
根據所構建醫學生綜合素質評價指標體系內的各指標,采集相關數據,生成醫學生綜合素質評價的大數據集,對醫學生綜合素質評價大數據進行融合。
用W表示醫學生綜合素質評價大數據的相空間分布,其在本質上可定義為醫學生綜合素質評價的控制矩陣[11],用n×m表示。構建特征分布向量與概率分布函數,分別用ρq和表示,其中,rkj表示特征系數,以此實施醫學生綜合素質評價大數據的融合分析。
利用大數據中的關聯規則特征提取算法提取醫學生綜合素質評價大數據的關聯規則特征[14],并構建式(1)所示的回歸分析模型對所提取的關聯規則特征數據實施回歸分析:

式(1)內,ρ和n(t)分別表示醫學生綜合素質評價指標概率分布數量和干擾項,si(t)表示回歸函數。
利用式(2)描述構建醫學生綜合素質評價大數據識別的模糊隸屬函數:

根據上述過程構建式(3)所示的醫學生綜合素質評價大數據可融合分解式:

利用約束參量分析方法分析醫學生綜合素質評價大數據融合后的控制變量與解釋參量[13],以此評價醫學生綜合素質。
設置醫學生綜合素質評價大數據評價過程中的隱含狀態和觀測狀態[15-17],利用式(4)描述醫學生綜合素質評價大數據的模糊聚斂控制函數:
式(4)內,Mh表示醫學生綜合素質評價大數據傳輸負載,w1表示隱含數據1,w2表示隱含數據2,w3表示隱含數據3,Hi表示數據融合參數,Si表示控制參量,Vi表示大數據的模糊系數。
利用式(5)描述醫學生綜合素質評價大數據有限數據集:

式(5)內,ji,i=1,2,…,n和n分別表示醫學生綜合素質評價大數據集合內樣本和樣本數量。
利用式(6)表示醫學生綜合素質評價的量化特征關系:


表2:大數據的醫學生綜合素質評價融合效率
通過優化后的支持向量機學習模型劃分醫學生綜合素質評價結果類別,選取統計平均互信息方法獲取具體評價結果,式(7)描述醫學生綜合素質評價的目標函數:

式(7)內,w表示醫學生綜合素質評價的目標參數,C表示醫學生綜合素質評價的量化比,ξi表示評價前的評價結果,表示評價后的評價結果,yi表示統計樣本數據,表示醫學生綜合素質平均評價函數,b表示關聯規則參數,ε表示數據融合的解釋參量。
基于上述描述即可實現基于大數據的醫學生綜合素質評價線。
實驗為測試本文所研究的基于大數據的醫學生綜合素質評價方法,選取廈門醫學院學生為評價對象,利用本文方法對研究對象醫學生綜合素質進行評估測試,所得測試結果如下。
從大數據融合效率與整體評估效率兩方面測試本文方法進行醫學生綜合素質評價的效率。
3.1.1 大數據融合效率對比
在不同評價指標數據量條件下,本文方法大數據融合效率測試結果如表2所示。分析表2得到,采用本文方法進行醫學生綜合素質評價過程中,數據融合所需時間隨著數據量的提升而提升。在各一級指標數據量達到5000個時,本文方法融合各一級指標數據所需時間均低于900ms。以上數據充分說明利用本文方法能夠較快融合各評價指標數據,利于提升醫學生綜合素質評價的整體效率。
3.1.2 整體效率測試
整體評價效率測試過程中,選擇RBF神經網絡和層次分析法進行對比測試,選擇9個對象作為測試目標,本文方法與對比方法整體評價效率測試結果如圖2所示。分析圖2得到,三種評價方法中,本文方法評價全部評價對象醫學生綜合素質所用的時間最少,平均時間在1.3s左右。相較于本文方法,層次分析法的評價過程所花費的時間最長,平均時間在2.0s;RBF神經網絡的評價過程所花費的平均時間約為1.9s。同時由圖1還可發現,本文方法評價過程中,各評價對象評價過程所花費的時間最為穩定,由此說明相較于對比方法,本文方法在評價效率方面具有絕對性優勢。

圖2:整體效率測試結果
通過對比本文方法評價結果與主觀評價結果間的等級相關系數驗證本文方法評價結果的可靠性。等級相關系數Cij用于描述一種質量如何被另一種質量所表示的單調函數的指標,其計算公式:

其中,D表示主觀評價結果與本文方法評價結果間的差異度,N表示客觀評價結果。等級相關系數Cij值取值范圍為[0 1],其值越越接近于1說明本文方法評價結果越準確。
表3所示為本文方法對評價對象的評價結果與主管評價方法間等級相關系數計算結果。分析表3得到,采用本文方法對評價對象的素質實施評價,所得評價結果與主觀評價結果的等級相關系數均高于0.95,平均等級相關系數達到0.97。與本文方法相比,兩種對比方法的平均等級相關系數分別下降0.02和0.01。以上實驗結果說明本文方法的評價結果更具可靠性。

表3:等級相關系數計算結果
針對當前醫學生綜合素質評價方法存在的缺陷,以提升醫學生綜合素質評價結果,提出基于大數據的醫學生綜合素質評價方法,通過收集醫學生綜合素質評價的相關數據,采用大數據分析方法對數據實施分析與評價,得到相對準確有效的醫學生綜合素質評價結果。