許 悅
(遼寧工程職業學院,遼寧 鐵嶺 112008)
按照《遼寧工程職業學院科研工作量化考核制度》的要求,將教師以職稱水平分類,然后以其科研、論文等考核類目的級別及數量為基礎,通過學院科研考核系統,把采集的預處理過的數據利用Apriori算法進行關聯性分析,以判斷不同職稱教師的科研能力以及政策制度的合理性和可行性[1]。
提取關聯規則的有效算法之一是Apriori算法。它的規則是首先通過掃描數據集產生候選項集,然后根據已知的最小支持度閾值及最小置信度閾值導出頻繁項集[2]。以下是對它的描述:
輸入:事物數據庫D,最小支持度閾值min_sup;輸出:D中頻繁項集L。
(1) L1=find_frequent_1_itemsets(D);
(2) for(k=2;Lk-1≠Φ;k++){
(3) Ck=apripri_gen(Lk-1,min_suppor);//頻繁項K-1集生成候選K項集
(4) for each transaction t∈D
(5) Ct=subset(Ck,t);//構造t的候選子集
(6) for each candidate c∈Ct
(7) c.count++;}
(8) Lk={c∈Ct│c.count>0}
(9) }//Ck為候選相集
(10) return L=∩kLk;
連接步:
(1) procedure apriori_gen(Lk-1:frequent(k-1)item)
(2) for each itemset l1∈Lk-1
(3) for each itemset l2∈Lk-1
(4) if(l1[1]=l2[1]∩l1[2]=l2[2]∩L∩l1[k-1]=l2[k-1]then){
(5) c=l1∞l2
(6) if has_inf requent_subset(c,Lk-1)then
(7) delete c;//剪枝;刪除非頻繁的候選相集
(8) else add c to Ck;}
(9) return Ck;
剪枝步:
(1) procedure has_infrequent_subset(c:candidate k item;Lk-1:frequent(k-1)item)
(2) for each(k-1)subset s of c
(3) if s∈Lk-1then
(4) return TRUE;
(5) return FALSE;
科研考核信息的關聯分析算法是改進Apriori算法并借助Weka平臺實現的。算法主要包括步驟讀取數據集data,并提取樣本集instances,離散化屬性Discretize,創設Apriori關聯規則模型,輸出大頻率項集及關聯規則集[3]。在 Apriori算法中,設置minSupprot=50%,最小置信度minimum confidence也設置為50%[4]。Weka配置路徑為Explore->Openfile(TestStudenti.arff)->Associate點擊配置參數信息,classIndex=-1,delta=0.05,lowerBoundMinSupport=0.5,minMetric=0.5, numRules=20,significanceLevel=-1.0,upperBoundMinSupport=1.0。
科研考核信息的分析數據集來自遼寧工程職業學院科研考核系統的教師科研信息導出數據。部分教師科研考核信息如表1所示。

表1 部分教師的科研考核信息表
由于在得到的科研考核數據中有一些噪聲數據,所以有必要對這些數據進行整理和歸集[5]。預處理操作如表2至表6所示。
學歷屬性信息包括研究生學歷、本科學歷和專科學歷。學歷屬性信息的預處理如表2所示。

表2 學歷屬性預處理表
學位屬性信息包括博士學位、碩士學位、學士學位以及無學位等。學位屬性信息的預處理如表3所示。

表3 學位屬性預處理表
職稱屬性信息包括教授、副教授、講師和助教。職稱屬性信息的預處理如表4所示。
年齡屬性的信息預處理如表5所示。
科研成果包括省級以上論文數量、省級科研項目數量、專著數量和專利數量[6]。將科研成果總數量進行預處理操作,如表6所示。

表4 職稱屬性預處理表

表5 年齡屬性預處理表

表6 科研成果數量預處理表
影響關聯規則提取有兩個因素,一個是最小支持度,另一個是最小置信度。最小支持度和最小置信度閾值的取值大小可影響提取關聯規則的數量[7]。滿足最小支持度和最小置信度閾值的頻繁項集即為關聯規則。本文選取的最小支持度閾值是0.5,最小置信度閾值是0.5。利用Weka中的Apriori算法提取的關聯規則的結果包括一至四維關聯規則[8]。四維關聯規則如表7所示。

表7 科研考核信息四維關聯規則表
下面對科研考核信息的關聯分析如下:
分析發現,職稱雖然相同,但是近幾年新入職教師的科研得分與科研得分“高”的關聯度比較高,而學院原始教師的科研得分與科研得分“低”的關聯度比較高。出現這種狀況主要是因為近幾年新入職的教師一般都具有研究生學歷或碩士以上學位,理論水平和動手能力都較強[9];而對于學院的原始教師(我院由六所中職院校合并而成)來說,科研能力比較薄弱。
針對分析結果,可以建議學校重點栽培近年來新招入的高學歷教師。因為這部分教師雖然職稱較低,但卻體現出了很強的科研潛力。但同時也不能放棄科研得分較低的教師群體,要通過正確的引導,為他們開辟新的科研空間[10]。
本文將遼寧工程職業學院科研考核系統導出的數據利用Apriori算法進行關聯性分析,得出了科研信息數據中的關聯結果,并根據關聯分析結果對學院今后的科研發展提出了指導性的意見。