高發強
(江蘇科技大學數理學院,江蘇 鎮江 212003)
近年來,“大學生就業難”已經成為一個熱門話題,大學生如何在就業形式嚴峻的情況下,高效找到工作越發困難。參加校園招聘是大學生簽訂工作的主要方式,如何從校園招聘的眾多學子中脫穎而出,是每個大學生面臨的難題。通過調查分析,文章用粗糙集理論和最小距離法相結合的方法,分析了校園招聘企業人才需求的影響因素,從而更加準確的指出了不同性質的企業在校園招聘中對畢業生的要求,對大學生如何準備就業具有重要的指導意義。
波蘭數學家Z.Pawlak提出的粗糙集理論是一種處理不精確信息和含糊信息的新型數學方法,近年來成功應用于醫療診斷、圖像處理、模式識別、知識獲取、數據挖掘和決策支持等領域。經典粗糙集理論是通過論域U上的不可分辨二元關系(即等價關系)導出的等價類作為基本的知識顆粒,用一對上下近似集合來逼近數據庫種的不精確概念。粗糙集的核心思想是在保持分類能力不變的前提下,通過知識約簡,導出問題的決策或分類規則。
最小距離分類,是指求出未知類別向量到要識別各類別代表向量中心點的距離,將未知類別向量歸屬于距離最小一類的一種圖像分類方法。 本文將粗糙集理論和最小距離法用于校園招聘企業人才需求規則,高??山梃b此規則引導學生,避免大學生盲目擇業;大學生也可參考此規則合理安排大學生活和做好就業準備。
定義1 信息系統(Information System記為:IS)可定義為一個四元組:DIS=<U,AT,V,f>,其中U是一個非空有限對象的集合,又稱為論域:AT是非空有限屬性集合,?a∈AT,Va表示屬性a的值域;V表示全體屬性的值域集合, 即 V=VAT=Ua∈ATVa;f為信息函數,Vx∈U,a∈AT,定義 f(x,a)表示 x 在屬性 a 上的取值,則有 f(x,a)∈Va。
如果AT=C U D,其中C是非空有限條件屬性集合,D是非空有限決策屬性集合,則<U,C∪D,V,f>又被稱為決策信息系統(DIS)。當D={d}時,稱<U,C∪g0gggggg,V,f>為單決策信息系統。
定義2 設IS=<U,AT,V,f>,?A?AT,定義A上的不可分辨關系IND(A)={(x,y)∈U2|?a∈A,f(x,a)=f(y,a)}。 不可分辨關系滿足自反性、對稱性、和傳遞性,是U上的一個等價關系。由此等價關系可以導出U上的一個劃分,記為U/IND(A),Vx∈U,x的等價類記為[x]A,且[x]A={y∈U|(x,y)∈IND(A)}。
定義3 設IS=<U,AT,V,f>,?X?U,A?AT定義X關于屬性A的下、上近似分別記為:
定義 4 設 DIS=<U,C∪g0gggggg,V,f>,Vd={1,2,…i,…,r},A?C。 由決策屬性 d 導出的劃分 U/d={D1,D2,…,Dr},其中 Di={x∈U|f(x,d)=i}。 定義
(1)若LOW(A)=LOW(C),則稱A是C的一個下近似分布一致協調集;若A是C的一個下近 似分布一致協調集,且?B?A,B,都不是C的下近似分布一致協調集,則稱A是C的下近似分布約簡。
(2)若UPP(A)=UPP(C),則稱A是C的一個上近似分布一致協調集;若A是C的一個下近似分布一致協調集,且?B?A,B,都不是C的上近似分布一致協調集,則稱A是C的上近似分布約簡。
(3)若 LOW(A)=LOW(C),且 UPP(A)=UPP(C),則稱 A 是 C 的分布一致協調集;若A是C的分布一致協調集,且?B?A,B,都不是C的分布一致協調集,則稱A是C的分布約簡。
定義5 設IS=<U,AT,V,f>是一個信息系統,C∪g0gggggg=AT,集合族{D1,D2,…,Dr}是由決策屬性 d 導出的劃分,則 C 對{d}的近似分類質量 γC(g0gggggg)記為:
γC(g0gggggg)=|PosC(g0gggggg)|/|U|
γC(g0gggggg)表示在條件屬性集C下能夠確切劃入決策類U/d中的對象占論域對象總數的比率,表示了決策屬性對條件屬性的依賴程度:PosC(g0gggggg)稱為{d}的相對于 C 的正域。
定義6 設IS=<U,AT,V,f>是一個信息系統,C∪g0gggggg=AT,條件屬性ci∈C(1,2,…,n),ci對于決策屬性的重要性程度為 Sig(ci,C,g0gggggg),其中Sig(ci,C,g0gggggg)=γC(g0gggggg)-γC-ci(g0gggggg)。 PosC-ci(g0gggggg)稱為{d}的相對于{C-ci}的正域,即U中所有根據屬性集{C-ci}劃分后,仍可準確劃分到{d}的等價類中的對象集合。
在粗糙集用于決策規則獲取的理論中,隱藏在決策信息系統DIS=<U,C∪g0gggggg,V,f>中的知識將以決策規則的形式被提取出來。設DIS=<U,AT,V,f>是一個決策表,AT=C∪g0gggggg,C∩g0gggggg=φ,其中 C 為條件屬性集,{d}為決策屬性,令Xi和Yj分別代表U/C與U/g0gggggg中的各個等價類,des(Xi)表示對等價類Xi的描述,即等價類Xi對于各條件屬性值的特定值;des(Yi)表示對等價類Yj的描述,即等價類Yj對于各決策屬性值的特定取值。
決策規則定義如下:
rij:des(Xi)→des(Yj),Yj∩Xi≠φ,
規則的確定性因子 μ(Xi,Yj)=|Yj∩Xi|/|Xi|,0<μ(Xi,Yj)≤1。
當 μ(Xi,Yj)=1 時,rij是確定的;當 0<μ(Xi,Yj)<1 時,rij是不確定的。
注:在產生決策規則之前,可首先對決策表中的屬性進行約簡。
設 Gi,Gj是兩個類:任意?Xi∈Gi,Xj∈Gj,則定義:
其中dij是Xi,Xj之間的距離,為兩個類Gi,Gj之間的距離,它是Gi,Gj之間的最短距離。 用此方法,設 Gp,Gq合并為一個新類 Gr,則對于任意一個類Gk,有
經過專家打分本文選出13個影響因素,做了100份問卷調查,構建決策信息表如表1所示:

表1 調查問卷設計
表中用“0、1、2、3、4”來表示不同的取值。 U={u1,u2,…,u100}表示100分問卷的集合,A={C1,C2,…,C12,d1}表示屬性集。經過上述處理后可得到如下的決策信息表:

表2 決策信息表
已知 DIS=<U,C∪g0gggggg,V,f>,屬性集 C={c1,c2,…,ci},U/d={D1,D2,…,Dr}是由決策屬性d導出的覆蓋,則條件屬性集C的下近似分布約簡的步驟如下:
步驟1:令C的下近似分布約簡R=φ。
步驟2:判斷LOW(R)=LOW(C)是否成立,若成立則轉步驟4,否則轉步驟3;
步驟 3:對任意 ai∈(C-R),取 Sig(ai,C,g0gggggg)獲得最小值時的 ai,更新 R,使 R=R∪{ai}, 轉步驟 2;
步驟4:輸出R,R即為C的下近似分布約簡。
算法的時間復雜度分析:步驟2中計算LOW(R)與LOW(C)是否相等的時間復雜度是 O(|C|U|2)步驟 3 的時間復雜度是因此該算法的時間復雜度是 O(|C|U|2)。 將步驟 2中的判斷條件改為 UPP(R)=UPP(C),步驟 3 的啟發信息改為 Sig(Ci,C,g0gggggg),即可求得 C 的上近似分布約簡。
通過計算約簡掉的冗余數據為 {c5,c11,c12,c13},最終得到C對{d}的相對約簡為{c1,c2,c3,c4,c6,c7,c8,c9,c10}。因此獲得的確定性規則如下:
r1:(c1=3)^(c2=3)^(c3=1)^(c4=1)^(c6=0)^(c7=1)^(c8=0)^(c9=1)^(c10=1)→(d=0),可信度為1
r2:(c1=3)^(c2=3)^(c3=0)^(c4=1)^(c6=1)^(c7=1)^(c8=1)^(c9=1)^(c10=1)→(d=2),可信度為1
r3:(c1=3)^(c2=3)^(c3=1)^(c4=1)^(c6=0)^(c7=1)^(c8=1)^(c9=1)^(c10=0)→(d=1),可信度為1
r4:(c1=3)^(c2=3)^(c3=0)^(c4=1)^(c6=0)^(c7=1)^(c8=1)^(c9=1)^(c10=1)→(d=3),可信度為1
上述確定性規則用通俗語言解釋如下:
1)有相關證書,成績較好,學生黨員,學生干部,不是自主創業嘗試者,有獨立工作能力,缺乏綜合分析能力,有口頭表達能力,有創新能力;該類畢業生適合國企,可信度為1。
2)有相關證書,成績較好,不是學生黨員,學生干部,自主創業嘗試者,有獨立工作能力,一定綜合分析能力,有口頭表達能力,有創新能力;該類畢業生適合外企,可信度為1。
3)有相關證書,成績較好,學生黨員,學生干部,不是自主創業嘗試者,有獨立工作能力,一定綜合分析能力,有口頭表達能力,創新能力弱;該類畢業生適合民企,可信度為1。
4)有相關證書,成績較好,不是學生黨員,學生干部,不是自主創業嘗試者,有獨立工作能力,一定綜合分析能力,有口頭表達能力,有創新能力;該類畢業生適合其他類型企業,可信度為1。
不足之處:通過知識約簡獲得的確定性規則,雖然每個屬性都是必要的,但表示的確定性規則顯得繁雜,尤其用通俗語言解釋時。如果當得到確定性規則存在幾十個屬性并很多屬性必要且相同時,不管用通俗語言解釋還是用符號表示,就會更加繁雜,難以簡單的找到區分點。因此解決這個不足之處是必須的。
改進方法:最小距離法和粗糙集相結合。
最小距離法步驟如下:
第二步:找出D(0)的非對角線上的最小元素,假設為Dpq,將Gp,Gq合成一個新類Gr。
第三步:求出 n-1 個新類的距離矩陣 D(1)=(Dij),其中:Dir=Dri=min{Dip,Diq}。
第四步:重復第二、三兩個步驟,直至將樣品合并為所需的類。
通過最小距離法,將屬性c1和c2分為一類,記為C1,即顯性具體能力;屬性c7和c9分為一類,記為C2,即基本能力。則改進后的確定性規則如下:q
r1:(C1=3)^(c3=1)^(c4=1)^(c6=0)^(C2=1)^(c8=0)^(c10=1)→(d=0),可信度為1
r2:(C1=3)^(c3=0)^(c4=1)^(c6=1)^(C2=1)^(c8=1)^(c10=1)→(d=2),可信度為1
r3:(C1=3)^(c3=1)^(c4=1)^(c6=0)^(C2=1)^(c8=1)^(c10=0)→(d=1),可信度為1
r4:(C1=3)^(c3=0)^(c4=1)^(c6=0)^(C2=1)^(c8=1)^(c10=1)→(d=3),可信度為1
上述確定性規則用通俗語言解釋如下:
1)有顯性具體能力,學生黨員,學生干部,不是自主創業嘗試者,有基本能力,缺乏綜合分析能力,有創新能力;該類畢業生適合國企,可信度為1。
2)有顯性具體能力,不是學生黨員,學生干部,自主創業嘗試者,有基本能力,一定綜合分析能力,有創新能力;該類畢業生適合外企,可信度為1。
3)有顯性具體能力,學生黨員,學生干部,不是自主創業嘗試者,有基本能力,一定綜合分析能力,創新能力弱;該類畢業生適合民企,可信度為1。
4)有顯性具體能力,不是學生黨員,學生干部,不是自主創業嘗試者,有基本能力,一定綜合分析能力,有創新能力;該類畢業生適合其他類型企業,可信度為1。
本文利用最小距離法和粗糙集的知識對企業人才需求狀況的數據處理,通過上述可以看出,不同的企業對畢業生有不同的要求,但其中有些是共同因素,如:證書,成績的重要性,學生干部,獨立工作能力等。因此,學校針對性地采取有效措施,正確引導大學生合理安排大學生活,應屆畢業生可根據自身的情況找到適合的類型企業或根據企業的類型來準備簡歷和其他相關性的事情,這對應屆畢業生在校園招聘中有一定的參考價值。
[1]張文修,吳偉志,梁吉業,李德玉.粗糙集理論與方法[J].北京:科學出版社,2001.
[2]Pawlak Z.Rough sets[J].International Joumal of Computer and information Sciences,1982,11(5):341-356.
[3]徐維艷,魏敏,張明.基于相似關系粗糙集中的否定規則及約簡[J].微電子學與計算機,2012.
[4]賀瑩,嚴春芳.關于提高校園招聘有效性的思考[M].上海:中國電子科技集團公司第二十三研究所,2014.
[5]徐映梅.市場分析方法[M].北京:中國財經經濟出版社,2006.