韓雪峰 劉 洋
(遼寧工程技術大學 遼寧 阜新 123000)
隨著大學生數量的不斷增多和就業形勢的復雜多樣,對大學生的就業偏好及其影響因素進行分析是當前高等教育研究領域的一個重要課題[1][2]?,F有大多數分析方法通常以調研的整個學生群體作為分析對象,很少或沒有綜合考慮按家庭條件、學習成績、興趣愛好、性別等對學生群體進行劃分,因而導致分析結果不具有針對性和精準性[3][4]。而在現實應用中,大學生的就業意愿及其影響因素在很大程度上與其背景信息(如家庭條件、學習成績、生源地、興趣愛好、父母學歷、性別等)密切相關,因此需要先對大學生的背景信息進行詳細調查,進而將學生群體進行劃分,從而精準分析每類學生的就業意愿及其影響因素。近年來,有一些研究工作開展了針對不同類別大學生的就業價值取向的問題研究,如文獻[5]根據大學生生源地的不同,提出了西部少數民族大學生在就業過程中面臨的問題和價值取向;文獻[6]針對農村大學生的“就業難”問題展開了深入分析和研究,并提出了相應的解決對策;文獻[7]從性別角度,研究了女大學生就業質量和影響因素評價體系。上述研究雖然對大學生群體進行了劃分,但劃分標準都基于單因素(如僅從生源地、農村城市、性別等方面),并沒有綜合考慮學生背景信息多因素之間的復雜耦合關系。本文從學生背景信息出發,根據學生在背景信息多因素(如綜合考慮父母職業、學歷、家庭收入、學習成績、性別等)方面的耦合相似度,提出典型大學生選取和學生群體劃分方法,使得同類學生群體內部學生之間具有較高的綜合相似/相關度。
本文組織結構為:第一部分闡述大學生背景信息之間的耦合關系分析方法;第二部分提出學生典型程度度量方法;第三部分提出top-k典型學生近似選取方法以及學生群體劃分方法;第四部分是實驗結果分析與性能評價。
本文所述的耦合關系是指學生背景信息之間存在的各類顯式或隱含關聯關系。給定兩個學生,如果他們在背景信息的各個維度上都很相似或相關,則這兩個學生之間就具有較強耦合關系,通常應該被劃分到相同群體。例如,在家庭住址方面,兩個學生居住在相同或相近的區域;在學習成績方面,兩個學生的專業必修課成績接近;在興趣愛好方面,兩個學生都偏好統計分析和軟件編程等。反之,如果他們在背景信息上的關聯度較小,則他們之間的耦合關系較弱。例如,生活在農村的大學生和生活在一線城市的大學生,他們在家庭條件、父母職業、興趣愛好方面可能都有很大不同,進而導致就業意向和擇業時考慮因素上的差別。而這些學生,應該被劃分到不同群體,分別歸屬于不同類別。

表1 學生背景信息實例
本文主要從以下方面調研學生的背景信息,包括父母職業、父母受教育程度、父母政治面貌、家庭收入、家庭所在地、所學專業、平均成績、性別等10個屬性,其中父母職業、父母教育程度、父母政治面貌、家庭所在地、所學專業及性別是文本屬性,家庭年收入、平均成績是數值屬性。表1給出了學生背景信息的數據實例。
從上表可以看出,每個學生的背景信息都可由{父親職業、母親職業、父母教育程度、父親政治面貌、母親政治面貌、家庭收入、家庭所在地、所學專業、平均成績、性別}屬性上對應的值來描述。例如,表1中序號為1的學生,其父親職業為“國家機關、黨群組織、企業、事業單位”,母親職業是“專業技術人員”,父母教育程度為“大學及以上”,父親政治面貌是“群眾”,母親的政治面貌是“群眾”,家庭年均總收入為“十萬位”,家庭所在地為“縣/鄉鎮”,所學專業是“農學”,本科時專業課平均成績為“70”,性別是“男”。

表2 “學生1”背景信息對應的向量表
下面討論如何根據學生的背景信息評估任意一對學生之間的耦合關系。來看一個例子,在表1中,序號為1和2的學生父母職業分別是“國家機關、黨群組織、企業、事業單位”和“專業技術人員”,如果按照傳統的嚴格關系匹配方法,也就是所有屬性上的取值必須完全相同,則學生1和學生2之間的相似度為0;但實際上,即便是這兩個學生描述信息之間不完全匹配,也就是說僅在部分屬性上相匹配,他們之間也有可能是相似的。在上例中,學生1和學生2的父母政治面貌都是“群眾”,家庭收入都是“十萬位”,性別都是“男”,因此他們之間具有一定的相似性。本文目的在于利用這種在部分屬性上的相似/相關關系來精確量化兩個學生之間的耦合相似度,基本思想是根據背景信息構建每個學生的向量空間模型,然后通過評估背景信息向量表之間的重合程度來計算不同學生之間的耦合相似度。
背景信息的向量表可用一個兩欄結構表示,由屬性(Attributes)和值信息(Values)兩列構成,表2和表3分別給出了大學生背景信息數據集上對于“學生1”和“學生2”的向量表,向量表中的每個屬性對應向量中的一個分量。

表3 “學生2”背景信息對應的向量表
根據上文所述,學生背景信息向量表中包含了對應于每個屬性的值,所以可根據向量表中各個屬性上值的相似度來計算學生之間的耦合關系度。
由于本文調研的學生背景信息僅包含文本和數值兩類屬性,文本值之間的相似度容易處理,主要根據兩個值是否重合,重合即為1,否則為0。如果一個屬性下有多個值,則利用Jaccard系數進行計算相似度,即 J(A,B)其中A、B分別代表兩個向量表中相同屬性上對應的值集合,例如表2和3中的屬性“母親職業”,A={國家機關,專業技術},B={工廠,專業技術},則它們在該屬性上的Jaccard系數為1/3。
由于數值之間具有連續性,我們不能直接利用上述方法量化數值之間的相似度,例如兩個學生的專業課平均成績分別是70和72,這兩個值在數值上接近,不能完全看成是兩個不同的值,本文借鑒模糊集理論的基本方法評估數值之間的語義相似度。根據模糊集理論,給定一個數值Y,在數值上接近Y的數構成了一個模糊集合,用“close to Y”表示,它的隸屬函數在論域U上定義為

其中,u為論域U上的一個元素;μclose to Y(u)代表元素u隸屬于“close to Y”的程度;β為一個調節值,β越大,對于同一個u來說,u隸屬于“close to Y”的程度越大。模糊集“close to Y”的隸屬函數如圖1所示。

圖1 模糊集“close to Y”的隸屬函數
基于該思想,假設數值屬性A中包含的值為{v1,v2,…,vn},根據上述“close to Y”的隸屬函數,兩個數值vi和vj之間的語義相似度可由下式計算:

其中,β=1.06σn-1/5,σ是數值屬性A上所有值的標準差,n為A中所有值的個數。從式(2)可以看出,vi與vj在數值上越接近,則Nsim( )的值越接近1。
在此基礎上,通過合并兩個向量表中所有對應屬性上的相似度,可獲得這兩個向量表對應的學生之間的耦合關系度。然而,在評估兩個向量表之間相似度過程中,向量表中每個屬性的重要程度不盡相同。例如,家庭收入與父母政治面貌相比,前者對學生相似度評估和類別劃分顯得更重要。因此,兩個不同學生之間的耦合關系度,應該是兩個向量表中不同權重值之間的相似度之和,


其中,S1和S2代表兩個不同學生;V1和V2分別是對應學生S1和S2的兩個向量表(假設每個向量表都包含m個屬性);Valuesi是向量表中第i個屬性對應的值信息;W(Ai)是屬性Ai的權重
根據上述耦合關系評估方法,下面給出相應的實現算法(算法1)。算法首先抽取出學生背景信息數據集中的所有不同的學生對,然后按照上述耦合關系評估方法得出不同學生對之間的耦合關系度。由于學生之間的耦合關系矩陣是對稱的,因此只需計算上半矩陣。

算法1 學生耦合關系度實現算法輸入:學生個數-n,背景信息屬性個數-m,屬性值-V a l u e s,屬性權重-W輸出:學生耦合關系度矩陣M a t r i x 1.M a t r i x←φ;2.f o r i=1...n-1 d o 3.i V a l u e s=g e t A t t r i b u t e V a l u e s(i);4.f o r j=i+1...n d o 5.j V a l u e s=g e t A t t r i b u t e V a l u e s(j);6.f o r k=1...m d o 7.S i m[k]=S i m(i V a l u e s[k],j V a l u e s[k]);8.e n d f o r m 9.S i m D e g r e e=∑s i m[k]×W[k];i=1 1 0.M a t r i x[i][j]=S i m D e g r e e;1 1.M a t r i x[j][i]=M a t r i x[i][j];1 2.e n d f o r 1 3.e n d f o r 1 4.r e t u r n M a t r i x.
根據上述算法,可以得到所有不同學生之間的耦合關系度,然后存儲在結構為{學生1,學生2,耦合關系度}的學生耦合關系度表中,并在(學生1,學生2)屬性上建立索引以便于檢索。下面討論如何根據學生之間的耦合相似度選取有代表性的學生以及對學生群體進行劃分。
根據學生之間的耦合關系度,本文提出一種基于概率密度的典型化分析方法,目的是從學生集合中找出若干具有代表性的學生(即典型學生),然后對學生群體進行劃分,使得每個典型學生能夠代表其所在群體的總體特征,從而為精準分析不同類別學生的就業意向及影響因素提供數據基礎。
傳統的聚類分析與本文所提的典型程度分析具有一定相關性,聚類分析是將集合中的對象劃分成若干類別,使同一類別中對象之間的相似度盡可能大,不同類別對象之間的相似度盡可能小,而典型化分析是要找出代表性對象[8]。一些研究工作把均值點(means)或中心點(medoids)作為一個聚類的代表,然而有時均值點或中心點可能并不是聚類中的代表[9]。如圖2所示,對象B和C分別是集合的均值點和中心點,但分布在A周圍的對象要比B和C的多,因此A要比B和C更具有代表性。在學生群體中,需要根據學生之間的耦合關系度,找出具有代表性的學生(類似于圖2中的點A),并據此對學生群體進行劃分。

圖2 中心點、均值點和典型點對象的區別
概率密度是分析集合中某個對象典型程度的核心方法。本文提出利用概率密度函數計算學生的典型程度,在一個學生群體中,如果與某個學生耦合關系度密切的學生越多,說明其越具有代表性。根據學生之間的耦合關系度,可將學生群體中的所有學生看成是一個空間中的點集合,其中每個點代表一個學生,學生之間的直線距離代表一對學生之間的耦合關系距離。這樣就可以用概率密度估計方法來評估學生群體中某個學生的典型程度。本文采用基于高斯核函數的概率密度估計方法。對于學生群體S/,其中一個學生s∈S/的典型程度定義為:T(s,S/)=f(s|S/),其中f(s|S/)是S/上的概率密度分布函數,該函數可用下式計算:

其中,d(s,si)2代表學生s與si之間的耦合關系距離是高斯核函數,n代表中的學生總數。
接下來的問題是,給定學生集合S/(包含n個學生)和所有學生之間的耦合關系距離,目標是選出其中m(m<<n)個具有較高典型程度的學生,然后對學生群體進行劃分。根據式(4),每計算一個學生的典型程度都需要遍歷S/中所有其他學生對其的貢獻度,則該算法的時間復雜度為O(n2)。當學生數n很大時,算法需要耗費很多時間,因此需要考慮一種既能快速找出典型代表又具有較高準確性的近似解法。
本節提出兩種典型學生的近似選取及相應的學生群體劃分方法,分別是基于閾值的近似選取方法和基于淘汰策略的近似選取方法,這兩種方法分別適用于不同情況。
基于閾值的近似選取方法的基本思想是,首先構建學生耦合關系距離矩陣,然后根據矩陣中每行的值計算出對應學生的典型程度,從中選出最大典型程度的學生,并把與該學生相似度高于給定閾值的其他學生劃分到同一類別。重復執行上述過程,直到所有學生都歸到相應類別為止。下面,結合一個實例說明該算法的執行過程。

表4 學生耦合關系距離矩陣表

圖3 基于耦合關系距離矩陣和概率密度估算的學生聚類方法的例子
假設給定的耦合關系距離閾值是0.35,圖3說明了該算法的處理過程。
該算法首先根據學生耦合關系距離矩陣的每一行元素,每個元素代表一對學生之間的耦合關系距離,將距離值不大于給定閾值的學生劃分到同一類中。對于圖3(a)中顯示的學生耦合關系距離矩陣,給定的閾值是0.35,距離矩陣中每一行不大于0.35的元素被標記為灰色,因此每一行中與行首學生耦合關系距離不超過0.35的學生可以劃分到一類中。例如,對于矩陣每一行的聚類分別是{s1,s2,s6},{s2,s1,s6},{s3,s4,s5},{s4,s3,s5},{s5,s3,s4} 和{s6,s1,s2}。之后,對于同一類中的每個學生,通過使用高斯核函數計算出每個學生的概率密度,概率密度最大的學生可以用來代表該類中的其它學生。如圖3(a)所示,學生s2和s6的概率密度值最大,都是0.0994,因此隨機選取學生s2作為第一個典型,這樣能夠用s2表示的對象是s1和s6(他們到s2的距離分別是0.30和0.09)。在下次循環時,被s2代表的學生從矩陣中移除,然后繼續從重新構成的矩陣中選出典型學生。如圖3(b)所示,剩余的學生分別是s3,s4和s5,首先選取每一行中不大于閾值0.35的學生,之后計算與每一行相關的學生的概率密度值,最大的概率密度值是0.1686,因此學生s5被選作是第二個代表,相應地學生s3和s4被劃分到s5所代表的類別中。至此,所有的學生都被從矩陣中移除了,算法終止。最終,上述學生群體被分為兩類,分別是{s1,s2,s6}和{s3,s4,s5},每一類中的典型學生分別是s2和s5。
該方法的基本思想是基于淘汰策略[10],逐步選取典型學生和劃分學生群體,其基本過程如下:
1.先把學生集合T隨機劃分成若干小組,每個小組包含u個學生,這樣可將T劃分成n/u個小組,然后計算每個小組內所有學生的典型程度并從中選取一個具有最高典型程度的學生,這些學生構成一個新的集合,然后從T中去除其他學生。
2.對于得到的新集合,重復上述過程,直到集合T中只剩下一個學生為止,將該學生放入典型學生候選集合中(上述過程記為一次選取過程)。
3.為了盡可能確保選取的準確性,將上述選取過程重復執行v次(記為一輪),這樣候選集合中最多存儲v個學生,然后在最初的學生集合T上計算這v個學生的典型程度,最后輸出一個具有最高典型程度的學生作為當前輪次的選取結果,并從T中去除該學生。上述整個過程重復k輪,這樣就能找到k個典型學生。
4.根據學生之間的耦合關系度,把剩余學生劃分到與其關系最近的典型學生類別中。
以上兩種近似算法各具特點,能夠分別適用于不同情況。第一種需要給定耦合關系度閾值來控制聚類個數,這種算法能夠明確知道每個聚類所包含的學生之間相似度,但不確定能夠劃分成多少個聚類;第二種直接給定k值來控制聚類個數,這種算法適用于明確指定需要將學生群體劃分成多少個聚類,但不知道每個聚類中成員之間的相似度。
本節主要介紹實驗數據集和分析結果。本文的調查問卷涉及1000名大學生,這些學生的家庭住址分別來自一線城市、省會城市、地級市和農村以及西部地區,他們的家庭年均收入從幾千到幾十萬不等,專業課平均成績從40以上到90以下成正態分布,父母從事的職業有國家機關、企事業單位、個體和農民等(涵蓋了大多數的職業),調查對象具備多樣性和完備性。在該數據集上,我們開展了學生耦合相似度評估方法的準確性驗證、典型學生近似選取算法的誤差率測試,以及學生群體劃分的合理性驗證。

算法2.T o p-k典型學生的近似選取算法輸入:學生集T,驗證次數v,正整數k,小組大小u輸出:t o p-k個典型學生1.f o r i=1 t o k d o 2.f o r i=1 t o v d o 3.r e p e a t 4.劃分T成為若干小組g,每個小組有u條學生5.f o r e a c h小組g d o 6.計算g中每個學生在g中的典型程度7.從g中選出最典型的學生,并將g中其他學生從T中移除8.e n d f o r 9.u n t i l T中僅有一個學生1 0.把得到的最典型學生放入候選集合中1 1.e n d f o r 1 2.在T上計算候選集合中每各學生的典型程度,輸出一個最典型學生作為第i次選出的典型學生1 3.e n d f o r 1 4.r e t u r n t o p-k個典型學生及與相應的群體劃分
本文使用用戶調查方法驗證提出的學生耦合關系度評估方法的準確性。邀請了10個志愿者(博士生、碩士生和教師等)從調研學生集合中各選取10個學生,對于每個選取的學生si,分別利用本文提出的耦合評估方法(CSIM)、嚴格關系匹配方法(RSIM)和隨機選取方法(RANDOM)從學生集合中獲得前10個相似學生,最終合成一個包含30個與給定學生si背景信息相似和不相似的學生集合Si。在此基礎上,把Si和si提供給志愿者,由志愿者從Si中標出前10個與si背景信息最接近的學生,并且從以下兩方面衡量選擇的學生s'與給定學生s的相似性:
1.學生s'與s在某些屬性上有重疊的內容,則二者在一定程度上相似;
2.學生s'與s在內容上沒有重疊,卻具有相關關系。例如,s'與s的父母學歷都是本科以上,家庭收入都是十萬元以上,家庭住址都在東南沿海地區,專業課平均成績比較接近等。
本文用志愿者標注的相關學生與不同方法選取的相關學生的重疊程度來衡量不同方法的準確性。圖4給出了在調研學生數據集上CSIM、RSIM和RANDOM方法的準確性對比。

圖4 學生數據集上的CSIM,RSIM,and RANDOM方法的準確性對比
從上圖可以看出,CSIM方法的準確性在很大程度上高于RSIM和RANDOM方法。CSIM、RSIM和RANDOM在數據集上的平均準確性分別為0.84和0.52和0.22。這是因為CSIM是在向量空間模型上分別計算學生在不同維度上的相關度,并且考慮了屬性權重以及數值上的接近關系,而RSIM方法僅考慮兩個學生背景信息表中內容完全重合的程度,沒有考慮數值上的接近關系和屬性的重要程度。由此可見,本文方法得到的學生之間的耦合關系度更為準確合理。
本文用誤差率(error rate,E)來衡量典型學生近似選取算法的準確性。給定一個學生,令R(t)代表由準確選取算法返回的前k個典型學生,t)代表由近似選取算法返回的前k個典型學生,在此基礎上,誤差率定義如下:

在該實驗中,式(5)的 k 值分別取 5、10、15、20、25和30,第一種近似選取算法的閾值設置為能夠得到上述k值的聚類個數,第二種近似選取算法的參數u和v分別設置為u=20,v=5(根據實驗測試發現,當驗證次數v超過4時,算法的效果提升非常小,因此把v值設置為5),數據集大小設置為1000個學生。圖5給出了兩種近似選取算法在數據集上的平均誤差率(分別取10次測試誤差率的平均值)。

圖5 當k值變化時兩種近似選取算法的平均誤差率
實驗結果表明,兩種近似選取算法的平均誤差率分別為15%和11%,基于淘汰算法的誤差率較低。因此,在不要求知道聚類內部相似度的情況下,可以優先采用基于淘汰算法的典型學生選取及在此基礎上的學生群體劃分方法。另外,從圖中還可以看出,算法的誤差率與k值關系不大(也就是說對k值的變化不敏感),這是因為算法的每一輪選取都經過v次驗證,然后再經過k輪選取后得到的top-k個結果。
圖6給出了當數據集中的學生數發生變化時對基于淘汰策略的近似選取算法準確性的影響(這里將k值固定為10,u固定為20)。

圖6 學生數據集大小變化時基于淘汰策略的近似選取算法的誤差率
可以看出,當數據集增大(即包含的學生數增多)時,算法誤差率也隨之增大,這是因為當參數u(每個小組中的學生數)固定情況下,數據集中的學生數越多,那么從每個小組中選出的最典型學生就越有可能是有偏差的(即與全局典型學生的差距越大)。
由于學生的就業偏好及其影響因素與學生背景信息具有很大相關性,因此需要根據學生背景信息對學生群體進行聚類,進而對學生就業偏好及影響因素進行精準分析。本文提出了根據學生背景信息進行學生耦合關系度的評估方法,經數據分析與實驗驗證,該方法能夠較為準確量化學生之間的相似度,區分出不同學生之間的接近程度。在學生耦合關系度基礎上,提出了利用概率密度估計方法評估學生典型程度的方法,學生群體中有一部分是具有代表性的典型學生,對其進行準確識別有助于對學生群體劃分和對特定群體的特征抽取。為了減少計算復雜度,還提出了兩種典型學生的近似選取算法,經試驗測試分析,兩種算法各具優缺點,基于淘汰策略的近似選取算法在誤差率方面優于基于閾值的近似選取算法,但是不能體現聚類成員之間的相似度。根據選出的典型學生,可將其他學生歸到相應的類別。每個類別中的學生都具有與該類典型學生相似的背景信息。
本文研究的大學生生群體劃分方法為精準分析大學生的就業偏好和影響因素提供了高質量的基礎數據。
[1]喻名峰,陳全文,李恒全.回顧與前瞻:大學生就業問題研究十年[J].高等教育研究,2012,33(2):79-86.
[2]風笑天.我國大學生就業研究的現狀與問題[J].南京大學學報,2014(1):60-69.
[3]尹若珺,王馨第,張文穎.大學生就業質量影響因素調查與研究——以吉林大學為例[J].中國大學生就業,2016(7):44-49.
[4]柯羽.高校畢業生就業質量評價指標體系的構建[J].中國高教研究,2007(7):82-84.
[5]白亮,萬明鋼.西部地區少數民族大學生就業問題研究——基于教育供給側的分析[J].高等教育研究,2016(7):21-26.
[6]段曉丹.農村大學生“就業難”問題研究[J].淮北職業技術學院學報,2016(4):102-103.
[7]張抗私,盈帥.性別如何影響就業質量?——基于女大學生就業評價指標體系的經驗研究[J].財經問題研究,2012(3):83-90.
[8]Gan G J,Ma C Q,Wu J H.Data clustering:Theory,algorithms,and applications[M].Philadelphia:Society for industrial and Applied Mathematics,2007.
[9]Bouveyron C,Brunet-Saumard C.Model-based clustering of high-dimensional data:A review[J].Computational Statistics and Data Analysis,2014,71(3):52-78.
[10]Xiangfu Meng,Longbing Cao,Xiaoyan Zhang,Jingyu Shao.Top-k coupled keyword recommendation for relational keyword queries.Knowledge and Information Systems.Online publication.DOI:10.1007/s10115-016-0959-3.