吳蘇禮, 雷雙媛, 王冠卓, 劉大旭
(黑龍江中醫藥大學, 佳木斯學院, 黑龍江, 哈爾濱 150040)
近年海量畢業生涌入社會,但是社會各行各業職位有限,就業壓力逐年增大,就業競爭激烈[1]。社會各界與高校都越來越重視大學生的就業率情況,每個高校對于大學生就業情況的統計都有一套已經形成體系的大學生就業率統計信息管理系統或者管理模型[2-4]。高校信息管理水平不斷提升,能夠完整保存并匯總歷年畢業生的就業情況數據與就業率統計結果,存儲在高校的就業統計系統之中。高校為制定招生計劃和教學計劃,需要對畢業生歷年就業情況進行預測,對于預測情況已經有眾多學者做出研究:有學者使用灰色預測模型[5]預測大學生就業情況,該方法利用數字建模實現就業率預測,但在預測準確性方面仍需進一步研究;還有學者提出以立體數據作為基礎的就業率預測方法[6],該方法從橫、縱兩個方面實現就業率預測,同時也為大學生未來就業做出指導,但是存在計算過程較為復雜的情況,在未來研究中仍需進一步驗證。
混沌理論是同時包含量化分析與質性思考的方法,決定論方程無規律運動也是混沌性的來源,分析有關混沌理論的各種方法總結出兩個有關混沌理論的基本觀點:混沌是一種對于非線性系統內在隨機性的確定,也就是說混沌理論是一種表面上看似無規律但實際上卻存在內在聯系的非周期行為,在處理混沌理論時,使用非線性手段處理非線性問題[7-9]。
支持向量機是一種人工智能算法,最終目的是實現結構風險最小化,對于非線性以及局部極小點等現實問題能夠具有較好的解決效果,在各類預測問題中應用廣泛[10]。使用支持向量機實現預測時不但需要關聯自身樣本,同時還需要關聯被預測的訓練樣本。在實際使用時,通過人工手段實現訓練樣本的輸入與輸出矩陣,評價模型預測效果與逼近能力的好壞采用均方根誤差時進行衡量,但是這種方法仍然存在不足的地方,比如選取訓練樣本時沒有正確的理論指導,若想實現模型修正必須不斷調整真實值和預測值之間的誤差,待模型預測精度達到一個滿意值方可停止修正,這種情況導致模型需要經過長時間訓練,這種長時間的訓練極其容易造成模型出現過擬合,因此需要引入非線性的混沌理論實現修正,對預測對象實行建模。
本文主要研究基于混沌理論與支持向量機的就業率預測,為高校未來工作指明方向。
在就業率預測方法中使用混沌優化算法就是為了實現預測模型優化,搜索過程中使用混沌變量。式(1)為Logistic模型,通過該模型實現混沌映射:
zm+1=4zm(1-zm)
(1)
利用minf(x1,x2,…,xn)xi∈[ai,bi](i=1,2,…,n)表示連續對象的優化問題,待優化參數與xi的取值空間分別使用xi和[ai,bi]表示。
經式(1)獲得混沌序列值,對該值載波,對應混沌變量與待優化參數,經迭代后將結果在[ai,bi]區間映射出來,同時獲得與區間對應的xi值,由此求得f(x)的值,由此判斷迭代結果是否最優,如果是最優迭代結果則停止迭代,反之繼續迭代。通過以下步驟實現混沌優化算法改進。
(1) 對算法實行初始化,設M1與M2分別表示搜索次數與二次搜索迭代次數,把n個初值zi0(i=1,2,…,n)賦值到式(1)中(初值之間差異較小),則混沌變量集合{zi}有n個差異軌跡,設j0表示迭代常數。
(2) 開始第一次載波。在第i個優化變量內,使用式(1)把已經確定的n個混沌變量zi,m引入,使優化變量轉換為混沌變量:
xi,m=ai+(bi-ai)zi,m
(2)
通過式(2)放大混沌變量的變化范圍,使變量取值范圍在對應的優化量中。
(3) 實現粗略搜索。使xi,m與xi(k)相等,k等于0,針對性能指標fi(k)實行計算,計算目標函數獲得fi(k)。
(4) 假如k小于M1,此時k與k+1相等,跳轉至步驟(3),否則就將第一次搜索停止。
(5) 依據式(3)開始第二次載波:
(3)


(7) 假如k′小于M1,此時k′與k′+1相等,跳轉至步驟(6)。
(8) 假如j小于M2,此時j與j+1相等,跳轉至步驟(6),否則第二次搜索停止,將最優解輸出。
由以上步驟能夠看出,本文方法對混沌算法做出3點改進:把常見的混沌算法內的調節系數變更成關聯迭代次數;步驟中增加越界處理;改進原有載波方法。通過以上步驟實現混沌優化算法的改進,提升模型尋優能力。
式(4)為訓練數據點集:
(4)
其中,x1與yi分別為輸入向量與輸出值,1代表樣本數量。支持向量機回歸就是把數據x1通過非線性映射φ至高維特征空間F中,同時展開線性回歸:
y=f(x)=wT*φ(x)+b
(5)
其中,b與w分別表示偏置項與超平面權重向量。
本文基于支持向量機[11]的就業率預測模型的回歸過程中使用ε不敏感損失函數,使用式(6)描述ε:

(6)
(7)

(8)
所有大于0的常數都使用C表示,為了實現模型訓練誤差與復雜度的平衡,一旦超出ε的樣本,設置懲罰參數。將式(7)和式(8)轉化為對偶問題:
(9)
約束條件為

(10)

(11)
其中,p表示徑向基核函數寬度。求解式(9)與式(10),式(12)為
(12)
經過以上支持向量機回歸函數獲知徑向基核函數寬度與懲罰參數決定支持向量機的預測性能,所以使用混沌粒子群算法對支持向量機的參數實行優化,圖1為優化流程。初始化粒子群參數,為獲得支持向量機參數,反編碼粒子,對每個粒子的適應度實行計算,對于個體和全集合的最優值實行更新,判斷是否需滿足終止條件。如果不滿足實行混沌操作粒子,并且更新粒子的位置和速度,重新計算粒子的適應度值;如果符合終止條件就反編碼全局最優解獲得支持向量機參數。

圖1 支持向量機參數優化流程
(1) 數據預處理
綜上所述,喉源性咳嗽患者的局部病理改變與中醫辨證分型有關,通過對患者局部病理改變進行相應檢查,可從整體辨證認識患者病情,有利于為喉源性咳嗽的中醫辨證論治提供可靠指導意見。
預測就業率時受到多種因素影響,數據之間存在較大差距,隨機性與非線性較強,0~1之間的數據最能導致支持向量機敏感,先對數據歸一化處理再輸入到支持向量機中訓練:
(13)
歸一化處理預測結果,再將預測結果恢復成真實值:
X=X′(Xmax-Xmin)+Xmin
(14)
其中,X表示原始數據,Xmax表示就業率的極大值,Xmin表示就業率的極小值。
(2) 模型的輸入與輸出結構
使用函數關系表示混沌理論相空間的某個相點xi向下個相點xi+1演變:
f∶xi+1=f(xi)
(15)
相點的前m-1個分量均為已經獲知的數據,為使模型更簡潔,構建一個預測器(映射F),也就是xi+1=f(xi)。韋氏數據具有動力學行為,將非線性映射F與支持向量機擬合,相空間飽和嵌入維數作為輸入節點的數目,僅有一個輸出節點。
(3) 為提升基于支持向量機的就業率預測模型的泛化推理能力,模型訓練樣本為預測中心的k個鄰近點,依據歐式距離標準獲得鄰近相點:
(16)
其中,Xr與Xri分別表示預測中心相點與Xr的第i個鄰近相點。
(4) 模型預測步驟
基于混沌理論與支持向量機的就業率預測如下:
步驟1 預處理原始數據;
步驟2 構建基于支持向量機的就業率預測模型輸入向量與輸出變量,選取樣本時使用K鄰近算法,構建樣本訓練集;
步驟3 訓練模型:使用混沌粒子優化基于支持向量機的就業率預測模型參數,訓練數據樣本集;
步驟4 實現預測:在步驟3訓練獲得的改進支持向量機就業率預測模型中代入預測中心點數據,獲得就業率預測值。
以某高校作為研究對象,收集該校歷屆畢業生就業數據。該大學是我國著名211重點大學,近十年就業率保持在89%以上。在計算機中搭建測試平臺,在該測試平臺中同時使用同類預測模型:灰色預測模型(對比方法1)和立體數據預測模型(對比方法2)作為實驗對照,這2個對照方法分別為參考文獻[5]與參考文獻[6]中的方法。
為驗證混沌算法的尋優情況,使用Spher測試函數開展測試實驗,比較3種方法的尋優搜索變化情況,結果見圖2。從圖2中能夠看出,Spher測試函數實驗中,本文方法展現出更加優異的全局搜索能力與更加快速的收斂速度,這主要是由于本文方法混沌優化過程中使用越界處理,具有精搜索能力,能夠實現快速尋優,因此在函數測試中具有更加優異的效果。從圖2中能夠明顯看出,2種對比方法收斂速度較慢且尋優能力較差,在函數測試中不具備優勢。

圖2 函數最優值變化趨勢
使用2000年至2010年這10年的就業率數據作為訓練樣本對模型訓練,訓練對比結果見圖3。從圖3中能夠看出,本文方法訓練樣本時,可以迅速收斂,迭代次數小于100次,訓練曲線趨于平穩,說明本文方法具有較好的樣本訓練效果,以及較低模型計算復雜度。

圖3 支持向量機模型訓練過程
訓練過程時間消耗對比結果見圖4。從圖4中能夠看出,本文方法只需要較短時間就能完成模型訓練,說明本文方法效率較高。2種對比方法所耗費的馴良時間較長,影響預測效率。

圖4 訓練時間消耗對比
收集研究對象近十年的就業率,使用本文方法對實驗對象的就業率實行預測,將預測結果與實際對比,驗證預測結果與實際值之間的均方誤差與平均百分比誤差,同時將本文方法與單獨使用混沌理論預測就業率方法以及單獨使用支持向量機的就業率預測方法相對比,結果見圖5。從圖5中能夠看出,單純使用混沌理論或者單純使用支持向量機對研究對象畢業生就業率均方誤差與平均百分比誤差均較高,說明單獨使用一種方法預測畢業生就業率存在不夠精準的情況,而本文方法綜合混沌理論與支持向量機的優點對高校畢業生就業率實行預測,誤差指標均較低,由此可以看出,使用本文方法預測就業率時具有較高的準確率。

(a) 均方誤差
預測高校畢業生就業率,能夠有利于高校制定教學管理計劃與教學任務,是目前高校廣泛研究的內容。為了降低高校畢業生的就業率預測誤差,本文研究基于混沌理論與支持向量機的就業率預測方法。考慮到就業率預測的非線性特點,運用混沌理論優化支持向量機參數,在解空間搜索,跳出局部最優,實現高效率搜索。在支持向量機中訓練數據集,訓練模型中代入預測中心點數據實現最終就業率預測。將某高校歷屆畢業生數據作為研究對象開展實驗,與同類方法相比,本文方法能夠實現快速收斂與快速尋優,且樣本訓練時間較快。經過驗證,本文方法在預測高校畢業生就業率時具有較高精度。