于文華
(上海建橋學院 外國語學院, 上海 201306)
創業就業指導[1]可以定義為一個程序,通過這個程序,學者們了解自己的工作,創業就業機會,并為這些機會做好準備。創業就業指導是幫助學者認識和了解自己和工作世界,從而做出職業、教育和生活決策的方法。
職業指導是一個最終的過程,不管你是否熟悉,事實上,這是一個在你出生時就在進行的過程。職業選擇是每個學生都會面臨的人生中重要決定性的階段。在做出任何決定之前,學生必須充分考慮許多內在或外在因素[2]。這些影響擇業決策的因素主要包括:學生的成績、個性、才干、技能、偏好、科目、職業興趣和父母的經濟狀況等。然而決定職業是學生離開學校時面臨的一項困難任務。許多學生在選擇職業道路時,沒有得到有關職業選擇的詳細信息和專業服務機構的適當建議,一旦做出不恰當的職業選擇肯定會影響他們未來的計劃和職業生涯的幸福感。
因此,協助學生就業指導成為一種新的趨勢。隨著當前信息、大數據、人工智能等新興技術的日趨成熟,可以通過將上述技術應用于創業就業指導,努力促進學生獲得職業信息,并獲得充分、全面的創業就業指導服務。針對學生創業就業指導服務,國內外學者進行了充分研究,并取得了許多成果。李燕燕[3]基于Hibernate框架和Struts框架的整合設計,構建了“互聯網+”下高校創業就業指導平臺。李鳳春等[4]探討了大數據信息背景下高校就業創業信息網絡平臺的有效對策。Nooshin Pordelan等[5]提出了一種利用在線干預提供職業咨詢和指導方法,幫助學生提高對自身條件和現有職業狀況的認識情況。然而大量的職業研究關注的是職業成長和職業選擇,而不是職業指導和咨詢的過程和效果。
為解決上述問題,本文提出了創業就業指導系統,通過對用戶需求進行分析,利用數據挖掘、智能推薦算法、專家系統對用戶進行針對性的職業指導。
本文提出的創業就業指導系統如圖1所示。

圖1 數據挖掘總體結構
系統共包含4個子系統,分別定義為數據庫系統、數據挖掘系統、推薦系統、專家系統。
系統中對于任何級別的就業指導,如初級、中級、高級,學者首先需要進入系統并選擇指導級別,然后在系統數據庫中搜索匹配的指導,供學者查詢。如果系統在數據庫中找到了指導信息,那么系統會將該指導信息提供給學者;如果沒有在系統數據庫中找到指導信息,那么系統將針對特定領域的問題進行數據挖掘并進行結果推薦,最后將問題說明交給領域專家。領域專家將為新的指導問題識別并添加知識。新的規則和事實將被添加到數據庫中。在此之后,系統將在數據庫中再次搜索,找到新的解決方案,為學者的查詢提供類似的指導。
數據庫系統主要用來對系統中涉及的多類數據源進行管理,如用戶信息、單位信息、招聘信息等多個數據源。需要注意的是,不同數據源之間必須解決互操作問題,即提供一組訪問數據源和收集所有所需數據的功能,這樣可進一步對不同數據源進行關聯分析。數據庫系統主要采用先進的數據管理技術,例如非關系SQL[6]和關系系統等。此外,數據庫系統需提供一組讀/寫數據的基本API,以便管理人員錄入或更新數據。
數據挖掘[7]可以定義為數據庫挖掘或數據庫中的知識發現,其目的是從大數據集中發現有用的信息。數據挖掘是從大型數據庫中提取未知信息。這是一項極具潛力的新技術,有助于將注意力集中在數據倉庫中最重要的業務流程信息上。有時數據挖掘也被稱為知識發現。知識發現是從不同角度分析數據并將其簡化為有意義和有用信息的方法。數據挖掘已經被成功地應用到許多現實世界中需要解決的問題上。因此,數據挖掘已經成為一種商業智能工具,具有巨大的發展前景。盡管數據挖掘技術有很多種,但在教育領域所做的工作大多屬于分類、聚類、可視化、關聯分析等。
建立知識的數據挖掘過程的總體結構,如圖2所示。

圖2 數據挖掘總體結構
由圖2可知,目標數據是從原始數據庫中經查詢選擇的結果。在選擇目標數據后,利用數據處理和轉換后形成模型可識別的標準數據,并經過數據挖掘和估計,將數據轉化為知識。
推薦系統[8]可以看作是一種軟件系統,它分析有關項目、用戶以及他們之間的交互作用的信息,以便通過預測用戶對特定項目的興趣來向用戶推薦最合適的項目。推薦系統在不同領域,特別是在電子商務領域,已經證明了它的有效性。
本系統的目的是返回最符合用戶需求的排名靠前的服務信息。推薦系統運用本文提出的改進的基于用戶的協同過濾推薦算法,并通過過濾、評分、排序和評估四個步驟來實現。過濾將排除與用戶需求不匹配的服務。評分為每個服務分配一個數值。排序根據篩選和評分結果返回服務的有序列表。評估使用標準的信息檢索指標來評估推薦的服務和推薦算法。
專家系統[9]可以描述為一個計算機程序,它利用人工智能來解決特定領域內與計算機有關的問題,而這些問題通常是人們使用所必需的。專家系統最重要的目標是通過構造顯示智能活動的計算機程序來感知智能,企業如何通過專家系統進行具有代表性的推理,這是一個被廣泛接受的特征。專家系統是在系統中執行的一種應用程序,它可以在需要時進行回憶,并以專家的身份進行工作,并以專家的身份為學者提供指導,設計專家系統的主要要求之一是數據庫和實體的知識,它研究和理解數據庫以及人類專家是如何做出決策的,并將規則解釋成計算機能夠識別并完成任務的術語。專家系統的核心思想是當學者從一個系統中尋找職業指導時,給他們一個專業的建議。
專家系統的總體結構,如圖3所示。

圖3 專家系統總體結構
專家系統一般有3種主要機制,可劃分為知識庫、推理機和用戶,這些知識基本上包含了推理機用來描述包裝的領域知識。一般來說,知識是從人類的輸出中通過解釋而獲得的,這種知識往往以IF-THEN規則的形式表現出來。教育領域是應用上述技術的一個極其活躍和要求極高的領域。專家系統從數據庫中檢索學生查詢的創業就業信息,并將查詢的結果發送到專家域,專家域將通過知識庫并推理,最終輸出結果為學生提供指導信息。
在基于用戶的協同過濾推薦系統中,用戶評分數據通常用用戶項目評分矩陣Rm·n來描述,其中m表示所有用戶的數量;n表示所有項目的數量。Rij是用戶i對j項的評分,表示用戶對該項的偏好程度。
在基于用戶的協同過濾推薦算法[10]中,最重要的一步是搜索目標用戶的鄰居。通常采用相似度作為衡量用戶興趣愛好相似度的手段,通過共同的用戶評分數據來衡量用戶的興趣愛好相似度。本文采用皮爾遜相關系數(PCC)反映用戶或項目的相似性,具體定義如式(1)。
(1)

進一步,假設Nt表示當前用戶t的鄰居集。則其對第i項的評分可以預測如式(2)。
(2)

然而傳統方法計算出的相似度值很高,僅僅是因為有限的評分非常接近。但事實上,這是不可靠的,因為用戶之間的興趣可能不相似。故在計算相似度時,不僅要考慮不同用戶評分的相似程度,還需考慮同時評分的項目數。因此,本文引入一個加權因子來調整傳統的相似度計算,定義如式(3)。
(3)
其中,k表示用戶u與用戶v共同評價的項目數;γ表示調整用戶相似度的預置閾值,主要由用戶項目評分矩陣的稀疏性決定。一般情況下,如果矩陣非常稀疏,兩個用戶共同評估的項目數相對較少,則閾值應設置得較小。由式(3)可知,如果k大于閾值γ,則不需要調整相似度。
此外,如果某用戶的評分與所有用戶對該項目的平均得分非常接近,則表明該用戶的評分準確率較高。這樣一來,如果對特殊需求(個別人員對一些如限定職業、或國內外出差等小眾需求)評分的貢獻就會降低,從而提高系統推薦的準確率。本文引入評估精度C(u)描述對用戶u評估的準確度,定義為式(4)。
(4)

綜上,將式(3)、式(4)中兩個權重因子進行加權平均作為最終用戶的相似權重。定義如式(5)。
W=S(u)×C(u)
(5)
利用式(5)對傳統基于用戶的協同過濾推薦算法中相似性方程(式(1))進行改進,有式(6)。
sim*(u,v)=W×sim(u,v)
(6)
本節設計了一個實驗場景來驗證所提創業就業指導系統的有效性。部分影響學生職業生涯決策的不同影響因素,如表1所示。

表1 部分影響學生職業生涯決策的不同影響因素
每個影響因素都有一個數值權重,該數值權重用于對不同學生的選擇因素進行評分。學生選取因素取值范圍在1至5之間,然后系統將這些因素匹配到系統數據庫中,向學生提供精確的指導。
進一步,本文提出的改進協同過濾算法與傳統的基于用戶的協同過濾算法(UBCF)的推薦性能對比結果,如圖4所示。
可以看出,由于改進了相似函數,不同數量學生的推薦準確率值明顯高于傳統的基于用戶的協同過濾算法。利用本文方法,使最終推薦結果更加合理有效。
本文提出了一個針對學生需求的創業就業指導系統。系統包含4個子系統,分別為數據庫系統、數據挖掘系統、推薦系統、專家系統。各子系統通過對用戶需求進行針對性分析,并根據學生偏好因素利用改進的協同過濾算法進行職業推薦。實驗環節驗證了本文所提創業就業指導系統的有效性。

圖4 不同算法對比結果