曾莉,蔡毓霞,張建桃,韋婷婷
(華南農業大學數學與信息學院,廣州510642)
在當今大數據時代,任何一家用人單位都離不開信息技術和專業化管理,用人單位對既懂計算機技術又兼具經濟管理知識的復合型人才需求越來越強烈。因此,信息管理與信息系統(以下簡稱信管)這一多學科交叉融合的專業也應運而生。盡管信管有著多學科交叉融合的專業特色,社會對于這樣復合型人才的需求也很強烈,但信管畢業生的就業情況卻不容樂觀:信管本科畢業生的就業能力已經難以滿足當前企業的用人需求,就業現狀不理想[1]。
在歐美,諸多大學以iSchool(Information Schools movement)運動為契機進行與信息管理與信息系統專業相關的學科整合和創建,并在此基礎上對信管專業的課程體系進行改革和建設,實現面向實際職位職責與技能的培養,提高學生學習的自主性,以此適應信息社會的要求。司莉等人[2]在以美國、英國、加拿大權威網站上的招聘信息為研究對象的網絡調研中,發現招聘者對于基本職業素養的要求最重視的是溝通能力,其次是團隊協作能力;對于專業技能的要求主要是信息技術、信息組織與利用和信息管理/系統三大類的要求。李玲等人[3]對信息管理與信息系統專業的招聘要求信息進行研究,發現招聘要求中對于數據庫運用、編程語言、溝通技能和工作經驗都有普遍的要求。因此,高校應該優化學科體系、加強實踐教學環節建設和完善就業指導體系,為人才培養提供決策支持[4]。
本文結合網絡招聘數據,通過采用當下比較先進的研究方法——文本挖掘[5],對信管專業的招聘信息進行研究分析,為信管專業的人才培養提出有針對性的建議。本文的研究思路如圖1 所示,總體上對信管專業人才培養模式研究的流程可以概括為以下三個階段:數據采集、數據預處理以及數據分析與可視化。
文本挖掘是從非結構化文本數據中提取有意義信息的算法[6]?;具^程是將文本文檔中包含的關鍵字(或術語)轉換為document-keyword 矩陣,這個特別的關鍵字結構稱為關鍵字向量。基于文檔關鍵字矩陣,應用了聚類、潛在語義分析、情感分析等多種數據挖掘領域[7-8]。在近幾年,文本挖掘被普遍應用于數據分析領域,文本挖掘的好處在于能夠獲得文本中潛在的大量由于各種原因而無法在經典結構化數據格式中獲得的有價值信息[9]。

圖1 技術路線圖
本文首先以“信息管理與信息系統”為關鍵詞,利用八爪魚爬蟲軟件制定一定的爬取規則,在前程無憂招聘網站上爬取相關招聘數據共574 條,觀察崗位類型及特征,結合信管專業的培養目標,在前程無憂上繼續爬取相關數據共計52055 條,其中爬取的字段包括:崗位要求、工作地點、經驗要求以及用人單位所屬行業等,經數據清洗后剩余32443 條有效數據。
(1)構建自定義詞典:在進行中文分詞的過程中,由于某一個詞具備的情感或語義在不同的語言情境下表達出的含義不一定相同,可能會有歧義,通過構建自定義詞典可以較有效地解決這個問題,將一些不應該被分開的字詞組成一個完整的詞匯表(即自定義詞典),根據不同的設計目的,不斷完善自定義詞典,此時就會呈現出較理想的分詞效果,從而提高后續文本分析結果的質量。
(2)構建停用詞表:文本中包含大量無實際意義的詞語,如語氣詞、助詞、介詞、量詞和標點符號等,這些詞語對于文本分析來說無實際意義但又會加大分析難度,損耗分析資源,因此需將文本中無實際意義的高頻詞予以過濾。
(3)中文文本分詞:中文文本是由連續的字符串組成文本中的語句信息,為了提取其中隱含的信息和特征項,需要把語句按照一定的規則劃分成一個一個的獨立詞語。此處理過程是建立在構建自定義詞典和過濾停用詞的基礎上來完成,為了達到最準確的分詞效果,可通過觀察分詞結果不斷完善自定義詞典和停用詞表。
Word2Vec 模型是一種簡單化的神經網絡,是由Google 在2013 年提出的一種將詞語表示成數值向量的工具[10-11]。Word2Vec 工具將文本中的每一個詞以向量的形式表示出來,詞向量即詞的模型,是文本的基本結構,其憑借良好的性能受到自然語言處理研究者們的青睞。將詞向量嵌入一個多維空間,通過訓練這些以詞向量形式為表現形式的文本,來計算并獲得文本中詞語間的相似度,對提取關鍵能力詞匯有重要作用。Word2Vec 包括兩個模型:CBOW 模型和Skipgram 模型。這兩個模型的不同之處在于:CBOW 模型是通過輸入某個詞語的上下文,來預測出這個特定詞語;而Skip-gram 模型是通過輸入一個特定詞來預測其上下文,由于Skip-gram 模型訓練準確度相比CBOW模型更高,因此,本文使用Skip-gram 模型進行研究。
基于分詞結果,如何提取出文本的特征并做特定的分析是文本挖掘的關鍵。Word2Vec 模型可以被用來計算語義相似度,尋找相似詞。在引用Word2Vec 模型時,有兩個關鍵的參數,即size 和window,其中size是詞向量的維度,默認值為100,參數范圍一般在50-300 之間,而window 即詞向量上下文的最大距離,在上文中標記為c,參數范圍一般在5-20 之間。本研究通過對此模型進行調參的過程以及對該參數下詞聚類結果的觀察來確定該參數的最優值,最終確定參數最優值為size=50,window=5,模型訓練效果較好,詞語最大相似度均達到0.9 以上。
運用Word2Vec 模型提取文本特征后,尋找特定能力詞匯的相似詞,并使用NLTK(Natural Language Toolkit)算法統計這些詞語的詞頻,利用Python 中封裝的wordcloud 工具包進行可視化詞云展現[12]如圖3 所示。

圖3 編程能力需求詞云圖
由圖3 可以看出,目前用人單位對信管專業人才在技術方面的要求主要集中在數據庫以及Java、前端開發等;根據詞頻統計結果,其中與數據庫語言相關的詞匯占比31.48%,后臺開發編程語言中Java 占比多達37.63%,前端開發中涉及到多種框架的運用,由表1 可以看出,對信管專業學生除了專業知識上的要求,還在溝通能力、工作經驗、團隊合作能力、責任感、學習能力、邏輯思維能力、表達能力、抗壓能力等進行多方位考察[13]。

表1 綜合能力相關詞語的詞頻統計

圖4 其他能力需求詞云圖
(1)對用人單位性質、規模、行業的統計分析
由圖5 可知,對信管專業人才的招聘主要集中在民營單位(占70.36%),其次是外資企業(占9.32%)、上市公司(6.01%)、合資企業(5.90%)、國企(5.70%),其余性質的用人單位占比都不到3%。由此可見,相比之下,民營單位對信管專業人才的需求更大。

圖5 用人單位性質分析
從用人單位所屬行業來看,由圖6 可知,在劃分的13 個所屬行業中,占據大多數的為IT/互聯網行業(占43.50%),其次是通信/電子行業(占14.40%),貿易/批發/零售/快消行業(占6.83%),房地產/建筑行業(占5.72%),制造行業(占5.62%),其余8 個行業占比不到24%,由此可見,信管專業人才可以憑借自己的學術知識和各項技能在IT/互聯網和通信/電子行業中尋找更多就業機會。

圖6 用人單位所屬行業分析
從圖7 用人單位規模分析的結果來看,50-150 人規模的用人單位占了32.91%,其次是150-500 人規模用人單位(占24.13%)和少于50 人規模的用人單位(占19.73%),500-1000 人規模用人單位(占10.46%),1000-5000 人規模用人單位(占9.03%),其余大規模用人單位占比不到4%,由此可知,在國家對創業和各種小型企業的發展的鼓勵和支持下,小規模的用人單位對人才的需求較大,可以為信管專業人才提供更多的就業機會。

圖7 用人單位規模分析
(2)工作地點統計結果分析
在工作地點上,由于所采集的數據中包含了各個地區的招聘信息,此處取排名前十的工作地點做具體分析。由圖8 可見,工作地點排名前十的分別是:上海、深圳、廣州、北京、杭州、武漢、成都、南京、蘇州以及長沙。信管專業人才的招聘工作地點更加集中在北上廣深,符合一線城市招聘需求量更大的特點[3]。

圖8 工作地點分析
(3)經驗要求統計結果分析
由圖9 可見,在工作經驗要求上,占比最大的是無工作經驗要求(占29.95%),其次是要求有3 年的工作經驗(占23.16%)、2 年的工作經驗(占17.32%),要求有1 年工作經驗的和5 年工作經驗的相差不大(分別是13.20%和13.12%),要求有8 年和10 年工作經驗的占比不到3.26%。由此可見,用人單位對信管專業人才在工作經驗要求上還是比較嚴格的,信管專業的學生需不斷實踐與充實自身的工作經歷,在實踐中提升自己的能力,積累經驗。

圖9 經驗要求分析
Word2Vec 模型分析可知,大多數崗位對信管專業學生有編程能力上的要求,如Java、Python、C 語言、PHP、數據庫等,由此可知,提升信管專業人才的編程能力有利于提高自身就業競爭力以促進就業。應注重學生編程能力的培養,由于信息管理與信息系統專業多學科交叉融合的特點,若要涵蓋各個所有學科的內容,則在有限時間內很難保證學生的深入學習,因此,可以設置學習深度為遞進的編程選修專業課,讓學生能夠根據自己興趣和就業的方向選擇相應的課程去提高編程能力,掌握硬技能。
在詞頻統計結果中發現,用人單位不單需要信管專業學生有專業上的“硬技能”,同時也對溝通能力、執行力、抗壓能力、學習能力、思考能力、邏輯思維能力等素質能力有一定的要求。因此,學校應重視課程設置中對學生素質能力的培養和提高,通過改變教學方式,如采用案例模擬、辯論會、小組展示以及學科競賽等啟發式授課方法,激發學生學習興趣的同時也培養了學生的綜合素質能力。
從經驗要求統計結果可知,70%的用人單位對工作經驗有一定的要求,說明企業還是比較在意求職者的實踐經驗。因此可以在增加實踐課程的同時積極探究校企合作的方式,為學生爭取更多的企業實踐機會,重點定位在北上廣深等一線城市的IT/互聯網和通信/電子行業,為學生提供從實踐中提升各項能力的機會,讓學生可以擁有更多的機會進入企業鍛煉,將課堂上的理論知識應用到實踐中。