畢盛+納青青
近幾年,高校畢業生數量一直持續高位,畢業生就業工作數據量龐大,缺乏信息共享,傳統就業信息平臺已難滿足畢業生對就業工作的需求,就業大數據信息平臺的建設已刻不容緩。
云計算技術具有高效、可靠、高可擴展性和易用性的特征,被很多領域廣泛的使用。本文討論的內容是如何將云計算技術應用到就業大數據信息服務平臺中,從而高效率、高質量的做好就業服務工作。
Hadoop是由 Apache 開源組織提供的分布式系統基礎框架,能夠有效的解決海量數據分布存儲和分布計算,是云計算技術應用層面很好的解決方案。
一、高校就業大數據信息系統現狀
目前,各高校均建設了高校內部的畢業生就業大數據信息平臺,一定程度上滿足了畢業生就業服務的需要。但是這些系統存在以下幾方面問題:第一,系統側重畢業生和就業信息管理,或者只是學生管理信息系統的一部分,缺乏服務機制,無法實現學生、教師和用人單位的聯動。第二,系統資源利用率低,系統運行效率低、安全可靠性和可擴展性差,給學生數據安全帶來很大的隱患。第三,系統數據利用率低,多數集中在簡單的查詢,很難獲得有益的知識,提供決策服務。第四,系統缺乏個性化定制,很難適應當前就業工作不斷調整的需要。
隨著高校、畢業生和企業對就業服務的要求提高,現有的就業信息平臺已經不能適應就業工作多元化的增長和發展的需要,影響高校畢業生的就業效果,新型的就業大數據信息平臺的建設已成為破解就業工作難題的必要條件之一。
二、構建基于云計算的高校就業大數據信息服務平臺
云計算因其強大的計算和數據儲存的能力、可靠、安全的共享數據存儲中心、客戶端的設備配置沒有限制等特點已廣泛應用各行各業,并日益發展成熟。通過云計算技術建設畢業生就業信息平臺,整合和共享就業信息資源,為畢業生就業提供方便、快捷、高效的信息服務平臺,破解現有就業信息平臺存在的問題。
從研究現狀來看,云計算具有以下一特點:
一是強大的計算和數據儲存的能力。“云”能賦予用戶完成各類應用前所未有的計算能力,為用戶儲存和管理數據提供幾乎無限多的空間。服務器的日常維護也有云服務提供商來進行。
二是最可靠、最安全的共享數據存儲中心。通過云存儲,數據復制到多臺物理機器,避免因硬件崩潰或誤操作刪除的造成的數據的丟失或損壞。
三是客戶端的設備配置沒有限制。用戶在隨時隨地方便、快捷、安全的使用位于不同計算機、不同的操作系統的應用服務,從“云”中獲取個人的需求。
2.1 構建高校就業云服務平臺
根據提供服務資源的類型,云服務被分為三個類別:SaaS(軟件即服務)、PaaS(平臺即服務)、IaaS(基礎設施即服務)。
高校就業大數據信息云服務平臺采用 SaaS 模式,通過瀏覽器和移動終端將軟件作為云服務提供給所需用戶。用戶無需購買軟件和維護軟件,用戶根據業務需求購買相應的云服務,云服務提供商管理相關軟件并實施軟件的維護。這種方式大大降低用戶在軟件購買和維護上人力和物力的開支。高校就業信息云服務平臺自底向上分別是“云數據層”、“數據服務層”、“業務服務層”、“云服務層”和“應用層”,每層之間采用松耦合,提供相互訪問的接口,用戶不必關注層內部邏輯。
(1) 數據存儲層
高校信息服務平臺的數據主要包含學生數據、用人單位數據和高校相關數據,數據是作為平臺的基礎。為了提供便捷、高效、可靠的數據訪問,數據存儲層采用云存儲技術實現。
(2) 數據服務層
數據服務層建立專門進行云數據層訪問的接口程序,用戶通過 webservice 或者 API 進行加密數據的訪問,數據的具體存儲對用戶是透明的,這也有效的提高數據安全性,并且為數據的擴展提供基礎。
(3) 業務管理層
業務服務層包括高校信息服務平臺所有業務,具體包括應聘招聘、就業指導、畢業生困難幫扶、創業等服務內容,這些業務服務于政府、用人單位、高校、學生和社會等不用的用戶。由于就業工作隨著時間的推移會受到就業形勢、政策等很多因素影響,從而導致就業工作業務和用戶發生不斷變化,所以就業信息服務平臺業務服務層要具備高擴展性。基于以上的要求,我們構建了業務服務控制臺,業務服務被設計為可插拔式,每項業務可以被掛載在控制臺,或者從控制臺被卸載,也可以設定業務接口、執行業務升級操作等服務。
(4) 云服務層
云服務層將業務服務層的內容以應用接口的方式提供給應用層,提供的方式是為業務服務層建立 API 接口和webservice 接口。應用層可以通過編程的方式調用業務接口,實現業務訪問。
設定中文信息處理和語音識別接口,用戶可以通過輸入中文關鍵字或者語音調用業務,在應用層和業務層之間建立更加友好的數據傳送,也為移動終端用戶提供更加便捷的操作方式。
(5) 應用層
應用層直接面向實際用戶,實現就業信息云服務平臺不同類型的用戶圖形界面,從而能夠適應不同用戶的不同需求。用戶既可以通過個人電腦上的瀏覽器訪問獲得云服務、也可以使用智能移動終端的應用程序或者微信訪問云服務。
2.2 建立基于 Hadoop 的云數據存儲
高校就業大數據信息服務平臺需要大量的數據進行支持,而且數據逐年增加。利用云存儲技術主要解決快速、高效的處理海量數據,從而達到易擴展、低成本、易管理、高效和安全的設計原則。 Hadoop 軟件框架的HDFS(分布式文件系統)提供了具備高擴展性、高容錯性、高可靠性、高效等特點,并且可以部署在低廉的硬件上,從而降低成本。基于以上內容,高校就業服務平臺的數據存儲通過 HDFS 分布式存儲技術實現云存儲,Hadoop 的具體部署
2.3 建立基于 Hadoop 的數據服務
數據服務是就業大數據信息云服務平臺重要的業務,用戶需要了解學生年齡、學歷等數據分布,需要了解就業數據分布,需要了解用人單位人才需求分布,需要了解就業數據內部和外部存在的各種聯系。數據服務從海量數據的計算中獲得,利用云計算技術能夠高效、低成本的解決計算問題,Hadoop 為云計算提供了有效的解決方案,它提供了MapReduce 模型,這個模型解決了傳統并行計算在易編程性上的瓶頸,程序員可以更容易的開發分布式并行計算程序。MapReduce 同 HDFS 一樣采用一個主控節點和多個計算節點的架構。
將大規模數據集分成多個小數據集,然后這些數據集分給多個 map 節點進行并行處理產生中間結果,最后在 reduce階段對這些結果匯總,得到最終結果。
三、總結
通過對云計算基礎知識和 Hadoop 分布式云計算平臺的學習與研究,設計了基于云計算技術的高校就業大數據信息云服務平臺,本平臺采用五層體系架構,基于 SaaS 構建業務,以云服務方式提供給用戶,利用 Hadoop 分布式文件系統實現基礎數據云存儲,層與層之間利用 webservice 和 API 進行調用。最后,利用 Hadoop 的 MapReduce 云計算模型解決就業大數據信息服務平臺的數據服務。