周示瑩、付佳
(上海市浦東新區社會統計調查中心,上海 200136)
浦東新區就業相關大數據的數據源主要可分為政府數據和社會數據兩大類。政府數據一是政府數據平臺,指政府部門建立的包括所有工作對象相關數據的大型數據庫;二是部門統計數據,指政府部門經過一定統計方式處理、篩選、匯總的經濟社會發展重要指標的數據。社會數據則主要是各類互聯網站所記錄的與浦東就業相關的數據。
應用大數據的處理方法從浦東新區就業相關大數據的數據源中提取能夠反映就業形勢各方面的指標數據,從而形成監測就業形勢的指標體系。
根據就業統計理論和實踐,就業形勢主要包括勞動力資源狀況、就業人口狀況、失業人口狀況和就業市場供需狀況四個方面。本文根據這四個方面建立指標體系的基本框架,從相關大數據的數據源中提取相應主要指標(圖1)。
1.勞動力資源狀況:勞動力資源狀況指的是勞動年齡段人口情況。勞動年齡段人口是就業、失業人口的基本來源,是影響就業市場供需狀況的基礎因素。
通過浦東新區公安分局的實有人口信息平臺,可以提取勞動年齡段人口總數、勞動年齡段人口結構(包括性別、年齡、戶籍、外來勞動力的來滬時間等)指標,從而監測實際居住在浦東新區的勞動力資源狀況。
2.就業人口狀況:就業人口狀況指的是當前處于就業狀態的人口狀況,它直接反映著就業形勢。
通過浦東新區統計局和浦東新區人力資源和社會保障局數據平臺及統計調查可提取全面監測就業人口狀況的指標。
通過統計局的勞動工資統計直報平臺,可以提取規模以上企業就業崗位總量、就業崗位分行業結構、就業崗位收入結構等指標,從而能監測在浦東大中企業就業人口狀況。
通過統計局的勞動力調查,可以推算常住人口中就業人口總數、比例、結構(性別、年齡、學歷、戶籍、行職業分布、收入)等指標,從而能監測浦東常住人口就業狀況。
通過人保局的社會保險金繳納信息系統和企業招退工及勞動合同備案登記系統,可以提取繳納社會保險金或簽訂勞動合同的就業人口總量、就業人口基本結構(性別、年齡、戶籍)、企業新增招工人數等指標。通過以上指標能監測大部分浦東新區就業人口總量情況。
通過人保局的勞動保障信息系統,可以提取浦東戶籍就業人口總量、就業人口結構(性別、年齡、學歷等)指標,從而能監測浦東戶籍就業人口狀況。
通過人保局的應屆畢業生就業信息系統可以提取浦東戶籍應屆畢業生就業人數、結構(性別、學歷、就業去向等)指標,從而能監測應屆畢業生就業情況。
3.失業人口狀況:失業人口狀況是指當前處于失業狀態的人口狀況,它直接反映著失業情況。
通過浦東新區統計局和浦東新區人力資源和社會保障局數據平臺及統計調查,再加上互聯網數據,可提取全面監測失業人口狀況的指標。
通過人保局勞動保障信息系統,可以提取浦東戶籍登記失業人數、領取失業保險金人數以及浦東戶籍失業人口總量、結構(性別、年齡、學歷、失業時間等)指標,從而監測浦東戶籍失業人口狀況。
通過人保局企業招退工與勞動合同備案登記系統,可以提取企業裁員總數、裁員行業結構指標,從而監測企業裁員狀況。
通過人保局應屆畢業生就業信息系統,可以提取畢業后未找到工作的浦東戶籍失業應屆畢業生人數、結構(性別、學歷等)指標。
通過統計局勞動力調查,可以推算常住人口失業率、常住人口中失業人口總量、結構(性別、年齡、戶籍、學歷、失業前行職業等、失業時間等)指標,從而監測浦東常住人口失業狀況。
通過互聯網數據,主要是通過對各類社交網站上反映個人就業的信息進行語義分析,從中提取能判定處于失業狀態且居住在浦東的人數及其基本結構(年齡、性別、學歷以及原工作行職業)。這也是監測浦東新區失業人口狀況的重要參考數據。
4.就業市場供需狀況:就業市場供需狀況指的是就業市場上企業招聘需求和求職者求職需求狀況。該狀況反映了影響就業形勢的勞動力供求因素。
通過浦東新區人力資源和社會保障局的數據平臺以及互聯網數據可提取全面監測就業市場供需狀況的指標。
通過人保局12303招聘網站和公益性職業介紹所信息系統,可以提取其中發布和登記的企業招聘崗位總數、結構(行職業、薪酬、年齡要求、學歷及專業技能要求等)指標、求職者總數、結構(性別、年齡、薪酬意向、崗位意向等)以及求職者投遞簡歷總數、結構(簡歷投向的企業行業及崗位分布)指標。
通過互聯網數據,可以提取在各大求職網站上發布和登記的浦東企業招聘崗位總數和結構、求職者總數和結構,求職者投遞簡歷總數和結構指標;從各類社交網站的信息中還可以提取浦東企業招聘崗位數和結構、求職者數量和結構指標;從各大搜索引擎中還可以提取浦東新區就業崗位、招聘信息的搜索量指標。

圖1 應用大數據建立就業形勢監測指標體系示意圖
通過挖掘就業相關大數據,可以提取出指標體系中各指標的不同時間維度的數據,從而能實現對浦東就業形勢的動態監測。在實際應用中,將以月度、季度和年度為主要的時間維度。
通過對上述指標數據的觀測,還可以進一步探索這些指標之間的相互關系,并相互校正,從而進一步提高指標數據的精度,使指標體系能更準確地監測浦東新區就業形勢。
而隨著浦東就業相關大數據的進一步擴展,可以根據大數據的發展情況,同時也根據政府關注的重點問題,不斷擴充、完善監測浦東就業形勢的指標體系。
應用大數據分析處理方法,在就業相關大數據中篩選出一組與反映就業形勢關鍵指標最密切相關的影響指標,用這組指標構建擬合和預測關鍵指標的模型,使這組指標成為 “風向標”。通過觀測“風向標”來預測關鍵指標的未來走勢,從而建立起就業形勢預警體系。
用于建立預警體系的大數據一是直接反映就業形勢的大數據,這些數據與關鍵指標之間存在互相影響,因此應作為篩選的對象;二是反映影響就業因素的大數據。主要包括:反映浦東經濟社會發展各方面情況的各類政府數據平臺數據和部門統計數據(反映經濟形勢、社會形勢、人民生活、政府政策、信心因素等的各類數據和統計指標)以及互聯網數據(主要指各類社交網站的信息關鍵詞和各類搜索引擎的搜索關鍵詞)等。
1.選取關鍵指標。首先選取反映就業形勢的關鍵指標。關鍵指標可選取最能反映浦東新區就業、失業以及就業市場供需總體情況的指標,也可選取與當前社會熱點或政府工作重點相關的指標。
2.數據整理和處理。其次要對關鍵指標數據和相關大數據進行整理和處理。根據時間維度將關鍵指標數據和相關大數據整理成月度、季度和年度數據,從而便于探索對應的相關關系。隨后應用大數據的分析處理方法對數據進行處理,分別篩選出與關鍵指標月度、季度和年度數據密切相關的指標。
3.模型構建和驗證。運用篩選出的指標,構建擬合關鍵指標的模型,并用歷史數據進行驗證。通過模型來探索篩選出指標對關鍵指標的具體影響。然后再建立篩選出指標的時間序列模型,用時間序列模型來預測篩選出指標的未來走勢,根據其未來走勢運用擬合模型擬合關鍵指標走勢,從而實現對關鍵指標的預測,并也用歷史數據進行驗證。
4.應用與改進。對驗證證明效果良好的模型,即可用來建立關鍵指標的短期(月度)、中期(季度)和長期(年度)預警體系。通過對預警體系中各指標的觀測,來預測關鍵指標的短期、中期和長期走勢。在實際應用中,不斷檢驗預警體系的效果,并經常應用最新的大數據對指標和模型進行改進,從而不斷改進預測的效果。

圖2 應用大數據建立就業形勢預警體系示意圖
通過對就業形勢監測指標體系中的相關指標數據的觀測,可以對就業形勢的重大變動以及社會經濟熱點問題對就業形勢的影響進行監測,從而為政府更有針對性的決策提供數據支持。
1.監測年末年初就業形勢變化。每年年末年初都是企業集中招退工的時期,就業形勢會發生較大波動。可以通過觀測年末年初數月的企業就業崗位,常住人口和戶籍人口中的就業、失業人口,互聯網信息反映的失業人口,企業裁員和新增員工,企業招聘和求職者需求等指標數據的變動情況,來監測年末年初就業形勢變化的具體情況。
2.監測應屆畢業生就業形勢。每年應屆畢業生就業都是社會廣泛關注的問題。可以通過觀測浦東戶籍應屆畢業生就業狀況,企業招聘應屆畢業生狀況、應屆畢業生求職需求等指標數據來監測當年應屆畢業生就業形勢,并通過分析這些數據來準確判斷形勢,為新區政府采取相應對策提供數據支持。
3.監測重大項目和重要決策對就業形勢的影響。經濟建設和社會發展的重大項目、黨和政府做出的重要決策(重要的改革措施、政策及法規等)都對就業形勢有著重要影響。可以通過觀測相關行業、相關地區企業就業崗位狀況、企業新增員工和裁員狀況、企業招聘狀況以及相關類別、相關地區常住人口和戶籍人口就業和失業狀況、求職者求職狀況等指標數據的變動情況,來監測重大項目和重要決策對就業形勢的具體影響。
4.監測全國和世界經濟波動對就業形勢的影響。浦東新區與國內外經濟聯系緊密,因此全國和世界經濟形勢的波動也必將對浦東的就業形勢產生影響。可以通過觀測和分析經濟波動前后就業狀況、失業狀況及就業市場供需狀況各項指標數據的變動情況,來全面評估經濟波動對浦東就業形勢的影響。
通過觀測就業預警體系中的“風向標”指標,能夠對反映失業狀況、就業狀況和就業市場供需狀況的關鍵指標進行預測,從而對就業形勢的變動及時發布預警,為政府及時采取相應對策提供數據支持。
1.對失業狀況實現預警。將常住人口失業率和浦東戶籍人口失業率作為關鍵指標,從就業相關大數據中篩選出與這兩個指標密切相關的若干指標來建立模型,作為“風向標”對失業率進行擬合和預測。
2.對就業狀況實現預警。將各類企業就業崗位數量作為關鍵指標,從就業相關大數據中篩選出密切相關的若干指標來建立模型,作為“風向標”對就業崗位數量進行擬合和預測。
3.對就業市場供需狀況實現預警。將各類別招聘崗位數與各類別求職者數量、求職者各類求職意向數量等作為關鍵指標,從就業相關大數據中篩選出密切相關的若干指標來建立模型,作為“風向標”對就業市場供需數量進行擬合和預測。
通過對就業形勢監測預警體系中大數據的深入挖掘,可以找出各種數據分布規律和數據之間的聯系,從而能為政府提高管理水平提供數據支持。
1.對失業人群進行細分,幫助提高幫扶工作效率。對掌握的失業人員數據進行聚類分析,并結合就業市場供需數據、政府幫扶記錄等,對失業人員進行細分,總結出各類失業人員特點,從而可以為政府促進就業部門對失業人員采取針對性幫扶措施提供數據支持。
2.找出隱性就業者,避免社會保障資源被濫用。將登記失業數據、領取失業保險金數據、領取低保金數據與勞動合同備案數據、社會保障金繳納數據、勞動者求職信息、社交網站信息等進行比對,分析其中互相矛盾的記錄,可以找出隱性就業的勞動者,從而能為有關部門鑒別冒領失業金或低保金人員,避免社會保障資源被濫用提供數據支持。
3.根據政府部門的需要,還可開發出更多數據應用來為提高管理水平服務。
[1] [英] 維克托·邁爾-舍恩伯格,[英] 肯尼思·庫克耶 .《大數據時代》,浙江人民出版社, 2013年
[2] 郭曉科主編《大數據》,清華大學出版社, 2013年
[3] 程開明,陳龍.大數據時代的統計挑戰與應對,中國統計,2013(8)
[4] 楊皓,肖云,陳朗,黃婧.我國就業的影響因素分析,數學的實踐與認識,第40卷第15期