鄧慈云,余國清
(湖南信息職業技術學院,長沙 410200)
時下,大數據已逐漸成為技術熱詞,對數據進行統計分析和可視化的工具也陸續問世。Python 語言由于其簡潔性、易讀性、可擴展性,以及具有豐富的標準庫,備受學術界眾多科研機構的關注與青睞。Pandas 是Python 的一個數據分析包,提供了大量快速便捷地處理數據的函數和方法。Pyecharts 是一款用于生成Echarts 圖表的類庫,可以通過圖形參數配置輕松繪制精美的圖表。而在社會經濟和信息技術飛速發展的同時,2021 年7 月20 日,中共中央、國務院印發《關于優化生育政策促進人口長期均衡發展的決定》,宣布實施三孩政策并配套實施積極生育支持措施。國內人口在持續增長的同時,卻也表現出人口老齡化速度變快、出生率斷崖式下降和男女性別比失衡等問題,一直引起社會各方的高度重視。
目前研究人口問題的相關文獻很多,但是對于人口普查數據進行可視化展示和分析探討的較少。鑒于此,本文以第七次人口普查數據為研究對象,選用Python 語言、Pandas 庫和Pyecharts 可視化工具對總人口數及增速、男女人口數及性別比例和城鎮鄉村人口分布等情況進行了直觀分析展示,以期為未來有關研究工作提供參考基礎。
本文主要選取國家第七次人口普查結果數據中的總人口、人口性別結構、人口年齡結構和人口出生率等作為主要研究對象。采用的數據來源于國家統計局的開源數據。在國家統計局官網(https://data.stats.gov.cn/index.htm)年度數據中人口類別獲取上述普查數據結果,并以csv 格式下載保存數據到本地。
采用Python 技術可視化分析的過程為:首先,利用Pandas 庫讀取csv 文件;然后,篩選和處理數據;最后,使用Pyecharts 庫對數據進行可視化。整個項目流程如圖1 所示。

圖1 項目流程圖Fig. 1 Flow chart of the project
本文使用總人口數、人口出生率、死亡率和自然增長率及人口年齡結構等數據信息,包含的數據字段有:年末總人口、男性和女性人口、城鎮和鄉村、人口出生率和0~14 歲人口等。數據完整性和數據質量均良好,只需刪除每個文件中表頭內容和多余的補充說明文字即可。利用Pandas 庫讀取csv 數據文件,因篇幅有限,僅介紹其中一個數據文件的讀取、篩選和處理。首先,利用方法read_csv()讀取csv文件。相關代碼如下:

從讀到的文件數據中,通過篩選及相關處理后才能獲得可以用于繪圖的數據。如篩選出年末總人口數后,將其轉換成列表,并去掉字段說明。因考慮到繪制的圖表便于用戶閱讀,故采取年份按從低到高排列。為配合這一設計,調用方法reverse()將年末總人口數列表中的元素反向排序,并將列表元素類型轉換成float。相關代碼如下:

本文繪制了男性、女性人口對比和城鎮、鄉村人口對比等6 張圖。為了呈現總人口數的變化和增長率的差異,繪制了雙坐標軸圖,將柱狀圖和折線圖組合在一起。研發代碼具體如下:

從性別結構看,男性人口高于女性人口,性別比都近似維持在105 左右(以女性為100),但這個數據已經逐漸在往好的方向轉變。其中,2012 年男性人口69 660 萬人,女性人口66 262 萬人,性別比為105.13;2021 年男性人口72 311 萬人,女性人口68 949萬人,性別比為104.88,如圖2 所示。

圖2 男性、女性人口對比Fig. 2 Proportion of male and female
從城鄉結構看,中國城鎮人口數量長期占據中國人口總數50%以上的比例,尤其自2017 年起占比達到60%以上,且逐年攀升。2021 年城鎮人口達到91 425 萬人,比上年末增加1 205 萬人,城鎮人口占總人口比重為64.72%,比上年末提高0.83 個百分點;鄉村人口數量49 835 萬人,減少157 萬人,比上年末下降了0.83 個百分點,如圖3、圖4 所示。

圖3 城鎮、鄉村人口結構Fig. 3 Composition of urban and rural populations

圖4 城鎮、鄉村人口占比Fig. 4 Proportion of urban and rural populations
從年齡構成看,2020 年中國0~14 周歲的人口25 277 萬人,占總人口的17.9%;隨著老齡化進程的加劇,15~64 周歲勞動年齡人口數量和比重呈雙降態勢。勞動年齡人口數量從2012 年的100 718 萬人下降到96 871 萬人,占比從2012 年的74.1%持續下降到68.6%。勞動年齡人口規模及比重下降的趨勢十分明顯。65 周歲及以上人口從2012 年的12 777萬人增加至19 064 萬人,占比從2012 年的9.4%上升到13.5%。老年人口比重增幅均呈現不斷上升的趨勢,如圖5、圖6 所示。

圖5 人口年齡結構Fig. 5 Composition of populations age

圖6 人口年齡占比Fig. 6 Proportion of populations age
2012 年中國人口出生率為14.57‰,是近10 年來出生率最高的一年,然后逐年下降,至2021 年人口出生率跌至7.52‰。2014 年和2016 年人口出生率相比上一年有小幅的增加,其中,2014 年和2016年人口出生率分別為13.83‰和13.57‰。2012~2020 年期間,人口死亡率整體呈緩慢下降態勢。2012 年人口死亡率7.13‰,2020 年人口死亡率7.07‰,較2012 年下降0.06‰,但2021 年人口死亡率有明顯上升,達到7.18‰,與這一年的人口出生率僅相差0.34‰,如圖7 所示。

圖7 人口出生率和死亡率Fig. 7 Birth rate and mortality
本文基于第七次全國人口普查數據,利用Python中的Pandas 對男性、女性人口等數據進行讀取、篩選和處理后,使用Pyecharts 對男性、女性人口對比和城鎮、鄉村人口對比、人口出生率和死亡率等方面總體情況進行分析。通過可視化,有助于直觀地了解國內人口實情,后續還將對其做進一步的完善。