





摘要:數據可視化作為分析和傳達數據見解的重要工具,在理解復雜信息方面發揮著關鍵作用。《國務院政府工作報告》作為政府工作的綱領性文件,不僅總結了前一年政府的工作,還匯報了這一年政府的工作計劃和目標,一直是社會關注的焦點。基于TF-IDF算法,使用Python語言對2021—2024年國務院政府工作報告進行高頻詞分析,并繪制詞云圖,以直觀展現政府工作重點。結果表明,近年來中央政府加強構建新發展格局,堅持高質量發展,強化創新能力,不斷出臺改革方案,促進治理體系和治理能力現代化。
關鍵詞:Python;數據可視化;國務院政府工作報告;政府發展政策;TF-IDF算法
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2025)09-0106-05 開放科學(資源服務) 標識碼(OSID) :
0 引言
人口數量大是中國的基本國情,在未來一段時間我國的人口規模還將維持在14億人以上,超大規模的市場優勢也將長期存在,但由于我國人口老齡化程度不斷提高,生育率水平也在降低,因此人口規模與經濟結構變化將對國民經濟潛在增速產生顯著影響[1]。城鄉區域發展與收入分配差距較大、發展不平衡不充分等問題依然突出。我國仍處于并將長期處于社會主義初級階段的特征沒有改變,迫切需要高質量的發展,且我國人均資源占有量不足。同樣,嚴峻的挑戰還來自當前復雜的國際環境和深刻復雜變化的外部環境。為有效應對這些挑戰,我國政府采取了一系列的變革來應對風險與挑戰。本文通過使用Python語言對2021—2024年國務院政府工作報告的txt文件進行關鍵詞提取,過濾非主要詞字,去除停用詞,再生成詞云圖,從而了解近四年來我國政府的執政方向以及重大方針政策。
1 所用材料介紹
1.1 國務院政府工作報告
國務院政府工作報告是中華人民共和國政府的一種公文形式,是國家行政機關用書面形式向國家權力機關所做的正式工作陳述。政府工作報告一經同級人民代表大會審議通過,便成為指導該級政府工作的綱領性文件[2]。主要內容包括回顧并總結前一年的政府工作情況、匯報政府取得的成績和基本經濟指標完成情況,歸納當年政府各項工作,匯報這一年政府的工作計劃和目標。詳細闡述對當年政府內部的政府職能、民主化建設、依法行政、政風建設等方面將要施行的工作舉措和工作計劃。是具有施政綱領性質的政策性文本,是我國政府工作部署的重要載體,既包括對過去一年工作成績與問題的回顧總結,也包含了對當前一年的工作部署[3]。國務院政府工作報告力求全面客觀、力求突出重點、力求富有新意、力求文風樸實,能直觀代表政府一年的所作所為以及對未來執政方向的大致規劃。
1.2 Python
Python由荷蘭國家數學與計算機科學研究中心的吉多·范羅蘇姆于1990 年初設計,作為一門叫作ABC語言的替代品。Python提供了高效的高級數據結構,還能簡單有效地面向對象編程。Python語法和動態類型,以及解釋型語言的本質,使它成為多數平臺上寫腳本和快速開發應用的編程語言,隨著版本的不斷更新和語言新功能的添加,逐漸被用于獨立的、大型項目的開發。Python 因其簡潔、優美、開源、易學等優點,成為目前最熱門的數據處理工具之一[4]。Py?thon 解釋器擴展方便,可以使用 C、C++或其他語言來擴展新的功能和數據類型,這些功能可以通過 C 調用。在可定制軟件中還可以使用 Python 進行擴展程序語言。Python 豐富的標準庫,提供源碼或機碼,供各大系統平臺使用。Python 是在支持交互式編程的同時,結合了解釋性、編譯性和面向對象的特性,具有高層次特性的腳本語言。Python 的設計更加強調可讀性,相對于常用的英文關鍵詞和其他編程語言中的特殊符號而言,Python 凸顯了語法上的獨特特點。
1.3 IDLE
IDLE(Integrated Development and Learning Envi?ronment) 是一款用于Python編程的集成開發環境,內置于Python標準發行版中,旨在提供一個簡潔易用的編程環境。
1.4 停用詞表
停用詞指的是在文本處理過程中被忽略的常見詞語,這些詞語通常對文本的含義貢獻較小,因此在文本分析中經常被排除在外。停用詞通常是一些常見的功能詞,例如“的”“是”“在”等,在不同的語言和應用場景中可能有所不同。在自然語言處理和文本挖掘領域,常常會對文本進行預處理,包括分詞、去除標點符號、轉換為小寫等操作。在這個過程中,去除停用詞可以幫助減少數據噪聲,提高模型的準確性和效率。
2 分析步驟
2.1 數據庫建立
1) 國務院政府工作報告
在中華人民共和國中央人民政府官方網站上查詢2021—2024年政府工作報告內容,并進行下載。由于官網下載出為PDF文件,此時需先將PDF文件轉為txt文件。首先創建一個空字符串來存儲文本內容,遍歷PDF中的每一頁并提取文本內容,將提取的文本內容寫入txt文件中,再指定PDF文件路徑和要保存的txt文件路徑,最后調用函數將PDF中的文本內容提取并保存為txt文件調用函數并指定輸入和輸出文件路徑,代碼如圖1所示。
同理將2022—2024年政府工作報告PDF文件進行轉換。
2) 停用詞表
創建包含常用停字詞的txt文件,本文建立的停用詞表如圖2所示。
2.2 關鍵詞提取
關鍵詞是為了文獻標引工作從報告、論文中選取出來用以表示全文主題內容信息款目的單詞或術語;是指那些出現在論文題名、摘要、正文中的,對表達論文主題內容具有實質意義的詞語,即對揭示和描述論文主題來說是重要的、關鍵性語詞[5]。通過對國務院政府工作報告關鍵詞的提取,可以更好地了解到近些年政府執政策略的改變以及發展的重心。
1) 前期準備
在進行關鍵詞提取之前首先應下載sklearn庫。scikit-learn,又寫作sklearn,是一個開源的基于Python 語言的機器學習工具包。它通過NumPy、SciPy 和Matplotlib等Python數值計算的庫實現高效的算法應用,并且涵蓋了幾乎所有主流機器學習算法。
2) 操作步驟
本文使用了基于TF-IDF 算法的關鍵詞提取。TF-IDF,用以評估一個詞語對于一個文件集或一個語料庫中的一份文件的重要程度,其原理可概括為:一個詞語在一篇文章中出現次數越多,同時在所有文檔中出現次數越少,越能夠代表該文章,計算公式:TFIDF= TF × IDF。其中:TF:詞頻,某一個給定的詞語在該文件中出現的次數。 IDF:逆文件頻率,如果包含詞條的文件越少,則說明詞條具有很好的類別區分能力。在實際操作中先使用 jieba 分詞并拼接成字符串,計算 TF-IDF,獲取詞語列表,其次獲取關鍵詞的索引和對應的 TF-IDF 值,根據索引獲取關鍵詞,并構建關鍵詞列表。再按 TF-IDF 值降序排列,指定文檔路徑,讀取文檔內容,指定停用詞列表,自定義停用詞列表。最后提取關鍵詞,打印出現頻率最高的關鍵詞。關鍵詞提取代碼如圖3所示。
同理將2022—2024年政府工作報告進行關鍵詞提取。
2.3 關鍵詞統計
表1—表4為上述代碼運行后結果統計。
2.4 詞云圖
“詞云”(Word Cloud) ,是基于Python語言對文本數據的一種可視化表達方式。利用高頻的關鍵詞來傳達出大量文本數據背后具有價值的信息。本文通過不同顏色和字體大小表達出不同程度的關鍵詞的重要性,從而用詞云圖直觀展示2021—202年政府工作重心的轉變,更加具有視覺上的沖擊力。本文所用生成詞云圖代碼如圖4所示。
同理,使用上述代碼生成2022—2024年政府工作報告詞云圖,如圖5、圖6、圖7、圖8所示。
3 對照試驗
3.1 數據庫建立
在進行關鍵詞分析前,需要下載jieba庫。jieba 是優秀的中文分詞第三方庫,由于中文文本之間每個漢字都是連續書寫的,我們需要通過特定的手段來獲得其中的每個詞組,這種手段叫作分詞。我們可使用jieba.cut和jieba.cut_for_search方法進行分詞,兩者所返回的結構都是一個可迭代的 generator,可使用 for 循環來獲得分詞后得到的每一個詞語(unicode) ,或者直接使用jieba.lcut以及jieba.lcut_for_search返回 list。我們還需要使用Counter,Counter用于計算可哈希對象的字典子類。它是一個無序的集合,其元素以字典key的形式存儲,并將其計數存儲為字典value。 計數允許為包括零或負計數的任何整數值。Counter類與其他語言的bag或multisets類似。
3.2 關鍵詞提取
在實際操作中,我們首先讀取停用詞列表,其次讀取國務院政府工作報告內容,再去除停用詞,然后使用Counter計算詞頻,最后獲取出現頻率最高的15 個詞。關鍵詞提取代碼如圖9所示。
同理將2022—2024年政府工作報告進行關鍵詞提取。
3.3 關鍵詞統計
通過對國務院政府工作報告中,關鍵詞出現的頻率與相對頻數的統計,可以直觀地感受到政府工作的重心。本文使用了jieba進行中文分詞,并結合pandas 庫和openpyxl 庫生成Excel 文件,通過調用count_word_frequencies函數統計指定詞語在文檔中的出現頻率和相對頻率。然后調用generate_excel函數將詞頻和相對頻率的統計結果轉換為Pandas DataFrame,并將DataFrame 寫入Excel 文件。統計代碼如圖10 所示。
同理將2022—2024年政府工作報告進行關鍵詞出現頻率與相對頻數統計。
3.4 統計結果
表5—表8為上述代碼運行后所生成的Excel表格經過整理后所得到的結果,按照降序對相對頻數進行了排列,截取了2021—2024年國務院政府工作報告中的關鍵詞與其出現頻率與相對頻數。
4 分析
4.1 堅持新發展理念,加快構建新發展格局
在2021—2024年國務院政府工作報告中,“發展”一詞高居榜首,“加快”與“堅持”在統計詞中也呈現上升趨勢。我們國家在“十四五”期間會有一個新的發展階段。從外部看,世界正經歷百年未有之大變局,我國發展的外部環境日趨復雜;從國內看,發展不平衡、不充分的問題還比較突出,發展中的矛盾和問題在發展質量中得到了集中反映,我國已經轉入高質量的發展階段;從邏輯看,實現高質量發展的必由之路是從規模速度的粗放型增長向質量效益的集約型增長轉變,是從要素投入拉動向創新驅動轉變。
4.2 堅持高質量發展,堅持以經濟建設為中心
在2021—2024年的國務院政府工作報告中一直強調高質量的發展和經濟建設。“建設”和“經濟”兩個詞在報告中頻頻出現,足以凸現其舉足輕重的作用。以經濟建設為中心,堅持四項基本原則,堅持改革開放是黨在社會主義初級階段基本路線。中央強調堅持把經濟建設作為重中之重,既是針對當前我國經濟發展面臨的“需求收縮、供給沖擊、預期轉弱”三大挑戰,也是為實現經濟工作“穩中有進、穩字當頭”的目標。
4.3 加強產學研深度融合,強化企業科技創新主體地位
回顧2021—2024年國務院政府工作報告,“加強”“企業”和“創新”的熱度持續升溫。習近平總書記在黨的二十大報告中指出:“加強企業主導的產學研深度融合,強化目標導向,提高科技成果轉化和產業化水平。強化企業科技創新主體地位,發揮科技型骨干企業引領支撐作用,營造有利于科技型中小微企業成長的良好環境,推動創新鏈產業鏈資金鏈人才鏈深度融合。”[6]發展動力在轉變,發展方式和結構也在調整,科技創新領域企業主體地位不斷加強,企業創新活力不斷激發,進入新的發展階段,發展動力在轉變。這是必然的要求,中國必須在科技自主創新上實現高水平,必須在科技強國建設上實現高水平。提升國家創新體系整體效能的關鍵因素,既是高質量發展的必然要求,也是構建新型發展格局的迫切需要。要不斷促進科技企業的融通與創新,使創新鏈條的層次得到全面提升。只有不斷強化企業科技創新的主體地位,不斷催生新的市場和新的需求,才能提升產業體系的活力和競爭力。
4.4 更加精準地出臺改革方案,更加全面地完善制度體系
“改革”與“完善”兩詞近些年出現頻率有所下滑,這表明我國正在全面深化改革,不斷完善制度體系。我國需要持續做好對內改革、對外開放的各項工作,立足宏觀經濟發展實況,優化配置宏觀經濟發展資源,持續調整改革方略,優化改革體系,加大改革力度,使改革更加深入、可行、科學、有效,提高我國市場經濟的國際競爭力,以應對復雜的外部政治經濟局勢[7]。新征程上繼續推進全面深化改革,要堅持和加強黨的領導,把準改革方向,明確目標任務,以科學的謀劃、創新的魄力把各項工作抓好抓實。要抓好重大改革任務攻堅克難,統籌全局、把握重點,聚焦全面建設社會主義現代化國家中的重大問題謀劃推進改革,用好機構改革創造的有利條件,努力在破除各方面體制機制弊端、調整深層次利益格局上再攻下一些難點。要加強改革調查研究,多到矛盾問題集中的地方和部門去,深入基層、走進群眾,體察實情、解剖麻雀,既深入研究具體問題,又善于綜合各方面情況,在總體思路和全局工作上多動腦筋、多下功夫。要加大改革抓落實力度,完善上下協同、條塊結合、精準高效的改革落實機制,下更大氣力抓好改革督察工作,推動改革舉措落地見效。要調動各方面改革積極性,健全改革創新激勵機制,加大改革典型經驗交流推廣,加強輿論引導,及時回應各方關切。習近平總書記明確要求“要在已有改革基礎上,立足貫徹新發展理念、構建新發展格局,堅持問題導向,圍繞增強創新能力、推動平衡發展、改善生態環境、提高開放水平、促進共享發展等重點領域和關鍵環節,繼續把改革推向深入,更加精準地出臺改革方案,更加全面地完善制度體系。[8]”
5 結論
通過基于Python的文本挖掘技術與可視化分析,本研究對2021—2024年國務院政府工作報告進行了系統性解構。詞頻統計與詞云圖清晰地勾勒出核心詞匯構成的政策圖譜,印證了新時代中國政府既堅持新發展理念構建現代化經濟體系,又注重科技創新驅動產業升級,更強調發展成果由全民共享的民生導向。數據表明,面對超大規模經濟體轉型中的復雜挑戰,中國政府始終保持著戰略定力與政策連續性,通過供給側結構性改革與需求側管理協同發力,在穩增長與調結構的動態平衡中推動高質量發展。這種將制度優勢轉化為治理效能的實踐路徑,不僅為破解發展中國家現代化難題提供了中國方案,更彰顯出中國共產黨領導下集中力量辦大事的政治優勢。展望未來,在百年未有之大變局加速演進的時代背景下,持續深化對執政規律的認識與把握,堅持問題導向與系統觀念相結合,必將推動中國式現代化道路越走越寬廣,為實現民族復興偉業筑牢堅實根基。