程志鵬 韓建楓,2
(1.天津商業大學理學院,天津 300134;2.天津商業大學信息工程學院,天津 300134)
傳統的辦公軟件在進行數據統計時,需要工作人員“手動、眼睛盯”進行反復的、重復的篩選工作,這樣就很容易造成他們的視覺疲勞和身心疲憊,從而導致錯誤的發生。所以在進行統計數據時,往往需要工作人員先統計一次、然后再核對一次的繁瑣流程,這樣的工作模式簡單但是需要細心和耐心才能很好的完成任務。對于這種簡單且重復性很高的工作現在完全可以讓電腦來幫助我們完成,這樣就可以保護工作人員的眼睛,增加工作人員工作是的舒適感,從而就可以節省辦公時間和提升工作效率。在互聯網和人工智能的時代下,我們需要加強信息化建設, 提高統計水平和資源共享,加大數據的分析力度,提高信息利用價值[1]。
“互聯網+”背景下,辦公人員的能力與素質也面臨著越來越高的要求[2]。Python作為當前流行的編程語言,其上手快、操作簡單等的特點受到了很多的辦公人員的喜愛。它自身所擁有的第三方數據庫能夠在數據分析中提供非常大的幫助,具有非常好的應用前景[3]。對于現在的互聯網和人工智能時代, 統計數據的能力也要與時俱進,讓統計數據的方法更加智能化,盡量不要做簡單機械的重復動作。而且編程語言有一個極大的特點是一旦我們針對某個特定的數據進行編寫程序,下次我們遇到類似的數據時就可以重復使用該程序,可以達到一勞永逸的效果。本文將會以虛擬高校的招生數據為例,通過兩種軟件的使用對比來說明我們現在的辦公需要擁抱智能化。
通過Python程序模擬出某高校的招生情況。該高校共有21個專業,分別在我國的34個地區進行招生,2020年本科招生規模為2000人。現有高校招生的原始數據,數據中包含考生姓名、省份、錄取專業、投檔分數等特征數據。分析需求為統計該高校在各地區各專業的錄取人數、最高分、最低分和平均分。
第一步:導入相關模塊。
import pandas as pd
import numpy as np
import os
第二步:讀入本地的招生數據到內存中。
path=r'C:UsersAdministratorDesktop招生數據.csv'
tf=pd.read_csv(path,encoding='utf-8')
第三步:編寫代碼對該高校在各省各專業的錄取人數、最高分、最低分和平均分進行統計。
province_=tf['省份'].value_counts().index
major_=tf['錄取專業'].value_counts().index
province=[]
major=[]
people_number=[]
max_score=[]
min_score=[]
mean_score=[]
for i in province_:
tf_province=tf[tf['省份']==i]
major_=tf_province['錄取專業'].value_counts().index
for j in major_:
tf_major=tf_province[tf_province['錄取專業']==j]
number=len(tf_major)
Max=max(tf_major['投檔分數'].values)
Min=min(tf_major['投檔分數'].values)
Mean=int(np.mean(tf_major['投檔分數'].values))
province.append(i)
major.append(j)
people_number.append(number)
max_score.append(Max)
min_score.append(Min)
mean_score.append(Mean)
m={'省份':province,'錄取專業':major,'錄取人數':people_number,'投檔最高分':max_score,'投檔最低分':min_score,'投檔平均分':mean_score}
data=pd.DataFrame(m)
第四步:將處理好的數據存到本地。
newpath=r'C:UsersAdministratorDesktop'+'//分省分專業錄取情況.csv'
data.to_csv(newpath,line_terminator=' ',index=False)
第五步:統計數據可視化展示。
將統計的好的數據以可視化的形式呈現。展示高校在不同地區不同專業的錄取人數、最高分、最低分和平均分的關系圖。P y t h o n 內部提供了很多繪圖的庫, 例如Matplotlib、WordCloud、Seaborn、Bokeh、VisPy等可以滿足不同需求的展示效果,讓數據之間的關系可以更好的呈現在人們面前,視覺感官系統可以更快的找到數據間的聯系。
通過對Python進行數據統計流程的分析,我們可以很容易發現其代碼很簡潔,稍微對Python基礎進行學習就能上手。數據統計的很簡單、方便和智能,對數據進行展示也很方便。統計好數據后,如何才能更好的給人們可視化的呈現數據本身也是一門“藝術”,而Python可以滿足我們對“藝術”的追求。且編寫代碼有一個巨大的好處就是以后的工作中再遇到相同的數據通過運行代碼,可以很快的處理完數據,從而得出結果。以招生數據為例,每年都會有幾乎完全相同的特征的數據需要高校工作人員統計,所以通過編寫程序可以使我們的工作更加的高效化和智能化。
第一步:啟動篩選命令。
第二步:篩選省份。
第三步:篩選專業。
第四步:運用函數對該高校在各省各專業的錄取人數、最高分、最低分和平均分進行統計。
第五步:將統計好的數據存到本地的文件夾中。
雖然Excel其不僅可以處理表格數據,還可借助數學函數對數據進行復雜運算,且無需計算機語言編程即可實現數據篩選、檢索、分類、排序等一系列操作[4]。但是,其局限性也很突出,統計流程繁瑣,耗時長等都對數據統計工作人員造成了一定的影響。
高效的數據統計工作能夠確保統計數據的真實性、準確性。在提高數據的質量的同時,還可以通過對高校錄取情況的統計數據的分析來發現高校不同專業面向不同省份招生的薄弱環節。可以充分挖掘招生信息,使招生數據可以最大限度發揮作用,為高校的發展服務。
本文通過虛擬某高校的招生數據,對Python數據統計方面和Excel數據統計方面進行簡單對比,對比發現Python編程技術在統計數據方面有極大的優勢,可以快速、準確的完成數據統計任任務。誠然Excel同樣具有很強大的數據統計的功能,我們不可忽視Excel給我們數據統計所帶來的便利,但是在現在的智能時代會一點編程語言會給我們的工作生活帶來很大的便利,促進辦公智能化,使辦公管理達到事半功倍的效果。
雖然本文試圖通過高校的招生數據來說明Python在數據統計方面的優勢,但是只舉例了高校招生數據,沒有說明其優勢具有普適性。對高校招生數據的模擬也不夠充分,實際招生中還會有“文理分科、新高考省份、中外合作辦學和預科生”等因素,這些都是數據分析時需要單獨拿出來考慮的統計數據。但是我相信有了本文使用P ython編程技術統計數據的鋪墊,其余的相關問題也會迎刃而解。
以“互聯網+”為背景,依托更加智能化的辦公軟件和方法來解決問題。在這樣的時代背景下,我們會比以往的任何時候都更加的渴望智能化的生活。