999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的隨機森林算法在電網企業人力資源審計中的應用研究

2021-09-08 05:52:40賀雅蔡真捷
中國內部審計 2021年8期

賀雅 蔡真捷

[摘要]大數據的運用不僅改變了電網企業的發展和管理模式,也給內部審計帶來了前所未有的機遇與挑戰。本文介紹了在審計大數據的背景下,基于Python的隨機森林算法在電網企業人力資源審計中的應用方法,進一步提高內部審計管理的科學化水平,以提升內部審計的工作質量和效率。

[關鍵詞]人力資源審計? ?隨機森林算法? ?Python

一、引言

電網企業作為關系國民經濟命脈和國家能源安全的骨干企業,有力地支撐著國家能源體系。在社會經濟和科學技術不斷發展,政策環境不斷變化,電力體制改革不斷深化的大背景下,以國家電網公司為代表的電網企業提出了要建設運營好堅強智能電網和泛在電力物聯網的目標,即要充分運用移動互聯網、人工智能等現代信息技術,實現電力系統各環節萬物互聯、人機交互的智慧服務系統。這標志著電網企業的大數據時代已經到來,“電網+大數據”的發展模式,成為電網企業應對建設泛在電力物聯網這一新需求的唯一出路。電網企業在生產、經營過程中會接觸并產生海量數據,利用合適的工具對這些數據進行挖掘和分析,一方面可以幫助電網企業適應電力市場的發展,另一方面也可幫助電網企業規范內部管理,進一步提升管理質量和效果。而如何將上述海量、散落且無序的數據剝離、整理、歸類、分析,以便找到數據間的規律和聯系,進而發現審計線索,發揮大數據全面覆蓋的優勢,是內部審計人員目前亟待解決的課題,現以電網企業人力資源審計為例來作一研究。

二、審計數據采集

基于大數據的審計方式不同于傳統方式,主要的數據獲取方式是通過各類信息平臺或系統主動、實時地獲取被審計單位的業務數據。這種方式相對于被動地依靠被審計單位提供審計數據,再利用其他證據進行核實的傳統方式而言,數據的真實性、完整性、實時性和審計工作效率等均得到明顯提升。

(一)數據來源

在對電網企業實施人力資源審計時,需要獲取的數據按照來源可分為內部數據和外部數據。內部數據是指從電網企業自建的系統中獲取的數據及被審計單位提供的數據。外部數據是指從外部機構如銀行、政府、客戶等渠道獲取的數據。按照數據類別可分為結構化數據和非結構化數據,結構化數據主要指能夠用數據或同一結構表示的數據,如數字、符號等,而各類文檔、圖片、影像,如被審計單位的人事任免文件、活動通知、各部門自行編制的登記資料等則稱為非結構化數據。在實施電網企業人力資源審計時,獲取的有效數據中內部數據及非結構化數據占比較高,審計人員需要利用合適的數據處理工具如Excel、Oracle數據庫等將數據進行清洗、轉化后再進一步利用。

(二)數據獲取方式

實施電網企業人力資源專項審計時,審計人員需要獲取的數據主要有人資、財務、工會、后勤等專業的業務數據和管理數據。主要獲取方式有:直接復制數據;通過中間文件采集數據;通過開放式數據互聯方式采集數據;通過專用模板采集數據;通過互聯網采集數據。實際工作中,使用較多的是直接復制數據和通過開放式數據互聯方式采集數據這兩種方法。

審計數據來源日益豐富化、數據類型愈發多元化、獲取方式逐漸多樣化促使審計人員不斷提升信息化審計能力,在追求數據的完整性、使用數據的高效性上下功夫,同時也在推動審計與信息通信等其他學科的融合。

三、隨機森林算法的應用

決策樹(Decision Trees)算法是一種根據歸納原理從數據集中抽取規則并構建樹狀預測模型的機器學習方法。隨機森林(Random Forest)算法最早由美國統計學家Leo Breiman和Adele Culter在2001年提出,通過自助重復采樣,從原始訓練樣本集中重復隨機抽取k個樣本生成新的訓練樣本集合,然后根據自主樣本集生成k個決策樹組成隨機森林,是一種以決策樹為基學習器的集成學習方法,包含了多個決策樹的分類器,輸出結果是由每一個決策樹投票或者平均得到,即將投票次數最多的類別或輸出結果平均值指定為最終的輸出結果。

該算法解決了單個決策樹泛化能力弱的缺點,較其他算法而言具有預測結果更準確、運行簡單高效、可處理大量多類型數據、訓練速度快、可平衡誤差等優點。將隨機森林算法應用到電網企業內部審計工作中,可用于對已知的審計數據進行整合分析,也可用于審計預測。這不僅可以發揮審計大數據全覆蓋的優勢,還可以提高審計效率、降低審計風險。將隨機森林算法應用于電網企業人力資源審計中,主要有以下幾個步驟:

步驟一:明確審計內容

電網企業人力資源審計主要包括人力資源基礎管理、管理決策、干部管理、用工管理、人工成本管理、教育培訓管理、績效管理、歷史遺留問題整改情況8個方面的內容。在運用隨機森林算法進行數據挖掘之前,應根據審計需要,首先需明確此次審計疑點預測的主題內容,即具體需要核查的問題,如:虛列教育培訓經費、主業和集體企業相互承擔工資、存在在職不在崗人員等。

步驟二:采集審計數據

采集與被審計單位人力資源管理活動相關的各類數據。包括從企業自建的系統中獲取數據,如從ERP系統中導出員工花名冊、工資核算明細、年度績效考核結果、員工異動情況等,主要采取直接復制數據的方法進行采集。有時也需要從外部機構獲取數據,如社會保險明細等,這部分數據則需要通過開放式數據互聯方式或通過互聯網進行采集。

步驟三:進行數據分析

首先,根據審計內容和數據特點,設定若干變量,這些變量應與審計疑點預測的主題內容相關。如需預測員工離職率時,設定的變量可為:(1)入職時間;(2)年均薪酬水平;(3)近5年績效考評結果;(4)最高學歷水平;(5)近5年是否升職等。設定的變量可能是定性的數據,也可能是定量的數據,但最關鍵的是設定變量應與需預測的結果緊密相關,變量的關聯度越高,預測結果越準確。其次,對數據進行整體分析,找出變量和預測結果的關系,一般關系為正相關或負相關。如薪酬水平越低的員工離職率越高,最高學歷水平越高的員工離職率越高,近5年未能升職的員工比已升職的員工離職率高等,即明確變量與審計內容間的具體關系。

步驟四:建立審計模型

根據審計內容的業務邏輯和變量間的勾稽關系建立數字化審計模型。業務邏輯和數據勾稽關系往往是具體的業務之間固定關系的直接反應,如匯總關系、比例關系、特定的計算方法等。利用Python、SQL Server、Excel高級函數等數據處理工具對將要分析的問題做出概括、抽象表達,進而建立數據分析模型,以便對特定問題進行核查。

步驟五:訓練模型與數據預測

利用已知數據對步驟四中建立的模型進行訓練,訓練后的審計模型可運用在實際審計工作中,用于數據預測,如預測被審計單位出現某特定問題的概率等。由于隨機森林算法是一種靈活的機器學習算法,利用以往的數據對其進行訓練,通過不斷更新數據庫并對模型進行訓練,預測結果將越來越準確。

四、基于Python隨機森林算法的應用案例

Python是一種計算機程序設計語言,由于其易學、便于維護,并且擁有豐富的擴展庫可用于完成各種高級任務,近年來成為眾多用戶廣泛使用的語言之一,也是機器學習的首選語言。為驗證隨機森林算法在電網企業人力資源審計中的有效性,本文使用Python進行編程,并選擇某電網企業下屬某省公司2016年1月至2018年12月的人力資源管理相關數據進行實驗分析。該數據集中包括員工花名冊、工資核算明細、崗位異動情況等,數據量超過30萬條。

應用案例一:虛列職工教育培訓費概率審計模型

本案例擬運用基于Python的隨機森林算法對被審計單位出現虛列職工教育培訓費的問題的概率進行審計。首先,對原始審計數據進行初步分析,統計人均年薪水平、人員調動次數情況、員工升職情況、各單位績效排名、各類費用支出情況等。其次,按照數據與審計內容之間的關系,設定若干個相關的變量。根據以往的審計經驗,以下8個變量與虛列職工教育培訓費問題有較高的相關性:(1)年底集中列支職工教育培訓費,10月至12月列支金額占全年的40%以上;(2)職工教育培訓費集中支付某一個人,未分別支付至相關人員賬戶;(3)人均薪酬水平較低,低于該電網企業人均薪資水平;(4)頻繁更換人資部負責人、培訓專責,頻率高于平均更換頻率;(5)存在超標準列支培訓費的情況;(6)存在超范圍列支培訓費的情況;(7)被審計單位年度考核排名情況,近3個年度考核排名在全省后30%;(8)以前年度審計中發現過被審計單位或其下屬機構存在虛列職工教育培訓費的問題。之后,利用Excel軟件將原始數據進行清理、轉換,按下表的取值范圍轉換成相應的數字,如“0”“1”“2”等,如表1所示。

如圖1所示,模型一(對應案例一)的運行結果用“risk level”表示,其中,“0”代表被審計單位虛列職工教育培訓費的概率較低,“1”則代表出現該問題的概率較高。將圖1中的運行結果與以往的審計數據進行比對,發現運行結果(圖2中“risk-output”)與以往的審計結果(圖3中“risk level”)完全一致。說明模型一經訓練后,可以對被審計單位出現虛列職工教育培訓費的概率進行較準確的預測。

應用案例二:在職不在崗人員審計模型

本案例擬運用基于Python的隨機森林算法對被審計單位是否存在在職不在崗人員的問題進行審計。

首先,運用數據分析工具對被審計單位在職員工2016年1月至2018年12月間的年度績效工資金額、升職情況、報銷費用情況、年度績效考核結果、調動情況、參加會議培訓情況等進行初步統計。其次,按照數據與審計內容的關系,設定若干個相關的變量。根據以往的審計經驗,以下7個變量與員工在職不在崗問題有較高的相關性:(1)審計期間年度績效工資總額偏低,低于3萬元/人/年;(2)未得到職務或職級提升、晉升,或薪檔提升;(3)無差旅費、培訓費等費用報銷記錄;(4)無崗位調動記錄;(5)無參加各類會議、培訓記錄;(6)無參加健康類、榮譽類等各類療休養記錄;(7)門戶登陸次數偏少,低于30次/人/年。利用Excel軟件將原始數據進行清理、轉換之后,將原始數據按下表的取值范圍轉換成相應的數字,如“0”“1”等,如表2所示。

在Python中輸入以下編程語句,利用上一步中轉換后的數據,對此次建立的員工在職不在崗人員審計模型進行訓練:

如圖4所示,模型二的運行結果用“risk level”表示,其中,運行結果為“0”代表該員工在職不在崗的可能性較低,為“1”則代表該員工在職不在崗的可能性較高。模型二的運行結果說明,本次200個樣本數據中,有9名員工是在職不在崗員工的可能性較高,審計人員可進一步重點核實這9名員工的實際工作情況。

將上圖中的運行結果與已進行核實的在職不在崗人員情況進行比對,發現運行結果(圖5中“risk-output”)與以往的審計結果(圖6中“risk level”)完全一致,即模型二中篩選出的可疑人員經核實確認為在職不在崗人員。

實驗結論:以上兩個實驗結果充分說明模型一和模型二分別對于被審計單位出現虛列職工教育培訓費的概率和員工是否在職不在崗的問題在運行速度及運行準確度上均表現出了良好的預測性能,兩個實驗都驗證了隨機森林算法在電網人力資源審計中的有效性。

隨機森林算法不僅訓練速度快,訓練結束后還可生成相應的數據庫,通過不斷更新數據庫并對模型進行訓練,可以持續提高預測準確度。在開展審計工作前,審計人員可將相關審計數據導入數據庫中,利用相關模型預測是否存在特定風險或問題,為提前明確審計重點、準確把握審計方向提供了有力的數據支撐。

五、結束語

隨著大數據的廣泛運用,如何合理運用信息化手段高效地分析、處理、挖掘大數據成為實現科技強審、實現審計信息化過程中必須解決的課題。本文提出了基于Python的隨機森林算法在電網企業人力資源審計中的運用方式相關研究,該方法不僅能幫助審計人員高效、精準地挖掘出隱藏在數據下的信息,進而構建更健全、高效的日常監督體系,同時也為大數據在審計中的應用技術研究提供了支持,促進了審計大數據的學術積累和實踐發展。

(作者單位:國網湖南省電力有限公司,郵政編碼:410001 ,電子郵箱:776721444@qq.com )

主站蜘蛛池模板: 激情综合网激情综合| 福利国产微拍广场一区视频在线| 91无码网站| 成人精品午夜福利在线播放 | 91无码网站| 91麻豆国产在线| 青青青视频91在线 | 亚洲精选无码久久久| 日韩福利在线观看| 色丁丁毛片在线观看| 国产精品白浆无码流出在线看| 天天躁夜夜躁狠狠躁图片| 国产成人高清精品免费软件| 免费午夜无码18禁无码影院| 动漫精品啪啪一区二区三区| 免费A级毛片无码免费视频| 风韵丰满熟妇啪啪区老熟熟女| 国产精品香蕉在线| 免费观看国产小粉嫩喷水| 国产精品国产三级国产专业不 | 精品夜恋影院亚洲欧洲| 成人免费午夜视频| 久久久久人妻一区精品| 日韩东京热无码人妻| 91精品视频在线播放| 福利在线不卡一区| 国产后式a一视频| 国产欧美在线观看一区| 中文字幕佐山爱一区二区免费| 九九这里只有精品视频| 国产在线观看91精品| 国产在线啪| 亚洲系列中文字幕一区二区| 丰满人妻被猛烈进入无码| 亚洲综合婷婷激情| 91在线播放国产| 亚洲欧洲天堂色AV| 成人日韩欧美| 99尹人香蕉国产免费天天拍| 91po国产在线精品免费观看| 精品国产免费观看| 亚洲无码在线午夜电影| 漂亮人妻被中出中文字幕久久| 国产资源站| 日本在线免费网站| 久久99国产精品成人欧美| 操操操综合网| 97在线免费| 亚洲欧洲自拍拍偷午夜色| 日本尹人综合香蕉在线观看| 久久久噜噜噜久久中文字幕色伊伊 | 国产AV毛片| 亚洲A∨无码精品午夜在线观看| 国产精品自在在线午夜区app| h网址在线观看| 91亚洲精选| 成年人国产视频| 日韩天堂网| 国产成人艳妇AA视频在线| 国产精品lululu在线观看| a色毛片免费视频| AV片亚洲国产男人的天堂| 亚洲三级片在线看| 亚洲综合片| 一区二区三区国产| 午夜高清国产拍精品| 国产永久在线观看| 久久9966精品国产免费| 欧美一级大片在线观看| 亚洲精品动漫| 欧美视频二区| 91久久偷偷做嫩草影院免费看 | 欧美视频在线第一页| 亚洲国产成人自拍| 香蕉网久久| 四虎影视8848永久精品| www.99精品视频在线播放| 女人18毛片一级毛片在线| 天天色天天操综合网| 潮喷在线无码白浆| 国产情侣一区| 免费看的一级毛片|