楊思祺,李淑蘭
(景德鎮學院,江西 景德鎮 333400)
習近平總書記強調,大數據是工業社會的“自由”資源,誰握了數據,誰就掌握了主動權。因此審計工作也應該懂得大數據,擁抱大數據,打破數據孤島,使數據匯聚、交換、整合,挖掘數據產生更大的價值。
大數據發揮“引擎作用”[1],可以提升審計工作效率。在全業務經營環境下,隨著電信企業之間的市場競爭日益加劇,各級領導對企業經營收入和新用戶發展量的關注程度日益提高,因此,有必要利用大數據技術建立一套模型[2],通過對往期發展數據進行有效分析并預測[3]新一年度的發展情況,為各單位管理層制定發展策略提供有效借鑒。審計部門希望利用大數據手段建模[4],通過結果差異分析影響因素,促進審計手段升級,并對企業有效開展業務活動提供指導性審計建議,從而促進企業健康有序發展[5]。
在回歸分析中,把變量分為2類。一類是因變量,它們通常是實際問題中所關心的一類指標,通常用y表示;而影響因變量取值的另一類變量稱為自變量,用x來表示。回歸分析是一種預測性的建模技術,它研究的主要問題如下[6]:
(1)確定因變量y與自變量x之間有無關系:
(1)

(2)確定y與x之間關系的具體表現形式。
(3)測試并確定y與x相關關系的密切程度。
(1)通過一組測試數據,判斷變量之間的關系式,即通過建立模型并計算影響模型的未知參數。常用方法是最小二乘法,即通過篩選未知參數,使得預測誤差達到最小:
(2)
式中為理論值與觀測值之差的平方和,對函數求導,求極值點:
(3)
(4)
以上是最小二乘法的解法,求得平方損失函數的極值點。
(2)對這些關系式的可信程度進行檢驗。
(3)在許多自變量共同影響著一個因變量的關系中,判斷自變量的影響是否顯著,將影響顯著的自變量選入模型,而剔除影響不顯著的變量,通常用逐步回歸、向前回歸和向后回歸等方法[7]。
2.1.1 累計新增移動用戶預測思路
本文將2022年全省用戶及收入數據作為訓練集,模型經過數據稽核、相關性檢驗、逐步回歸的方法,遵從奧卡姆剃刀原理,剔除不顯著變量,擬合出最佳回歸線,在2021年全年數據上進行驗證。模型通過驗證正確后,對2023年全年移動業務累計新增用戶和累計主營收入進行預測。
(1)數據準備。
通過前期分析,影響輸出結果的輸入因子主要包括當月存量用戶數(不含新增用戶)、當月離網用戶數、當月出賬用戶數、當月欠費用戶數、當月新入網用戶數、欠費金額、平均收入、當月移動主營收入、截至當月累計主營收入以及賬期等多個維度。
(2)模型訓練。
確定輸入因子后,將累計新增用戶作為因變量,其他變量作為自變量來訓練模型,通過變量間相關性進行初步篩選,并采用逐步回歸的方法確定與模型輸出相關性最高的變量,多次迭代后,選擇最優模型。變量間相關性如圖1所示。顏色越深,表示變量間正相關相關關系越強,顏色越淺,表示變量間正相關相關關系越弱。通過奧卡姆剃刀原理最終可以得出主要影響輸出的變量包括當月主營收入、當月新入網用戶數、月份3個變量,其他變量相關性不大。

圖1 模型變量間相關性
依據以上原則模型最終擬合回歸線如下:
累計新增移動用戶=-493 441.218 477 213+682 563.051 301 034×月+0.000 223 140 293 718 226×主營收入+0.260 577 434 013 236×新入網
(5)
式中,月為當月月份;主營收入為當月主營收入;新入網為當月新入網用戶數。
(3)模型驗證結果。
以2021年企業每月IT數據作為累計新增用戶預測模型進行驗證,具體模型驗證結果如表1所示。

表1 2021年下半年驗證結果
從驗證結果來看,隨著時間的推移,年底驗證結果良好。實際累計新增用戶與預測累計新增用戶差值在可控范圍內,模型對于實際應用能夠提供借鑒意義。
(4)累計新增用戶預測。
通過對2021年的數據進行驗證,模型基本可用,以此為依據對2023年新增累計用戶進行預測,因2023年12月數據未知,通過參考近3年12月當月數據,進行線性擬合預測2023年數據,如表2所示。

表2 發展移動用戶數和主營收入預測
將2023年12月預測數據代入審計預測模型,可以計算出2023年累計新增移動用戶=-493 441.218 477 213+682 563.051 301 034×月+0.000 223 140 293 718 226×主營收入+0.260 577 434 013 236×新入網=7 969 723戶。
2.1.2 累計移動主營業務收入預測
預測思路為參考近3年全省數據,將累計主營收入和年度進行擬合發現,累計主營收入呈現明顯線性增長態勢,所以基于此線性模型可以預測2023年移動業務累計主營收入。
可以得出:2023年預測累計主營收入=455 779 774.6×4+2 290 263 216=4 113 382 314(元)
注:2020年第1年,2021年第2年,2022年第3年,2023年第4年,以此類推。
2.2.1 累計新增預測思路
各分公司因地域差異、業務發展情況各異,使用全省模型則不能反映分公司實際,同時以2021年數據訓練集也受到一定的限制。因此在對分公司累計新增移動用戶建模時,采用2022年前3季度的數據進行建模,用第4季度數據進行驗證。
(1)數據準備。
多維輸入因子主要包括:存量用戶數(不含新增用戶)、離網用戶數、出賬用戶數、欠費用戶數、新入網用戶數、欠費金額、平均收入、當月移動主營收入、截至當月累計主營收入、賬期因素、分公司等因子。
(2)模型訓練(以分公司A為例)。
將累計新增用戶作為因變量傳入模型,其他變量作為自變量訓練模型,模型變量間的相關性如表3所示。

表3 模型變量相關性
如表3所示,變量間相關性大于0.8,則2個變量間具有高度相關性,所以需要基于業務理解和模型輸出相關性初步篩選特征變量,結合逐步回歸方法確定模型最終變量。可以看出影響輸出的主要變量包括累計主營收入、月度分公司A移動累計新增用戶,模型輸出如下:
累計新增用戶=-36 558.963 698 297 4+0.002 641 019 398 503 23×累計主營收入(累計主營收入:截止到當月移動業務累計主營收入)
(3)模型驗證。
分公司A 2022年10、11、12月驗證結果如表4所示。

表4 分公司A移動業務驗證結果
從表中可知,基于前3季度的數據訓練模型,在第4季度每月數據上得到很好的驗證,尤其12月預測全年累計新入網準確率高達99.89%;具體每個地市2022年12月驗證結果匯總如表5所示。

表5 分公司2022年12月驗證結果
(4)各分公司累計新增用戶預測。
各分公司最終累計新增用戶預測只需要將2023年各分公司指標收入代入公司反推累計新增用戶即可,具體預測如表6所示。

表6 各分公司2023年累計新增用戶預測
2.2.2 各分公司累計主營收入預測
預測思路為參考近3年累計主營收入,將主營收入與年賬期建立線性回歸模型,最終將模型預測結果和實際2023年任務指標做對比,進行驗證。同理,對于全業務也可以使用線性回歸進行建模。
模型預測新增用戶數高于實際新增用戶數時,分公司存在虛增主營業務收入嫌疑。通過各分公司歷年發展用戶數與主營業務收入完成情況的相關性,構建用戶預測模型,在年度審計中,通過收入用戶模型預測出的當年新增用戶數,若預測新增用戶數高于實際新增用戶30%時,分公司可能存在為完成KPI考核指標虛增主營業務收入風險。審計人員依據此模型結果,重點鎖定了該公司某年度收入計列的真實性。
預測新增用戶數低于實際新增用戶數時,分公司可能存在隱匿主營業務的風險,導致收入后置。通過各分公司歷年發展用戶數與主營業務收入完成情況的相關性,構建用戶預測模型,在年度審計中,通過收入用戶模型預測當年新增用戶數,若預測新增用戶數低于實際新增用戶30%時,分公司可能存在隱匿主營收入風險。
通過收入用戶預測模型對分公司年初收入預算與用戶預算合理性進行評估。利用各分公司歷年發展用戶數與主營業務收入完成情況的相關性,構建用戶預測模型,能預判年初給分公司下達預算時評估收入預算與用戶預算是否匹配。
本文構建的收入與用戶預測模型,利用大數據技術,通過對近幾年的歷史數據進行機器學習,不論是移動業務場景還是全業務場景,累計主營收入和累計新增用戶都可以由其他變量進行線性擬合,模型經過驗證表現良好。本模型可為審計人員在虛增收入、隱藏收入、預算合理性的審計點提供快速定位方法,有助于提升審計效率,同時結果也能為管理部門提供必要的指導性建議,幫助管理部門更精準地制定發展策略,掌握企業發展狀況,同時也填補了收入預測和新增用戶預測的空白。