安世俊
(蘭州資源環境職業技術大學,甘肅 蘭州 730022)
隨著現代化社會的飛速發展,互聯網技術、數據挖掘技術在國內得到了快速發展與應用,我國許多化工企業均可實現快速、有效地對大規模異常數據進行檢測與分析[1]。這些分析方法將統計的海量檢測數據進行合理分析,及時檢測出因網絡設備問題或軟件故障而生成的不同種類異常數據信息。實時檢測與分析網絡異常數據,根據信息獲取和邏輯思考將時間序列數據分段,通過構建不同網絡結構來對異常數據信息進行分析,使有標簽數據集數量增加。同時其還加強了網絡訓練的能力,提升對網絡結構和異常數據的檢測實時性及準確性,使海量數據的異常識別效果更優,大幅提升分析的準確性。目前,由于分析過程的算法生成的序列缺少迭代,存在檢測網絡數據中混雜異常數據數量多、分析不明顯等問題,導致企業的財務數據分析存在多種致命問題,如數據缺失、數據漂移等。異常數據的分布過于隨機使檢測結果在大數據中不好辨別,導致分析進程慢,更易產生虛假預警,嚴重影響異常數據分析的效果,進而造成網絡診斷準確性大幅降低。因此,現階段,為有效診斷與分析異常數據,該文以化工企業財務異常數據信息為試驗對象,運用深度學習方法,結合具體情況進行試驗與分析。
測量過程中的大量數據中均存在噪聲,將這些噪聲值設定為異常值。改進化工企業財務數據信息分析時要對數據的噪聲問題進行處理,如果數據清洗不干凈,則會影響其判斷的準確率[2]。根據萊特檢驗的方法對每個網絡中的信息點進行檢測,對異常值進行發掘并剔除完成數據的預處理。進行異常信息檢測時,通過T 檢驗得到網絡中異常數據的相關性,如公式(1)所示。
式中:f為數據中的相關特征;為所有樣本中的特征均值;n(f)為樣本中的正常數據信息的特征均值。
然后運用深度學習中的PCA 算法識別數據中的主要成分并進行分類,獲得大量數據集中的信息,再降低數據的維度。處理高維度數據時,通過正交變換得到新坐標系中的映射,形成新的正交變量集合。將獲得的貢獻率作為變量的重要性度量,設定r個變量的方差貢獻率如公式(2)所示。
式中:γ為第r個變量中的樣本總數計算得到的方差值。
變量中的方差貢獻率值越大,線性集合中的變量收集到的原始數據信息就越多。引用PCA 算法得到高維度數據,并消除其中的數據冗余。根據其特征的提取完成總結,加強異常檢測效率。定義一個財務數據序列為T=(t1,t2,...,tn),表示一組實數集合,設定空間W中的數據g和度量d,則平均數據中的最小化數據如公式(3)所示。
當映射在平均值的每個元素中時,通過運算權重之和獲得合理權重P,以此得到新的數據樣本。選擇數據序列T中的相對距離進行賦值,在隨機一個網絡端內的數據樣本Hi得到的權值pi如公式(4)所示。
式中:N為相鄰樣本之間的距離,其中距離最近的樣本為最優。
隨后將所有的序列樣本賦予權重,進行歸一化處理,將得到的結果作為數據序列的權重,任意選取一個c*初始化,生成新的數據序列,并不斷對其進行迭代,合成新的數據[3]。對財務數字信號進行分解,信號中的最大值和最小值需要通過計算獲得,設定分解過程的時間間隔為大、小值之間的時間間隔,計算均值并提取局部分量為h(t)=s(t)-imf(t),計算殘留項目并得到公式(5)。
式中:imf(t)為本征的模態函數;r(t)為預留項。
根據信號分解,在對應尺度中形成表征,獲得進一步分析的機會。為消除在模態中出現的混疊問題,在不同信號的篩選過程中加入白噪聲,并進行多次分解,獲得平均值后得到對應的給定信號s(t)的IMF,加入幅度相似的白噪聲,如公式(6)所示。
式中:i為分解次數。
通過疊加白噪聲抑制模態的混疊,減少數據處理的運算時間。
定義數據關聯模型,將時間序列的窗口為s={s1,s2,...,sn},其中n為數據序列的長度,每個維度對應一種特征;s為獲得對應財務數據信息的特征信息,即為數據大小、數量類型和數據說明等。將同一網絡中的異常數據和正常數據進行歸檔記錄,得到相應的發生時間間隔,通過異常關聯性的分析得到參考序列之間的相似程度,判斷數據之間的緊密性。設定參考序列為X,對應的關聯系數計算如公式(7)所示。
式中:p為分析系數,一般狀態下p=0.5;?(min)為數據的兩級差值;?(k)為不同序列中的每點之間的差的絕對值。
關聯度計算如公式(8)所示。
式中:r的值為1 則說明相關性強;反之為0 則說明相關性弱。
設財務數據中所有出現過的計量異常數據的種類為N類,表示為A(n=1,2,...,n),n為每種異常數據出現時的所有次數[4]。對異常數據進行統計,根據異常數據出現的順序分別求出d<15 時異常出現的次數。再設適當的標準值為μ,當d<μ時,可以認為存在異常數據,且具有關聯性。根據小概率出現原則,得到標準值設定的計算公式,如公式(9)所示。
式中:ni為An在網絡中出現的所有次數。
在訓練階段,將正確的時間序列作為訓練樣本,輸入數據關聯模型中進行時間序列重構。在訓練完成后,輸入正確的時間序列,控制重構誤差,并使誤差的大小不超過3%。將含有異常數據的序列輸入模型中時,重構誤差值會變大。此時運用深度學習法完成重構序列的預處理,生成一個大小相同的狀態向量并輸出。在神經網絡中訓練對應的時間序列數據。當序列數據的長度超過實際規定大小時停止訓練。如果所訓練的數據梯度消失,說明只學習到一定間隔的時間序列信息,需要及時解決梯度消失問題。在神經網絡中添加控制時間記憶長短的狀態單元,通過存儲當前時刻的數據延長記憶,使當前時刻的數據與之前的數據存在內部關聯。在神經網絡中設置3 個控制開關,運用forget gate 模塊控制是否繼續保存單元狀態至當前時刻。其計算如公式(10)所示。
式中:wf為權重矩陣;b為偏置量;σ為控制函數。
再通過input gate 模塊控制是否將當前時刻狀態輸入之前的狀態單元。通過將當前記憶與之前的記憶相結合形成新的狀態單元,并保存新的信息,最后將其輸出。同時,為提高預測確度,運用注意力機制使數據能夠在不同周期中具有實際數值。在不同的應用場景中,計算當前輸入序列與輸出向量的對應程度,集中點得分越高,計算得到的權重就越大。將每個隱藏狀態設定一個權重,權重的不同決定了輸出狀態。對狀態向量進行學習來重構序列。其中s1,s2,...,sn為輸入序列,,,...,為重構序列,e為狀態向量得到的具體的關聯度值,以判斷異常數據出現并實施檢測。
對企業財務信息進行實時采集與記錄,根據預處理的信息獲得對應組元信息,并利用信息熵對異常信息數據進行初步檢測。通過特定窗口對其求得信息熵值,將得到的數值與設定的標準值進行比較,以此來判斷企業財務中存在異常數據信息的區間,同時進行第二次深度檢測。其中,信息熵值的計算如公式(11)所示。
式中:d為樣本數據,其中d=ni,i=1,2...,N;i為內部樣本的數據;ni為變化的次數;D為樣本取值的對應全部數目。
在樣本信息熵的變化過程中,設定的變化區域范圍為(0,logD),由于樣本的分布相對統一,因此對應的信息熵值不變,樣本值相等。為了減少網絡防御的攻擊,通過在網絡結構中輸入數據樣本,并對正常樣本進行標記,將輸入層的數據在其中充分激活,完成解碼與重構[5]。在數據信息編碼的過程中,產生的隱藏部分的輸出公式如公式(12)所示。
式中:E1為權重矩陣;B1為復合矩陣;σ為激活函數;g為輸出層的對應輸出。
對應的重構誤差如公式(13)所示。
式中:J(W,b)為分析重構存在的差異值;m為輸入層的相應的節點數量;x為需要傳遞的數據;解壓過程中的輸出數據。
與傳統樣本集相比,在利用數據異常網絡編碼的過程中,為獲得對應的樣本特征,使神經元一直保持在抑制狀態,需要對隱藏部分的神經元節點j完成激活,得到平均值的計算如公式(14)所示。
式中:m為數據的存在條數;aj(2)(x)為神經節點中的輸出激活數據。
在對中間層的神經元節點進行分析的過程中,如果抑制狀態產生,則需要規定其中間層的神經元節點j中。設置對應的抑制性參數為,按照設計條件,規定p的 取值范圍為無限趨近于0 的小數。設定懲罰參數,利用不同抑制性參數之間的差異得到相應的懲罰,使激活參數之間的數據相等[6]。這種激活公式如公式(15)所示。
式中:K為隱藏部分的神經元數據。
式中:ε為對應的正則化因數;b為存在IDE 信息網絡的層數;W為神經元的總數。
從第一個結構開始進行特征學習,訓練后獲得W和b的值,得到最終的訓練樣本[7]。
搭建財務數據信息異常檢測方法的試驗環境,根據IP地址段對全網進行劃分,主要包括化工企業中的財務網段。設置一臺P8 微處理機,操作系統為Windows 11,充分收集并詳細記錄對應的所有測量數據[8]。將Java 語言作為開發工具。運用的軟件環境和參數見表1。

表1 軟件環境及參數
運用Cisco 的NetFlow 從企業網絡中的節點上依次采集樣本數據信息,采樣周期為12 個包。在初始數據包提供中,按每1440/86min 進行數據信息聚合,進行測量數據的采集的周期通常為一輪。處理采集到的財務數據信息,根據其信息熵計算網絡數據在106×7 個數據段內的原IP 地址、目的IP 地址及端口的信息熵序列值,得到大小為600×4 的矩陣。各個屬性的熵值序列對應600 個不同OF 數據段。根據對應邊排布,將得到的對應元組矩陣變成2869×4 的矩陣P,將得到的結果按原IP、目的IP 以及端口分成不同序列,并將其作為K-means 的輸入值進行異常分析[9]。
受公司規模、盈利范圍等水平的影響,不同化工企業財務比率數據存在異常數據。設置5 個小組,運用該文方法的小組為試驗組,1~4 對照組運用傳統方法。試驗選取的化工企業的財務數據信息樣本數據為1000 類。先對試驗數據進行標準化處理,將試驗的數據樣本帶入運算得到樣本的離差數據處理,即帶入SOM 模型中,并對其中的異常信息進行分析,得到最優的聚類結果,見表2。

表2 SOM 信息異常分析表
由試驗結果可知,1~4 對照組的分析錯誤率相對較高,聚類結果中存在的誤差較大,造成化工企業的財務數據指標不符合標準,異常分析的準確程度下降。和對照組相比,試驗組的分析錯誤率最低,為0.8%。這樣就使聚類結果中的誤差變小,準確率也有了顯著提升,財務數據信息異常分析趨于準確,分析結果更具有說服力,可及時發現財務數據中的數據信息異常,使化工企業財務數據信息異常的分析更全面。
該文從化工企業財務數據信息入手,運用深度學習技術,探究了基于深度學習的化工企業財務數據信息異常分析方法。通過檢測與分析化工企業財務中的異常數據,對異常值進行查缺與填補,完成對化工企業財務數據清洗的過程。但是方法中也存在不足,例如算法中存在的閾值問題、對數據的空間特征的異常值檢測問題及空缺值的問題。在以后的研究中應及時精細算法,對時間序列進行降維以改進異常值,提升異常分析的準確性。利用特性找出原有數據中的臟數據,對化工企業財務數據進行合理有效的清洗,構建優質數據庫集群,從而使該方法的研究更完善。