中圖分類號:TP393 文獻標志碼:A
文章編碼:1672-7274(2025)04-0013-04
Abstract: The existing real-time monitoring methods for abnormal values in financial data have low accuracy and high 1 alarmrates,which leads to inaccurate monitoring of abnormal values in financial data and has certain limitations.This article proposes a real-time monitoring method for financial data outliers basedon nearest neighbor algorithm.Firstly,bycalculatingthelocaldensityandminimumdistance,selectingtheRBFkernelfunction,areal-time monitoring modelfor financial dataoutliers is established basedontheclustering results.Secondly,the intensityratio ofthesetreference windowand investigation window iscalculated to extract abnormal paterns in fiscal data.Finally, based on the elbow rule curve and follwing acertain process,the monitoring task of abnormal values in financial data is completed.The experimentalresultsshowedthatusing thereal-time monitoring methodforfinancialdataoutliers basedon the nearest neighbor algorithm,the monitoring accuracy was over 95% ,and its average 1alarm rate was 3.21%
Keywords: local density; nearest neighbor algorithm; RBF kernel function; intensity ratio; elbow rule
在財政數據管理中如何準確、高效地識別和處理異常值成為保障數據質量[1]、預防財務風險中亟待解決的問題。
現在應用最多的孤立森林方法是首先對異常點特征進行定義處理,使這些異常點作為離群點被孤立。由于其具有分布稀疏、距離較遠等特點,因而正常數據點不會落在該離群區域內。在此基礎上,對相應特征值和分割值進行隨機選擇,從而孤立出這些異常點。但該方法的操作技術較復雜。
針對上述情況,本文提出基于最鄰近算法的財政數據異常值實時監測方法。該方法綜合該算法的原理和特性,結合財政數據的具體特點,通過目標搜索、樣本之間的相似性度量和異常得分進行建模,從而減少監測計算量,這種方法更為高效、準確。
財政數據異常值實時監測方法
1.1建立財政數據異常值實時監測模型
通過計算異常數據的分布函數,得到相應異常
數據分布范圍,再通過概率密度函數計算相應閾值范圍,實現對財政數據異常值狀態的實時監測,其分布公式為

式中, s 代表異常數據變量數值; ε 代表位置參數數值; β 代表尺度參數數值; α 代表形狀參數數值。
對式(1)計算結果進行數據聚類處理,發現數據的內在結構和分布狀態2。首先對各數據點的局部密度和最小距離進行計算,計算公式為

式中, ρi 代表所求數據點的局部密度值; j 代表所有數據點的索引編號; ? 代表所求數據點的索引編號; dij 代表i和j數據點之間的距離; dc 代表用于控制局部密度計算范圍的截斷距離。

式中, δi 代表所求數據點的最小距離; ρj 代表數據點j 的局部密度; minj 代表對所有滿足條件的 j 取最小值。同時,所得局部密度和最小距離選擇相應聚類中心,并將其他數據點分配到最近的聚類中心位置。然后選擇RBF核函數,利用DPC聚類結果輔助SVM模型進行異常檢測。通過參數自適應度對模型性能進行優化,選擇最優懲罰參數和RBF核的gamma參數[3],通過交叉驗證評估模型性能,其中SVM的決策函數為

式中, αi 為支持向量的系數; yi 為數據集中每個點的標簽; K(xi,x) 為兩個數據點之間的相似度或距離; b 為決策函數的偏置項。財政數據異常值實時監測模型如圖1所示。

1.2提取財政數據異常模式
在大量財政數據中將一段數據流進行截取,得到相應的考察窗口,利用其進行數據的監測。多選擇一個窗口作為對比參考窗口,對兩個參考窗口進行強度比率計算和判斷[3],其計算公式為

式中, picount 表示選擇的時序模式的支持度;
p? count表示模型中按照時序模式的支持度; n 表示時序模式數量; W 表示窗口; freqW(p) 表示 p 在 W 中時序模式支持度。將兩個參考窗口設置為RSW和RFW,計算其強度比率[4,其計算過程為

設置其閾值范圍為 [ls,hs] ,從而得出財政數據庫的異常模式判定的條件,其計算公式為
fRSW?RFW(p)?ls|fRSW?RFW(p)?hs
通過上述過程,使參考窗口RSW與RFW均呈現滿足其異常模式判定的條件的狀態,從而提取相應數值,達到對財政數據異常模式提取的目的。
1.3實現財政數據異常值監測任務
通過上述過程,實現財政數據異常值的檢測,在此基礎上,完成監測任務。基于最鄰近算法的監測方法是通過不斷學習的過程,將異常值特征關聯性較強的數據向同一簇中進行劃分,其監測流程如圖2所示。

對該模型通過結構突變和粗差曲線的不同特征對財政數據異常值進行識別和監測。對于每個數據點,計算它與其他所有數據點的距離,其計算公式為

圖2中最鄰近算法所用肘部法則曲線[5如圖3所示。
2 實驗論證分析
為驗證本文方法是否可以應用于實際操作中,筆者對其進行實驗,并與常用K-均值聚類異常值監測方法、Z-ScoreX異常值監測方法進行對比。本實驗通過在財政數據庫中隨機抽取2000個、3500個和5000個數據,組成三個數據集。

通過上述實驗,可以驗證監測方法的識別準確度,在此基礎上,選擇數據集2,將數據集中異常數值剔除,并隨機剔除一定數量的非異常數值,再通過人工干預增加數據庫異常值。保證數據庫總數為3500個。使用三種方法對該數據集進行監測,監測的數據集數量由500開始向上增加,得出不同數量數據時所識別到的異常數據值數量,從而計算其誤報率。
2.1實驗數據采集
本實驗采用的計算機型號為AMDRyzen9,內存為DDR38GB,256GB機械硬盤。本實驗所使用的軟件工具參數如表1所示。

2.2實驗結果分析
本實驗對選取的三個數據進行實驗,通過三種方法對其異常值進行監測,計算其識別準確率。識別準確率可以衡量監測方法正確識別異常值的能力,其數值越高證明該方法的實用性越強。異常值識別準確率數值如圖4所示。

由圖4可知,三種方法在對三個數據集進行監測中,其準確率均在 70% 以上,本文研究方法識別準確率在三種方法中數值最高。在對三個數據集進行實驗時,本文方法準確率比其他兩種方法多 10% 以上,且其準確率始終保持在 95% 以上。結果證明,本文方法在對財政數據異常值進行監測過程中,可以準確識別異常值。
將異常值數量與經過三種方法所得出的異常值數量做差。其差值就是異常值的誤報數量,從而得出三種方法對異常值的判斷是否準確。異常值誤報數量的變化程度如圖5所示。

由圖5數據可知,隨著數據集數量的增加,三種方法識別的異常值誤報數量也呈現增加趨勢,本文方法平均誤報率為 3.21% ,而Z-ScoreX異常值監測方法平均誤報率達到 8.43% ,孤立森林異常值監測方法平均誤報率達到 13.42% ,因此,本文方法誤報率較低。該實驗結果證明,本文方法在數據不斷增加情況下,可以保證較低的誤報率,其監測結果比較準確。
3 結束語
綜上所述,基于最鄰近算法的財政數據異常值實時監測方法,實用價值較高,可以對財政數據庫異常值進行準確地識別和判斷。該方法通過計算數據點之間的距離或相似度來識別異常值,具有靈活性、準確性和實時性等優點。在未來研究中,需要進一步對算法優化和計算速率進行研究,從而進一步提升基于最鄰近算法的財政數據異常值實時監測方法的性能和準確性,使其更好地應用于財政數據監測中。
參考文獻
[1]張伴.基于隨機森林算法的財務異常數據監測方法研究[J].佳木斯大學學報(自然科學版),2024,42(12):48-51.
[2]周偉,牛譽蓉.基于K-近鄰與FOA改進聚類的數據異常分析模型及用電行為分析[J].成都工業學院學報,2024,27(5):11-16.
[3]馮馳,張五八,劉修福,等.基于物聯網技術的電力調度數據異常監測方法研究[J].自動化技術與應用,2024,43(8):129-132.
[4]侯立,王健.改進密度峰值聚類的多源數據異常值檢測算法[J].計算機仿真,2024,41(6):565-569.
[5]張譯,魏永瑜,馬燕,等.基于最鄰近算法的數據中臺內生性數據安全交互系統[J].電子設計工程,2024,32(8):121-124,129.