999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于融合改進K-means 聚類算法的數據檢測技術

2024-03-11 01:51:52郭克難
電子設計工程 2024年5期
關鍵詞:檢測

郭克難

(河北北方學院附屬第一醫院,河北張家口 075000)

在當前數字化建設廣泛普及的背景下,社會各單位對辦公、財務及業務系統的信息化建設均較為重視。尤其當進入大數據時代后,財務系統的設計與應用更加趨向于智能化和高效化,這對于財務數據準確率的提升也有極大幫助[1-2]。財務數據具有維度高、數據量大的特點,因此分析平臺中核心算法的性能優劣直接決定了該數據流通以及信息整合的效率[3-4]。

在多數醫療機構中,由于數據繁雜、遷移不便與投入較少等原因,存在信息化平臺老化、數據處理性能不佳的問題。已有的系統設計難以適用于當前多變的財務環境,檢測系統異常數據的準確率也較低,從而導致壞、死賬率過高。因此,該文對傳統K-means 算法進行改進,使其具有處理大數據的能力,進而在不改變原有系統架構的前提下提升了財務系統檢測異常數據的能力。

1 異常數據檢測算法設計

1.1 K-means聚類算法

該文所采用的基礎K-means 算法[5-7]首先需要確定數據簇的數量K,即有K個簇中心,且這些簇中心在初始數據樣本集合D中產生。確定簇中心后,計算簇數據點xi到每個中心點的歐氏距離,計算公式為:

式中,Ci表示數據點xi與簇之間距離最近的類別;μj為數據類的簇中心,其計算公式如下:

其中,l{·}表示距離的集合,根據距離最短原則將xi劃入某個簇中并進行多次迭代,直至數據點被分類完畢,算法結束。該算法的執行流程如圖1所示。

圖1 K-means算法執行流程

由上述流程可見,該文采用K-means 聚類算法的實現難度低且建模準確度高,可以對數據進行初步分類。但聚類數量選擇的隨機性會造成一定的誤差,因此需要對原始K-means 算法進行一系列的優化。

1.2 聚類中心優化算法設計

密度峰值聚類(Density Peaks Clustering,DPC)算法[8-10]能對K-means 算法的缺陷進行改進。對于DPC 而言,有兩個關鍵性指標:兩個不同點之間的局部密度值和數據點到更高密度簇點的距離。文中使用這兩個關鍵性指標對密度峰值進行定義。假設某簇中的數據點為xi,則該點的局部密度值可表示為:

式中,ψ(·)是一種狄利克雷函數,當自變量>0時,該函數為0,否則函數為1;dc為截斷距離;ρi為xi數據點的局部密度。

數據點到更高密度簇點的距離Di可表示如下:

在選取聚類中心時,通常選擇Di和ρi數值較大的數據點。設在數據集合D中有數據點xi及xj,若xi的局部密度大于xj,則稱xj依賴于xi,此時可將該例引申至數據集合中;若其中的一組數據存在遞進依賴鏈,則最強的依賴項即為簇的聚類中心。

1.3 最優聚類數目選擇算法

在傳統的K-means 聚類算法中,核心思想均是在已知聚類簇數量的情況下完成后續的算法操作。這種方式主觀性較強,對于維度較高的樣本,無法通過數據直觀地對聚類簇數量進行判斷。同時,若直接確定簇的數量,則在后續分類過程中對隸屬度較低邊緣模糊點的分類準確率也偏低。因此,該文通過主成分分析法(Principal Component Analysis,PCA)[11-13]對數據的聚類簇數量進行確定,并使用聚類有效性指標改進算法,最終根據數據的特征,自適應地確定最優聚類數量。

由于醫療財務數據的維度較高且具有諸多邊緣特征,因此,文中首先使用PCA 算法對數據進行降維操作。該算法的作用主要體現在兩個方面:1)消除數據在高維度空間中存在的冗余信息;2)對高維數據中難以計算和分析的特性進行簡化。通過對數據進行預處理,將所得結果表征為矩陣的形式。設矩陣中的元素為xkj,然后計算數據集中兩個不同變量的協方差參數為:

根據式(6)構建矩陣的特征值方程,同時計算該矩陣的特征值λi以及其所對應的特征向量,同時將特征值進行排列。然后再計算主成分貢獻率,并對數據進行降維。主成分方差貢獻率和累計方差貢獻率的計算公式為:

最終輸出主成分數量,進而得到預處理后的數據。

1.4 基于LOF的數據離群點檢測算法

局部異常因子(Local Outlier Factor,LOF)算法[14-16]是一種用來描述數據點離群程度的因子,該算法可根據K-means 聚類算法的結果來獲得離群點周圍的數據密度。該文將LOF 算法放置于K-means 算法之后,后者聚類會產生一些離群點,而前者則將聚類得到的簇作為算法的一個檢測域。設某點的局部密度和領域內數據點的密度接近,即認為該點是正常數據;否則為異常數據。LOF 離群點檢測示意圖如圖2所示。

圖2 LOF離群點檢測示意圖

假設數據集D的維度為d,且D中的數據點用xi表示,則數據集中任意相鄰兩點的歐氏距離可表示為:

而點xi的第k個距離可定義為dk,其是指點xi附近的密度值,當dk值較大時,表示周圍的密度較小;反之亦然。從該定義可引申至第k個鄰域的概念,由此可知,數據集合中點xi到xi+1的可達距離如下:

由式(10)可知,任意兩點的可達距離實際就是點xi+1的第k個距離與xi到xi+1真實距離的最大值。因此局部的可達密度則表示為:

點xi的離群因子使用可達密度進行表示,則有:

由此可見,利用LOF 算法對數據離群因子進行計算時,由于使用了改進的K-means 算法完成分簇,所以產生的離群點較少,因此僅使用少量計算資源便可以對離群因子進行計算并排名,從而得到異常數據的檢測結果。

1.5 基于改進K-means的異常數據識別算法

基于上文的理論分析和模塊改進,該文在上述算法優化的基礎上提出了一套醫療財務異常數據識別算法,其總體結構如圖3 所示。

圖3 算法結構

首先,融合PCA 算法對數據進行降維;降維后的數據輸出到基礎K-means 算法中完成分簇,且簇數量由數據維度決定;同時,使用DPC 對K-means 聚類中心加以優化;然后采用LOF 算法對模型的數據離群點進行檢測;最終,根據離群因子的排名判斷出異常數據。

2 實驗與分析

2.1 實驗環境與數據樣本

該文使用Matlab 平臺對算法進行實現,實驗的環境配置如表1 所示。

表1 硬件環境

該文所采用的聚類數據集為人工和真實數據集,其中前者為虛假二維數據集,主要是不規則的分簇點集合,其可以對算法的聚類性能進行有效驗證;而后者則為某大型醫療機構2017-2021 年的財務數據,且對該數據進行了歸一化預處理。

2.2 算法測試

首先使用人工數據集對文中所提算法的數據聚類性能進行驗證,該數據集選擇的標簽為:Ring、FuzzyX、Zigzag、Para 與Moon。同時,采用基礎Kmeans、FMK-means、DBSCAN 以及K-means-DPC 這四種對比算法來驗證該文算法的性能。此外,還選擇了調整蘭德系數(Adjusted Rand Index,ARI)指標對算法進行評估,ARI 指數越趨近于1,表示算法的聚類效果越優,具體測試結果如表2 所示。

表2 不同算法的聚類性能對比

從表2 中可以看出,該文算法對多個不平衡人工數據集的聚類效果均較優,且在所有算法中ARI的指標最高,而基礎K-means 算法在所有數據集中的表現均最差。由此表明,該文對基礎算法的改進是有效的。

除了算法的理論性能外,文中還對算法檢測真實異常數據的能力進行了檢測[17-19]。通常而言,異常數據均為離群數據,因此使用離群因子對該數據的離群能力進行測試。使用的數據集為真實數據集,并對其中的異常數據均做了標記,評估指標為檢測準確率,而使用的對比算法則為K-means-LOF、FMK-means-LOF、DBSCAN-LOF、K-means-DPCLOF 以及該文算法。算法測試結果如表3 所示。

表3 不同算法對異常數據的檢測準確率

由表3 可知,基礎K-means 算法的準確率最低,僅為68.5%;在其基礎上增加了DPC 的改進算法,準確率達到了76.8%;而該文算法則進一步引入了PCA降維的環節,因此準確率達到了79.2%,在所有算法中最高。

3 結束語

為了提高醫療機構財務系統對異常數據檢測的準確性,該文基于改進K-means 算法提出了一種適用于各類常見平臺的異常數據檢測算法設計。針對基礎K-means 算法簇中心點選擇隨機與分簇精度較差的問題,文中結合了DPC 算法對數據集合的密度情況進行計算,進而選擇出最優簇中心點。同時融合了PCA 方法對數據進行降維,提高了運算的速度并確定簇數量。最后通過LOF 對離群點進行測試,進而檢測出異常數據。實驗結果表明,該文算法在人工和真實數據集測試中的指標均為最優,證明了該算法的綜合性能良好,可以對常見的異常財務數據進行準確地檢測。

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 国产精品永久久久久| 国产免费福利网站| 91小视频在线观看| 欧美激情视频一区二区三区免费| 亚洲精品国产成人7777| 国产精品网曝门免费视频| 激情综合婷婷丁香五月尤物| 欧美日韩中文国产| 韩日无码在线不卡| 国产手机在线ΑⅤ片无码观看| 制服无码网站| 国产麻豆aⅴ精品无码| 国产精品欧美激情| 欧美一级色视频| 无码中文字幕乱码免费2| 亚洲国产第一区二区香蕉| 国产91麻豆免费观看| 无码精油按摩潮喷在线播放| 午夜视频免费试看| 久久人体视频| 午夜国产精品视频黄 | 综合网久久| 国产网站黄| 精品福利国产| 亚洲成人在线免费观看| 日韩毛片免费观看| 在线观看无码av五月花| 免费人成又黄又爽的视频网站| 欧美日韩激情在线| 国产欧美亚洲精品第3页在线| 人妻少妇乱子伦精品无码专区毛片| 97超碰精品成人国产| 精品少妇人妻av无码久久| 国产精品播放| 日韩在线中文| 在线不卡免费视频| 中文无码精品A∨在线观看不卡| 欧美一道本| 亚洲性网站| 91娇喘视频| a网站在线观看| 国产综合日韩另类一区二区| 国产精品自拍露脸视频| 国产精品蜜芽在线观看| 成人福利在线观看| 日韩欧美高清视频| 毛片在线播放a| 国产丝袜丝视频在线观看| 欧美日韩成人| 97久久精品人人做人人爽| 在线观看国产小视频| 国产精品yjizz视频网一二区| 色婷婷亚洲十月十月色天| 丰满的少妇人妻无码区| 国产毛片片精品天天看视频| 一级毛片不卡片免费观看| 亚洲精品无码在线播放网站| 色天天综合久久久久综合片| 亚洲精品久综合蜜| 香蕉在线视频网站| 性欧美久久| 一本大道在线一本久道| 日本不卡在线视频| 思思热在线视频精品| 欧美色视频在线| 丝袜久久剧情精品国产| 波多野结衣一二三| 国产情精品嫩草影院88av| 丁香六月激情综合| 国产肉感大码AV无码| 黄色网站在线观看无码| 欧美午夜理伦三级在线观看| 国产永久免费视频m3u8| 欧美69视频在线| 日韩无码视频专区| 欧美日本在线播放| 亚洲一级毛片在线播放| 激情综合婷婷丁香五月尤物| 欧美黄网站免费观看| 亚洲国产精品日韩欧美一区| 精品少妇人妻无码久久| 国产精品亚洲片在线va|