程津 周鯤 徐志強 伍家耀



摘 要:為了解決現有電力造價異常數據檢測算法無法識別清單詳情及清單與施工細節不符的問題,提出了一種基于規則匹配的電力造價異常數據辨識算法.利用Kmeans聚類算法實現了清單的初步分類和特征清單的提取,將特征清單的特征詞作為清單類別特征.采用規則庫對清單詳情進行分詞,并提取清單特征詞,采用多項式貝葉斯算法計算出清單位于當前類別的概率.實驗結果表明,所提出算法較傳統異常數據檢測算法的準確率提高了約10%.
關 鍵 詞:電力造價;規則匹配;規則庫;異常數據;異常檢測;清單詳情;特征詞;多項式貝葉斯
中圖分類號:TM769 文獻標志碼:A 文章編號:1000-1646(2023)04-0387-05
電力工程通常投資金額與工程量都較大,且與其他制造業聯系密切[1].電力工程造價的管理與監督一直是電力工程建設中的一個重要環節,其可以輔助施工方合理制定工程預算,同時利于實行有效的監管,是貫穿于工程建設的主要工作,對于維持行業秩序意義重大[2-3].由于電力造價文件錄入過程中的人為疏忽或造假等原因,電力造價數據庫存在大量的異常數據,主要可以分為兩個大類:第一類是同類清單單價差異過大的異常;第二類是清單詳情與施工細節不符的異常.目前的電力造價異常檢測方法可以基于統計學原理,對第一類異常情況進行有效的辨識,但對第二類異常情況的辨識效果欠佳[4-6].為了能夠有效辨識與施工細節不符的異常清單,確保電力造價歷史數據的真實性,本文提出了一種對清單詳情進行綜合單價異常檢測的電力造價異常數據辨識算法.該算法根據清單分類結果確定最具有代表性的特征清單,提取特征清單詳情中的特征詞作為異常辨識依據,并利用多項式貝葉斯方法計算某一清單屬于某一類別的概率,實現清單異常的辨識.該方法能夠有效克服依靠人工主觀制定類別特征的弊端,顯著提升清單異常辨識的準確性和辨識效率.