摘 要:本文探討在廉政反腐預測中應用數據挖掘技術的必要性和可行性,分析數據挖掘技術的各種主要算法及其在廉政數據分析中的應用前景,針對目前我國法律和反腐工作的實際,設計了廉政評價數據挖掘系統的各個模塊。
關鍵詞:數據挖掘;廉政反腐預測指標
中圖分類號:TP311 文獻標識碼:A 文章編號:1674-7712 (2014) 02-0000-01
遏制腐敗,推進廉政建設,是政府的使命。但是,沒有測度量化,就不能有效管理,反腐倡廉領域也不例外。對腐敗程度進行一定的量化預測并且分析其產生的途徑,有助于推進反腐敗工作,因而越來越受到重視。20世紀90年代以來,一些國際組織(以透明國際為代表)通過腐敗預測指標來督促各國政府加強廉政反腐工作。在此背景下,政府也重視并投入到廉政反腐評價的建設中。
政府可以通過數據挖掘技術改進和豐富工作方式,主要的挖掘思路:通過數據挖掘方法,總結學習歷史數據,建立排摸預測模型,針對公務人員主要指標的發現、提取、分析,實現對其進行評價,并且進行下一步行為的預測,完成反腐敗工作預排摸,為紀檢監察部門的工作和提前處理提供重點名單。此系統的建成對整體把握腐敗尺度和反腐敗度力度,預防“大老虎”的出現以及讓民眾滿意政府的工作都有一定的決策支持的意義。
一、理論綜述和應用前景
現在已經有給紀檢監察部門開發的系統,單位的干部檔案可以通過數據挖掘方法維護和分析,干部選拔任用的信息追蹤也能做到。顯然,數據挖掘技術必定有更深入的應用,比如,針對部分公務員的腐敗墮落情形,存在著某些共性特點、規律,是否能通過數據挖掘發現,甚至建立一個模型,把當前的廉政指數測評出來,以及預測最有可能腐敗變質的是哪樣的干部,并且找出這樣一個可疑點組合,避免更多的窩案大案,這樣的應用才是經典的而且符合科學發展觀的要求。其實有很成熟的這種測評模型思路,公務員的腐敗大致上分為三種,一種是貪錢(行賄受賄、貪污公款等等),一種是貪色,再有一種是濫用職權,通過對三種案例歷史數據的整理,每種腐敗的形成模型就分別建立,分析各種腐敗的關鍵因素(指標)、關聯規則、相互之間的影響、指標權重,總體上針對各種腐敗的信息挖掘系統就能夠設計和實現。
對各種類別的指標用標準化的方法進行加總,可是不能把指標的聚中性反映出來,但是量度指標的聚中性和可加性有數據挖掘這個有效途徑。數據挖掘是指從大量的結構化和非結構化數據中提取有用的信息的過程。數據挖掘源于數據庫知識發現(KDD)技術,人們需要從海量信息中獲得全面、準確、有效用的知識,因而這種技術得以形成和發展完善。政府廉政評價預測指標設計中存在同級指標可加性問題,利用海量數據挖掘可以解決,從而指標彼此相加的問題就從理論上解決了。不相交的次級指標集合在兩個同級指標中進行合并時聚中向量具有可加性。因為指標聚中向量具有可加性,所以能精確地加減計算同級政府廉政評價預測指標,運用廉政評價預測指標最終得到所評估出的指數。從設計指標的目的來說,降低數據存儲量和計算量,以及保證聚中度計算的精確性是關鍵,當指標聚類具有加和性就能滿足。因此采用數據挖掘方法,各級政府廉政評價預測的科學性在整體上有所提高。
數據挖掘應用到反腐工作中,估測挖掘出的一些線索、規則會很有意義,例如滿足哪些具體條件,某類肯定會違紀違法的人群就能大致預測出來,而通過事前采取的預防措施,能夠很好的避免腐敗案件的發生。
二、算法應用和系統各模塊
一個是否滿足適應性的數據挖掘模型,所挖掘出來的結果的價值會受到直接影響,在公務人員活動的領域中,回歸模型、分(聚)類方法、決策樹模型、神經元算法、遺傳算法(GA)、可視化方法等適應性很強,應用前景十分廣闊。
三、結束語
通過對腐敗案例進行機器學習(machine learning),數據挖掘技術做到對公務人員從政軌跡進行總結。通過總結相關違紀違法途徑、環節等的特點與規律,并與待處理數據進行對比,進而深入分析和處理數據,發現和獲取新知識,從而對模型進行動態更新,為紀檢等機關提供更多線索。
參考文獻:
[1]胡侃,夏紹偉.基于大型數據倉庫的數據挖掘[J].軟件學報,1998(09).
[2]謝平,陸磊.中國金融腐敗指數:方法論與設計[J].金融研究,2003(08).
[3]徐擁軍,鄧榮華.腐敗測度理論與實踐述評[J].行政論壇,2009(02).
[4]倪星,王立京.中國腐敗現狀的測量與腐敗后果的估算[J].江漢論壇,2003(10).
[5]閻耀軍.社會學應用于廉政建設的一項創舉——評天津市\"廉政建設社會評價系統\"[J].社會學研究,1996(04).