趙新華,張克柱
(1.蘭州職業技術學院 電子與信息工程系,甘肅 蘭州 730020;2.蘭州職業技術學院 現代服務系,甘肅 蘭州 730020)
最低生活保障系統中數據挖掘技術的實現
趙新華1,張克柱2
(1.蘭州職業技術學院 電子與信息工程系,甘肅蘭州730020;2.蘭州職業技術學院 現代服務系,甘肅蘭州730020)
本論述對低保數據的挖掘中,使用了兩種挖掘算法,另外配合SQL Server 2010提供的數據挖掘功能對低保數據進行了全面的分析,介紹了OLAP技術和數據挖掘在低保數據分析中的應用。主要內容包括:分析了數據挖掘技術在低保數據分析中的應用意義;研究了關聯規則、決策樹算法、聚類分析在低保數據分析中的應用。這也是低保信息化工作今后重要的研究目標和發展方向。
數據挖掘技術;數據分析;模型
使用SQL Server 2010中的Analysis Services(分析服務),對低保數據庫中的數據選擇Microsoft決策樹算法,最終建立了決策樹模型。下面對運行的結果中有指導意義的信息做如下解釋:
(1)在決策樹建立時,選取了性別、年齡、文化程度、健康狀況、債務情況、家庭規模六個屬性,從最終得到的依賴關系圖中,可以發現對低保戶貧困狀態影響最大的屬性是年齡,然后是文化程度,緊跟著是性別,之后是債務情況。債務情況是最不具影響力的因素,因為在依賴關系圖中債務情況沒有顯示出來。
(2)在決策樹結構中,首先從根節點根據文化程度將整個數據樣本劃分為5部分,在樹形結構的第二層中,文化程度中和高的這兩個節點沒有再進行分支,文化程度為低的節點按照年齡進行分支;在屬性結構的第三層中,年齡的中和高這兩個屬性按照性別分支形成了下一級節點,性別為男和女的分別按健康狀況分支。以下的各級節點都是按照人均收入分組的,債務情況在分支的建立過程中沒有體現,也就是債務情況在低保金分配的影響因素中是很小的。
本論述選取了低保數據庫中的樣本數據13 772條。為了比較城市和農村地區低保人員的特征差異,在數據分析時將數據分成兩部分:城市和農村,采用Apriori算法對低保數據進行關聯規則的分析,主要是對低保人員的特征分析,包括年齡、性別、文化程度、健康狀況等方面特征的分析。具體分析過程概括如下:(1)執行后臺存儲,過程進行數據預處理;(2)Apriori算法實現,找出所有頻繁項集及其支持度;(3)在頻繁集中產生關聯規則;(4)分析關聯規則,與實際結合,指導決策。
2.1低保數據關聯規則項集的生成過程。
本論述選取了低保人員的以下特征實現關聯分析:年齡、文化程度、性別,目的是為了得到對低保工作有指導意義的規則。為了應用Apriori算法,使用迭代的方法。下面簡要描述生成項集流程:input:事務數據庫D;output:D中的頻繁項集L。
(1)在第一次掃描中,對D中的每一個數據項計算其支持度,確定出滿足最小支持度的一頻繁項集集合Ll:{年齡<60}、{性別=男}、{文化程度<=小學}、{范圍=城市}。
(2)利用已經生成的1項集L1進行自連接,得到候選2項集的集合L2:{年齡<60,性別=男}、{年齡<60,文化程度<=小學}、{年齡<60,范圍=城市}、{性別=男,文化程度<=小學}、{性別=男,范圍=城市}。
(3)然后掃描數據庫,計算這些候選集的支持度。
(4)因為對低保數據進行關聯分析的目的是得到低保人員在各個屬性中的分布,最終通過對比支持度來得出結論,所以不需要對L2進行剪枝處理。通過L2自身的連接,得到候選3項集,然后掃描數據庫,得到3項集的支持度。
(5)對3項集L3進行自連接,得到4項集L4:{年齡<60,性別=男,文化程度<=小學,范圍=城市},掃描數據庫計算支持度。
(6)對4項集L4進行自連接,得不到5項集,即L5為空,掃描結束。最終的頻繁項集就是L1到L4。
對于城市低保人員信息抽取同樣數量的樣本信息,進行支持度計算,比較城市和農村支持度分布狀態,對城市和農村的低保人員的特征和它們之間的差異有一個詳細的掌握,為城市和農村采取不同的低保措施提供科學的依據。
2.2低保數據的聚類分析
要求每個模型都必須包含一個數值或文本列,用于唯一標識每個記錄,不允許復合鍵,且每個模型有一個或多個輸入列,這個輸入列關系到生成分類的值。輸入列的數目由每個列中值的數量來決定,添加額外的列會使定型模型的時間延長。
聚類分析在構造模型時不需要可預測列,但是可以添加可預測列,而且預測列的數據類型幾乎沒有限制,將列的值作為對聚類分析模型的輸入,或者規定只用于預測。例如,如果需要通過對人口統計信息(如地區或年齡)進行分類來預測客戶的收入,則可將收入指定為PredictOnly,然后將所有其他列(如地區和年齡)添加為輸入。
挖掘結構建立好后啟動調試,可以選擇Microsoft分類查看器瀏覽模型。查看聚類分析模型時,Analysis Services將在一個關系圖中顯示分類(該關系圖描繪了分類之間的關系),還提供了每個分類的詳細配置文件、將每個分類與其他分類區分開來的屬性列表以及整個定型數據集的特征。
如果希望了解更多詳細信息,可在Microsoft一般內容樹查看器中瀏覽該模型。該模型存儲的內容包括每個節點中所有值的分布、每個分類的概率以及其他信息。
本論述中的數據源是Excel表格,先利用SQL Server2008的導入導出工具將低保數據導入到數據庫“低保管理”中。為了讓SQL Server服務器能夠連接到需要進行挖掘的數據,首先需要對數據源進行設置,具體步驟如下:
步驟l:啟動SQL Server Business Intell igence Development Studio,在“文件”菜單中選擇新建“項目”,在出現的[新建項目]對話框中選擇類型[商業智能項目]。在本次數據挖掘中將項目命名為dibao。選擇現有的數據連接;
步驟2:定義Analysis Services可以使用哪種Windows憑據來連接數據源,這里選擇“使用服務賬戶”選項。
其次設置數據源視圖,步驟如下:
步驟1:新建“數據源視圖”,打開“數據源視圖向導”,單擊下一步;
步驟2:選擇表和視圖,選擇“包含的對象”單擊下一步;
步驟3:在名稱框中輸入名稱:低保數據視圖,單擊“完成”按鈕。
最后建立數據挖掘結構,步驟如下:
步驟1:新建“數據挖掘結構”,打開“數據挖掘向導”,選擇定義方法:“從現有關系數據庫或數據倉庫”,此方法基于現有關系數據庫中的表和列定義挖掘結構;
步驟2:選擇“Microsoft聚類分析”挖掘方法;
步驟3:指定分析時要是使用的表的類型;
步驟4:為挖掘模型結構指定鍵、輸入列和可預測列,指定列的內容類型和數據類型;
步驟6:挖掘結構命名“低保數據聚類分析”,挖掘結構創建完成。
通過上面的聚類分析情況,可以得出這樣的結果:低保人群大部分是文化程度在小學以下(包括小學),而且大多數是年齡偏大。因此,在低保工作的過程中,應對這些人員更加重視,需要在政策等方面加大扶持力度,解決低保人群的根本性問題。
通過對低保數據采用幾種數據挖掘技術進行挖掘,筆者對數據挖掘的功能和實現方法有了比較深刻的理解。在對低保數據的挖掘中,筆者使用了兩種挖掘算法,另外配合SQL Server 2008的提供的數據挖掘功能對低保數據進行了全面的分析。
介紹了OLAP技術和數據挖掘在低保數據分析中的應用,主要內容包括:分析了數據挖掘技術在低保數據分析中的應用意義;研究了關聯規則、決策樹算法、聚類分析在低保數據分析中的應用。這也是低保信息化工作今后重要的研究目標和發展方向。隨著計算機技術與應用的發展,以及各種海量信息數據的不斷產生和保存,數據挖掘技術的研究與應用越來越具有基礎條件。
[1] 楊光,張雷.OLAP技術及其發展[J].計算機應用研究,1999 (22):7-10.
[2] 李慧,聞豪.基于數據倉庫的0LAP技術研究[J].電腦知識與技術,2005(2):77-81.
[3] 印勇.決策支持分析新技術——數據挖掘[J].重慶郵電學院學報,2001增刊:70-74.
[4] 姚家奕,等.多維數據分析原理與應用[M].北京:清華大學出版社,2004.
[5] 張維明,等.數據倉庫原理與應用[M].北京:電子工業出版社,2002.
[6] 陳京民.數據倉庫原理、設計與應用[M].北京:中國水利水電出版社,2004:21-35.
TP311
A
10.3969/j.issn.1672-6375.2016.04.002
2016-3-4
趙新華(1980-),女,漢族,甘肅蘭州人,碩士研究生,講師,主要從事大數據研究工作。