999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下數據預處理方法研究

2020-02-18 01:31:36周黨生
山東化工 2020年1期
關鍵詞:數據挖掘特征方法

周黨生

(青島科技大學,山東 青島 266000)

隨著人類的進步社會的發展,信息和科學技術也飛速前進,大數據成長勢頭愈發迅猛,各個行業也以極快的速度產生海量的且形式各異的數據信息。但是,從這些大量數據中提取出的有用的信息卻是相當匱乏的,若沒有一個系統性的提取工具,那么提取有用信息的效率是相當低下的。所以,各種數據挖掘工具隨著時代的需求應運而生。然而,隨著挖掘工具的實際應用,人們發現這些數據是不能直接用來挖掘的,是非結構性的,于是,數據的預處理成為了擋在大數據前進路上的第一個關卡。在真實世界中,數據來源各式各樣質量良莠不齊,所以原始數據一般是有缺陷的,不完整的,重復的,是極易受侵染的。這樣的數據處理起來不僅效率低下而且結果也不盡人意,這種情況下數據的預處理顯得尤為重要。一方面,數據預處理把原始數據規范化、條理化,最終整理成結構化數據,極大地節省了處理海量信息的時間;另一方面,數據預處理可以使得挖掘愈發準確并且結果愈發真實有效。本文指出了大數據背景下處理原始數據時極易遇到的難題,并且針對這些難題得出了一些常規的數據預處理方法。在這些方法的應用過程中,刪除多余數據,撥正偏差數據,填補不完整數據,使得數據趨向結構化且準確性大幅提高,為下一步工作打下了基礎,極大地節省了數據挖掘的成本。

1 大數據預處理

數據預處理在整個大數據工作中占據極其關鍵的位置,在真實世界里,數據來源各式各樣質量良莠不齊,所以原始數據一般是有缺陷的,不完整的,重復的,是極易受侵染的。這些數據完全不適用于直接進行數據挖掘,所以為了得出更加準確的結果,我們不得不將原始數據進行預處理。從整個大數據的處理流程來看, 數據預處理技術的水平決定了數據的真實性、完整性,對后續的數據分析起到十分關鍵的作用[1]。

數據清洗(Data Cleaning)的主要內容就是按照一定的規則和標準把原始數據中存在的如數據缺失、奇異值和離群點等問題處理掉,也包括處理原始數據中留存的重復信息和噪聲干擾。

數據集成(Data Integration),數據集成顧名思義就是按照一定的特征規則將數據有機地集中,將來源各異的現實世界的數據相互匹配和統一的過程。這一過程改善了系統的協作性和統一性,大大節省了準備和分析數據所需的時間成本,提高了數據資源的利用率。這個過程的主要難點包括如何選擇數據,如何解決數據不兼容,如何根據不同的理論和規則將數據統一起來。例如冗余問題,常用的冗余相關分析方法有皮爾遜積距系數、卡方檢驗、數值屬性的協方差等。

數據變換(Data Transformation)是大數據工作中的重要一環,就是按照規則將數據進行轉換,使其滿足一定的條件來適用于下一步的工作。是找到數據的特征表示,用維變換或轉換來減少有效變量的數目或找到數據的不變式,包括規格化、切換和投影等操作[2]。它的主要轉換形式:(1)數據光滑。即運用分箱、聚類等進行數據光滑。(2)數據聚集。即將數據進行集中匯總。(3)數據概化。即用高一級的概念代替低一級的概念。(4)數據規范。把特征數據縮放,將原始數據映射到指定的區域中。(5)特征構造。即構造出新的特征并匯合到原本特征集中。(6)規范化。最小-最大規范化;零一均值規范化;小數定標規范化。

數據歸約(Data Reduction)主要有三個方面:(1)維歸約。利用主成分分析和小波變換將原始數據映射到較小的空間,常見算法有:LVF(Las Vegas filter)、MIFS(mutual informationfeature selection)、mRMR(minimum redundancy maxi-mum relevance)、Relief算法等。(2)樣本歸約。從原始數據中尋找出一個具有代表性的子集(估計量),使其能夠體現整個原始數據集的特征。(3)數據壓縮。若可以從處理后的數據中重構出原始數據且不丟失信息,則稱之為無損的,反之,稱之為有損的。(4)數值壓縮。原始數據可以用較小或較短的數據來表示,也可以用數據模型來代替。(5)離散化。把數據離散化,用有限個區間數據代替原始數據。

圖1 數據預處理的一般步驟

2 典型問題和方法

由于數據產生于真實世界里各個真正運轉的系統,所以原始數據有如下三個典型問題:

(1)無序性。數據來源各異并且質量良莠不齊,所以原始數據一般是無序雜亂的。原始數據都是來源于現實世界各個實際應用的系統,因為這些應用系統并沒有統一的標準來要求原始數據如何定義,也沒有統一的數據表達形式,所以原始數據間存在無序雜亂的狀態,且存在大量的無用誤導的數據,無法拿來直接使用。

(2)重復性。是指對于同一個客觀事物在數據庫中存在其兩個或兩個以上完全相同的物理描述。這是應用系統實際使用過程中普遍存在的問題,幾乎所有應用系統中都存在數據的重復和信息的冗余現象[3]。

政工部門在企業中是一個重要部門,其對企業的發展起著重要作用。故需要對工作機制進行不斷創新,優化工作管理制度,建立適應企業發展的管理機制。可以借鑒的建議為在制定企業管理制度時,將政工工作人員的利益放在第一位,對表現優秀的工作人員進行加薪和升職,需要建立合理的獎勵制度和懲罰制度,從而有效提高工作人員對工作的熱情和素質水平。政工工作人員需要留意在工作中遇到的問題,及時處理出現問題。此外,應該及時關注政工工作人員的政治思想,工作態度和工作人員對工作的反映情況,根據企業管理發展的具體目標完成對政工人員的管理,只有真真正正的考慮政工人員的利益,對企的發展才會更有益。

(3)缺失性。因為實際應用中的系統存在某些缺陷或是運行不當,可能使得數據集的某些屬性值缺失和記錄錯誤,甚關鍵數據的缺失導致整個數據集的價值大大降低,最后無法得出準確的結果。原始數據的缺失信息和隨機信息極多,只有對數據進行預處理,處理重復數據、缺失數據、隨機數據、不可用數據等原始數據存在的問題,下一步的數據挖掘工作才能更準確地展開。因此,數據預處理是數據挖掘前的一個非常重要的數據準備工作,是知識發現過程(knowledge discov-ery in database,KDD)的關鍵環節之一[4]。

數據預處理對下一步的工作來說是非常關鍵的,它直接影響最終的結果。針對"問題數據"比較典型的數據預處理方法:缺失值處理、異常值處理、重復值處理、去噪聲等。

圖2 問題數據種類

2.1 缺失值處理

1)刪除。當缺失值樣本對總體樣本的影響不明顯的時候可以通過刪除這種簡單有效的方法來解決問題,但是這種方法的缺陷也比較明顯,若刪除的缺失值恰好是關鍵需要的數據,則會直接影響到后續工作并且最終結果會產生較大偏移。

2)人工填補。只有用戶自己最了解自己的數據,所以通過人工填補的方法處理缺失值產生的數據偏離最小。但是,當數據集規模很大并且缺失值問題較嚴重時會消耗大量的精力和時間,此情況下不建議使用。

3)均值插補。數據集中的信息特征分為數據特征和非數據特征,如果數據集中的缺失值是數據特征,則根據此特征上其他對象的值的平均值來賦予該缺失的特征值;如果數據集中的缺失值是非數據特征,那就根據此特征值上其他對象的眾數來賦予該缺失的特征值。

4)就近補齊。對于存在缺失值的特征,就近補齊是在所有數據集中找與之最相近的特征,然后用這個相近特征的值進行填充。但是此方法中的“相近”這一概念沒有統一的標準,有較強的主觀影響,可能造成較大的數據偏離。

5)多重插補。主要有三步:①為每個缺失值都生成一套可以用來填補的值,產生若干完整數據集。②用對完整數據的統計分析方法對每個插補數據集合進行統計分析。③根據分析結果進行評析,選擇最優的插補值。

6)回歸。在完整數據集的前提下建立回歸模型,將已知的特征值帶入模型預測出未知的特征值,然后將此預測值填補缺失部分。

7)極大似然估計。一般常見的缺失值填補算法包括EM最大期望值算法(expectation-maximization algorithm)、MI算法(multiple imputa-tion)和KNNi算法(k-nearest neighbor imputation)等。

2.2 異常值判別和處理

1)簡單統計分析。例如對男性成人身高這個特征值進行規范統計:身高區間是[1.3:2.3],若樣本中的某個身高值不在這個區間內,則說明這個身高值屬于異常值。

2)3δ原則。根據正態分布定義可知P(|x-μ|>3δ)<=0.003,這種事件發生的概率不超過0.003,常規情況下不會發生,所以我們默認當樣本的距離的平均值大于3δ時該樣本為異常值。

3)基于模型判別。根據完整數據建立一個模型,其中不能同數據模型擬合的值就是異常值。

4)基于密度判別。當一個點的局域密度與其近鄰的點的局域密度有顯著不同時,我們可以判斷這個點是異常的。

5)處理方法:刪除;按照缺失值的方法來處理;用平均值修正。

2.3 噪聲處理

1)分箱法。將預處理的數據分散到若干個箱中,考察數據近鄰的噪聲數據值來光滑有序數據值。分箱的具體方法有三種:用箱平均值光滑,用箱中所有值的平均值代替箱中的每一個值; 用中位數光滑,即用箱中所有值的中位數代替箱中的每一個值; 用箱邊界光滑,將箱中的最值視為兩邊界,箱中的值都被更近的邊界值所代替。

2)聚類法。用聚類的方法找出并刪除孤立于簇之外的值,這些孤立點就是噪音。噪聲過濾的常用算法包括IPF算法(itera-tive partitioning filter)、EF算法(ensemble filter)[5]。

2.4 重復值處理

重復數據即兩次甚至多次出現的數據,因為在整體樣本中占得比例大于其他類型的數據問題而更容易令結果出現傾向性,因此處理重復值的方法一般是降低重復值的權重,對于重復數量不多的重復值可以使用直接刪除這種簡單方法。對那些可控的也就是數量不多的重復數據,一般是將其帶入代碼中進行匹配進而刪除多余的不需要的數據。一種混合刪除機制(Hy-Dedup),Hy-Dedup能把離線刪除和在線刪除結合起來,先使用在線刪除把重復數據刪除節約存儲空間,接著再使用離線刪除將未能在線刪除和刪除不徹底的重復數據刪除。

3 總結

隨著時間的推進,大數據發展日新月異,各種行業以及新興科技都會對數據預處理的發展產生巨大的推動作用,經過數據的預處理工作,刪除冗余數據,填補不完整數據,撥正偏差數據,將數據清洗后再挑選出必要的數據進行集成,達到數據格式一致、表達簡練、存儲形式統一。本文主要闡述了數據預處理的幾種典型方法,實際上由于外部環境干擾因素太多太雜,同時又因為各行各業對數據的要求形式不同,造成原始數據極大的不同且存在各樣的問題。所以我們在進行數據預處理時應該針對不同的數據采用不同的方法,科學地對數據對癥下藥,這樣才能把原始數據處理的適用于數據挖掘。

猜你喜歡
數據挖掘特征方法
探討人工智能與數據挖掘發展趨勢
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 毛片网站观看| 97狠狠操| 99re视频在线| 无码高潮喷水在线观看| 91久久青青草原精品国产| 国产一级妓女av网站| 四虎成人在线视频| 欧美国产成人在线| 久久这里只有精品23| 午夜免费小视频| 精品少妇人妻一区二区| 97亚洲色综久久精品| 国产91小视频| 日本欧美午夜| 国产1区2区在线观看| 99资源在线| 亚洲中文制服丝袜欧美精品| 国产自无码视频在线观看| 亚洲成综合人影院在院播放| AⅤ色综合久久天堂AV色综合| 亚洲综合天堂网| 在线免费无码视频| 久久精品视频一| 四虎影视国产精品| 欧美激情,国产精品| 国产综合欧美| 亚洲美女一区二区三区| 色丁丁毛片在线观看| 亚洲第一页在线观看| 久久亚洲日本不卡一区二区| 亚洲国产综合精品一区| 成人国产免费| 一区二区三区在线不卡免费| 少妇精品在线| 国产95在线 | 国产一区自拍视频| 日韩天堂网| 亚洲欧美综合精品久久成人网| 国产成人精品亚洲77美色| 91免费国产高清观看| 国产亚洲精品91| 天天躁夜夜躁狠狠躁躁88| 国产成年女人特黄特色毛片免| 国产小视频免费观看| 亚洲水蜜桃久久综合网站| 夜夜拍夜夜爽| 国产欧美日韩免费| 在线欧美国产| 久久久久免费精品国产| 在线人成精品免费视频| 91无码人妻精品一区| 欧美www在线观看| 国产jizz| 无码一区18禁| 国产精品香蕉| 亚洲无码电影| 99人体免费视频| 国产精品毛片一区| 精品福利国产| 午夜福利无码一区二区| 国产女同自拍视频| 国产亚洲欧美另类一区二区| 成人午夜久久| 无码又爽又刺激的高潮视频| 欧美成人在线免费| 成人综合久久综合| 影音先锋丝袜制服| 思思热精品在线8| 久久精品aⅴ无码中文字幕| 麻豆a级片| 天天综合天天综合| 狠狠亚洲婷婷综合色香| 久久精品娱乐亚洲领先| 99re这里只有国产中文精品国产精品| 日韩天堂网| 国产成人精品日本亚洲| 日韩国产高清无码| 中文字幕亚洲乱码熟女1区2区| 精品成人一区二区三区电影| 亚洲精品无码抽插日韩| 播五月综合| 亚洲第一成年免费网站|