999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于三支決策的缺失數據處理綜述

2020-11-25 08:49:40竺凡超李紅宇
電子技術與軟件工程 2020年3期
關鍵詞:信息方法

竺凡超 李紅宇

(哈爾濱師范大學 黑龍江省哈爾濱市 150025)

1 引言

在進入大數據應用時代的背景下,隨著當前我國計算科學與信息技術的快速發展,數據存儲及獲取能力有了很大的提高,數據整體規模呈現急速增長姿態。然而由于諸多人為因素,數據分析獲取時間限制等諸多技術方面上的原因,出現了大量具有缺失性的數據在企業數據的采集分析和數據研究結果推論上都將會帶來比較大的困難,往往容易直接造成數據分析推論結果出現偏差,影響數據決策者的正確性。缺失大量數據的采集處理已經成為一個非常具有巨大挑戰且幾乎不可避免的技術難題。目前已經提出了很多正確處理缺失數據的有效方法,如何更有效的正確處理這些具有缺失性的數據,隨著三支決策思想的引入后也得到了很大程度的改善。

2 三支決策理論概念

三支決策理論是由著名的加拿大華人中國學者姚一豫等人于上世紀九十年代研究并提出的,在二支決策基礎上的一種新的決策理論與方法。三支決策與傳統的二支決策相比,大大減少了失敗決策帶來的風險。二支決策強制的對數據劃分為正域、負域,而三支決策在此基礎上增加了第三種域,即不確定域。它作為當信息來源不足以做出接受或者拒絕時的一種過渡的決策行為。其目的是快速、低成本、高收益的決策,并具有一定的容錯能力。這種方法將一個整體分成三個部分,然后對這三個部分中的一部分或全部采取行動。在許多實際情況下,能夠將復雜的問題處理簡單化,是最符合現在人類社會普遍認知的一種決策處理模式。

3 數據缺失概念及原因

數據缺失是指因為各種原因導致的數據不完整。在現實情況中,存儲及管理數據中經常存在這類問題,幾乎在各種領域科學研究中也是普遍存在,也是各種實用數據庫在大多數情況下存在的不可避免地問題。主要原因如下:

(1)人為原因造成。數據的使用和轉錄很大程度上受人為因素影響。人為的錯誤的操作、人為的判定數據重要性、對數據的錯誤理解,往往會導致無法挽回的影響。

(2)存儲設備的限制導致。數據采集到使用,都是依靠設備轉移和存儲。考慮技術原因和設備的自有限制,容易導致數據丟失。

(3)數據屬性導致的必然缺失。數據的信息在不同維度不可能做到完全獨立不相關,所以在相關維度的某些數據不存在。例如,在未婚女性的丈夫信息必然是空缺的。

(4)歷史的原因導致。隨著我國科技的進步,每一個領域都有不停更新的信息維度,導致以往獲取的數據無法滿足最新的信息維度。在新的維度下,數據就是缺失的。

(5)索取這些信息的代價太大。

(6)系統實時性能要求較高。即在求得到這些信息前迅速做出判斷或決策。

4 數據缺失機制

在對缺失數據進行處理前,我們先來了解數據缺失的機制以及形式。

(1)完全變量—不含缺失值的變量(屬性)的數據集。

(2)不完全變量—含有缺失值的變量的數據集。

缺失機制描述的是缺失數據與未缺失數據之間的關系,有助于幫助完整數據來解決缺失數據問題。在專家、學者系統探討和深入研究了目標變量與缺失數據的基本相關性之后,分別重新地定義出了完全隨機數據缺失、隨機數據缺失和非隨機數據缺失(不可忽略缺失)這三種不同的數據缺失的情況。

(1)完全隨機缺失—某個變量是否缺失與它自身的值無關,也與其他任何一個變量的值無關。例如,由于測量設備故障導致某些值的缺失。

(2)隨機缺失—在控制了其他變量已觀測到的值后,某個變量是否確實與它自身的值無關。例如,人們是否投入收入可能與性別、教育程度、職業等有關系。

(3)非隨機缺失—即使控制了其他變量已觀測到的值,某個變量是否缺失仍然與它自身的值有關。例如,在控制了性別、教育程度、職業等已觀測因素之后,如果收入本身的值是否存在缺失還需要依賴于收入本身的值,那么收入就是非隨機缺失的。

5 缺失數據的處理

5.1 刪除法

刪除法是最簡單的方法,常用的刪除法有列表刪除、個案刪除和配對刪除。如果數據集對象符合以下兩個特征,一是該數據集對象出現多個缺失的變量,二是被刪除的該含缺失值的數據量對象在整個樣本數據集中所占有的數據比例很小的情況下,刪除法將會是缺失數據處理眾多方法中更加簡單和有效的方法。可是這種方法有很大的局限性,它減少了原始數據的樣本個數,造成樣本資源的浪費,且被刪除的對象在樣本集中的缺失和隱藏數據將沒有再獲取的可能。在面對樣本數據集中樣本不多的情況,用刪除法將對數據信息的客觀性和結果的正確性造成嚴重的影響;而且很可能得到錯誤的結果,尤其當每個變量缺失的比例很大的情況下。

5.2 數據填補法

5.2.1 平均值填補

平均值填充屬于單一填補法的一種,其主要針對兩種不同屬性類型的樣本缺失數據,分別是離散型數據和連續型數據。把所有不缺失該屬性的樣本的均值對缺失值進行填充的方法常常出現在數據屬性連續的情況下;把所有不缺失該屬性數據中取值頻率最多的值進行缺失值填充則常常用來處理屬性離散的數據。這種方法的主要思想是根據數據集的完整屬性推測缺失屬性,將出現次數最多或者所有取值中心點作為填充值,優點很明顯就是速度快效率高,但也導致了所有的填充值集中樣本之間的差異減小,樣本缺失數據的屬性分布在一定程度上受到了改變。一般情況下對于比較簡單的完全隨機缺失的數據集則很適合用平均值填補進行處理,但對于處理復雜情況,平均值填補效果并不好。

5.2.2 期望最大化法

期望最大化法即所謂的EM算法,是常常用來處理大量的不完整數據的一種迭代求精算法。期望步和最大化步是期望最大化法每一次迭代都包含的步驟。期望最大化法有一個基本的思想就是先預估缺失數據初值,然后計算出模型參數的值,接著再對期望步和最大化步的數據進行迭代,不斷更新缺失數據的值,直到整個算法完全收斂。這種數據填充方法在穩定的計算步驟下就已經能找到一個全局最優的解,不僅簡單快速而且有很高的精度。但這種方法沒有充分考慮數據局部的相似性,在數據填充上用的是整個的數據集樣本,當原始樣本數據量很大的時候往往直接影響整個算法執行的速度,且算法的穩定性及收斂速度與初值的選擇有很大的關系。

5.2.2 聚類填補

聚類指的是通過一系列方法,例如常見的k-means聚類算法,最大最小距離聚類算法等等。把具有類似的元素的樣本分類成一個集合,在數據分類中有著多方面的應用。另外這些數據組本身沒有類別,它作為對象的集合叫做簇。聚類即是對每一個這樣的簇都進行描述的過程

目前主流的聚類填補方法主要是兩種。第一種方法是,只對缺失數據中完整的數據來進行聚類,然后把缺失的數據對象和聚類中心分別進行相似度對比,然后將缺失數據對象劃分到這幾個聚類的簇中,再根據簇中的整體信息進行填補。這種處理方法的最大缺點主要是沒有很好的考慮到缺失數據的信息和缺失數據的整體分布情況,對聚類的準確性有影響。第二種方法是,對缺失數據進行簡單的填補或不處理,直接進行聚類,根據缺失的數據對象所屬的簇進行填補。這種處理方法則沒有很好的考慮到缺失數據帶來的信息干擾,影響聚類的準確度,同時增加了聚類的難度。

在大多數聚類模型中算法沒有充分考慮各屬性在數據聚類中可能發揮作用不同的實際情況。蘇婷等人首先提出了一個針對缺失數據的考慮屬性權重信息的三支決策聚類模型。這個模型根據當前數據對象屬性的缺失率和當前數據對象屬性的重要性不同,并按照信息量下降的順序劃分成了四類:充分數據、有價值數據、不充分數據和無效數據。然后引入三支決策思想對這四個分類進行相應的處理,模型將當前信息不足,不能分類的數據對象做不承諾處理,也就相當于劃分到類簇的邊界域。接著提出了一個基于鄰域對象的缺失數據區間描述方法,使用領域內數據對象屬性值的區間形式,從而來估計缺失的數據,這種區間形式表示的缺失數據比數據近鄰的平均值表示更具有魯棒性。在針對不同的分類進行不完備數據的填充,符合三支決策的思想,也帶來了比以往二支決策處理下更理想的結果。

聚類在缺失數據填充中發揮著不可忽視的作用,類似的將三支決策思想引入聚類,在對缺失數據進行填充,對聚類填補的準確性有很大好處,但聚類填補也有在面對缺失的特征不做處理,過分依賴不缺失的數據。

5.2.3 多重填補法

多重插補法也是處理缺失數據的一種有效的策略。它分為三個步驟:先為每個缺失值產生一個可能的填充值,然后用針對完整數據集的統計方法對填補數據集合都準確的進行分析,最后綜合所有數據集的結果,分析推斷出最終的值。比較常用的多重填補法有PMM法、趨勢得分法和馬爾科夫鏈蒙特卡羅法等等。

多重填補法的優勢體現在以下三個方面:

(1)多重填補法將輔助信息合理的利用起來,提供m個值來代替的方法,保持了原數據集的不確定性。

(2)多重填補法可以做到盡可能真實的情況下去模擬缺失數據的分布,這樣就能夠盡可能地保持變量之間的原始關系。

(3)多重填補法能夠相對準確地給出信息,用于衡量實際估計結果的各種不確定性,彌補了單一插補法估計結果過于簡單的這個缺陷。

當然多重填補法也同樣存在一些不足,多重填補法需要比單一填補法做更多的工作,大量因數據填補而產生的數據集需要有更大的存儲空間,且需要更多的精力去落實到工作上。

5.3 不處理法

不處理法主要指的是貝葉斯網絡和人工神經網絡等。貝葉斯網絡僅在對領域知識具有一定了解且對變量間的依賴關系較清楚的情況下可以使用。人工神經網絡可以有效的對付缺失值,但人工神經網絡在這方面的具體研究還有待進一步深入展開。

6 總結

上述簡單介紹了在數據缺失時的3大類缺失數據處理方式,根據鮑曉蕾[3]等人對缺失數據填補方法的研究,在缺失率分別為10%、20%、30%、40%和50%做出對比。當缺失率(10%)時,缺失數據所有方法的處理結果均較好,當隨著原始數據缺失率增大,只有多重填補法能取得較為理想的效果。考慮到多重填補法的復雜性等缺點及時間成本,我們可以引入三支決策思想來對缺失的數據進行更合理的填補處理。面對實際數據的缺失率(10%)時,我們可以采用刪除法達到更加簡單有效的處理。當數據缺失率(10%)時且(M%)時,采用合適的填充法。當數據缺失率(M%)時,選用多重填補法來填充數據,達到更理想的處理。M值的選定根據對數據處理結果的具體要求和客觀條件來酌情選擇,將大大減少處理復雜度。最終根據數據缺失的不同類型,選擇不同的方法才是關鍵,三支決策思想無疑會對未來確屬數據處理這一方面提供巨大幫助。

猜你喜歡
信息方法
學習方法
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 国产视频入口| 久久精品嫩草研究院| 久久久久青草线综合超碰| 国产无码在线调教| av一区二区三区高清久久| 亚洲国产欧美目韩成人综合| 亚洲国模精品一区| 99视频免费观看| 亚洲永久精品ww47国产| 国产男女XX00免费观看| 精品福利网| 欧美日韩一区二区三| 亚洲国产精品日韩专区AV| 国产91透明丝袜美腿在线| 五月婷婷综合网| 67194成是人免费无码| 一级毛片中文字幕| 亚洲欧洲日产国产无码AV| 免费在线视频a| 丁香六月激情综合| 丰满人妻一区二区三区视频| 中文字幕伦视频| 狠狠色噜噜狠狠狠狠奇米777 | 午夜欧美理论2019理论| 国产精品久久久久久久久kt| 日本黄网在线观看| 国产一级α片| 久草网视频在线| 2022精品国偷自产免费观看| 亚洲色图综合在线| 5388国产亚洲欧美在线观看| 成人综合在线观看| 亚洲动漫h| 五月婷婷伊人网| 一级一级特黄女人精品毛片| 一级毛片无毒不卡直接观看| 国产精品九九视频| 亚洲精品成人7777在线观看| 成人免费网站久久久| 91尤物国产尤物福利在线| 国产在线拍偷自揄拍精品| 人妻丰满熟妇αv无码| 99视频精品在线观看| 国产免费人成视频网| 无码日韩视频| 亚洲精品无码在线播放网站| 一级毛片a女人刺激视频免费| 日韩美毛片| 欧美人人干| 婷婷五月在线视频| 88国产经典欧美一区二区三区| 亚洲an第二区国产精品| 国产午夜人做人免费视频中文| 亚洲黄色成人| 国内自拍久第一页| 大香网伊人久久综合网2020| 亚洲成人播放| 国产精品密蕾丝视频| 欧美日本二区| 国产原创第一页在线观看| 国产免费一级精品视频| 天天综合天天综合| 午夜免费小视频| 久久semm亚洲国产| 亚洲无码不卡网| 婷五月综合| 久久久久国产一级毛片高清板| 在线免费a视频| 亚洲日韩精品伊甸| 四虎成人免费毛片| 国产精品自在自线免费观看| 中日韩欧亚无码视频| 亚洲h视频在线| 9久久伊人精品综合| 国产精品内射视频| 国产综合在线观看视频| 亚洲第一黄片大全| 无码在线激情片| 日韩成人在线一区二区| 极品av一区二区| 91综合色区亚洲熟妇p| 99re免费视频|