999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘中的數(shù)據(jù)預處理

2022-04-29 22:13:30許輝
電腦知識與技術(shù) 2022年4期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘要:該文講述的是如何從現(xiàn)有的數(shù)據(jù)中獲取新的知識,但是現(xiàn)有的數(shù)據(jù)中會存在不集中、雜亂,甚至還不完整數(shù)據(jù)。雖然使用數(shù)據(jù)挖掘機模型進行微調(diào)和開發(fā)還會出現(xiàn)一些雜音,但仍然可以從中獲取到有用的數(shù)據(jù),保證數(shù)據(jù)的質(zhì)量。主要數(shù)據(jù)挖掘流程:獲取數(shù)據(jù)、清洗數(shù)據(jù)、探索數(shù)據(jù)、建模數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)。

關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)預處理;獲取數(shù)據(jù);清洗數(shù)據(jù);探索數(shù)據(jù);建模數(shù)據(jù)

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)04-0027-02

1 數(shù)據(jù)挖掘

1.1數(shù)據(jù)挖掘模型的介紹

數(shù)據(jù)挖掘是獲取知識的經(jīng)過,數(shù)據(jù)挖掘模型是從種種數(shù)據(jù)源來獲取所需要的數(shù)據(jù),然后再將這些數(shù)據(jù)轉(zhuǎn)換成知識,把這些知識再提供給所需要的區(qū)域。數(shù)據(jù)挖掘的流程是從需求的開始到需求的滿足,意思就是將所挖掘的數(shù)據(jù)的精華知識以數(shù)據(jù)源形式發(fā)送到人們的手中。

1.2提前處理數(shù)據(jù)

提前處理數(shù)據(jù)的目的是使數(shù)據(jù)能夠更加容易地進行挖掘處理。提取數(shù)據(jù)的質(zhì)量對數(shù)據(jù)挖掘模型可能會產(chǎn)生很大的影響,比如應(yīng)景設(shè)置了數(shù)據(jù)和特點能夠獲取的最大上限,但是數(shù)據(jù)挖掘模型也只是近似于上限。如果提升對各種數(shù)據(jù)的提前處理技術(shù),那么不論是數(shù)據(jù)的要求、質(zhì)量還是預測目標的相關(guān)性都會得到很大的提高,而且可以使模型能夠得到更好的優(yōu)化[1]。

1.3通常數(shù)據(jù)的缺陷

從現(xiàn)實生活中獲取的數(shù)據(jù)格式往往是不正確的,這樣就會引起數(shù)據(jù)庫出現(xiàn)各種各樣的問題,所以這就需要我們研究對各種數(shù)據(jù)的預處理技術(shù),現(xiàn)在的數(shù)據(jù)預處理技術(shù)還不是很完善,但是解決一些小問題和提升一些技能還是可以的。

1.4數(shù)據(jù)縮減技術(shù)

數(shù)據(jù)挖掘模型如果輸入量較多,它們就會有較多的維度和巨大的數(shù)量,這樣會使數(shù)據(jù)挖掘模型傳送數(shù)據(jù)的時候會遇到前所未見的困難。這時候我們就要通過數(shù)據(jù)縮減技術(shù)來進行維度縮減或者對數(shù)據(jù)進行縮減采樣和選擇這些技術(shù)來減少以上帶來的問題[2]。

2 數(shù)據(jù)挖掘的過程

2.1數(shù)據(jù)挖掘的流程

數(shù)據(jù)挖掘的流程就是把需要挖掘數(shù)據(jù)的任務(wù)中所有數(shù)據(jù)集中一起。盡管它們的大多數(shù)據(jù)都存在數(shù)據(jù)庫或者其他存放數(shù)據(jù)的數(shù)據(jù)源中。為了讓人們更加明白,更加容易理解我們使用模型把里面的數(shù)據(jù)挖掘出來展示給人們。數(shù)據(jù)挖掘的主要流程是獲取數(shù)據(jù)、數(shù)據(jù)清理、數(shù)據(jù)探索、數(shù)據(jù)建模,知識可視化(如圖1所示)。這個流程在現(xiàn)實世界中不是一次性的過程,而是長久性的任務(wù)[3]。因為清理數(shù)據(jù)和數(shù)據(jù)建模必須進行不斷地測試和改進,獲取的數(shù)據(jù)必須適應(yīng)不同類型的數(shù)據(jù)源。數(shù)據(jù)的可視化和解釋也必須不斷地改變,不斷地調(diào)整,從而滿足人們的需求。

2.2數(shù)據(jù)的獲取

獲取數(shù)據(jù)挖掘的基本做法就是獲取所需要的數(shù)據(jù)。因為所需要的數(shù)據(jù)中本身就有自己所需要的知識數(shù)據(jù)資源。大多數(shù)據(jù)來源就是從數(shù)據(jù)庫和數(shù)據(jù)倉庫中獲取的,也可以使用語言來查詢結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)倉庫就是用來組織數(shù)據(jù),理解和利用數(shù)據(jù)而形成的,它們一般和運營數(shù)據(jù)庫是分離的系統(tǒng),為的是讓后續(xù)分析工作更容易一些,而且大多數(shù)的數(shù)據(jù)都很重要,這樣也不會容易丟失。可以將獲取到的數(shù)據(jù)存放到一個文件夾中,以便后續(xù)的過程中用到它。它們可以一起存儲到數(shù)據(jù)庫和數(shù)據(jù)倉庫中,為以后數(shù)據(jù)挖掘任務(wù)做備用。有一組有起點和有終點的有序數(shù)據(jù)我們稱它數(shù)據(jù)流的概念,數(shù)據(jù)流的概念比收集數(shù)據(jù)更重要。數(shù)據(jù)流可以很好地開發(fā)在線運行的模型和算法,數(shù)據(jù)收獲的不再是數(shù)據(jù)集,而是實際輸入源[4]。

3 數(shù)據(jù)的清洗

3.1數(shù)據(jù)清理的步驟

數(shù)據(jù)清理和數(shù)據(jù)的預處理都屬于數(shù)據(jù)清洗,把數(shù)據(jù)再進行一遍審查和校驗一遍。目的就是把重復的、錯誤的信息刪除掉,提供一樣的數(shù)據(jù)。

3.2發(fā)布清理技術(shù)

有時在科學研究所得到的數(shù)據(jù)格式不準確,有一些問題影響模型的誤差結(jié)果,比如說,離群值會使數(shù)值分布但實際上失真值影響聚類算法。如果不處理問題將無法通過模型來解析數(shù)據(jù)。為了解決這個問題科學研究所發(fā)布了數(shù)據(jù)清洗技術(shù)來處理失真值的處理和離群值的檢測[5]。

3.3缺失值的處理

缺失值是數(shù)據(jù)集中一種常見的不完整的一種典型。這些缺失值不能用來做比較、分類和算數(shù)。所以,必須要推算數(shù)據(jù)挖掘模型之前處理掉這些缺失值。缺失值的處理辦法很簡單,就是把整個樣本刪掉。如果缺失值有的數(shù)據(jù)不能忽略或者缺失值的屬性的比例不同,我們可以減少數(shù)據(jù)集的數(shù)量,刪掉沒有利用價值的信息。還可以利用其他方法來填補缺失值。比如可以通過得數(shù)值來表示缺失、統(tǒng)計信息、預測屬性值和分配所有的可能值。用數(shù)據(jù)集來補充缺失值是最好的技術(shù)了,忽視缺失值的樣本來分配所有可能值表現(xiàn)得技術(shù)也不錯,根據(jù)數(shù)據(jù)集的不同要求,缺失值技術(shù)也大有不同。大部分的數(shù)據(jù)都需要數(shù)據(jù)挖掘任務(wù)來進行實驗,來進行檢測。

3.4異常值的檢測

和大部分的樣本數(shù)據(jù)巨大差距的數(shù)據(jù)樣本就是離群值,雖然這種離群值出現(xiàn)的概率很小,但它不一定會出錯,一半的錯誤異常值是通過錯誤的測量和錯誤的記錄組成的,所以它不會帶來很大的影響。雖然有些模型會對異常值出現(xiàn)沖突,但是在數(shù)據(jù)處理工作中仍然需要使異常值來測試。離群值檢查算法是最常見的算法之一,在一般的情況下分布是未知的,正態(tài)分布就是最好的替代,可以從它的平均值和誤差來估算馬氏距離是兩個樣本的中間和標度的距離無關(guān)我們可以利用馬氏距離來和每個樣本的平均值來確定異常值。

平均值和誤差來估算方式:

4 數(shù)據(jù)的轉(zhuǎn)換

4.1 數(shù)據(jù)轉(zhuǎn)換的優(yōu)勢

不同屬性的數(shù)據(jù)表示不同的形式,有的數(shù)據(jù)分類,有的是不分類的。對于分類的數(shù)據(jù)值被稱作標稱值;對于不分類的數(shù)據(jù)可以根據(jù)不同的統(tǒng)計特征來算平均值和誤差。但是,不是所有的數(shù)值都可以通過模型的需求。數(shù)據(jù)之間的差別還會對模型的工作帶來麻煩,數(shù)據(jù)轉(zhuǎn)換可以使數(shù)據(jù)挖掘機讓算法更容易成功。

4.2數(shù)字化

分類自然界中用得最多的數(shù)據(jù),比如計算組之間的熵,它就可以在分類數(shù)據(jù)上完成,但是還是有一半的數(shù)據(jù)不適合用于分類數(shù)據(jù),因此就將分類數(shù)據(jù)編碼數(shù)據(jù),采用編碼數(shù)據(jù)來進行數(shù)據(jù),比如一鍵編碼、順序編碼、定制編碼來編輯這些數(shù)據(jù),它也不會在設(shè)計上花費很多的精力。

4.3歸一化

不同的屬性用的單位制也不同,它們的平均值就會有差距也會有誤差,但是數(shù)值上的差距會比更重要,而它沒有屬性這種數(shù)值會對某些數(shù)據(jù)制造麻煩,比如KNN:大一些的數(shù)值會影響距離的比較,這就要考慮模型的屬性是傾向大一些的數(shù)值。除此之外,神經(jīng)元網(wǎng)絡(luò)模型就對梯度優(yōu)化就產(chǎn)生了不好的影響,被迫使用較小的學習率,為了解決這些問題還發(fā)布了很多標準化的方法比如Min-max規(guī)范化(1)、Z分數(shù)歸一化(2),還有十進制縮放規(guī)范化(3)等,在各種情況下有不同的屬性有相同和相似的單位,比如數(shù)據(jù)預處理的RGB彩色成像就沒必要進入標準化。如果不能對單位系統(tǒng)保證,還是建議進行數(shù)據(jù)挖掘模型來進行標準化。

4.4數(shù)值變換

其他數(shù)據(jù)的屬性也可以在數(shù)據(jù)集上變換,通過轉(zhuǎn)換得到的數(shù)據(jù)和其他數(shù)據(jù)挖掘出最優(yōu)的數(shù)據(jù)擬合(比如神經(jīng)網(wǎng)絡(luò))可能這些都不重要。可是,對于簡單的參數(shù)較少的數(shù)據(jù)模型(比如線性回歸),轉(zhuǎn)換后的是數(shù)據(jù)就很好地幫助模型獲取更優(yōu)的數(shù)據(jù),它們之間的屬性轉(zhuǎn)換關(guān)系對科學發(fā)現(xiàn)和對機器的控制是必不可缺的。

5數(shù)據(jù)的建模

數(shù)據(jù)建模通常在挖掘任務(wù)當中會將數(shù)據(jù)分為訓練集和測試集,再從中獲取新的數(shù)據(jù)集上對數(shù)據(jù)模型的正確性進行評分。數(shù)據(jù)模型中包括超參數(shù),比如KNN模型K的選擇就創(chuàng)建了驗證集并獲取了最好的超參數(shù)集。大多數(shù)的數(shù)據(jù)挖掘模型都是要定損失含義的。一般,數(shù)據(jù)挖掘模型質(zhì)量是優(yōu)損失函數(shù)值就低,它都有特殊的功能,比如凸度,它就比梯度算法得到的結(jié)果就好。經(jīng)過訓練得到的參數(shù)在進行模型訓練步驟來調(diào)整參數(shù),使它的訓練數(shù)據(jù)損失更低。數(shù)據(jù)挖掘模型的復雜性也各個都不相同:簡單的模型僅有少量的參考數(shù),少量的參考數(shù)會將訓練的步驟降低,復雜的數(shù)據(jù)挖掘模型數(shù)據(jù)有上百萬個參考數(shù),要是訓練它們需要巨大的數(shù)據(jù)集,但是復雜并不是代表它?們更好,應(yīng)該根據(jù)數(shù)據(jù)挖掘模型任務(wù)來評測目標,數(shù)據(jù)集的大小,數(shù)據(jù)的類型等來確定模型,有的是時候一個數(shù)據(jù)集可以運行多個不同的數(shù)據(jù)模型,并且還能找到最適合數(shù)據(jù)挖掘模型。

6結(jié)束語

數(shù)據(jù)挖掘技術(shù)是從數(shù)據(jù)集中發(fā)現(xiàn)更多的信息,從中獲取自己所需要的數(shù)據(jù)資料。相對于以前的傳統(tǒng)數(shù)據(jù)分析方法,有了數(shù)據(jù)挖掘技術(shù)不但可以采集海量的信息,還可以提高學習方法。從獲取數(shù)字、到清洗數(shù)據(jù)、再到探索數(shù)據(jù)、再到建模數(shù)據(jù)、再到挖掘知識可視化這幾個步驟缺一不可,因此每個基礎(chǔ)方法都需要學習。

參考文獻:

[1] 解二虎.數(shù)據(jù)挖掘中數(shù)據(jù)預處理關(guān)鍵技術(shù)研究[J].科技通報,2013,29(12):211-213.

[2]張治斌,劉威.淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預處理技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2017(10):216-217.

[3] 董師倢.數(shù)據(jù)挖掘中的數(shù)據(jù)預處理技術(shù)[J].信息與電腦,2016(19):144-145.

[4] 梁婷.券商經(jīng)紀業(yè)務(wù)發(fā)展現(xiàn)狀及轉(zhuǎn)型淺析[J].當代經(jīng)濟,2020(5):35-37.

[5] 趙陽,江雅文.金融科技賦能證券經(jīng)營機構(gòu)財富管理轉(zhuǎn)型研究[J].金融縱橫,2019(10):36-45.

收稿日期:2021-08-18

作者簡介:許輝(1979—),女,江蘇鎮(zhèn)江人,副教授,工程碩士,研究方向:軟件技術(shù)。

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
主站蜘蛛池模板: 亚洲国产一区在线观看| 全部免费特黄特色大片视频| 久久大香香蕉国产免费网站| 国产Av无码精品色午夜| 91无码人妻精品一区| 97成人在线观看| 日韩国产黄色网站| 国产欧美日韩va| 青青热久免费精品视频6| 国产精品一老牛影视频| 国产成人一区在线播放| 亚洲福利视频一区二区| 女人18一级毛片免费观看| 无码啪啪精品天堂浪潮av| 国产视频a| 毛片网站在线播放| 欧美成人亚洲综合精品欧美激情| 欧美国产视频| 日韩av无码精品专区| 极品私人尤物在线精品首页| 亚州AV秘 一区二区三区| 在线永久免费观看的毛片| 啦啦啦网站在线观看a毛片| 国产毛片高清一级国语 | 国产一级二级三级毛片| 91青草视频| 国产精品区视频中文字幕| 亚洲Va中文字幕久久一区| 高潮爽到爆的喷水女主播视频 | 91精品啪在线观看国产91九色| 亚洲午夜福利精品无码不卡| 2021精品国产自在现线看| 免费jjzz在在线播放国产| 国产精品手机视频一区二区| 天天综合网亚洲网站| 国产香蕉国产精品偷在线观看| 日韩福利视频导航| 国产91在线免费视频| 71pao成人国产永久免费视频| 成人av专区精品无码国产| 精久久久久无码区中文字幕| 夜夜高潮夜夜爽国产伦精品| 一级毛片免费的| 国产又色又爽又黄| 久久性妇女精品免费| 午夜少妇精品视频小电影| 国产精品亚洲一区二区在线观看| 波多野结衣一区二区三视频| 欧美国产综合色视频| 爆乳熟妇一区二区三区| 日韩人妻少妇一区二区| 亚州AV秘 一区二区三区| 国产精品综合久久久| 激情综合五月网| 日韩欧美国产另类| 亚洲性一区| 欧美日韩在线亚洲国产人| 亚洲区第一页| 久久美女精品国产精品亚洲| 久久亚洲综合伊人| 91青草视频| 国产精品女熟高潮视频| 国产一区二区人大臿蕉香蕉| 人妻无码中文字幕第一区| 天堂网亚洲综合在线| 亚洲欧洲日韩久久狠狠爱| 色网站免费在线观看| 欧美www在线观看| 成人国产精品网站在线看| 国产免费久久精品99re丫丫一| Jizz国产色系免费| 9丨情侣偷在线精品国产| 中字无码av在线电影| 欧美综合区自拍亚洲综合绿色 | 免费午夜无码18禁无码影院| 久久国产高潮流白浆免费观看| 亚洲中文精品久久久久久不卡| 国产日韩欧美在线视频免费观看| 99精品视频播放| 黄色网页在线播放| 一本无码在线观看| 欧美国产日韩一区二区三区精品影视 |