999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據種類、質量及數據處理

2017-03-09 19:29:50
環球市場 2017年16期
關鍵詞:特征信息

張 悅

上海大學

數據種類、質量及數據處理

張 悅

上海大學

本文介紹了什么事數據,數據的屬性和數據值是什么,數據的種類包括標稱屬性、序數屬性、區間屬性和比率屬性,以及數據質量和數據處理必要步驟

數據;數據處理

什么數據?《中國大百科全書》給出的定義是:“數據,或稱資料,可由人工或自動化手段加以處理的那些事實、概念和指示的表示形式,包括字符、符號、表格和圖形等”,全書認為數據是關于事件的一組離散的客觀的事實描述,是構成信息和知識的原始材料。

人們在日常生產生活中會產生大量的信息或者說數據,在瀏覽照片的角度,這是信息,而在網站的維護人員來看這是一串數據,但是數據和信息顯然存在某種關系。有人認為數據是信息的具體表現形式,信息經過加工成數據才能傳輸和存儲。那么數據是否可以指能夠傳輸和存儲的信息呢,從信息論的觀點看來,數據=信息+數據冗余,可以簡單的理解為信息是數據中包含的有用的內容,因此,為了獲取信息我們有必要研究數據,研究數據從認識數據開始。

一、數據和屬性

屬性是客觀對象的特征或特性,一種屬性往往反映事物對象一方面的特征,例如:一個人眼睛的顏色、膚色。一系列的屬性就能夠客觀的的描述事物對象,例如:《血字研究》中,福爾摩斯描述嫌疑人的特征:身高六尺、性別男、臉色赤紅、吸印度雪茄等,這一系列的特征就大致勾勒出嫌疑人。在數據研究中屬性也常被稱為變量、特征或特點。

1、屬性值

在福爾摩斯的案例中,我們用“六尺”數值來描述“身高”這種屬性,用“赤紅”描述“臉色”這種屬性特征,“六尺”、“赤紅”就是我們賦予屬性的數值和符號,稱為屬性值。

屬性和屬性值之間的關系:同一個屬性可以賦予不同的屬性值,例如,當形容筆記本“長度”這個屬性時,我們可以賦予“長度”屬性1英尺的屬性值,也可以賦予12英寸或30.48厘米的屬性值。不同的屬性可以用同一套價值標準來衡量,例如,人年齡和身份證這兩種屬性的屬性值都是整數,但需要注意的是,兩種屬性所賦予的屬性值的性質有所差異,人的年齡有最大值和最小值,即存在一個整數區間,但是身份證號碼卻沒有這種限制,理論上可以取任意整數。

2、屬性的類型

屬性有不同類型,每種屬性屬于那種類型取決于屬性值擁有以下幾種特征:可辨別性、順序性、可加減和可乘除。當某種屬性的屬性值能夠區分一個對象和另一個對象信息之間的區別,例如:員工代碼能夠明確的區分兩個員工、壓縮碼能夠辨別兩個文件,就把擁有這類屬性值的屬性歸為標稱屬性。當某種屬性值不僅具有可辨別性,而且屬性值的排序具有一定意義,例如成績順序可表示優差、金屬硬度順序可為加工制作選材提供依據,那么就把擁有這類屬性值的屬性歸為序數屬性。當某種屬性的的屬性值不僅具有可辨別性和順序性的特征,值之間的差異還是有意義的,即一個測量存在單位,這類屬性是區間屬性。當某種屬性的屬性值具有以上四種特征時,我們把他歸為比率屬性,比率屬性值之間的差異和比率本身都是有意義的。

總之,屬性分為四種類型:標稱屬性(nominal)、序數屬性(ordinal)、區間屬性(interval)和比率屬性(ratio)。每種屬性的屬性值特點不同,每種屬性也有所不同。

3、數據的離散屬性和連續屬性

離散數據有一個有限或可數無窮數集,通常表示為整數變量,具有離散屬性的數據只能呈現一定的個體價值。

連續數據是擁有實數作為數值集,實際上一般使用有限數值來測量和表示真實的價值。連續數據在一定范圍內具有價值,比如:溫度、高度、重量、比賽時間、汽車的最高時速。

二、數據集的種類

1、數據矩陣

如果數據對象擁有同樣固定的屬性,這樣數據對象可以被看做是一個多維空間中的點,每一個維度代表一個不同的屬性。這樣數據集就可以表示成x、y代表的矩陣。x代表橫向,每一個單位代表一個對象,y是縱向,每一個單位代表屬性值。

2、文件數據

在文件數據中,每一個文件變成一個向量,每一個屬性都是這個向量的組成部分。每一種屬性的價值就是在一條文件記錄里發生的次數。

3、交易數據

一種特殊的記錄數據。因為每一條記錄都會有不同的術語,也就是記錄之間的屬性不完全相同。

三、數據質量

數據存在問題,數據噪音和數據異常、數據和數據重復。數據噪音指的是改變了初始值。數據異常指的是在數據集中,數據的屬性特征和和其他大多數的數據有所不同。數據丟失的原因有:信息沒有收集到,例如,在調查中人們會少說他們的年齡和體重;預設的屬性不適合所有的案例,例如,平均收入對于兒童來說是不適用的。解決的方法有:剔除數據對象、估計無效值、在分析時忽略無效值、用所有可能的數值替換,比如用人們所有有可能的體重都計算一遍。重復數據是指數據集中的數字對象重復,或者某些屬性值重復,主要問題是發生在在從混雜的數據資料中合并提取數據時,例如,同一個人擁有多個郵箱地址,這個時候我們就要進行數據清洗。

我們研究數據的本質目的是為了能夠更好的處理工作、科研生活中產生的海量數據,了解數據的本質能夠為我們如何組織、存儲數據,共享、應用數據,制定可行的保障政策奠定基礎。

張悅 女 漢 河北石家莊 研究生 上海大學 研究方向:數據挖掘

猜你喜歡
特征信息
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 欧美影院久久| 99re在线免费视频| 亚洲专区一区二区在线观看| 成人小视频网| 精品亚洲国产成人AV| 国产毛片高清一级国语| 国产系列在线| 国产成人做受免费视频| 日韩欧美色综合| 99re在线观看视频| 亚洲欧美在线精品一区二区| 亚洲精品少妇熟女| 中文字幕无码中文字幕有码在线| 久久国产精品影院| 播五月综合| 亚洲人成网址| 久久国产免费观看| 亚洲无码视频一区二区三区| 一级片免费网站| 黄色a一级视频| 白丝美女办公室高潮喷水视频| 国产自在线拍| 亚洲资源在线视频| 无码中字出轨中文人妻中文中| 久久无码av一区二区三区| 波多野结衣国产精品| 久久久久久久久18禁秘| 日韩黄色大片免费看| 国产一级妓女av网站| 五月婷婷亚洲综合| 国产SUV精品一区二区6| 国产乱子伦视频在线播放| 伊人大杳蕉中文无码| 欧美有码在线| 亚洲第一极品精品无码| 亚洲精品国产成人7777| 国产女人在线| 亚洲无线观看| 日韩精品无码一级毛片免费| 欧美劲爆第一页| 日韩大片免费观看视频播放| 亚洲中久无码永久在线观看软件 | 久久精品这里只有国产中文精品 | 久久国产免费观看| 无码国产伊人| 国产亚洲精久久久久久久91| 久久精品一卡日本电影| 亚洲色图欧美在线| 波多野结衣中文字幕一区二区 | 亚洲免费人成影院| 综合色区亚洲熟妇在线| 欧美日韩中文国产va另类| 日本久久久久久免费网络| 91小视频版在线观看www| 99热这里只有精品国产99| 免费无码AV片在线观看国产| 亚洲中文字幕23页在线| 国产亚洲第一页| 精品视频福利| 亚洲无码视频一区二区三区| 亚洲国产天堂在线观看| 夜精品a一区二区三区| 日韩激情成人| 婷婷伊人五月| 丁香五月婷婷激情基地| 四虎影院国产| 午夜精品福利影院| 黄片在线永久| 免费看a级毛片| 91精品专区国产盗摄| 91免费观看视频| 毛片大全免费观看| 亚洲国产理论片在线播放| 亚洲天堂网在线播放| 成年人久久黄色网站| 日韩a级毛片| 99久久精品国产自免费| 在线不卡免费视频| 亚洲区视频在线观看| 国产福利在线观看精品| 日韩小视频在线观看| 午夜免费小视频|