張 悅
上海大學
數據種類、質量及數據處理
張 悅
上海大學
本文介紹了什么事數據,數據的屬性和數據值是什么,數據的種類包括標稱屬性、序數屬性、區間屬性和比率屬性,以及數據質量和數據處理必要步驟
數據;數據處理
什么數據?《中國大百科全書》給出的定義是:“數據,或稱資料,可由人工或自動化手段加以處理的那些事實、概念和指示的表示形式,包括字符、符號、表格和圖形等”,全書認為數據是關于事件的一組離散的客觀的事實描述,是構成信息和知識的原始材料。
人們在日常生產生活中會產生大量的信息或者說數據,在瀏覽照片的角度,這是信息,而在網站的維護人員來看這是一串數據,但是數據和信息顯然存在某種關系。有人認為數據是信息的具體表現形式,信息經過加工成數據才能傳輸和存儲。那么數據是否可以指能夠傳輸和存儲的信息呢,從信息論的觀點看來,數據=信息+數據冗余,可以簡單的理解為信息是數據中包含的有用的內容,因此,為了獲取信息我們有必要研究數據,研究數據從認識數據開始。
屬性是客觀對象的特征或特性,一種屬性往往反映事物對象一方面的特征,例如:一個人眼睛的顏色、膚色。一系列的屬性就能夠客觀的的描述事物對象,例如:《血字研究》中,福爾摩斯描述嫌疑人的特征:身高六尺、性別男、臉色赤紅、吸印度雪茄等,這一系列的特征就大致勾勒出嫌疑人。在數據研究中屬性也常被稱為變量、特征或特點。
1、屬性值
在福爾摩斯的案例中,我們用“六尺”數值來描述“身高”這種屬性,用“赤紅”描述“臉色”這種屬性特征,“六尺”、“赤紅”就是我們賦予屬性的數值和符號,稱為屬性值。
屬性和屬性值之間的關系:同一個屬性可以賦予不同的屬性值,例如,當形容筆記本“長度”這個屬性時,我們可以賦予“長度”屬性1英尺的屬性值,也可以賦予12英寸或30.48厘米的屬性值。不同的屬性可以用同一套價值標準來衡量,例如,人年齡和身份證這兩種屬性的屬性值都是整數,但需要注意的是,兩種屬性所賦予的屬性值的性質有所差異,人的年齡有最大值和最小值,即存在一個整數區間,但是身份證號碼卻沒有這種限制,理論上可以取任意整數。
2、屬性的類型
屬性有不同類型,每種屬性屬于那種類型取決于屬性值擁有以下幾種特征:可辨別性、順序性、可加減和可乘除。當某種屬性的屬性值能夠區分一個對象和另一個對象信息之間的區別,例如:員工代碼能夠明確的區分兩個員工、壓縮碼能夠辨別兩個文件,就把擁有這類屬性值的屬性歸為標稱屬性。當某種屬性值不僅具有可辨別性,而且屬性值的排序具有一定意義,例如成績順序可表示優差、金屬硬度順序可為加工制作選材提供依據,那么就把擁有這類屬性值的屬性歸為序數屬性。當某種屬性的的屬性值不僅具有可辨別性和順序性的特征,值之間的差異還是有意義的,即一個測量存在單位,這類屬性是區間屬性。當某種屬性的屬性值具有以上四種特征時,我們把他歸為比率屬性,比率屬性值之間的差異和比率本身都是有意義的。
總之,屬性分為四種類型:標稱屬性(nominal)、序數屬性(ordinal)、區間屬性(interval)和比率屬性(ratio)。每種屬性的屬性值特點不同,每種屬性也有所不同。
3、數據的離散屬性和連續屬性
離散數據有一個有限或可數無窮數集,通常表示為整數變量,具有離散屬性的數據只能呈現一定的個體價值。
連續數據是擁有實數作為數值集,實際上一般使用有限數值來測量和表示真實的價值。連續數據在一定范圍內具有價值,比如:溫度、高度、重量、比賽時間、汽車的最高時速。
1、數據矩陣
如果數據對象擁有同樣固定的屬性,這樣數據對象可以被看做是一個多維空間中的點,每一個維度代表一個不同的屬性。這樣數據集就可以表示成x、y代表的矩陣。x代表橫向,每一個單位代表一個對象,y是縱向,每一個單位代表屬性值。
2、文件數據
在文件數據中,每一個文件變成一個向量,每一個屬性都是這個向量的組成部分。每一種屬性的價值就是在一條文件記錄里發生的次數。
3、交易數據
一種特殊的記錄數據。因為每一條記錄都會有不同的術語,也就是記錄之間的屬性不完全相同。
數據存在問題,數據噪音和數據異常、數據和數據重復。數據噪音指的是改變了初始值。數據異常指的是在數據集中,數據的屬性特征和和其他大多數的數據有所不同。數據丟失的原因有:信息沒有收集到,例如,在調查中人們會少說他們的年齡和體重;預設的屬性不適合所有的案例,例如,平均收入對于兒童來說是不適用的。解決的方法有:剔除數據對象、估計無效值、在分析時忽略無效值、用所有可能的數值替換,比如用人們所有有可能的體重都計算一遍。重復數據是指數據集中的數字對象重復,或者某些屬性值重復,主要問題是發生在在從混雜的數據資料中合并提取數據時,例如,同一個人擁有多個郵箱地址,這個時候我們就要進行數據清洗。
我們研究數據的本質目的是為了能夠更好的處理工作、科研生活中產生的海量數據,了解數據的本質能夠為我們如何組織、存儲數據,共享、應用數據,制定可行的保障政策奠定基礎。
張悅 女 漢 河北石家莊 研究生 上海大學 研究方向:數據挖掘