999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的數據選擇

2013-12-31 00:00:00邢培
消費電子·下半月 2013年9期

摘 要:各行各業目前都面臨著海量數據的困擾,如何在浩瀚的數據海洋中尋找有用的信息成了人們普遍關心的問題。本文探討數據挖掘在進行海量數據搜索中遇到的問題以及如何進行數據的選擇。

關鍵詞:數據挖掘;數據清洗;噪聲數據

中圖分類號:TP311 文獻標識碼:A 文章編號:1674-7712 (2013) 18-0000-01

當下無論是科研機構又或者是我們工作生活的各個領域幾乎都被數據這個海洋所覆蓋了。比如跟每個人都打交道的銀行,就積累了大量的業務數據,這些數據大多存在于不同的操作環境下,數據的屬性都不盡相同,伴隨著不同的業務處理流程,有著不同的數據處理過程,而處理過程又是面向以事務處理為主的聯機處理系統的應用。經營活動存下的數據存在大量不完整的、含噪聲的和不一致的數據,有些是數據挖掘直接相關的,有些則是無用的噪聲數據,因此針對不同的數據源,選擇合適的數據采集點和數據,再對數據進行精心的準備,對數據挖掘的結果有深遠的影響。

數據準備是數據挖掘的重要工作,為了搜索所有與業務對象有關的數據,并從中選擇出合適的數據進行挖掘應用。數據挖掘的對象是數據,所以必須對數據充分了解之后再進行數據挖掘,數據準備的過程就是要理解、熟悉數據,從而有針對性的開展數據挖掘。我們剛剛提到的銀行就需要通過對每個客戶行為數據和屬性數據進行分析研究,確定每個客戶資金分配的規律,從而為銀行提供恰當的營銷方案和策略,推薦他們適合的業務種類或理財產品,更大程度的提高客戶的資金價值。在進行數據挖掘之前最重要的工作也是必須做的就是確定目的和范圍。沒有明確項目目的,一切都是徒勞的,做出的成果對實際操作也沒有任何意義。先定義一個需求說明,需求說明里要求標識出需求來源并描述對其操作意圖。目的特征抽取成功了,才有可能確定建模內容,或者叫做數據模型覆蓋范圍[1][2]。模型覆蓋的范圍確定模型中應包括管理系統的哪些部分、不應包括哪些部分。這一步定義的需求和選定的范圍,在后面的數據分析以及迭代遞增式的建模方式中需要不斷修正和完善。想要確定數據的目標和范圍,就必須對業務流程有清晰和較好的認識理解,再從不同的業務流程中提取有用的業務數據,剔除無關的噪聲數據。

進行數據選擇時如果將不相關的屬性或關聯性很小的屬性用于數據挖掘,不僅會使數據倉庫過于復雜和龐大,而且數據挖掘的計算代價成幾何倍數增加,所以我們需要的是能夠很好的對各種情況進行分析以便更合理地采取合適的方案,那些對情況分析不起作用或作用很小的屬性應該在數據準備階段就將其剔除。當然我們分析數據時,會涉及到許多歷史資料,于是所需數據有靜態和動態的。所謂靜態和動態,還用銀行業舉例,靜態數據比如客戶的名稱,聯系電話等,動態數據例如客戶在日常經營活動中的月均結算量,閑置資金,日均存款等信息。由此可見,動態數據是主要的歸類特征,成為主要數據,直接影響數據挖掘的結果,靜態數據是輔助的特征,對主要數據進行關聯,有了這部分數據的支持,數據的完整性得以實現,而分類作用就不是那么明顯了。

接下來就是數據的清洗與變換了。我們都知道在現實世界的大型數據庫通常存在大量的不完整、含噪音的和不一致的數據。由于數據質量不高將導致挖掘結果的質量也不好,數據倉庫需要頻繁地從各種源數據中裝載和刷新,然而這些數據不可避免的存在許多異常,錯誤數據約占到總數據量的5%[4][5],這些源數據的結構和規則可能不同,這樣就會導致原始數據的雜亂、不可用,而且即使在同一個數據庫中,也可能存在重復、不完整的數據信息。那么我們來看看數據清洗的目的吧,它是為了檢測出數據中存在的錯誤和不一致,然后消除并改正它們,以此來提高數據質量[3]。清洗過程包括子數據集的選擇和缺失值的處理。因為數據挖掘對數據質量要求較高,在數據清洗過程中對大多重要字段進行數據質量檢查也是很必要的。例如在數據庫管理時會有大量的空值情況出現,無法保證數據的完整性,這樣會影響數據挖掘結果的正確性。對于此類問題的處理我們可以:忽略缺失值的數據屬性;刪除帶有缺失值的記錄;使用同類樣本平均值代替缺失值。

對數據進行了屬性選擇和清洗后,會得到了一個比較適合數據挖掘的數據集,可是數據量的增長是驚人的,因此在進行復雜數據挖掘時,是對系統資源的大考驗,耗時較長,我們可以在不影響數據挖掘結果,保證原數據完整性的情況下,對數據集進行統計性完善,得到一個較適合進行數據挖掘的統計性數據表。

參考文獻:

[1]沈兆陽.SQL Server 2000 OLAP 解決方案:數據倉庫與Analysis Services[M].北京:清華大學出版社,2001,9.

[2]劉爽英,張靜.基于SQL Server 2000的數據倉庫和數據挖掘[J].華北工學院學報,2004,Vol.25(5):322-323.

[3]談恒貴,王文杰,李游華.數據挖掘分類算法綜述[J].微型機與應用,2005,No2:4.

[4]Chaudhuri,S,Dayal, U An Overview of data Warehousing and OLAP Technology.ACM SIGMOD Record,26(1),1997.

[5]Redman,T.The Impact of Poor Data Quality on the Typical Enterprise[J],CACM,1998,41(2):78-82.

[作者簡介]邢培(1977.6-),天津渤海職業技術學院信息工程系,講師,從事軟件開發、數據庫管理技術等方向的研究和教學工作。

主站蜘蛛池模板: 午夜国产在线观看| 天堂中文在线资源| 国产在线精品网址你懂的| 亚洲侵犯无码网址在线观看| 国产成人无码Av在线播放无广告| 中字无码av在线电影| 国产午夜人做人免费视频中文| 玖玖精品视频在线观看| 亚洲一区二区日韩欧美gif| 久久五月视频| 999精品在线视频| 无码电影在线观看| 一本一本大道香蕉久在线播放| 日韩欧美成人高清在线观看| 中文天堂在线视频| 红杏AV在线无码| 久久精品66| 婷婷色中文| 曰韩人妻一区二区三区| 日韩无码黄色| 国产一区二区三区视频| 国产成人久视频免费 | 在线播放真实国产乱子伦| www.99在线观看| 国产无吗一区二区三区在线欢| 无码专区在线观看| 98超碰在线观看| 欧美啪啪一区| 98超碰在线观看| 午夜爽爽视频| 日韩久草视频| 精品国产成人a在线观看| 精品久久国产综合精麻豆| 女人爽到高潮免费视频大全| 91色国产在线| 波多野结衣国产精品| 97在线碰| 国产chinese男男gay视频网| 国产成人综合久久精品尤物| 免费无码网站| 亚洲第一视频网站| 中日无码在线观看| 国产精品所毛片视频| 在线观看国产精美视频| 一区二区在线视频免费观看| 91福利一区二区三区| 亚洲九九视频| 成人噜噜噜视频在线观看| 免费无码一区二区| 日韩区欧美国产区在线观看| 色窝窝免费一区二区三区| 九九免费观看全部免费视频| 日本一区二区三区精品视频| 国产色爱av资源综合区| 国产99免费视频| 超薄丝袜足j国产在线视频| 国产综合另类小说色区色噜噜 | 日韩黄色精品| 国产精品粉嫩| 国产99在线观看| 亚洲一区二区视频在线观看| 欧美亚洲综合免费精品高清在线观看 | 91青青视频| 国产精品无码AV中文| 国产精品视频免费网站| 国产精品视频公开费视频| 无套av在线| 久久国产亚洲偷自| 亚洲一欧洲中文字幕在线| 免费无码在线观看| 少妇被粗大的猛烈进出免费视频| 国产无码精品在线播放| 91亚洲精品第一| 国产精品手机在线播放| 欧美性久久久久| 欧美三级日韩三级| 99re在线视频观看| 欧美国产菊爆免费观看| 色婷婷丁香| 国产精品国产三级国产专业不| 日本精品αv中文字幕| 欧美国产视频|