999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代的數據挖掘及應用

2016-05-14 09:40:35孫勤紅沈鳳仙
電子技術與軟件工程 2016年6期
關鍵詞:數據挖掘大數據

孫勤紅 沈鳳仙

摘 要當今時代,信息技術為人類步入智能社會開啟了大門,同時也帶動了互聯網、物聯網、電子商務、現代物流和網絡金融等現代服務業的發展。由于網絡信息的廣泛使用,使得各種業務數據正以幾何級數的形式爆發,其格式、收集、存儲、分析和應用等諸多問題有待解決。大數據具有了volume、velocity、variety和variety四個特征。2011年5月,麥肯錫全球研究院發布題為《大數據:創新、競爭和生產力的下一個前沿領域》的報告,正式提出了“大數據”的概念。在大數據時代背景下,應該如何在原有的數據挖掘技術下實現更好的數據處理和應用也稱為一個迫切解決的問題。大數據的體量和流量注定傳統的數據挖掘算法,尤其是基于單機迭代的實現模式是無法滿足大數據所要求的高擴展性和高時效性的。同時大數據的多元異構也需要在數據的抽取、清洗、轉換、存儲、關聯和展現等各個關鍵環節進行調整。

【關鍵詞】大數據 生物信息 知識提取 數據挖掘

1 數據挖掘的功能

數據挖掘是從大量的數據中四棟搜索隱藏于其中的具有特殊關系性的信息過程。它是數據庫知識發現KDD中的一個步驟。知識發現KDD過程由以下3個階段組成:數據準備、數據挖掘、結果表示和解釋。數據挖掘跟許多學科都交叉關聯,包括數據庫技術、統計學、機器學習、人工智能、云計算和可視化等。

數據挖掘的實際應用功能可分為三大類和六分項:分類和聚類屬于分類去隔類;回歸和時間序列屬于推算預測類;關聯和序列則屬于序列規則類。分類常被用來根據歷史經驗已經分好的數據來研究它們的特征,然后再根據這些特征對其他未經分類或是新的數據做預測。聚類是將數據分群,其目的是找出群間的差異來,同時找出群內成員間相似性。回歸是利用一系列的現有數值來預測一個數值的可能值。基于時間序列的預測與回歸功能類似,只是它是用現有的數值來預測未來的數值。關聯是要找出在某一事件與數據中會同時出現的東西。

2 降維

從降維的角度講,整個數據挖掘的過程就是一個降維的過程。在這個過程中,需要對數據刪除線性關系比較強的特征數據,再用一些算法,如信號分析算法、傅里葉轉換、離散小波轉換等算法,從數據中提取特征,再對數據做主成分析處理,得到最后的特征,再用數據挖掘算法來將這些特征轉化為人類可讀取的數據或信息。

3 分布式數據挖掘解決方案

隨著分布式計算技術、云計算技術、hadoop生態圈和非結構化數據庫等技術的發展,以及對大數據挖掘的需求,出現了一批分布式數據挖掘,比較典型的有Apache推出的基于Hadoop的Mahout和加利福尼亞大學伯克利分校AMP實驗室推出的基于Spark的MLBase。在Mahout中主要實現3種類型的數據挖掘算法:分類、聚類(集群)和協同過濾。相比Mahout而言,MLbase更好的支持迭代計算,它把數據拆分成若干份,對每一份使用不同的算法和參數運算出結果,看哪一種搭配方式得到的結果最優。

4 大數據下的具體應用實例——生物信息學的應用

生物信息學(Bioinformatics)是生命科學、計算機科學、信息科學和數學等學科交匯融合形成的一門交叉學科。近年來隨著先進儀器裝備與信息技術等越來越廣泛和深入的整合到生物技術中來,生物醫學研究中越來越頻繁的涉及到大數據存儲和分析等信息技術。在使用計算機協助生物信息時,處理僅有計算機輔助的方式存儲數據很顯然是不夠的,生物信息學研究的目的是運用計算機強大的計算能力來加速生物數據的分析,理解數據中所包含的生物學意義。當前生物信息學研究的熱點有:

(1)由以序列分析為代表的組成分析轉向功能分析。

(2)由對單個生物分子的研究轉向基因調控忘了等動態信息的研究。

(3)完整基因組數據分析。

(4)綜合分析。

生物信息數據具有如下特點:高通量與大數據量;種類繁多,形式多樣;異構性;網絡性與動態性;高維;序列數據等特點[5]。針對這樣的生物數據信息,要結合當前的大數據分析方法進行分析和理解。當前數據挖掘實現對生物信息分析的支持主要有:生物數據的語義綜合,數據集成;開發生物信息數據挖掘工具;序列的相似性查找和比較;聚類分析;關聯分析,生物文獻挖掘等方面。

參考文獻

[1]許凡.大數據時代的數據挖掘技術探討[J].電子技術與軟件工程,2015(08).

[2]洪松林.數據挖掘技術與工程實踐[M].北京:機械工業出版社,2014(11).

[3]李榮.生物信息數據挖掘若干關鍵問題研究與應用[D].復旦大學(博士論文),2004(11).

[4]宋杰.生物信息數據挖掘中的若干方法及其應用研究[D].大連理工大學(博士論文),2005(04).

[5]孫勤紅.基于梯度采樣局部收斂的生物信息大數據挖掘[J].科技通報,2015(10).

作者簡介

孫勤紅(1979-),女,山東省人。現為三江學院計算機科學與工程學院講師。研究方向為人工智能、數據挖掘。

沈鳳仙(1984-),女,江蘇省人。現供職于三江學院計算機科學與工程學院。研究方向為數據挖掘。

作者單位

三江學院計算機科學與工程學院 江蘇省南京市 210000

猜你喜歡
數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 四虎成人精品| 久久久精品久久久久三级| 色窝窝免费一区二区三区| 美女视频黄又黄又免费高清| 亚洲AV无码不卡无码| 波多野结衣无码AV在线| 午夜不卡福利| 欧美亚洲第一页| 欧美午夜视频在线| 色播五月婷婷| 国产一级毛片yw| 婷婷亚洲视频| 亚洲婷婷在线视频| 国产亚洲欧美在线视频| 在线免费看片a| 伊人久久综在合线亚洲2019| 精品国产自在现线看久久| 激情亚洲天堂| 无码 在线 在线| 人妻中文字幕无码久久一区| 热re99久久精品国99热| 88国产经典欧美一区二区三区| 就去色综合| 九九视频免费看| 777国产精品永久免费观看| 97在线免费视频| 精品国产香蕉伊思人在线| 亚洲第一成网站| 国产乱子伦无码精品小说| 国产杨幂丝袜av在线播放| 无码福利日韩神码福利片| 野花国产精品入口| 亚洲性网站| 免费啪啪网址| 婷婷六月天激情| 亚洲天堂久久| 中日韩一区二区三区中文免费视频| 成人福利一区二区视频在线| 亚洲成a人片| 日本一区二区三区精品国产| 97人人模人人爽人人喊小说| 欧美日韩一区二区三| 色香蕉影院| 小蝌蚪亚洲精品国产| 韩国v欧美v亚洲v日本v| 亚洲综合色婷婷中文字幕| 久久精品免费看一| 九月婷婷亚洲综合在线| 亚洲无码日韩一区| 2021国产精品自产拍在线| 成人午夜视频网站| 欧美区一区| 91精品视频在线播放| 欧美区日韩区| 国产黄色片在线看| 四虎影视国产精品| 国产sm重味一区二区三区 | 精品欧美一区二区三区在线| 丝袜亚洲综合| 精品人妻无码中字系列| 国产精品青青| 亚洲AV无码精品无码久久蜜桃| 欧美中文一区| 色屁屁一区二区三区视频国产| 最新亚洲av女人的天堂| 婷婷综合亚洲| 久久久久青草线综合超碰| 国产欧美日韩在线一区| 亚洲婷婷丁香| 日本道中文字幕久久一区| 日本一区中文字幕最新在线| AV天堂资源福利在线观看| 日韩欧美国产三级| 青青草国产免费国产| 欧洲高清无码在线| 欧美第九页| 亚洲清纯自偷自拍另类专区| 尤物精品国产福利网站| 99久久精品免费观看国产| 成年A级毛片| 国产精品9| 色综合久久久久8天国|