999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘研究綜述

2018-08-24 08:23:34周九常劉智明
河南圖書館學刊 2018年8期
關鍵詞:數據挖掘分析信息

周九常,劉智明

(鄭州航空工業管理學院,河南 鄭州 450046)

20世紀90年代,計算機技術和計算機網絡技術開始迅速發展,數據及信息的外延也進一步擴大,由傳統的紙質文獻、文檔數據擴增為視頻、音頻、圖形、圖像、電子檔案等多種類型,不僅使信息的表現形式更加多樣化,還使信息的產生速度發生了質的飛躍。以互聯網為例,2013年全球互聯網每天的流量達到1EB(約等于10億GB),并且仍然在以40%的速度增長,科學家預計2020年全球的信息量將超過40ZB[1]。互聯網技術的出現使人們的信息交互和合作變得更加容易,并使信息量呈指數式增長[2]。

海量的數據信息為人們提供便利的同時,也帶來了一定的負面影響,如信息過載、信息距離、“信息孤島”等,過多無用的信息導致有效的信息難以被發現、被提煉,這就是約翰·內斯波特稱之為“信息豐富而知識匱乏”的困境。因此,只有對海量的數據進行分析,并提煉隱藏在其中的有效信息及知識資源,才能對其進行有效利用。但是,僅依靠傳統的手工檢索分析方法或自動化的數據庫分析,難以達到讓人滿意的效果。由于分析對象數量巨大,傳統的手工檢索需要消耗大量的人力、物力才能達到既定目標,且由于信息具有時效性,因此往往導致部分分析結果是無用的;數據庫分析雖然能夠規避信息的時效性風險,但其難以對信息數據之間的關系內容或關聯規則進行有效整理,無法根據現有的數據信息對未來的發展趨勢進行分析,更難以得到深層次的知識。因此,當人們迫切需要一個新的工具改變這一局面時,數據挖掘技術便應運而生。

1 什么是數據挖掘

數據挖掘,又稱數據庫中的知識發現,Usama M.Fayyad等給出的定義是:從大量的數據中取得有效、新穎、潛在有用、最終可理解的知識的收集過程。數據挖掘在國際會議上被公認為“是對數據庫中蘊含的未知、有潛在用途及非平凡知識的提取”。我國學者也對數據挖掘進行了研究總結,楊良斌認為“數據挖掘是從數據中汲取包含過往不被知道的有利用價值的潛在信息”;化柏林認為“數據挖掘是從大量、不完全、有噪聲、模糊及隨機的實際應用數據中,提取隱含在其中,但有一定用途的潛在信息和知識的過程”;汪明認為“數據挖掘是在大型數據存儲中,自動發現有用信息的過程”[3-6]??偠灾?,數據挖掘是一個過程,它包含了對海量數據的收集、清洗,以及通過關聯規則或分類法對數據進行處理、對結果進行可視化呈現,使海量數據的內在聯系能夠清晰地被人們所認識。

2 基于CNKI的數據挖掘文獻分析

2.1 數據來源及整理

筆者本次調查分析的文獻均來源于CNKI數據庫,檢索時間為2017年5月29日,以2006—2016年為檢索時間,時間跨度為10年,以“數據挖掘”為主題詞進行檢索,得到包括主題詞、關鍵詞、標題、參考文獻等總計34,155條文獻記錄,統計后得到2006—2016年間數據挖掘領域每年的文獻發表分布圖(見圖1)。圖1顯示,在2006—2016年,每年數據挖掘文獻的發表數量都在2,000篇以上,由此可見,數據挖掘及數據挖掘相關領域都有較高的關注熱度。從2012年起,數據挖掘相關文獻的發表數量一直呈逐年上升趨勢,并且在2016年首次超過了4,000篇,預計未來幾年內,數據挖掘仍然會是各領域關注及應用的熱點內容。

圖1 2006—2016年數據挖掘論文發表數量情況圖

2.2 生成圖譜及其分析

圖2 2006—2016年數據挖掘關鍵詞共現圖

表1 2006—2016年數據挖掘相關文獻關鍵詞頻次表

關鍵詞頻次關鍵詞頻次關鍵詞頻次關鍵詞頻次關聯規則3,108粗糙集625頻繁項集392支持向量機303數據倉庫1,523應用526云計算390算法297決策樹1,218入侵檢測517客戶關系管理365聚類算法296聚類894電子商務509遺傳算法343Web數據挖掘270大數據792分類487神經網絡341圖書館251Apriori算法773數據庫451知識發現331決策支持237聚類分析705數據挖掘技術425決策支持系統304聯機分析229

2.2.2 作者分布圖譜。筆者通過CNKI可視化分析工具對數據挖掘文獻的作者分布進行統計后發現(由于篇幅所限僅截取排名前11位作者的文獻分布情況),胡學鋼與楊炳儒從2006年開始發表數據挖掘的相關文獻,此后幾年陸續發表了大量的文獻,但自2011年起文獻發表數量逐年下降。唐常杰、楊洪軍、范欣生與上述兩位作者同期開始發表數據挖掘文獻,并延續至今,發文量雖然不高但他們在長期堅持進行數據挖掘研究。吳嘉瑞與任玉蘭較上述作者稍晚開始發表數據挖掘文獻,且前期研究成果較少,但他們與張冰、張曉朦在近期都有大量的研究成果發布。筆者調查后發現,最近發文數量處于高峰期的張冰、吳嘉瑞和張曉朦都隸屬于北京中醫藥大學,任玉蘭和唐仕歡隸屬于醫學界,說明現階段醫學界十分重視對數據挖掘領域的研究(見圖3)。

圖3 2006—2016年數據挖掘文獻作者分布圖

2.2.3 機構分布圖譜。不同機構在同一學科中的貢獻是不同的,某些機構在不同時段對同一學科領域的關注度也不同。筆者利用CNKI可視化分析工具對30所高校在不同時期數據挖掘領域的發文數量進行了分析,由于篇幅所限僅以排名前13位的高校為例(見圖4)。其中,北京科技大學和合肥工業大學自2006年開始大量發布數據挖掘的研究成果,但在高峰期過后整體呈下降趨勢且持續至今;北京中醫藥大學則處于相反的狀態,該校在2006年的發文數量較少,但其后研究成果與發文數量整體呈上升趨勢;武漢大學也是在2006年開始發表數據挖掘文獻的,隨后幾年持續有大量文獻發表,特別是近年來該校文獻發表數量呈大幅上升的趨勢;四川大學、吉林大學、同濟大學和中南大學在2006年有較多的文獻與研究成果發表,之后呈平穩的發展態勢;清華大學在2006年發表了大量的數據挖掘文獻成果后長期呈下降趨勢,但在2012年轉變為上升趨勢。圖4顯示,高校是發表數據挖掘領域文獻的主力軍,企業和科研院所發表的成果相對較少,這說明數據挖掘領域的研究工作一般由高校承擔。機構的分布在一定程度上表明了當地對數據挖掘領域的重視程度,由圖4可知,我國南方沿海地區及中原北部地區對數據挖掘領域研究的重視程度較高,而西北及西南地區對數據挖掘領域研究的重視程度相對較低。綜合數據挖掘的文獻數量,武漢大學在該領域的研究處于領先地位,其在2006年就已經發表了相當數量的數據挖掘文獻,并且近年來其在該領域的研究熱度仍然沒有降低,在未來幾年仍然會是該研究領域的主力軍;合肥工業大學的數據挖掘文獻發表數量雖然僅次于武漢大學,但這些文獻大多發表在2011年以前,最近幾年該校降低了對數據挖掘領域的關注度;北京中醫藥大學在數據挖掘領域的研究起步較晚,發文數量也相對較少,但近年來其在數據挖掘領域的研究發展迅速。

圖4 2006—2016年數據挖掘領域文獻機構分布圖

2.3 分析結果

筆者對關鍵詞及關鍵詞共現圖譜、作者分布圖譜、機構分布圖譜進行分析,從研究主題上看,數據挖掘的研究一直處于發展中,并且不滿足于僅對數據挖掘方法理論的研究,而是逐步將技術應用納入研究主題,不斷將研究范圍延伸到其他領域,如近年來對數據挖掘進行應用的醫學領域;從作者分布看,新興領域作者發文數量逐漸增多,理論研究領域發文數量相對減少;從機構分布看,各機構在其關注領域處于發展熱點時期時,發文數量會明顯上升,并且會帶動整個學科領域的發展和應用。目前,雖然數據挖掘領域的文獻發表大多集中在一些名校,但是新興的應用領域機構的影響力及發展不應被忽視,未來其在該領域也可能擁有話語權。

3 數據挖掘的熱點與趨勢

3.1 數據挖掘的理論技術研究

進行數據挖掘理論技術研究可以使數據挖掘技術理論體系更加完善,能夠囊括隨時代技術發展而出現的其他類別的技術理論領域,能夠對大量數據資源進行高效率及有效的分析,并得到正確的詞間關系或潛在知識。因此,數據挖掘理論體系的研究和發展是十分有必要的。

3.2 數據挖掘的應用技術研究

單獨存在的理論知識對用戶的意義不大,只有將理論轉化為應用技術才能創造出新的價值。企業和用戶會出于利益和實用性等目的產生重點關注對象,如電子商務挖掘和客戶關系管理等數據挖掘應用系統。因此,數據挖掘的應用技術會在企業和用戶的明確需求下得到科學的發展。

3.3 大數據云計算的數據挖掘研究

大數據云計算是一種新的計算模式,是分布式處理、并行處理和網格計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和網絡技術發展融合在一起的產物[9]。大數據、云計算注重的是在對海量資源進行快速、有效的分析后,得到蘊含在資源內部的隱藏知識和相關聯系,數據挖掘技術在該領域的發展過程中必須注意安全與隱私問題[10]。在數據挖掘過程中會出現專利侵權和網絡泄密等問題,而敏感信息的泄密會嚴重影響用戶體驗,如何在不觸及隱私及安全的前提下進一步發展數據挖掘技術和工具,是學界未來需要研究的一個重要課題。

4 結語

綜上所述,數據挖掘越來越受社會各界關注,成為一個熱門的研究課題,這說明數據挖掘的理論、技術及應用都具有重要的意義。目前,大數據挖掘已經涉及越來越多的領域,如近年來在醫學領域的大幅應用,在未來還會涉及更多的領域。但數據挖掘并不是全能的,它只是一個分析方法和工具,還需要專業人員根據具體情況,結合相關行業的大環境以及國家的政策法規等進行綜合分析后,才能得到正確及專業的數據挖掘信息。

猜你喜歡
數據挖掘分析信息
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于GPGPU的離散數據挖掘研究
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产在线精品99一区不卡| 国产不卡网| 福利在线一区| 波多野结衣一级毛片| 亚洲天堂视频网站| 欧美人人干| 99热这里只有成人精品国产| 国产乱子伦视频三区| 亚洲一区二区约美女探花| 视频一本大道香蕉久在线播放 | 亚瑟天堂久久一区二区影院| 亚洲人成网站日本片| 久久久久国产精品熟女影院| 特级做a爰片毛片免费69| 88av在线播放| 国产成人盗摄精品| 国产综合精品日本亚洲777| 秋霞国产在线| 国产v精品成人免费视频71pao| 美女免费精品高清毛片在线视| 国产乱人伦偷精品视频AAA| 欧美国产在线精品17p| 国产91高跟丝袜| 午夜天堂视频| 欧美色伊人| 伊人AV天堂| 一级香蕉人体视频| 精品福利视频导航| 国产一二三区在线| 国产乱子精品一区二区在线观看| 2020国产精品视频| 中文成人在线视频| 国产成人艳妇AA视频在线| 亚洲天堂色色人体| 九色视频一区| 爱爱影院18禁免费| 97视频免费在线观看| 亚洲天堂成人| 97影院午夜在线观看视频| 99九九成人免费视频精品| 玩两个丰满老熟女久久网| 免费中文字幕一级毛片| 国产亚洲精品97在线观看| 天天综合网亚洲网站| 欧美日韩第三页| 国产 在线视频无码| 国产青青草视频| 国产99久久亚洲综合精品西瓜tv| 中文字幕66页| 亚洲欧美激情小说另类| 亚洲狠狠婷婷综合久久久久| 亚洲天堂精品视频| 国产精品区网红主播在线观看| 国产成人禁片在线观看| 国产精品亚洲va在线观看| 亚洲色图欧美激情| 91欧美亚洲国产五月天| 91久久夜色精品| 日韩高清在线观看不卡一区二区| 99久久99视频| 999精品色在线观看| 在线免费观看a视频| 亚洲一区二区黄色| 亚洲日韩欧美在线观看| 91丨九色丨首页在线播放| 国产h视频在线观看视频| 青青操国产视频| 欧美另类图片视频无弹跳第一页 | 亚洲AV人人澡人人双人| 日韩精品无码不卡无码| 好久久免费视频高清| 亚洲国产日韩欧美在线| 综合久久五月天| 伊人精品视频免费在线| 国内精品伊人久久久久7777人| 另类专区亚洲| 欧美A级V片在线观看| 精品国产www| 国产91av在线| 国产男女免费完整版视频| 免费中文字幕一级毛片| 97色伦色在线综合视频|