999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對大數據研究關鍵詞的聚類分析

2019-09-10 06:55:39劉慶悅
大眾科學·上旬 2019年4期
關鍵詞:數據挖掘研究

劉慶悅

摘要:大數據對全球各領域的理念和方法帶來了較大的影響。本文通過對近十年來大數據研究的關鍵詞進行聚類分析,得到了大數據研究關鍵詞的12個類團,以便相關人員更好地了解大數據研究的主要領域。

關鍵詞:大數據;聚類分析;共現分析

目前,大數據還沒有一個通用且準確的定義。雖然國際上有眾多對大數據的不同理解,但人們普遍認為大數據不僅有字面上的海量數據的含義,還包括對這些數據對象的處理和應用。在本文中,大數據被界定為使用非傳統處理方法,在合理時間內,對一個體量特別大、數據類型豐富的數據集進行深度挖掘,獲得有價值的信息的技術。一般認為,大數據具有3V特征:即Volume(規模性)、Variety(多樣性)、Velocity(高速性)。[1]規模性表示其數據體量龐大,多樣性表達出大數據的數據來源廣、類型豐富且不同類型的數據間可能關聯性很強。而高速性強調處理數據的效率,這一點也是它與傳統數據挖掘最大的區別。

本文選取中國知網(CNKI)的核心期刊庫作為文獻獲取來源,采取高級檢索,檢索式為:主題=(“大數據”),來源類別勾選“核心期刊”并按主題排序。選取自2008年以來每年搜索結果前5頁的文獻,共1883篇。經過篩選刪除不相關的文獻,最后得到1563篇文獻。導出這些文獻的題錄信息,以此分析大數據技術近10年來的發展規律。

從CNKI下載的文獻題錄中抽取期刊論文的標題、關鍵詞等信息,以endnot格式存入數據庫中。通過SATI文獻計量軟件進行關鍵詞的提取和頻率統計后,共得到2008-2019時間段的4058個關鍵詞。在經過關鍵詞的合并與刪除后,本文選取了出現頻次大于等于8的關鍵詞作為高頻關鍵詞,最終得到了52個高頻關鍵詞。將這52個關鍵詞兩兩配對,可得到2008-2019年大數據研究關鍵詞的共現矩陣,如表1所示:

表1:2008-2019年大數據研究關鍵詞的共現矩陣(部分)

共現矩陣 數據挖掘 云計算 數據分析 圖書館 聚類 Hadoop MapReduce

數據挖掘 93 6 8 4 5 0 0

云計算 6 61 6 4 0 2 5

數據分析 8 6 56 2 0 0 0

圖書館 4 4 2 36 0 2 0

聚類 5 0 0 0 30 0 0

Hadoop 0 2 0 2 0 30 7

MapReduce 0 5 0 0 0 7 28

在共現矩陣基礎上,轉換得到共現矩陣的相異矩陣,將其導入SPSS軟件后,可得2008-2019年大數據研究關鍵詞聚類的樹狀圖。該圖反映出了關鍵詞間的親疏關系,關鍵詞聚合越早,其間關聯度越高;關鍵詞聚合越多,則說明這些關鍵詞所處的類集中程度越高。根據樹狀圖,在閾值為16.5的位置處進行切割,可將大數據技術的相關期刊文獻分為12個類團:

K1類研究的是大數據技術對金融業的沖擊,代表關鍵詞是互聯網金融、商業銀行等。它們屬于大數據應用的一部分,但近年來由于互聯網對于金融領域的沖擊格外大,因此有很多人關注大數據技術作為一種新興的信息技術會給這個領域帶來什么影響。

K2類研究大數據技術對教育界的影響,代表關鍵詞是教育大數據。教育領域以大數據為基礎構建學習者知識、行為、經驗模型,制定其學習檔案并依此分析科學的教學策略。

K3類研究數據集成,即將類型、來源不同的數據集合在一起,進行數據和信息共享,以避免信息孤島現象。

詞團K4是對大數據核心問題的研究。代表關鍵詞為數據分析和數據處理。它們都處于大數據處理的前兩個階段,即數據抽取集成和數據分析階段。

K5類是對大數據工具和處理模式進行研究。如前文所述,大數據技術與海量數據最大的區別在于它是否能采用傳統的方法對數據進行高效率的處理。因此,以Hadoop為代表的非傳統大數據處理工具自然成為了研究的焦點。

詞團K6中包含著兩個與大數據技術緊密相關的技術:云計算和物聯網。它們的發展為大數據技術提供了良好的平臺和技術豐富的數據來源,而大數據技術為處理這些海量的數據提供了可能。

K7類研究屬性約簡算法改進,它只包括粗糙集和屬性約簡兩個關鍵詞。基于粗糙集理論的屬性約簡主要可以用來降維處理高維數據對象,但由于原有的屬性約簡算法難以處理大數據集,因此很多學者提出了其改進算法,以保證算法的可靠。

K8主要研究的是數據,代表關鍵詞為數據質量和數據管理,主要探討怎樣管理好這些海量的數據,保證數據的質量。

K9類研究大數據領域的隱私和安全問題,代表關鍵詞為隱私保護和數據安全。大數據技術雖然給我們的生活帶來了便利,但也帶來了很多風險,許多過去人們不想被別人知道,或連自己都不知道的習慣被大數據記錄了下來并加以分析,將最真實的我們暴露在了互聯網的環境下。因此我們急需保護好這些個人隱私,使之得到合理有效的利用。同時,大量數據的集成也給數據的安全性問題帶來了挑戰。

K10類探討的是大數據對情報領域的影響,代表關鍵詞有競爭情報、情報分析等。大數據可以給情報領域帶來更細、更豐富的數據流,但也對該領域提出了更高的技術要求。

K11類主要研究大數據給圖書領域帶來的革新,代表關鍵詞有數字圖書館、知識服務等。圖書領域往往是較早接觸新技術的領域,它們的數字化程度普遍較高,接觸到的數據量也很大。面對圖書館數字化的需求,大數據技術也成為了相關學者的研究熱點。

詞團K12有關數據挖掘,以關聯規則和數據倉庫等關鍵詞為代表。它是大數據分析最基本的研究途徑,用以探究大量數據中潛在的有價值的信息。

詞團K13設計聚類,以聚類和有關方法為代表。它是數據挖掘等互聯網技術的基礎。

詞團K14中包含的內容較多,主要可分為機器學習和應用兩部分。機器學習的代表關鍵詞主要有神經網絡、支持向量機等,它也是一項與大數據技術緊密聯系的信息技術。而應用方面包括云會計、數據新聞、思想政治教育等,是大數據技術與其他各個領域的結合應用。

參考文獻:

[1]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,(01):146-169.

猜你喜歡
數據挖掘研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
探討人工智能與數據挖掘發展趨勢
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 国产网友愉拍精品| 国产乱人伦AV在线A| 在线观看的黄网| 国产丝袜啪啪| 亚洲综合香蕉| 四虎影视8848永久精品| 日日噜噜夜夜狠狠视频| 91精品久久久无码中文字幕vr| 99re经典视频在线| 欧美另类一区| 国产国拍精品视频免费看| 国产免费观看av大片的网站| 尤物特级无码毛片免费| 午夜免费小视频| 天堂va亚洲va欧美va国产| 99尹人香蕉国产免费天天拍| 人妻出轨无码中文一区二区| 精品国产成人高清在线| 欧美色图久久| 国产精品视频导航| 999国产精品| 久久久久久尹人网香蕉 | 久久特级毛片| 欧美日韩成人在线观看| 狠狠色香婷婷久久亚洲精品| 欧美日韩专区| 亚洲成人免费在线| 国产无码高清视频不卡| 97影院午夜在线观看视频| 久久6免费视频| 久久99国产综合精品1| 欧美在线中文字幕| 国产真实乱了在线播放| 伊人婷婷色香五月综合缴缴情| 国产精品人成在线播放| 亚洲视屏在线观看| 青青热久麻豆精品视频在线观看| 在线观看视频99| 中文字幕啪啪| 天天综合色网| 91精品久久久无码中文字幕vr| 欧美精品在线视频观看| 日韩免费视频播播| 亚洲天堂久久久| 久久综合伊人77777| 日韩av资源在线| 999国产精品永久免费视频精品久久 | 国产成人精品在线1区| 亚洲精品自产拍在线观看APP| AⅤ色综合久久天堂AV色综合| 曰AV在线无码| a亚洲视频| 国产黄网永久免费| 亚洲色欲色欲www在线观看| 这里只有精品免费视频| 国产欧美视频在线观看| 亚洲成a∧人片在线观看无码| 人人爽人人爽人人片| 99久久国产精品无码| 日韩精品久久久久久久电影蜜臀| 日本一区二区三区精品AⅤ| a在线亚洲男人的天堂试看| 国产成人高清精品免费5388| 在线观看网站国产| 亚洲天堂日本| 日韩 欧美 小说 综合网 另类 | 久久国产亚洲欧美日韩精品| 波多野结衣AV无码久久一区| 国产成人资源| 国产成人一区在线播放| 小说区 亚洲 自拍 另类| 亚洲一道AV无码午夜福利| 久久久久88色偷偷| 亚洲午夜综合网| 欧美一区二区三区国产精品| 福利国产在线| 久久永久精品免费视频| 少妇高潮惨叫久久久久久| 亚洲美女一区| 69av免费视频| 99在线免费播放| www.99在线观看|