黃青蓉
摘? ?要:在當前的科學技術發展背景下,人們對數據傳輸的要求已經無法得到滿足,在云計算具有的流通性、延展性、穩當性、低廉的成本、數據存儲的大容量和處理能力的優勢下,云計算能為使用者帶來優質的服務,在云數據的基礎上縮減在企業數據挖掘的資金投入,這樣就能獲得更大的利益。文章對云計算的數據挖掘應用進行了具體闡述。
關鍵詞:云計算;數據挖掘方式;關鍵技術
在當代的社會發展背景下,我國的科技和經濟發展取得了巨大的成就,人們手里拿著手機、平板電腦和計算機等電子產品的景象隨處可見。由此可見,互聯網已經很好地融入了人們的生活,與人們的生活密切相關,并且人們對其產生的依賴性也是不可估量的。隨著互聯網大數據信息的飛快增長,人們想在海量的信息中提取自己所需要的信息逐漸變得非常困難。如何在眾多的數據中精準地找到有效的信息成為當前人們最需要探究的問題。所以,云計算系統應運而生。在傳統的數據處理模式下,云計算系統基于云數據另辟蹊徑,云計算只需提供一個平臺,使用者就可以隨時隨地地提取自己想要的信息,但在這樣大的一個數據模式下,挖掘信息本身就存在一定的難度。
1? ? 云計算概念及特點介紹
云計算自誕生之日起,至今也沒有一個準確的概念。但是根據大多數人對云計算的理解,現在總結出了以下兩點:(1)簡單來講,云計算就是一個大的儲存器,里邊有著成千上萬的資源,每種類型的資源都有著不同的作用。云計算的優勢表現為能將這些不同類型的資源進行整合分配。(2)對于使用者來說,云計算的使用簡單便捷、全程對外開放、沒有隱蔽性。使用者想利用云計算獲取想要的、有價值的信息,不會在意云計算的運行原理以及是誰在背后使其運轉的,人們只想要獲取信息。但云計算本身是存在安全隱患的,如果一直承載著巨大信息量的數據庫,在此基礎上加上計算機的數量,會一直存在安全隱患。最后的結果可能會使整個云計算系統瓦解。僅憑借擴展硬件設施是不可行的,需要充分地發揮軟件管理的作用。這就需要將系統分散成一個個板塊,在其中應用冗余和分布式儲存的方法。云計算系統的另一個優勢是具有自我檢測的功能,它能在不影響正常工作的環境下進行檢測,如果檢測出來沒有效果的節點,它就會自動刪除。簡而言之,云計算系統的數據非常多,存儲能力也非常強,計算能力較強,結合諸多優點,必定能給用戶帶來舒心、便利、優質的服務。
通過對云計算的研究,發現它一共有5個方面的特點,分別是虛擬化、共用性、規模大且延伸性強、可依賴性高和經濟適用。云計算雖然不是實物,但它擁有著數以千萬計的數據,能讓用戶在世界上的任何一個角落通過終端獲取自己所需的信息和服務。它沒有限制性,可以利用云計算開發出不同的應用,這些應用在不影響用戶的正常使用下可同時運轉。云計算是可以延伸的,且是動態延伸。在現在的技術支持下,最多能延伸至幾十萬臺電腦,并且整個過程使用者是可見的,是透明的。為了使用戶用得貼心,讓用戶感受到高效的服務,產生信任感,需要發揮云計算固有的優勢,使用自動化管理機制,降低企業將承擔的巨額成本。對于傳統的系統來說,云計算系統的成本更低[1]。
2? ? 數據挖掘的方式
數據挖掘是單調的,是一個需要不斷地重復測試、調整和修理的過程,這個過程漫長而復雜,因此,這項工作是比較艱辛的。整個數據挖掘要先進行數據預處理,然后再進行數據挖掘,最后才是評估和表示。數據挖掘有很多種方法。(1)基于歷史的主引導記錄(Master Boot Record,MBR)分析,基于歷史的MBR分析方法最主要的概念是用已知的案例來預測未來案例的一些屬性,它一般就是找雷同的案例來作分析和比較。在記憶基礎推理法中有兩個重要的因素,分別為距離函數與結合函數。距離函數用于找出雷同的案例,用函數把雷同的案例串聯起來,等到測試的時候用。記憶基礎推理法的好處是它能容納所有不一樣的數據,這些數據不用建立在假設的基礎上,另一個優點是其具備學習能力,能從舊案例的學習中來獲取關于新案例的知識。記憶基礎推理法的缺點首先是需要非常多的歷史數據,因為有充足的數據作對比才好預判。其次,在處理數據上比較浪費時間,它不能很好地看出距離函數和結合函數的區別。(2)購物籃分析,也稱“市場籃分析”,它用于在大數據下分析客戶的購買行為,商家可以利用這些信息向其他客戶推薦自家產品,還可以將這些產品進行線上促銷。(3)決策樹,在分析解決對策和預判方面有強大的能力,用運算的方式表達,可有效解決問題。(4)遺傳算法,是學習細胞演練的過程,細胞間可經由不斷的選擇、復制、交配、突變而產生新細胞。基因算法的運作方式相同,首先,一定要提前建立好一個模式;其次,再利用產生的新細胞使其運作;再次,用適合的函數進行檢測,看是否可以和這個新建立的模式相匹配,直到最后,僅剩的那一個細胞才有機會存活。(5)聚類分析,這項技術涉及的范圍非常廣,基因算法、類神經網絡、統計學中的群集分析都有這個功能。它的目的是找出在數據中隱藏的、之前沒有被發現的群體。在非常多的案例分析中都會用到這種技術來進行初始研究[2]。(6)連接分析,是把數學中的圖形理念當作基礎,從記錄其關系到發展成為一個新的模式,比如電信行業,可通過分析顧客使用電話時間的長短和次數,來得出顧客的號碼是什么,從而做出一個有利于公司發展的計劃書。除了電信行業以外,現在越來越多的行業分析人員都會用連接分析法來為自己所在的公司做更有利于企業發展的研究。(7)聯機分析處理(Online Analytical Processing,OLAP),嚴格說起來,OLAP分析并不算是一個特別的數據挖掘技術,但是通過分析數據的工具能讓使用者更加清晰地知道數據更深層面的意思和涵義,就像視覺處理技術一樣,通過圖表或圖形將數據以簡單、明了的方式呈現,對一般人來說,效果會更直觀。這樣就能實現將數據變成信息的目標。(8)神經網絡法,是不斷地學習之前的知識,將知識進行溫習和鞏固,把例子和學習結合起來使其變成一種新的結果,這種方法屬于機械化的學習,學習效率非常高。(9)判別分析法,是當所設想的問題變成現實時,它一般用于解決分類問題。(10)羅吉斯回歸分析,當分析的群體不符合一般的假設時,羅吉斯回歸分析是很好的第二解決方案。這個方法不是用于預測事物是否會發生,而是用于預測這件事情發生的概率有多大,以便在很大程度上減少失誤。
3? ? 數據挖掘在云平臺上的應用
伴隨著“互聯網+城市”的崛起,人工智能、大數據分析、數據挖掘以及物聯網等信息化技術已經融入城市生活的方方面面。共享單車這種新興的項目得以迅猛發展,是因為充分應用到數據挖掘技術。(1)應用關聯規則算法分析單車的投放地點與投放數量,確保一天的投放量能滿足該地段的用戶需求,同時,采取相應的措施對該地段進行監管。(2)跟蹤每輛單車,以獲得有缺陷車輛的信息,對長期未使用的單車進行維護,從而有助于后期更好地使用。(3)合理應用聚類分析中的K均值算法,用于分析和計算4個季節的單車循環率,以有效地控制每個季節單車的投放與回收數量,提升單車的利用率。(4)考慮氣候因素,聚類分析中的K均值算法可用于統計分析晴天、陰天、雨和雪天等氣候條件下的單車利用率,有效地優化單車的運營方案。
4? ? 云計算關鍵技術
云計算的技術有很多,但是如果沒有最核心的技術,云計算終有一天也會走向失敗。云計算在虛擬化、數據存儲、數據管理、編程模式等方面都有自己獨特的技術。但在現在的社會發展背景下,最直接、有效的方法是分布式計算法,這個方法包含了兩個部分,一部分是關于數據存儲的;另一部分是關于數據計算的[3]。這兩部分在現在的云計算平臺上是必須包含的,它是支持整個數據挖掘的核心,現在GFS,KFS,HDFS等3種分布式文件的系統中是最受歡迎的,谷歌公司的分布式系統就是這部分理論的結合,KFS,HDFS這兩種算法已經被運用于商業和學術的領域,由此可見,它的地位并不一般。
5? ? 結語
本文探究了云計算的概念、數據挖掘的方式還有云計算的關鍵技術,由于現在互聯網的普及,數以千萬計的冗余數據正在困擾著各行各業的人。和傳統的數據系統相比較而言,云計算的優勢要大于傳統的數據系統。為了讓用戶用得舒心,讓他們感受到高效的服務還有對云計算的依賴性,云計算充分發揮了自身的優勢,使用自動化的管理機制,減少人們將承擔的成本。對于傳統的系統來說,云計算系統的成本更低。云計算系統的數據非常多,存儲能力也非常強,計算能力也不在話下,這么多的優點結合,必定能給用戶帶來舒心的、便利的、優質的服務。隨著科技的高速發展,筆者相信云計算技術也會發展得越來越好,日后云計算將會給數據挖掘帶來新的進展,帶領人們更好地走向未來。
[參考文獻]
[1]孫亮.數據挖掘服務模式應用云計算的優化策略探究[J].黑河學院學報,2018(1):23-25.
[2]王勃,徐靜.基于云計算的Web數據挖掘Hadoop仿真平臺研究[J].電子設計工程,2018(1):43-44.
[3]包科,蔡明.高速接入網云計算平臺的大數據挖掘算法探究[J].機床與液壓,2017(12):143-144.