石秋發 邱瀚
(1.山東省電子政務大數據工程技術研究中心 山東省濟南市 250014 2.華中科技大學管理學院 湖北省武漢市 430074)
互聯網技術和智能化技術在不斷的發展普及,在日常生活中人們越來越離不開互聯網信息技術,這些新興的技術在工作和日常生活中得到了廣泛的應用,因此每天產生的數據數量極多,數據的類型也十分豐富,這意味著我們已經進入了大數據時代。在大數據時代中數據信息具有很高的商業價值,能夠推動各行各業的發展和改革,決定著企業的盈利水平。目前數據挖掘中面臨著數據源的處理和海量數據的處理,兩種問題,計算機行業的高速發展使得數據庫以外的數據不斷出現,如何進行數據源和數據信息的有效處理,使數據挖掘技術中需要重點考慮的問題,同時隨著互聯網等行業的發展和普及數據量在不斷的增加,需要進一步提高數據挖掘技術的效率和質量。大數據挖掘技術通過加入云計算技術可以有效的提高數據挖掘的效率,但是也面臨著眾多的問題,這些問題的存在阻礙著云計算中大數據挖掘技術的發展,因此基于云計算的大數據挖掘體系構建研究具有重大的意義。
云計算技術是一種以互聯網為基礎的計算模式,通過虛擬化的方式處理信息資源,并進行計算云計算技術具有強大的儲存功能,能夠有效提高用戶使用的便捷性,云計算是并行計算和分布式計算的發展結果。數據挖掘是指從大量數據中挖掘具有價值數據的過程,通過數據挖掘能夠發現大數據中所隱藏的價值和知識,并對用戶進行指導作用,目前數據挖掘技術并用到了多個領域的決策指導中。數據挖掘主要包括預測任務和描述任務兩種預測任務是指根據屬性對目標屬性做出預測描述,任務則是將數據間隱藏的聯系所描述出來。在大數據中應用數據挖掘能夠獲取更大價值的信息數據,從而為各行各業創造出更大的效益。
在數量龐大的數據中隱藏著具有很高價值的數據信息,同時數據類型也存在多樣化的特點,比如說文本形式,數據信息,圖片,視頻形式的數據信息。大數據挖掘就是指從這些海量的數據中挖掘出具有價值的數據信息,然后為用戶提供所需的數據由于大數據數量龐大,價值密度低,導致傳統的數據挖掘,無法快速高效率的挖掘數據。因此全新的大數據挖掘技術就此出現并發揮出了積極的作用,大數據挖掘具有廣泛性,主動性和復雜性的特點,廣泛性是指大數據挖掘過程中,挖掘的數據源十分廣泛,主動性是指大數據挖掘使用收集數據的方式,主動進行數據收集,復雜性則是指大數據挖掘過程中挖掘的數據類型十分復雜。
近年來我國互聯網技術在不斷的發展,數據傳輸的速度變得極快,因此產生的數據量也越來越多,對于用戶來說信息需求較大,這種時候大數據技術和云計算技術得到了快速的發展,以此來滿足用戶的需求。在大數據時代傳統的數據挖掘已經無法滿足用戶需求,需要通過基于云計算的大數據挖掘來解決數據挖掘存在的問題,不僅能夠彌補傳統數據挖掘中的漏洞,還能夠有效的提高數據處理的速度和效率,實現大數據挖掘。基于云計算的大數據挖掘具有眾多的優勢,能夠在海量數據中挖掘出有價值的信息,并將數據信息高度應用,這是傳統數據挖掘技術的創新發展,能夠實現大數據時代的快速傳遞和處理。
基于云計算的大數據挖掘是將大數據挖掘和云計算技術相結合,能夠有效的提高大數據挖掘的速度和效率,云計算是一種需要付費的計算模式,能夠為用戶提供虛擬化資源,在大數據挖掘中能夠有效的提高大數據挖掘的存儲能力,加快大數據挖掘的處理速度。云計算技術的核心是分布式儲存和計算技術,這種技術能夠有效的解決數據挖掘中儲存空間不足和計算過慢的問題,讓大數據挖掘,能夠在儲存的過程中并進行計算。云計算技術能夠有效的提高大數據挖掘的性能,將大數據挖掘的深度和廣度進行拓展,并實現實時處理和分析數據,能夠有效的滿足用戶對信息數據的需求。基于云計算的大數據挖掘體系,是大數據挖掘依靠云計算技術而構建的數據處理系統,能夠有效的提高數據獲取,處理和分析。
分布式并行技術是云計算技術的核心內容,通過提供分布式文件存儲并進行相關計算。分布式文件存儲的主要作用是提高數據信息的處理速度并滿足計算的要求,這是大數據挖掘中的關鍵技術,目前分布式文件系統在商業領域和學術領域被廣泛應用。分布式并行計算主要是對數據分布,任務執行,數據容錯等問題進行編碼處理用戶僅需調用執行即可以使用計算結果。
數據的挖掘算法是統計學模式識別人工智能等多領域的結合是大數據挖掘平臺中的核心技術,最常見的方法是統計分析和決策數等。統計分析是最為簡單的方法,通過對數據各項值進行統計分析。決策數是對數據行分類后快速描述。神經網絡具有較強的學習組織和適應能力,可以對數據信息進行分類和預測,不同的大數據算法都具有自己的優勢,能夠用到不同的領域中,需要根據用戶的需求進行大數據挖掘算法的應用組合。
基于云計算的大數據挖掘平臺,主要是利用云計算自身的存儲能力和分布式處理技術的優勢來完成大數據挖掘,基于云計算的大數據挖掘模型,主要包括三層結構。
基于云計算的大數據挖掘體系頂層,主要包括工作流子系統和用戶接口子系統,主要的作用是面向用戶,其中工作流子系統是用來幫助用戶建立數據挖掘任務,而用戶接口子系統的主要作用是跟用戶實現交互功能用戶在界面輸入模塊設置參數,選擇合適的數據挖掘算法,通過大數據挖掘平臺開始數據挖掘,最后以可視化簡單的方式呈現到用戶眼前。
中間層是數據挖掘系統中的核心部分,包括數據處理子系統和數據挖掘子系統在云計算中大數據挖掘平臺計算模型主要適用于同類型結構一致的數據,因此需要數據處理子系統對大量的數據結構進行提前處理相處理的結果,以數據挖掘算法進行輸入。常用的數據處理方法,包括數據清洗,數據轉化,抽取,集成和加載等。數據信息經過中間層的處理后,無用的數據信息會進行排除清理,提高了數據挖掘的效率和質量。數據挖掘子系統是數據挖掘平臺的核心模塊,目前數據挖掘算法種類繁多,由于數據挖掘平臺是基于云計算的算法模型,因此云計算平臺上無法直接使用部分算法,必須要對現有的算法進行整合和改造,才能實現在云計算平臺上使用。
數據中心層是系統中的最底層,主要的作用是用來儲存儲大數據并對大數據進行處理的部分,數據中心層需要保留多份數據副本以保證數據的安全性,由于云計算使用的是并行工作模式,即使大量的用戶在發出請求時也可以做出迅速反應,以此來提高大數據挖掘平臺的工作效率。
大數據技術不斷發展,基于云計算的大數據挖掘速度和效率都得到了顯著的提高,但是在大數據時代,數據信息的安全問題也不斷出現。如何保證數據信息的安全,是基于云計算的大數據挖掘體系構建過程中需要重點考慮的問題,只有解決數據信息的安全問題,才能保證基于云計算的大數據挖掘體系,處于安全的環境中進行運行。首先要提高數據安全保護意識,做到主動保護數據信息安全,通過多種方式來保障數據安全,比如說設立防火墻和局域網密碼。其次提高數據信息安全保護的水平,技術人員通過提升大數據挖掘體系的抵抗性,對數據信息進行定期監測,及時更新防火墻補丁,保障用戶數據安全。
基于云計算的大數據挖掘體系的功能是吸引用戶注意力的主要因素,絕大多數企業在進行大數據挖掘體系開發過程中,對于功能的設計較少,不能滿足用戶的需求,也無法獲得更高的利益。因此為了提高企業的收益,要加強大數據挖掘體系的研究,將開發人員的工資和績效相掛鉤,以此來提高開發人員的工作熱情,另外可以設置獎勵機制,對于開發人員提出的有效建議要進行獎金獎勵,從而提高開發人員的工作熱情。其次要加強和用戶的溝通,基于云計算大數據挖掘體系,主要服務對象就是用戶了解用戶的需求,才能設計出符合用戶需求的功能。
基于云計算的大數據挖掘體系構建,主要依靠相關的云計算和大數據挖掘人才進行支撐,是在實際的工作中,絕大多數的企業都面臨著云計算和大數據人才缺失的問題。該問題存在的原因,一方面是因為企業沒有做好相關者招聘和培訓工作,在招聘時過于重視應聘者的學歷,對于應聘者所具備的專業水平和能力不予重視,因此導致云計算和大數據挖掘人才嚴重缺失。另外一方面是因為企業缺乏相關的培訓工作,導致部分具有云計算和大數據挖掘技術的人才,無法進行相關專業的培訓工作,阻礙了員工的發展和專業水平的提高。首先為了解決人才缺失的問題,相關企業要做好招聘工作,在進行招聘時,對于應聘者進行技術和能力考核來測試應聘者自身的專業水平和能力,降低學歷要求從應聘者中選拔優秀的人才,對于有相關工作經驗的人要進行優先錄取,對于專業水平高,但實際工作經驗較低的人,采取培訓的方式來提高能力。其次,企業內部要做好培訓工作,積極開展多種培訓方式,可以聘請專家到公司進行講述,也可以舉辦內部討論大會,讓企業員工互相幫助互相學習,通過培訓的方式來提高員工的綜合素質和專業水平。
綜上所述,云計算技術和大數據技術的不斷發展,基于云計算的大數據挖掘體系構建也在不斷的完善,能夠滿足用戶的信息需求,為用戶提供高質量的數據挖掘,有效的提高數據挖掘的效率和質量。隨著大數據時代的來臨,數據挖掘服務是時代的產物,基于云計算的數據挖掘系統在互聯網行業將變得不可或缺,它能夠有效的解決數據挖掘所面臨的問題,提高數據挖掘的性能,幫助互聯網企業在大數據時代中獲取有價值的信息資源,基于云計算的數據挖掘體系構建,表現出了更高的可能,能夠有效解決傳統數據挖掘所面臨的各種問題,提高大數據挖掘的效率和質量,推動我們企業的發展水平,提高社會的發展水平。