試析基于云計算環境的web數據挖掘

2020-06-24 12:56:02田笑

錦繡·中旬刊 2020年3期

摘要：本文針對基于云計算環境的web數據挖掘，結合理論實踐，在簡要闡述云計算特性的基礎上，分析云計算環境下web數據挖掘的流程，并提出web數據挖掘的關鍵技術。希望對提升云計算環境下，web數據挖掘的準確性、速度等有一定的參考和幫助。

關鍵詞：云計算;web;數據挖掘;數據預處理

引言

在云計算環境下，web數據挖掘的方法發生了較大概念。云計算為web數據挖掘提供動態化資源和高可用行的計算平臺，為開發高性能的數據挖掘平臺提供技術支持。但web數據量大，而且具有較大的噪音，對挖掘算法的要求比高。而基于云計算環境的web數據挖掘，可有效降低運營在數據挖掘技術上的投入，加快web數據挖掘速度，縮短產品研發周期。基于此，開展基于云計算環境的web數據挖掘的分析研究就顯得尤為必要。

一、云計算的特性

（一）虛擬化

云計算是一種全新的技術，用戶可以在任何位置、任何時間來獲取各種終端的應用程序。并且請求的數據和資源全部來自于云環境，并非固定的實體，可為用戶提供便捷的服務。

（二）通用性

云計算和其他技術相比，并不是針對特定的應用，可以在云支撐下，滿足用戶不同的需求，一個云同時服務于多個應用平臺和系統。

（三）高可擴展性和超大規模性

云可以實現動態化擴展，并且此種擴展對用戶來說幾乎的透明的，并不會影響用戶的使用情況。此外，云的動態化擴展是超大規模的，比如：微軟、亞馬遜等云計算，有上百萬臺服務器。

二、云計算環境下web數據挖掘的流程

在云計算環境下，可實心web數據挖掘技術的全面優化，云計算高強的并行處理能力和海量存儲能力，可有效解決web數據挖掘海量數據的問題。web數據挖掘的流程包括以下三個步驟：

第一步，web數據收集。web數據挖掘的主要對象是日志信息，也就是用戶在應用web系統式留下的日志數據，這些日志數據并存子在web系統的數據庫中。一旦數據庫發生問題，存儲在數據庫的數據也會發生丟失或者破壞。因此，為保證數據的安全性，需要將數據庫中的數據進行篩選、轉換、統一處理，形成半結構化的XML文件，保存在分布式文件中。此種做法既能優化數據收集方法，也可以避免數據庫中存儲的數據因為設備發生損失[1]。在云計算環境下，web數據挖掘可有效保證數據的共享性，降低web數據應用門檻，保證數據庫中各項有價值、有用的數據能夠被充分利用。

第二步，數據預處理。通過數據預處理可為web數據挖掘提供良好條件。主要目的是對采集到的數據進行凈化處理，以刪除無用的數據。從日志數據中識別出多個用戶，以確定哪些信息同一個用戶留下的。再講相同用戶訪問記錄按照不同的訪問時間區分開來。區分完成之后再進行格式化處理，轉換成符合web數據挖掘算法要求的格式存儲起來，以便后期挖掘使用。

第三步，數據分析。通過一系列web數據挖掘算法，對預處理后的數據進行分析，進而發現其中隱藏的有價值的數據。數據使用的目的不同，采用數據挖掘算法也不相同。比如：統計分析算法，通常應用在日志數據統計中。關聯規則算法，多應用在挖掘用戶之間或者頁面之間的潛在關系上等。

三、云計算環境下web數據挖掘的關鍵技術

（一）云計算技術

分布式計算是云計算技術的關鍵，主要作用是解決海量數據挖掘的難度，提升數據挖掘的精度和效率。分布式計算涉及到兩方面內容，其一是分布式存儲，其二是并行計算。云技術環境既能提供數據的分布式存數，也可以滿足并行計算的能力，為web數據挖掘提供良好的環境。在web數據挖掘中，分布式并行計算是高效完善數據計算和挖掘任務的基礎，可對一些技術細節進行封裝處理，包括：數據分布處理、任務并行處理、任務調度處理、負載平衡處理等。在用于在應用時，無需考慮這些內容，只要考慮web數據挖掘任務之間的邏輯關系即可。從而提升研發效率，降低系統維護成本。

（二）數據匯集調度

通過數據匯集調度，可有效解決不同數據之間的規約問題，而且支持不同格式的數據，無論是OLTP數據、OLAP數據，還是日志數據、爬蟲數據，都需要提供數據同步的方式，如：數據庫同步、socket消息同步、文件傳輸協議同步等。云計算環境中數據匯集調度多采用模板化設計技術，以滿足新數據的模板和元數據配置的統一收集及規約，提升web數據挖掘的效率。

（三）挖掘算法并行化技術

web數據挖掘中的并行化是云計算平臺的基礎能力之一，在web數據挖掘中國并行化技術是否科學合理性，直接關系到web數據挖掘算法是否并行，并行策略是否有效等。常用的并行化算法是K-means算法，其核心思想是基于使聚類性能指標最小化[2]。具體應用流程為：線隨機選擇k個web數據挖掘對象，每個對象都可看做是一個簇的初始均值和中心;然后對剩余的對象，按照每個的均值距離，指派到最相似的簇中;最后通過平方誤差準則，來計算每個簇的新均值，此環節可不斷重復，直到準則函數完成收斂為止。具體表達公式如下：

此公式中，E表示數據集中所有對象的平方誤差和;p表示空間中的點，也就是給定的對象;mi表示簇Ci的均值，在web數據挖掘中，先求出對象到其簇中心均值的平方，再求和，從而挖掘出數據庫中的有價值的全部信息。

四、結束語

綜上所述，本文結合理論實踐，分析了基于云計算環境的web數據挖掘，分析結果表明，云計算環境下，對web數據挖掘提出了更高的要求，數據量越來越多，種類更加繁雜。加強對云計算技術、數據匯集調度、挖掘算法并行化技術的創新研究，有助于提升web數據挖掘的效率和精度，促進我國數據挖掘水平不斷提升。

參考文獻

[1]王建明.云計算環境下對Web數據挖掘技術的研究[J].現代信息科技，2019，3（05）：108-109+112.

[2]張珍.云計算環境下的數據挖掘算法探究[J].網絡安全技術與應用，2019，221（05）：61-62.

作者簡介：

田笑（1999-），女? 漢族河南省開封人河南大學軟件學院 2017級本科生在讀，研究方向：軟件工程