曾展挺

摘?要:在云計算環境下,Web數據挖掘技術得到了快速發展。由于云計算的應用,Web數據挖掘體系已體現出新的特點。分析云計算環境下Web數據挖掘技術的特點,可以明確應用要點,可以實現云計算在數據存儲中的突破,實現存儲的能力與安全性的提高。從海量數據中高效挖掘有價值的資源,屬于信息技術要解決的關鍵問題。云計算技術支持下的數據挖掘實現了資源的優化配置,體現出實用性、虛擬性的特點,可以保證數據挖掘的高效、精準。因此,有必要構建基于云計算的數據挖掘模式,保證數據挖掘具有更高的精準度,并實現挖掘成本的降低。
關鍵詞: 云計算;技術應用;數據挖掘;Web數據
文章編號: 2095-2163(2021)01-0167-03 中圖分類號:TP311 文獻標志碼:A
【Abstract】In the cloud computing environment, Web data mining technology has been developed. Due to the application of cloud computing, Web data mining system has new characteristics. By analyzing the characteristics of Web data mining technology in the cloud computing environment, the application points can be clarified, the breakthrough of cloud computing in data storage can be realized, and the storage capacity and security can be improved. Mining valuable resources efficiently from massive data is the key problem to be solved in information technology. Data mining supported by cloud computing technology realizes the optimal allocation of resources, reflects the characteristics of practicality and virtuality, which could guarantee the efficiency and accuracy of data mining. Therefore, it is necessary to build a data mining model based on cloud computing for ensuring higher accuracy of data mining and reducing mining cost.
【Key words】cloud computing; technical application; data mining; Web data
當前互聯網技術發展迅猛,互聯網信息也呈現持續高速增長態勢,如何由海量數據中發現有價值的信息即已成為數據挖掘技術的研究熱點。研究可知,Web數據挖掘是對Web海量數據加以分析,借助數據挖掘算法篩查出有價值的信息,而這些信息對于諸如趨勢走向預測和商業行為決策等是十分有用的。對此擬展開如下研究論述。
1 基于云計算的Web數據挖掘體系
在互聯網中,運用數據挖掘可以將Web劃分為不同的節點,借助云計算技術實現Web中不同節點的關聯,建立起數據挖掘體系。在應用實踐中,主控節點要實現客戶端與不同節點的網絡連接;算法節點可以為數據挖掘的應用提供算法支持,對其可理解為算法倉庫;數據節點作為數據存儲的數據庫;服務節點是執行系統下達的指令,并對計算結果加以反饋。針對Web數據挖掘的設計實現,本次研究中是將體系分為4個層面,詳見圖1。該體系中,每個層面的定制功能可做闡釋分述如下。
(1)服務層。借助Web數據挖掘來提取數據,將信息傳送給用戶。
(2)控制層。通過主控節點對返回的結果進行分析,同時確定算法的有效性,用來實現更深層次的數據挖掘。
(3)算法和數據存儲層。存儲反饋的數據,包括初始數據、挖掘后數據,避免數據、算法發生丟失,造成損失。一旦發生意外,系統還可從數據存儲區中重新找回數據進行恢復。
(4)業務處理層。借助程序重新對存儲層數據加以分配,并借助服務節點將信息反饋到主要控制節點。
2 云計算的Web數據挖掘
2.1 云計算的數據挖掘概述
在網絡技術快速發展,以及在多領域應用普及的背景下,就產生了海量的數據,Web數據挖掘技術也隨即獲得了廣泛的應用。當前Web數據技術已趨于成熟,并與云計算技術的應用密切相關。借助云計算技術,數據信息的高效處理、分析已然成為可能,數據挖掘的服務性和時效性也變得更好,數據的利用價值也更加突顯。數據挖掘過程中,先要對數據加以處理,再借助數據分析,通過算法得到數據的評價和表達,成功提取到有價值的信息。
云計算環境下Web數據挖掘技術采用分布并行處理方式,具體特點可做分析闡述如下。
(1)云計算環境下的Web數據挖掘可以保證更高的效率,過程中應用了并行處理方式,提升了海量數據的挖掘速度。在云計算環境下,可以為不同要求的客戶提供個性化服務,且服務成本也會更低,有利于數據挖掘的快速實現。對于中小客戶,可以無需考慮使用大型高端服務器。
(2)云計算環境下的數據挖掘通過塊劃分自動分配計算任務,保證節點加載的靈活性。
(3)云計算環境下的數據挖掘技術有著良好的用戶體驗。普通用戶只需登錄云服務平臺即可,而特殊的用戶則可以通過個性化的數據服務來滿足其實際需求。
(4)云計算環境下的數據挖掘可進行動態增刪,還可自由添加結點,這就提升了海量數據的處理速度,設備的利用率也得到了同步提升。
2.2 云計算環境下的數據挖掘實現方式
2.2.1 建立數據挖掘模型
數據挖掘模型的建立要結合客戶的實際需求。針對商業客戶而言,則需要借助技術優化模式從海量Web數據中挖掘出具有商業價值的實用數據。因此數據挖掘模型建立時要確保真實性、合理性。尤需指出的是,云計算技術的大范圍應用,實現了大容量存儲,提升了并行處理能力,有效解決了常規模式下數據挖掘存在的制約問題。
建立數據挖掘模型,還要結合Web挖掘建立流程。數據挖掘存在多種影響因素,這種方式有別于傳統的挖掘模式。Web數據挖掘流程的設計要考慮到諸多不利因素:Web數據挖掘技術融合Web網頁并不是各類技術的簡單疊加,而是包含對信息檢索、選擇并初步處理信息、找到模式且加以分析等在內的一系列步驟。對于Web信息的檢索,就是通過爬取網站新聞、日志等數據信息,對其加以甄別和篩選,濾除無價值的信息,并初步處理有價值的數據。再對處理后數據進行篩選和驗證,完成有價值的數據提取。研究發現在云計算技術的支持下,數據挖掘時可以采用流程化的模式:向模塊依據用戶需求發出指令,指令上傳到云服務器,服務器會自動識別出該指令,調取已存儲的數據,引用最優算法,對數據進行預處理,在此基礎上反饋到云平臺,運行結果則將采用可視化的方式來呈現給用戶。云計算環境下,若要提升基礎架構庫的可靠性,則亟需建立安全可靠的流程,從而保證最終的服務效果。服務流程的設計要有利于規范數據挖掘,流程要結合差異化的用戶需求,同時結合數據挖掘的目標,體現出技術基礎架構庫的優勢,降低對人的依賴性。
2.2.2 算法的設計方式
在云計算環境下,挖掘數據可運用SPRINT算法,依據設置流程,先創建決策樹,然后剪枝。創建決策樹時,要對數據加以篩分,剪枝時則是去除無用的數據。SPRINT算法設計時也融入了不同數據的特征。劃分屬性表后,節點分裂了,可以確定屬性表。屬性表包含了索引、類,放置于內存空間外,表明了節點屬性。對于數據處理,不間斷的刷新即可獲得最有效的分裂點。如果采用離散型,可以借助直方圖來表達屬性值的分布特點。算法設計中的并行處理則可保證算法的運行效率。引入哈希表,存儲中不同節點發生分裂后子節點的數據變化也可以直觀呈現出來,即使得對節點實施的并行處理就具備了分割依據。應用哈希表體現出決策節點號碼的信息以及樹節點子信息。算法移植后,通過MapReduce算法可以進行優化,算法的應用可以快速創建出決策樹,這樣就提升了算法執行效率。
2.2.3 數據挖掘算法的應用
在Web數據挖掘技術中,至關重要的數據結構是Web-Graph。該技術可以描述Web信息,并可廣泛應用于社交網絡、搜索結果排序、網絡爬蟲等場合。Web-Graph對Web鏈接進行分析是基于圖論算法的應用,因此為數據處理分析提供了有利條件。對于算法數據結構的數據,采用Web-Graph算法分析數據時,先要明確數據描述算法,通常可以采用矩陣法來描述數據,還要結合行列特點,排列節點數據,
從而形成網絡矩陣。網絡中的矩陣階數可用節點數進行表示。算法體現了網頁的鏈接關系,其關系則借助矩陣來進行描述。對于矩陣的創建,數據表達出行、列節點之間的聯系。對于取值,數據的矩陣元素可表達出一定的差異,可以表達各個節點Graph。利用Graph的差異,體現出社交平臺中的用戶關系。在社交網絡中,用戶信息交換存在雙向關系。用戶在得到相互認可后,才會確認為好友,因此利用數據結構,就可采用對稱矩陣的形式來描述用戶的關系。在數據應用中,借助二維數組來表達矩陣,如果應用高級語言去處理Graph,矩陣采用的就是數據結構。
GraphML應用存儲具有可靠性、長期性的特點。GraphML作為通用文件格式借助XML語言對圖形特征加以描述。目前,許多開發語言都能夠解析GraphML,因此Graph的生成、處理、存儲等在很多場景中都可以成功得到運用。GraphML還表現出簡單、直觀等優勢,為開發人員提供了多方面的便利。不僅降低了數據挖掘難度,有利于開發人員的后續修改,而且為程序應用創建了良好的數據條件。Graph數據常用結構包括分級圖、超圖、無向圖等。在數據挖掘過程中,就是通過爬取得到頁面信息來詳細分析Web連接,從而形成Graph結構。此類挖掘算法的優勢就是易于實現。而在分析文本的頁面鏈接時,會消耗計算資源,除Web關聯外,利用Graph結構,還可以描述常見事物的關聯。
針對數據收集,傳統的方式是直接收集互聯網上的數據,存儲于數據倉庫中。但是數據倉庫中的數據卻可能發生丟失。在云計算技術下,數據收集時會首先篩選互聯網上的海量信息數據,經數據轉化生成半結構化的文件,再將其保存于分布式系統中。針對數據處理,是由云計算中的任務主節點來實現整體的統籌控制。任務主節點會對任務進行分類細化,并將其有針對性地分配到互聯網上的空閑計算機加以處理。接下來再將網絡中分散中心處理后的信息在集結匯總后,一并傳送到主節點。這種方式高效地利用了計算機資源,并且保證了數據處理效率。
3 結束語
面對海量的網絡信息,Web數據挖掘體現出極高應用價值。云計算的應用為Web數據挖掘的實現創造了有利條件。云計算下的Web數據挖掘保證了網絡資源的實時分析與處理,數據挖掘的效率也得到提升。
參考文獻
[1]朱娜.基于云計算技術的數據挖掘平臺設計與實現[J].信息記錄材料,2018,19(6):79-81.
[2]葛曉玢,劉杰.基于云計算的數據挖掘平臺架構及其關鍵技術研究[J].景德鎮學院學報,2017,32(3):26-29.
[3]薛醫貴.云計算在WEB數據挖掘技術中的應用研究[J].自動化與儀器儀表,2017(5):156-157,161.
[4]熊伯安.基于大數據時代的數據挖掘及分析[J].電子世界,2016(20):121,123.