







摘 要:為了提升大數據挖掘過程中的效率和準確性,本文提出了一種新的大數據挖掘方法。該方法從實際問題出發,抽象出多個不同的約束條件,并利用和方案的交叉映射形成選擇矩陣,再選擇矩陣中各個元素的排序,確定最佳選擇,即得到最終的挖掘結果。為了測試所提出的多條件約束大數據挖掘方法的有效性,本文以云計算虛擬機資源的配置挖掘為研究對象進行試驗。試驗中針對計算型任務、優化型任務和圖像型任務分別選擇不同的虛擬機,挖掘方法在通用均衡性虛擬機、計算密集型虛擬機、內存優化型虛擬機、圖形處理型虛擬機、開發測試型虛擬機以及網絡安全型虛擬機中找到了最佳的配置結果。
關鍵詞:大數據挖掘;云計算;虛擬機配置;最佳配置
中圖分類號:TP 311" " " " 文獻標志碼:A
自從人類進入信息社會以來,社會生產和人民生活面臨前所未有的深刻變化,其中一個最重要的特點就是信息量的大幅度增加[1]。這種增加無疑使社會公眾獲取信息的渠道更豐富,不同群體間的信息不對稱性也得到了一定程度的改進,進而推動了人人自媒體時代的到來。但是,數據量和信息量的增加也帶來了一些負面影響,例如增加了人們信息搜索方面的時間開銷[2]。由于有用信息之外摻雜了大量的冗余信息和無效信息,人們不得不抽出大量時間,瀏覽各類信息,以提取對自己有用的信息。如果不能在海量信息中提取出對自己有價值的信息,那么可能會被錯誤的信息誤導,進而做出錯誤的選擇甚至引發工作失誤、降低工作效率。為了解決上述問題,大數據挖掘方法應用而生[3]。大數據挖掘方法是在數據挖掘基礎上的進一步改良,其面對的數據集合也不同于以往時代,需要處理更多的數據。這就要求大數據挖掘方法具有足夠的硬件支撐,同時要求挖掘過程更嚴謹、挖掘結果更精確。因此本文提出了一種新的大數據挖掘方法,并通過試驗進行測試。
1 多條件約束的大數據挖掘方法設計
1.1 方法設計
大數據挖掘與傳統數據挖掘一樣,都注重挖掘的效率和準確率。挖掘效率既取決于挖掘算法本身,也在很大程度上受硬件的影響。目前,硬件技術水平的發展日新月異,給大數據挖掘提供了足夠的支持。因此,只要挖掘方法設計合理,就可以取得較高的挖掘效率。而挖掘結果的準確率離不開大數據挖掘方法的合理設計。從解決思路上看,設定的條件充分、約束合理,就可以保證挖掘結果的精確性。因此,本文中提出了一種多條件約束的大數據挖掘方法。
這種方法需要從要處理的問題中提煉出不同的條件,每個條件對應一項約束,這樣就行了一個多約束集合,如公式(1)所示。
E={e1,e2,…,e|E|} (1)
式中:E表示從挖掘問題本身提煉出的全部約束所構成的集合;e1表示從挖掘問題本身提煉出的第一條約束;e2表示從挖掘問題本身提煉出的第二條約束;e|E|表示從挖掘問題本身提煉出的第|E|條約束;|E|表示從挖掘問題本身提煉出的全部約束的數量。
為了解決一個具體的挖掘問題,需要有針對性地設計出處理方案,其構成的集合如公式(2)所示。
P={p1,p2,…,p|P|} (2)
式中:P表示針對挖掘問題所設計的全部方案所構成的集合;p1表示針對挖掘問題所設計的第一組方案;p2表示針對挖掘問題所設計的第二組方案;p|P|表示針對挖掘問題所設計的第|E|組方案;|P|表示針對挖掘問題所設計的全部方案的組數。
進而需要根據約束和方案進行判斷和選擇,得到的依據如公式(3)所示。
(3)
式中:R表示約束和方案交叉映射后的選擇矩陣;r11表示約束一和方案一交叉映射后的選擇;r12表示約束二和方案一交叉映射后的選擇;r21表示約束一和方案二交叉映射后的選擇。
顯然,最終挖掘結果的合理性取決于公式(3)中選擇的合理性,哪種選擇與預期結果更接近,該選擇就是正確的、合理的。進而需要將每一種選擇和預期結果進行比較,如公式(4)所示。
(4)
在不同的問題中并非都是正向選擇,有的取決于反向選擇的結果。反向選擇的操作如公式(5)所示。
(5)
1.2 方法流程
如上所述,本文對多條件約束的大數據挖掘方法進行了設計,這種方法在解決具體問題過程中需要一個完整的流程,如下所示。
第一個步驟,根據大數據挖掘的具體任務,分別設定好約束集合和方案集合。
第二個步驟:在約束集合和方案集合的支撐下,得到選擇集合。
第三個步驟:計算選擇集合中不同選擇的權重。
第四個步驟:將每種選擇與預期結果進行比較,并分別形成正向比對和反向比對,如公式(4)和公式(5)所示。
第五個步驟:得到全部選擇的比較結果,從中選擇一個最合適的作為最終的挖掘結果。
2 云計算虛擬機配置的條件設定
在上述研究工作中,本文提出了一種新的大數據挖掘方法。該大數據挖掘方法使用多種條件進行約束,從而保證挖掘結果的準確性。為了驗證所提方法的有效性,本文選定特定的對象進行試驗測試。
云計算是目前廣泛采用的一種新型計算模式,可以有效解決本地計算資源不足的問題。云計算中的關鍵是實際計算任務經過虛擬機匹配,進而在云端找到合適的物理資源的過程。因此,在云端進行虛擬機的合理選擇是實現云計算資源最佳配置的關鍵所在。在各個云平臺構成的云端存在大量的虛擬機,搜索合適虛擬機可以采用大數據挖掘。云端的虛擬機不僅數量多,而且類型豐富,不同的計算任務請求需要選擇最合適的虛擬機。云端虛擬機的分類如圖1所示。
從圖1可以看出,云端虛擬機資源至少可以分成6類,不同類別的虛擬機可以完成不同特色的任務。不同類別虛擬機的特點見表1。
表1對6類不同類別的虛擬機資源都進行了不同的特征特點的比較。從6列虛擬機的特點比較可以看出,前3類特征特點都體現了不同類別虛擬機的公有屬性,而后3類特征特點則更能體現不同類別虛擬機間的差異性。這些公有的屬性和差異屬性共同影響大數據挖掘過程的準確性和效率。
3 云計算虛擬機資源的大數據挖掘試驗結果與分析
闡明多條件約束大數據挖掘方法,并設置云計算虛擬機的分類標準后,進一步設定數據挖掘過程中各個挖掘方案對應的準確性等級。數據挖掘的等級一般可以劃分為6個等級:第一個等級是最高等級,意義為“非常準確”,即數據挖掘算法提供給客戶的結果與客戶需求完全一致。第二個等級是次高等級,意義為“很準確”,即數據挖掘算法提供給客戶的結果與客戶需求一致。第三個等級是中間偏好等級,意義為“準確”,即數據挖掘算法提供給客戶的結果與客戶需求基本一致。第四個等級是中間偏差等級,意義為“一般”,即數據挖掘算法提供給客戶的結果與客戶需求有輕微不符。第五個等級是較差等級,意義為“不準確”,即數據挖掘算法提供給客戶的結果與客戶需求在很大程度不符。第六個等級是最差等級,意義為“很不準確”,即數據挖掘算法提供給客戶的結果與客戶需求完全不符。
可見,上述6個等級具有由好逐漸變差的趨勢。在挖掘算法中,為了能夠量化執行挖掘過程,將這6個等級對應于具體的分數,見表2。
表2設定的分數是一個區間分數的下限值,例如“非常準確”的得分必須要大于等于90分,滿分為100。90~100區間的分數,都對應“非常準確”的等級。按照同樣的方式,80~89區間的分數,都對應“很準確”的等級;70~79區間的分數,都對應“準確”的等級;60~69區間的分數,都對應“一般”的等級;50~59這個區間的分數,都對應“不準確”的等級;40分以下的分數,都對應“很不準確”的等級。
本文以云端的海量虛擬機測試數據為挖掘對象,對其中6類虛擬機資源進行數據挖掘并形成分析和判斷,判斷這些虛擬機對不同計算任務的實用性。本文分別選擇計算型任務、優化型任務和圖像型任務,并采用本文提出的多條件約束大數據挖掘方法所匹配的虛擬機情況,所得挖掘結果如下:計算型任務得到的虛擬機匹配結果見表3,優化型任務得到的虛擬機匹配結果見表4,圖像型任務得到的虛擬機匹配結果見表5。
表3、表4和表5分別給出了不同任務需求下大數據挖掘方法所得各類虛擬機的配置結果,為了便于將這些結果直觀地展示出來,本文繪制了如圖2所示的對比圖形。
由圖2可以看出,大數據挖掘方法給計算型任務準確地配置了計算密集型的虛擬機資源,給優化型任務選擇了內存優化的虛擬機資源,給圖像型任務配置了圖形處理的虛擬機資源。可見,對于不同類型的任務,本文提出的大數據挖掘方法都能找到最佳的虛擬機資源進行配置,也取得了令人滿意的結果。
4 結論
信息社會的到來使信息量的爆炸式增長,在給人們提供信息便利的同時也增加了信息搜索的難度。大數據挖掘與傳統數據挖掘一樣,都注重挖掘的效率和準確率。為了提升大數據挖掘過程中的效率和準確性,本文建立了一種基于多條件約束的大數據挖掘方法。該方法利用約束集合、方案集合和選擇集合的設定和計算,得到了合理的挖掘結果。性能測試試驗以云計算虛擬機配置為挖掘對象,為3類任務在6類虛擬機資源中尋找最佳配置,試驗結果充分證明了本文所提方法的有效性。
參考文獻
[1]萬祥,胡念蘇,韓鵬飛,等.大數據挖掘技術應用于汽輪機組運行性能優化的研究[J].中國電機工程學報,2016,36(2):459-467.
[2]趙小凡,杜舒明,劉超.基于大數據挖掘的電能計量互感器誤差自動化控制系統[J].自動化與儀表,2024,39(3):151-154.
[3]劉雪飛,林子釗,田啟東,等.基于大數據挖掘的電力多源異構信息融合技術研究[J].制造業自動化,2023,45(9):75-78.