龍 妤
(廣東網聯天下科技有限公司,廣東 東莞 523000)
數據挖掘(Data Mining,DM)又經常被稱作知識發現(Knowledge Discovery in Database,KDD),其通過深入分析海量存在噪聲的不完整隨機數據,在表面分析認知的基礎上得到隱藏的有價值信息,并將這些隱藏的、容易被人們忽略的信息應用到生產實踐的指導中,是一個完整過程和體系。數據挖掘技術和其他技術一樣也在不斷發展,在發展過程中將機器學習、人工智能、大數據、數理統計以及神經網絡等新的理論和方法融入其中。目前,數據挖掘成為各國研究的熱點,被引入到不同領域中并進行延伸,在得到廣大學者關注的同時也得到通信行業關注[1-2]。
在大數據的背景下充分利用數據挖掘技術,能夠更加快速便捷地發現實際問題,并及時采取針對性措施進行解決。數據挖掘技術的作用和功能逐漸凸顯,具體體現在如下5個方面。
對于數據挖掘技術,其實質是提取和識別特征數據和指標。而無論是對事物的認知還是對事物的分析中,都需要對事物進行必須觀察,了解其特征,在特征提取和分析基礎上了解數據和事物差異性。
數據挖掘的過程實際是數據的重新整理與分類以及特征提取分析的過程。通過整合分析數據能夠發現一些特征數據,這些數據呈現出一定的規律性,對事物分析具有一定的價值和指導意義,能夠為實際的企業發展和建設提供一定的理論指導和數據支持。
在數據挖掘過程中能夠提取和分析相關數據及其特征,有效區分數據分類,對不同分類數據進行分別分析,確定不同類型數據的發展規律,結合數據和客觀事實發現數據規律預測未來發展趨勢,對未知問題解決具有重要指導意義。
在進行數據挖掘和數據分析中,若出現未知信息建議考慮引入聚類分析,實現數據重新分類。以建筑工程為例,建筑工程種類呈現多元化、新型化特征,傳統建筑工程數據分析方法在新型建設出現的情況已經不能完全適用,不能實現對新型建筑建設情況、具體分類的有效分析。采用基于聚類分析的數據挖掘技術,能夠在傳統數據采集和分析的基礎上結合建筑工程位置和建筑工程類型進行聚類分析,并在分析的基礎上進一步明確工程類型的差異,為新建筑工程建設提供科學完善的資料。聚類分析技術在數據挖掘中的應用越來越廣泛,尤其是在未知向已知的過渡階段具有良好應用性。
離群點分析是當前大數據技術應用和發展的關鍵。離群點分析是利用數據分析和采集技術發現數據中的異常點和不合規點,即通過離群點分析確定白噪聲和異常情況,基于分析基礎上確定故障部位、分析故障內容。離群點分析在目前工程建設的特殊問題處理中具有極強優越性。
K-means聚類算法屬于典型迭代型聚類算法,相對較簡單,其機理內涵如下。數據庫中兩個距離較短的數據必有一定相似性,一般距離越近相似性越高,對數據庫中距離非常近或重合的數據作為數據簇。在挖掘技術應用中,不僅包括單一數據挖掘,還應該涵蓋對數據簇的挖掘與分析。目前,K-means聚類算法已經在數據挖掘中廣泛應用,具有極強的迭代特性和動態特性。K-means聚類算法在數據挖掘應用中,首先準確定位數據庫并進行分類,對其中異常值進行必要調整、修改,分類基礎上進行下一步迭代,直到準則函數出現極強收斂信號。該算法基本應用流程如圖1所示。

圖1 K-means聚類算法應用流程圖
K-means聚類算法的具體流程:
(1)利用該算法在數據庫中采用隨機調取的方法選擇K個數據,并將這K個數據作為數據挖掘的初始數據備用;
(2)分析選取的K個數據,按照就近原則進行數據分配,將其分配到相應數據簇;
(3)進一步分析數據簇并得到相應的平均值,然后根據平均值分類數據隊形,將其分配到相近的數據簇;
(4)分類后重新評定數據簇的平均值;
(5)進一步明確K-means聚類算法的準則函數,并通過計算確定最終的準則函數E;
(6)分析準則函數,該值收斂時,則可以輸出該值。
K-means聚類算法在數據分析中最終經準則函數判定,能得到最優解,即全局最小值,其是數據平方差變化最小軌跡。該算法中還引入了迭代更新算法,并通過該算法實現對數據的循環分析與挖掘。K-means聚類算法和迭代更新算法的綜合運用保證了最終參照點切近數據簇中心。這要求K-means聚類分析中結合迭代算法,簡化目標函數,保證最終得到精細化的準確數據。
層次聚類算法作為數據挖掘技術中的另一重要算法,通過層層分解實現了數據的挖掘,最終找到最佳數據。為構建出最佳層次聚類算法模型需要構建一個聚類數,基于從下到上的原則層層分解數據。目前,依據分層進行分類的方法可以分為分裂分類法和凝聚分類法兩種。AGNES算法作為層次聚類算法中凝聚分類法的典型代表,目前在數據挖掘中的應用十分廣泛。DIANA算法作為分裂分類算法的代表,在數據挖掘中的應用也較為廣泛。和分裂分類算法相比,凝聚分類算法的應用范圍更廣[3]。在凝聚分類算法的應用中需要綜合考慮不同數據簇之間的鄰近度和相似度問題,可采用鄰近度矩陣進行數據處理和分析。
凝聚分類算法在數據挖掘技術中應用時,主要涉及到如下3個步驟。
(1)通過數據分析對數據進行初步分類,保證初始數據簇的形成。
(2)在就近原則的基礎上分析相應數據,實現不同數據簇之間的數據合并。
(3)數據簇合并后能夠形成新的數據簇,進行新數據簇的數據挖掘。通過循環迭代,最終能夠滿足數據挖掘的實際需求。
基于大數據背景的數據挖掘技術算法應用流程如圖2所示。

圖2 基于大數據背景的數據挖掘技術算法應用流程
先明確實際需求,在確定目標后分析實際市場,并在結合市場分析和消費者分析的基礎上定位科學業務。同時,確定通信公司的現有資源,整合分析現有資源和客戶需求,確定科學、能有效執行的目標。不同客戶在通信質量、資費等通信服務方面具有不同要求,因此需要對客戶需求進行挖掘,以確定不同客戶的實際需求,即明確問題[4]。
為保障最終結果的準確性和有效性就需要強有力的工具支持,即需要選擇科學合理的數據挖掘方法。明確問題和任務目標基礎上,統籌協調數據描述、數據關聯、數據估值、數據分類等過程,確定變量,引入數據挖掘算法結合變量將問題轉化,構建滿足要求的數據挖掘模型。在實際數據挖掘工具確定中必須要結合實際情況確定合適的數據挖掘算法和工具,常用的包括聚類算法、迭代更新及相關性分組等。
為保障數據挖掘進程的進行,必須做好數據準備工作。為模型構建整合數據源,廣泛收集數據的同時,核實數據的準確性和有效性。這要求相關工作人員在進行數據工作中,必須嚴于律己做好這一工作。
做好數據整理和算法準備工作之后,根據實際情況和具體問題匹配數據挖掘技術,確定基礎模型框架。然后,對模型技術框架進行一定的調整和優化,保證最終確定的模型具有實用性。同時,在進行模型建立的過程中應該尤為注重過程及模型類型,確保數據挖掘的優勢真正凸顯。
利用建立好的模型進行數據挖掘,最終能夠得到問題及解決問題的相關結果及規律,對于最終的結果需要進行評估,包括有效性和價值性,通過結果的評價明確模型是否科學適用。保證模型和結果的科學性之后,利用結果去解決實際問題。以通信用戶服務為例,通過數據挖掘技術明確了通信用戶的實際需求之后,能夠根據這一結果給用戶提供針對性服務,能夠提高客戶的滿意度,對留住客戶、加強客戶關系管理、提升服務水平具有重要意義[5]。
大量數據的有效分析需求催生了數據挖掘技術,該技術在隱藏數據挖掘、數據深入分析等方面具有良好應用性,其很好地融合了計算機軟件技術、人工智能技術以及數據處理技術。可以預見,在未來大數據背景下的數據挖掘技術發展中必將更加深入。