劉穎
(南京審計大學金審學院,江蘇 南京 210000)
數據挖掘是進行AI 或者進行機器學習的基礎,它主要還是從復雜多變的數據出發,挖掘出多樣的、有利用價值的信息供行業使用。通常把數據挖掘歸納為數據準備[1]、數據尋找和數據表示這3個步驟。由于數據挖掘技術涉及的領域甚廣,所以不同研究方向的學者研究時使用的分類方法不同,這里要提到的是現階段已經在專業知識課本上學過的數據挖掘分類方法,其大致可以分為以下4 類:統計學習的方法、機器學習的方法、神經網絡和數據庫的方法。
在大數據背景之下,“數據挖掘”這一技術已經被廣泛地運用到生活的方方面面。不管是在醫療衛生方面或者是APP 開發方面,還是金融、教育等領域都可以到處看見數據挖掘技術留下的蹤跡,各行各業使用數據挖掘技術顯示出大數據在社會中的重要地位。比如說在金融方面,大部分銀行都為客戶提供了豐富多樣的儲蓄服務、保險服務或者投資服務等;在銷售方面,數據挖掘技術在積累銷售顧客、劃分銷售群體、統計銷售數據等方面發揮了重要的作用;在科學研究方面,數據挖掘的應用如觀測衛星、遙感器、DNA 分子技術等都有很重要的體現[2]。但是隨著大數據的出現,數據挖掘技術在各行各業的應用更加廣泛,如果能夠在現有的基礎上對數據進行更深入的分析,如對商店的客戶銷售數據進行分析,那么數據挖掘將會發揮更大的價值。具體分析,比如對客戶進行細分與流失分析。企業利用數據挖掘技術對銷售數據進行分析,可以識別哪些是重要客戶,哪些是有價值的客戶或者哪些是新來的客戶,根據不同客戶的屬性以此來推斷哪些客戶可能會流失,隨之可能會給部分商品的銷售帶來影響;還可以利用這一技術從客戶價值的角度進行時間序列分析。簡單來說就是根據來往客戶的花銷情況,以及客戶本身的特征屬性,利用數據挖掘通過不同維度進行綜合分析,來推斷出客戶未來的消費情況。也就是說,還可以根據客戶價值的進一步管理,來實現商店交叉銷售分析、協同過濾推薦,深化客戶購買,挖掘客戶價值。同時,也可以通過大數據可視化技術,來分析推斷客戶在社會的影響力,商店可以由此來進行一對一精準銷售,例如對不同影響力的客戶可以給予不同的折扣和優惠力度[3]。特別地,還可以利用這一技術根據客戶特征提供個性化的服務模式,這樣,在提升服務質量的同時也提升了商店的銷售利潤。
綜上所述,不管是在金融領域、醫療方面,還是在電信行業、教育機構等,無時無刻都會產生大量的數據,也正是由于如今社會上存在太多的無法確定的因素,導致每天處理的數據類型逐漸多樣化,那么即便通過計算機來輔助,就拿過去使用的辦法來說,如最常用的Excel,用它來解決實際問題依然有一定的局限性,其對數據量、數據處理的功能等方面都有一定的要求。但是換個角度思考,如果可以通過數據挖掘技術來解決這一系列大數據的難題,想必會達到事半功倍的效果。
隨著數據變化速率的加快以及數據種類的不斷增加,這意味著“大數據”(Big Data,IT 行業術語)時代的到來。2011年,互聯網數據中心(Internet Data Center,IDC)將大數據的定義增加了另一個新的特征——“價值”。至此,“大數據時代”的專屬特征為數量(Volume)、多樣(Variety)、速度(Velocity)和價值(Value),簡稱為“4V”。
現階段,在大數據的背景下數據挖掘技術在相關行業的應用也有了很大的改進,下面以可視化、高性能計算(HPC)、數據存儲框架、云計算速度提升這4個方面為例,將其對數據挖掘技術的影響進行具體探索分析。
通常情況下所理解的大數據可視化技術指的是在類型多樣或者數量很大的數據中迅速獲得信息這一技術,大數據并不意味著全是數據,它實際上指的是能夠支持企業進行全面分析和管理,并且效率更甚從前的一種能力。當然,不同的數據種類經過大數據可視化技術的分析后可以展示出不同的洞察力,可以用在不同企業的不同用途。所以,即便是一模一樣的數據,不同類型的企業看到的結果也是不一樣的。此外,大數據可視化技術能夠使企業知道它持有的一切數據,從而生出迅速的洞察力,進而采取最佳行動,提升數據處理的能力,實際應用到日常生產運營中,從而提升企業的價值。
通常情況下接觸到的高性能計算技術,目的是達到處理數據密集型任務的時候實現花費少并且功能多的目標。一般情況下,大部分企業的高管和董事不一定要求是高性能計算領域的人才,但在企業進行工作運轉時,絕對不可以沒有這些人的支持。這些企業的管理層必須對高性能計算有足夠多的了解,以及可以為當前企業明確提供可能的大規模硬件。其實在大數據的作用下,并不是每個企業都需要高性能計算,有的企業即使沒有高性能計算也可以正常運行,但是如果每個公司在運營時都采用大數據的高性能計算技術,那么我們有理由相信公司的運營一定會達到最佳效果。這是因為在高性能計算實施過程中,數據文件的容量要大得多,并且數據存儲集中,這就在一定程度上滿足了企業的日常運營需求,進一步提高了數據處理時的工作效率,方便企業對各部門、各流水線、各個項目進行管理,對各種資料進行收集處理、分類匯總。
目前在研究中常用到的大數據存儲框架有數據分組、聚類、描述、負責數據挖掘的內容等。這些方法對數據處理過程中的不同需求提供了相應的解決辦法,例如,數據分組是把大數據根據不同的標準、不同的需求進行分類,這一功能技術使用最頻繁的場景就是商店的精準營銷,其在這一方面發揮著很大的作用。在目前大數據技術背景的支撐下,網絡優化其實就是一個對系統數據進行采集提取、收集預處理以及變換整合分析的過程。當數據分組這一技術以客戶維度為主要特征時,分析所得的結果通常作為下一次交易時客戶行為的基礎。總的來說,數據存儲框架這一技術的使用也在一定程度上提高了數據挖掘過程的準確度。
眾所周知,云計算屬于大數據分布式計算的一種。一方面,其服務器虛擬化可以提高信息資源的利用率,簡化系統的管理,實現服務器整合[4],從而達到減少運營成本、提高資源利用率的目的;另一方面,其縱向伸縮性是指在相同的邏輯單元內比以往增加更多的資源來提高處理速度、容量和能力。因此,伴隨云計算速度的提高,其服務器的虛擬化可以使信息資料被使用得更加充分,從而使得管理更簡單,運營成本更低,資產利用率和資源處理能力更強,這對于數據挖掘技術來說,大大提升了數據挖掘技術的應用范圍和使用效率,使得數據挖掘技術在原有的基礎上更高效地幫助企業處理數據,讓企業得到更多有價值的、可使用的數據,最重要的是,對于企業而言,獲得最大的利潤是其終極目標,數據挖掘技術恰巧可以使企業在這方面消耗比以往更低的成本、人力和物力,無疑,企業可以在原有基礎上獲得更多的利潤,同時也可以提高自身的價值。
不管是學者研究領域,還是商業營銷領域,用數據挖掘技術來處理數據一直以來都是熱點話題,當下也一直源源不斷地被越來越多的人們所關注。大家先了解認識這一技術,然后進行技術學習,最后自主使用到特定的應用場景,長此以往使得這一領域在各行各業越來越成熟。在利用數據挖掘技術處理和解決實際問題時,相關學者提出了3個值得人們關注的角度:①用數據挖掘技術解決問題的類型;②解決數據挖掘的數據準備工作;③數據挖掘的理論基礎。因為數據挖掘技術可以給使用者帶來巨大的經濟利潤,不管是在哪個領域,都有人在利用數據挖掘技術幫助管理客戶生命周期的各個階段,其中包括根據客戶屬性制造營銷手段來拉攏新的客戶、在已有客戶的身上獲得更多的利潤以及保證已有客戶資源不流失等。如果能夠確定好不同銷售客戶的特征屬性,那么就能為這些客戶提供針對性的個性化服務。比如,已經通過以往的銷售記錄分析得出購買某些商品的客戶的性格或者他們選擇的商品的價格、質量、品質等,那么就可以向那些具有這些特征屬性但還沒有購買商品的客戶在購物時推薦這些他們可能會心儀的商品,可以推測,他們大有可能會購買,這樣,在原有的銷售模式之上,可以更高效地提升商店的利潤。總的來說,就是用數據挖掘這一技術為商店在更短的時間內創造更多的價值。因為保留一個客戶要比爭取一個客戶來的更容易,且成本花銷更小。同樣,證券公司也采用數據挖掘來降低欺詐行為出現的概率,簡單地說,可以把每個投資樣本標準化處理為可測的信息,再進行聚類分析,聚類中樣本較小的簇確定是否為異常樣本。此外,運營商還可以大量地使用數據挖掘技術處理的數據結果來作為不同類型的商品在不同倉庫的放置存量的依據,例如像沃爾瑪這樣的全球大型超市,有了這一技術,總部的技術控制中心便可以更快更好地掌握各種商品在不同地方、同一商品在不同時間段的銷售情況,從而進一步制定更多的銷售手段來獲取更多的利潤。以上這些是現階段數據挖掘技術在相關行業應用的實例。
在以大數據為背景的前提下,數據挖掘技術在以后發展的大體走向具體如下。
一方面,現如今社會信息化發展速度太快了,以至于人們越來越關心未來會怎樣,也越來越關心信息的處理手段。這也從另一方面說明人們現在不僅接受現有的事物來適應社會的發展趨勢,更希望通過更為先進的技術手段去預測未來的發展趨勢,去更加準確地掌控自己的未來。對信息社會中的任何一個單位而言,其最大的資本就是掌握可靠、真實且有價值的信息,要不想被大量的信息所迷惑,并在如此激烈的企業競爭中脫穎而出,這就要求每一個單位不得不加強自身信息處理的能力。因此,未來,數據挖掘技術的使用會越來越廣泛,不僅僅是上述提到的教育領域、商業領域、電信領域、醫療衛生領域,甚至以后可能會出現的一些新型領域。
另一方面,隨著人們對信息技術需求不斷提升,隨之而來的是計算機性能的不斷優化,再加上各學者對數據挖掘技術研究力度不斷加深,數據挖掘在各行各業都已經占據著越來越重要的地位。可以說,在這種背景下,種種跡象都表明數據挖掘技術代表未來面對大量數據處理技術的一個大體趨向,其所涉及的數據采集、數據預處理、聚類分析和數據變換等各種核心技術和算法都將會成為未來各行業處理數據不可或缺的一部分,有了這些技術,無論是學者的研究還是各行業的運營,都將會達到事半功倍的效果。因此,數據挖掘技術在很大程度上有可能會成為將來人們駕馭大數據的一塊法寶。
一言以蔽之,因為很多學者和各行業的運營者迫切想要將存在于現有數據庫中的大數據轉化為對于研究和企業運營有使用價值的知識和資源,因此數據挖掘技術被認為是一門尤其重要的、有很廣的應用前景的學科,當然也是極具挑戰意義的一項技術。隨著數據挖掘技術的深入發展,技術人員的不斷研究以及在各領域的大量應用,有理由相信,未來這項技術勢必會帶給使用者更大更多的利益,造福于各行各業。