王珂
摘 要:數學知識在大數據中,在數據的處理以及挖掘上是十分重要的。本文將分析大數據與數學知識的關聯性與在大數據時代實現數學知識全面應用的重要性,來探討在大數據時代中數學知識的應用,以此充分發揮數學知識在大數據時代的作用。
關鍵詞:大數據時代;數據處理;數據挖掘;數學知識
中圖分類號:G634.6 文獻標識碼:A 文章編號:2095-9052(2020)01-0199-02
科技的發展與進步,離不開對數學知識的應用,作為學習和研究現代科學技術必不可少的基本工具,數學在人類歷史的發展當中一直發揮著重要作用。在進入大數據時代后,數學依舊影響著大數據中數據處理以及數據挖掘等方面,同時數學也是大數據時代進一步發展的重要助力。
一、大數據與數學知識的關聯
在研究大數據與數學知識的關聯前,首先要分析兩者的概念。大數據的概念為“是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。”而數學的概念為“研究數量、結構、變化、空間以及信息等概念的一門學科。”由此可以看出,大數據是需要有特定處理模式才能具有其獨特元素的一種信息資產,這種特定的處理模式,則是由數學作基本學科與工具所搭建而成的。也就是說,一旦缺乏對數學知識的應用,那么大數據便不再具備其自身的相應特性,對信息資產的利用也不再存在。這就表明,對數學知識的應用,是大數據得以實現的基礎。
二、大數據時代實現數學知識全面應用重要性
在大數據時代,數學知識的應用影響著大數據的數據處理以及數據挖掘兩個重要方面。大數據擁有著被稱為“5V”的五種特性,其分別為: Volume(大量);Velocity(高速);Variety(多樣);Value(低價值密度);Veracity(真實性)。這表明了大數據能容納大量的數據,有著高速的數據獲取與處理能力,數據涵蓋了各個方面不再具有單一性,并且數據的價值含量低,但卻有著高質量與高真實性。根據相關統計表明,全球每年的數據增長率已經高達50%以上,并仍在逐漸的增長當中。而這些不斷增加的數據便需要通過數學知識來對其進行處理與挖掘,才能夠使其順利地得到應用。
數據挖掘在大數據時代中有著獨特的地位,而其誕生也與大數據的出現息息相關。在進行數據挖掘的過程中,其側重點的不同,使其對應的方法與定義也存在著差異。在其誕生之初,對數據挖掘的定義為“全面提取數據當中暗示或未知的可能有用的信息。”但隨著大數據的廣泛應用,數據挖掘已經脫離了其作為統計模型技術的范疇,而是成為一種專業活動被廣泛地應用于各個行業當中,除了常見的教育、科研、營銷、通信、制造、網絡等產業外,其在商業人工智能的研究領域也發揮著作用。而在進行數據挖掘的過程中,一旦脫離了數學知識的應用,便無法提取數據中的潛在信息與知識,其為各方面產業提供客觀數據依據的功能也無法實現。
三、數學知識在大數據時代中的應用
1.運用于數據處理當中
在大數據中,對一個數據進行分析,首先要收集并對這個數據進行初步的處理。并且因為大數據在使用的過程中為了確保時效性,必需要要在數據的收集與處理過程中,嚴格地對時間進行控制,這就導致其對數據處理的效率以及結構有著極高的要求。并且原始數據自身的特性,也會對數據的收集與處理帶來影響。例如,當一個大數據在進行信息處理的過程中,其原始數據存在噪聲,并且完整性與統一也存在有問題,這時為了確保數據的準確性,大數據自身會對該項數據進行預處理。也因此,為了提升處理效率,在大數據的應用過程中,需要利用到數學知識當中大量的分析法。在一般情況下,大數據應用的較為普遍的分析法為統計學方法,比如其中的描述性分析法、回歸分析法、相關性分析法等。例如,當一個數據需要對一個參數或模型進行檢驗與判斷時,便會應用回歸分析法來對數據進行估計,并建立起相應的數學模型。此外,數據處理的過程中,還涉及多項數學理論。比如,當一個大數據內需要對一個數據進行降維處理時,便會為了保障數據的完整性,獲得更多數據信息而使用通過運算對多個單調測度進行結合的測度論。
2.運用于數據挖掘當中
數據挖掘,是大數據應用的核心內容,如果脫離了數據挖掘,那么在大數據的應用過程中,便無法從復雜且沒有規律的數據中提取所需的有效信息。在實際應用當中,數據挖掘具有應用性、工程性、集合性和交叉性等特點,并且在進行數據挖掘時,通常會采用神經網絡、關聯分析法、聚類分析法及決策樹法等數學方法。而作為被廣泛應用于心理學、醫學、市場營銷等方面的聚類分析法,是數據挖掘中最為常用的一種數學方法,在實施的過程中通常應用灰色關聯分析、目標函數模糊及區間值算法等數學知識,并且其具體表現為:
第一,灰色關聯分析。灰色關聯分析的主要作用,是其可以通過當前數據中幾何曲線中的幾何形狀來對當前大數據中各項數據的關聯性大小進行判斷,如果數據的幾何形狀越相近其關聯性越大,反之,如果幾何形狀差異越大,其關聯性也就越小。在進行數據挖掘的過程中,灰色關聯分析通常被應用于樣本數據量較小、樣本存在殘缺或是樣本數據缺乏統一性等情況中。例如,當一個企業想要對自身的某類財務信息利用大數據進行數據分析時,發現自身在對財務信息進行錄入的時候,因為工作人員問題產生了數據樣本缺失的情況,這時大數據通過灰色關聯分析,依舊能夠挖掘出相應的數據信息。
第二,目標函數模糊。這種方法是對數據進行標準化與標定后,通過建立與其相應的模糊矩陣,利用直接聚類、模糊等價矩陣等方式來實現對數據集以及關鍵指標的聚類。并且還可以使用最大數法以及編網法等形式進行聚類。這種方法的效率性、伸縮性、維度的處理范圍都要相對優越,在大部分的數據挖掘進程中,都得到了廣泛應用,并且,在人們的日常生活中,采用目標函數模糊來進行聚類的方法也十分常見。例如,在對某一圖形進行處理時,便會通過這種方式來對數據集以及關鍵指標進行聚類。而且因為較為成熟的應用,在對各種聚類問題進行解決時,都是可靠的有效途徑。
第三,區間值算法。在大數據的處理以及挖掘過程中,區間值算能夠對一些“比較型”的數據進行轉化,或是分析具有固定取值范圍的數據。這種方法相對來說比較常用,可以對不同的系統習性進行挖掘與分析。在實際應用的過程中,通常使用的區間值算法有三種,分別為數與區間聚類法、區間與區間聚類法以及矩陣與區間聚類法。能夠高效、準確且真實地分析與統計系統中的各項信息。而在對區間值算中最為關鍵的區間值進行確立時,即可以由相應的專家進行確定,也可以采取相應的統計學方法進行確定。
四、結語
綜上所述,在大數據時代中,數學知識與大數據有著密不可分的聯系,并在大數據的應用過程中有著極大的重要性,特別是在數據處理以及數據挖掘兩方面的應用上有著極大的作用,以此可以看出,在大數據中,數學知識的應用是確保大數據有效性與實用性的重要保障。
參考文獻:
[1]林潘能.淺談大數據挖掘中數學的運用[J].現代交際,2018(9).
[2]秦善天.大數據時代數學思維的創新應用探究[J].數學學習與研究,2018(8).
(責任編輯:林麗華)