潘澤波

摘 要:伴隨著科學技術的快速發展,大數據技術以及相關應用已經得到眾多行業工作者的關注與認可。如何分析大數據,如何更有效地挖掘大數據的潛在價值,也同樣成為技術自身成長的關鍵節點。文章針對大數據分析中的計算智能研究展開初步分析與探討,希望可對行業工作者起到一定借鑒作用。
關鍵詞:大數據應用;大數據技術;計算智能
0 引言
計算智能是人工智能技術不斷發展與延伸的重要成果,計算智能源于自然智慧與人類智慧,其主要目的在于解決一系列傳統邏輯程序所無法解決的復雜難題。計算智能運行過程中,不需要去創建對應的數學模型,也不需要相關知識體系作為內涵表達,而是依靠大量數據,對輸入信息進行綜合分析與處理。計算智能的這一特點,使其與大數據分析工作有著天然的共性,大數據應用借助計算智能,可以快速完成圖像處理、模式識別、知識獲取、經濟管理與智能控制等諸多工作,其所取得的實際成效,更是讓大數據技術應用進入全新時期,而大數據技術的發展,也讓計算智能迎來全新的機遇與挑戰[1]。
1 ? 大數據技術概述
大數據并不是一個新鮮事物。早在20世紀70年代,國外行業工作者為實現對經濟領域各項數據的快速統計,監督各類企業的生產狀況,并預估經濟宏觀走勢,發現經濟生活中的不穩定因素,開始大數據應用的初步探索。但是,當時的計算機軟件與硬件條件均與實際應用需求之間存在巨大差距。現如今,大數據技術與應用已經初步成熟,其定義也擁有多種描述,從直觀角度分析[2],大數據是指數據規模達到PB乃至EB級別的大量數據,并且,這個數據量無法利用傳統的邏輯方法與軟硬件實現快速分析處理與感知管理。在大數據應用過程中,需要采用全新的數據處理模式,提高實際工作的決策力、洞察力與流程優化能力。因此,大數據本身已經成為一個寬泛的概念,其同時涵蓋數據的采集、處理、分析與解釋等眾多技術與手段。
2 大數據分析中的計算智能方法
隨著人工智能技術的快速發展,計算智能已經逐步演變為3個主要分支,分別為人工神經網絡、模糊系統與演化計算。這3個相對成熟的分支亦可相互融合,并由此產生全新的數據利用與開發模式。因此,計算智能從其運用特性角度分析,在大數據分析與應用中有著巨大的發展空間。計算智能方法詳細如圖1所示。
2.1? 人工神經網絡
人工神經網絡是一種對動物神經系統特征進行模仿的分布式并行數據信息處理模型,而這一模型又同時具備較強的自適應能力、較好的容錯性與映射能力,并同時具備分布存儲的特性,是計算智能分支中最為重要的一種核心模式。對于神經網絡模型應用而言,數據不需要具備任何概率分布特征,與傳統統計學與邏輯思維相比,實際限制很少。在人工神經網絡中,感知器是一種最為經典的在線學習模型,并根據預測結果的正確性來決定相關樣本的權重[3]。當前,感知器在線學習算法涵蓋投票感知、均值感知、權重多數感知、被動主動感知、置信度權重感知與核感知器算法,而這些手段的存在,讓人們在數據生產與采集層面的能力日益增強,數據規模與維度也在不斷擴大。人工神經網絡的存在也同樣解決高維數據所存在的兩項基本問題:其一,應用過程不再關注數據的全部屬性,數據中的冗余信息與噪音將會被徹底排除;其二,將數據進行有效簡化,消除高維數據在性能應用層面的約束,在不提高計算代價的前提下,提高其實際應用效率。
2.2? 模糊系統
大數據應用體系下,所采集的數據在精度與狀態層面存在隨機化與非線性的特點,并存在自然環境等各類不可控因素干擾。因此,大數據本身是一種相對模糊的數據,例如電商網站、社交網絡等,這些站點用戶所發表的內容帶有很強的個人傾向,而不是傳統邏輯層面的好與壞,喜歡與不喜歡,這種內容在意圖層面十分模糊且自帶不確定性,難以用語言進行細節化分類。此外,大數據所對應的不同事物之間也帶有明顯的過渡性與不分明性,邏輯層面不再是非此即彼的現象,這一過程雖然對傳統邏輯思維有著極大的挑戰,但是對于計算智能的模糊系統而言,其利用模糊聚類方法,卻可以快速找到數據的巨大潛力與價值。模糊聚類方法是一種非監督性質的學習模式,可以快速找到數據中的隱含信息,維持數據在空間與時間層面的準確性[4]。提高模糊聚類算法的策略在于采樣、在線處理與分布式計算,并快速找到不同算法的適用場景,針對性地提供必要的選擇策略。基于核的模糊聚類算法需要同步完成如何選擇核、如何確定策略適用場景,并進行深入分析與探討。
2.3? 計算智能在大數據應用中存在的問題與未來的研究方向
計算智能雖然可以為大數據應用快速處理各類非確定性的復雜問題,但是,其本身也為大數據分析過程帶來諸多問題:
數據規模的大量膨脹讓分析時間變長,計算復雜度迅速提升,原本可以適用的策略也在落后。
數據的產生是持續性的且不斷變化,很多數據無法直接進入計算機的存儲空間,更無法快速保存其歷史樣本,這就導致其分析過程無法像傳統批量算法應用過程構建=合理的無偏訓練集。
隨著人們數據采集與生產層面的能力不斷增強,數據屬性更顯多維度,而傳統的簡化與分組方式,也逐漸無法應對數據稀疏與復雜的特點[5]。
針對以上問題與挑戰,大數據應用與分析的未來研究方向可分為以下幾點:
(1)提高計算智能算法的可拓展性與業務容納能力,保證其在問題規模擴大時,算法或模型可以有效提高數據在時間與空間層面的質量。針對技術的發展,可以將這些策略分為4種,分別為:在線優化算法、隨機化算法、基于哈希策略的算法以及大規模集群分布式算法。
(2)進一步發展分而治之的策略,將復雜問題逐步簡化,減少大規模復雜問題的處理時間,提高處理質量,依靠子問題的解決實現全部問題的快速解答。
(3)進一步發展粒計算理論與模型,實現對問題的多層次與多角度分析,并保證粒度間的靈活性,為各類復雜問題尋找更為有效的全新解決模式。
(4)提高對數據集規律的排查能力,可通過降低部分子集數據準確性,用以提高數據分析在時空層面的消耗,并利用子集來尋找大數據所蘊藏的深層規律。
(5)針對持續性輸入數據,可利用概率分布隨機取樣的方式,對持續性流數據進行在線處理,并推進各類結果的快速融合,當數據分布發生變化時,也要確保其分析結果的穩定性,并快速完成降噪工作。
(6)提高對數據規律變化的應對能力,建立數據動態分析模式,針對大數據的演化機制,提升數據的利用價值。
(7)進一步降低數據中的弱約束規則,提高對各類數據源中冗余信息的處理效果,確定各類事件的空間位置關系、時間先后關系以及觸發關系等。
(8)提高對低價值密度數據的應用能力,檢測數據中的異常模式,針對數據異常現象,建立應用策略。
(9)提高數據分析對各種領域知識的結合能力,使其形成更為精準的領域模型,建立更為準確的數據分析方式,提高數據分析結果的可解釋性[6]。
3 結語
綜上所述,大數據技術在為計算智能提供巨大機遇的同時,也讓相關理論發展面臨嚴峻挑戰,而未來計算智能的發展,也需要結合大數據應用過程中所展露出的實際問題與需求進行進一步調整,進而提高計算智能在大數據分析中的潛力,展現數據內在價值。現如今,大數據分析工作中的計算智能策略依舊處于探討與技術摸索階段,很多問題依舊困擾著技術與應用發展,需要做進一步研究。
[參考文獻]
[1]邱宇,王持,齊開悅,等.智慧健康研究綜述:從云端到邊緣的系統[J].計算機研究與發展,2020(1):53-73.
[2]于洪,何德牛,王國胤,等.大數據智能決策[J].自動化學報,2020(5):878-896.
[3]楊揚,劉圣,李宜威,等.大數據營銷:綜述與展望[J].系統工程理論與實踐,2020(8):2150-2158.
[4]郭平,王可,羅阿理,等.大數據分析中的計算智能研究現狀與展望[J].軟件學報,2015(11):3010-3025.
[5]吳俊杰,劉冠男,王靜遠,等.數據智能:趨勢與挑戰[J].系統工程理論與實踐,2020(8):2116-2149.
[6]WEI W,MOHSEN G,SYED H A,et al.Guest editorial:special section on integration of Big Data and artificial intelligence for Internet of Things[J].IEEE Transactions on Industrial Informatics,2020(4):2562-2565.
(編輯 王雪芬)