金偉+劉冬秋
摘 要:本文通過對大數據的發展、算法分析以及平臺設計進行探究,對大數據平臺的應用進行了展望,力求為智能化技術的發展提供創新的思路。
關鍵詞:大數據;人工智能;算法設計
DOI:10.16640/j.cnki.37-1222/t.2017.13.133
1 大數據的發展概述
大數據指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。大數據包括海量的數據信息與高強度的數據處理能力,對于傳統的數據處理系統來說,大數據處理有著相當多的優勢,可以對于大型復雜的數據模塊進行高效地分析,包括數據的收集、分析、共享與傳輸等。大數據可以采用預測的方式進行分析,在用戶分析后進行數據提取,將其價值體現出來。
數據集分析可以發現新的聯系與信息。科學家在電子科學工作中遇到了很多需要處理海量數據的問題,涉及氣象學、基因組學、復雜物理模擬、生物學和環境研究等。
2 大數據技術中的算法分析
2.1 神經網絡算法
神經網絡系統是由眾多的神經元可調的連接權值連接而成,具有大規模并行處理、分布式信息存儲、良好的自組織自學習能力等特點。神經網絡是一種計算方法,基于神經單元的大集合,解決由軸突連接的生物神經元的大群集的問題。 每個神經單元與許多其他神經單元連接,并且可以對所連接的神經單元的激活狀態影響中實施抑制。每個單獨的神經單元可以具有將所有其輸入的值組合在一起的求和功能。在每個連接和單元本身上可以存在閾值函數或限制函數,使得信號在傳播到其他神經元之前必須超過極限。神經網絡已被用于解決使用普通的基于規則的編程難以解決的各種各樣的任務,如智能化學習。歷史上,神經網絡模型的使用向高級人工智能的方向移動,其特征在于包含在具有一些動力系統的認知模型的參數中的知識。
2.2 灰色關聯度分析
灰色關聯分析方法,是根據因素之間發展趨勢的相似或相異程度,來進行歸納和評價,作為衡量因素間關聯程度的一種方法。灰色關聯度分析使用特定的信息概念。它定義沒有信息為黑色的情況以及具有完美信息為白色的情況,這些理想化的情況都不會出現在現實世界的問題中。事實上,這些過渡階段的情況被描述為灰色。因此,灰色系統意味著其中部分信息是已知的并且部分信息是未知的系統。根據這個定義,信息質量形成從信息的缺乏到完整信息的存在過渡過程。由于不確定性總是存在,灰色分析可以得出一系列關于解決方案的清晰陳述。在一個極端情況下,這種方案無解,在另一個極端情況下,具有完美信息的系統具有獨特的解決方案。在中間情況中,灰色系統將給出各種優化的解決方案。灰色分析試圖找到最好的解決方案,提供了確定一個好的解決方案的技術來解決現實世界的問題。
3 大數據平臺的設計
3.1 平臺層
大數據分布式存儲系統可以對大規模的結構數據進行存儲,通過大型的的存儲與管理技術,實現對于數據的高效處理,這個數量級大部分時候在PB級以上,這樣才能讓科研活動更加合理地進行開展。
3.2 功能層
功能層采用擴展算法進行數據挖掘,采用TB級的數據進行模型建立,實現云計算與分布調度處理,利用負載的均衡技術,使得分布處理能力提升,從而實現高效數據處理。
3.3 服務層
采用基于WEB與Open API的大數據挖掘處理技術,從大數據的環境分析入手,加強端口的管理與流程的優化,從而實現端口的智能配置與數據交換,讓大數據的共享變得科學合理簡潔。服務層屬于高級別管理層次,因此應當加強對輸入輸出的合理控制,使其可以實現大數據的高效交換。
4 大數據算法的應用分析
4.1 數據挖掘
數據挖掘是發現大數據數據規律的計算過程,涉及人工智能、機器學習、統計和數據庫系統結合的方法,它是一個跨學科的計算機科學子領域。數據挖掘過程的總體目標是從數據集中提取信息并將其轉換為可以理解的結構以供進一步使用。除了原始數據分析外,它涉及數據庫和數據管理方面、數據預處理、模型和推理、復雜性考慮、結構整合處理、可視化和在線更新。數據挖掘是數據庫信息分析的過程。目標是從大量數據中提取模式和信息,而不是數據本身的提取。數據挖掘是一個熱門的領域,并且經常應用于各種形式的大規模數據或信息處理,主要包括收集、提取、存儲、分析和統計以及計算機決策支持系統的應用,包括人工智能、機器學習和商業智能。這些模式然后可以被視為輸入數據的一種分類方法,并且可以用于在機器學習和預測分析進一步分析。
4.2 機器學習
機器學習是計算機科學的子領域,它使計算機能夠學習而不用明確編程。從模式識別和計算學習理論在人工智能的研究演變而來,機器學習探索學習對數據進行預測算法的研究和構建,這樣的算法克服了嚴格的靜態程序指令數據驅動的預測或決策,通過從樣本輸入來建立一個模型。機器學習在一系列計算任務中使用,比如垃圾郵件過濾、檢測網絡入侵者或惡意內部人員、光學字符識別、搜索引擎和計算機視覺,這些方面都沒有明確的算法表示。機器學習與數學優化有著緊密的聯系,它將方法、理論和應用領域傳遞到現場。機器學習有時與數據挖掘相結合,后者的子領域更側重于探索性數據分析。
5 總結與展望
大數據技術算法的創新是一條光明而曲折的路,在這條路上會出現很多難題與挑戰,這個任務長期而又艱巨,需要結合實際經驗,不斷地進行總結歸納。為實現自身的長遠發展而進行大膽革新,利用創新思維進行現代化建設,從而大踏步地走向智能化的大數據發展目標。
參考文獻:
[1]陳曉,趙晶玲.大數據處理中混合型聚類算法的研究與實現[J]. 信息網絡安全,2015(04).
[2]文坤,廖瑛,楊雅君.帶有空間機械臂的航天器系統慣性參數辨識[J].飛行器測控學報,2015(04).
[3]黃冬梅,杜艷玲,賀琪.云存儲中海洋大數據遷移算法的研究[J]. 計算機研究與發展,2014(01).
作者簡介:金偉(1989-),男,安徽六安人,研究生,助教。