張一林 羅楊川云
?
大數據算法與數據分析技術探究
張一林 羅楊川云
貴州大學大數據與信息工程學院,貴州 貴陽 550000
隨著科學技術的發展,大數據在人工智能領域起著越來越重要的作用,基于大數據平臺的數據分析與挖掘已成為各科研單位的研究熱點。通過對大數據的發展、算法分析以及平臺設計進行探究,對大數據平臺的應用進行了展望,力求為智能化技術的發展提供創新的思路。
大數據;人工智能;算法設計
大數據指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。大數據包括海量的數據信息與高強度的數據處理能力,是相對于傳統數據處理應用程序不足以處理大型、復雜的數據集的新型處理模式,包括分析、捕獲、數據整理、搜索、共享、存儲、傳輸、可視化查詢、更新和信息管理。大數據通常僅指使用預測分析、用戶行為分析或某些其他高級數據的分析方法,這些方法從數據中提取價值,很少涉及特定大小的數據集。數據集分析可以發現新的聯系與信息。越來越成熟的概念更清楚地描述了大數據和人工智能之間的區別,人工智能使用具有高信息密度的數據的描述性統計來測量事物、檢測趨勢等。大數據使用歸納統計和來自非線性系統識別的概念,從具有低信息密度的大量數據集中推斷出法則,以揭示關系和依賴性或者進行結果和行為的預測[1]。
2.1 神經網絡算法
神經網絡系統是由眾多的神經元可調的連接權值連接而成,具有大規模并行處理、分布式信息存儲、良好的自組織自學習能力等特點。神經網絡是一種計算方法,基于神經單元的大集合,解決由軸突連接的生物神經元的大群集的問題。 每個神經單元與許多其他神經單元連接,并且可以對所連接的神經單元的激活狀態影響中實施抑制。每個單獨的神經單元可以具有將所有其輸入的值組合在一起的求和功能。這些系統是自學習和訓練的,而不是明確編程的,并且在傳統計算機程序中難以表達的。
2.2 灰色關聯度分析
灰色關聯分析方法,是根據因素之間發展趨勢的相似或相異程度,來進行歸納和評價,作為衡量因素間關聯程度的一種方法。灰色關聯度分析使用特定的信息概念。它定義沒有信息為黑色的情況以及具有完美信息為白色的情況,這些理想化的情況都不會出現在現實世界的問題中。事實上,這些過渡階段的情況被描述為灰色。因此,灰色系統意味著其中部分信息是已知的并且部分信息是未知的系統[2]。
3.1 平臺層
大數據分布式存儲系統:研究大規模、非結構化數據的存儲問題,突破大數據的存儲、管理和高效訪問關鍵技術,當前需要構建至少 PB 級存儲能力的大數據平臺才能滿足一般的科研和應用需求。
分布式數據挖掘運行時系統:突破 MapReduce 技術的局限,研究有效支持迭代、遞歸、層次及集成機制的海量數據挖掘編程模型和運行時系統,構建大數據運行時系統。
3.2 功能層
高可擴展性大數據挖掘算法:基于云計算的分布式大數據處理與挖掘算法,構建高可擴展的大數據處理與挖掘算法庫,實現 TB 級數據的建模能力。
分布式工作流引擎:基于云計算的分布式工作流調度、負載均衡技術,構建高效分布式工作流執行引擎。
交互式可視化分析技術:啟發式、人機交互、可視化數據挖掘新技術,實現大數據挖掘的高度人機交互功能。
3.3 服務層
基于 Web 的大數據挖掘技術:Web 的大數據挖掘方法和流程,實現易于使用的基于 Web 的大數據挖掘技術,構建基于 Web 的大數據分析環境。
基于Open API 的大數據挖掘技術:采用Open API 的大數據挖掘方法,研究大數據挖掘開放接口、開放流程,構建基于 Open API 的大數據分析模式[3]。
4.1 數據挖掘
數據挖掘是發現大數據數據規律的計算過程,涉及人工智能、機器學習、統計和數據庫系統結合的方法,它是一個跨學科的計算機科學子領域。數據挖掘過程的總體目標是從數據集中提取信息并將其轉換為可以理解的結構以供進一步使用。除了原始數據分析外,它涉及數據庫和數據管理方面、數據預處理、模型和推理、復雜性考慮、結構整合處理、可視化和在線更新。數據挖掘是數據庫信息分析的過程。目標是從大量數據中提取模式和信息,而不是數據本身的提取。數據挖掘是一個熱門的領域,并且經常應用于各種形式的大規模數據或信息處理,主要包括收集、提取、存儲、分析和統計,以及計算機決策支持系統的應用,包括人工智能、機器學習和商業智能。實際的數據挖掘任務是大量數據的自動或半自動分析,從而提取先前未知的數據存在模式,例如聚類分析、異常數據檢測和關聯規則挖掘、順序模式分析等,這通常涉及使用諸如數據索引的數據庫技術。
4.2 機器學習
機器學習是計算機科學的子領域,它使計算機能夠學習而不用明確編程,從模式識別和計算學習理論在人工智能的研究演變而來。機器學習探索學習對數據進行預測算法的研究和構建,這樣的算法克服了嚴格的靜態程序指令數據驅動的預測或決策,通過從樣本輸入來建立一個模型。機器學習在一系列計算任務中使用,其中有著明確算法的設計和編程是不可行的,比如垃圾郵件過濾、檢測網絡入侵者或惡意內部人員、光學字符識別、搜索引擎和計算機視覺,這些方面都沒有明確的算法表示。機器學習與計算統計密切相關,并且經常與計算統計重疊。計算統計也集中在通過使用計算機的預測中,它與數學優化有著緊密的聯系,是將方法、理論和應用領域傳遞到現場。機器學習有時與數據挖掘相結合,后者的子領域更側重于探索性數據分析。
大數據技術算法的創新是一條光明而曲折的路,在這條路上會出現很多難題與挑戰,這個任務長期而又艱巨,需要結合實際經驗,不斷地進行總結歸納,為實現自身的長遠發展而進行大膽革新,利用創新思維進行現代化建設,從而大踏步地走向智能化的大數據發展目標。
[1]陳曉,趙晶玲.大數據處理中混合型聚類算法的研究與實現[J].信息網絡安全,2015(4):15.
[2]楊婷婷,林昌露,劉憶寧,張勝元.基于多方排序協議的安全電子投票方案[J].計算機系統應用,2015(8):15.
[3]文坤,廖瑛,楊雅君.帶有空間機械臂的航天器系統慣性參數辨識[J].飛行器測控學報,2015(4):15.
Research on Large Data Algorithm and Data Analysis Technology
Zhang Yilin Luoyang Chuanyun
College of Big Data and Information Engineering of Guizhou University, Guizhou Quiyang 550000
With the development of science and technology, big data is playing an increasingly important role in the field of artificial intelligence. In this paper, the development of large data, algorithm analysis and platform design are explored, and the application of the big data platform is prospected.
Big Data; artificial intelligence; algorithm design
TP311.13
A
1009-6434(2017)02-0153-02