隨著科學技術的發展,大數據在人工智能領域起著越來越重要的作用,基于大數據平臺的數據分析與挖掘已經成為各科研單位的研究熱點。本文通過對大數據的發展、算法分析以及平臺設計進行探究,對大數據平臺的應用進行了展望,力求為智能化技術的發展提供創新的思路。
【關鍵詞】大數據 人工智能 算法設計
1 大數據的發展概述
大數據指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。大數據包括海量的數據信息與高強度的數據處理能力,大數據是相對于傳統數據處理應用程序來說,不足以處理大型、復雜的數據集的新型處理模式,包括分析、捕獲、數據整理、搜索、共享、存儲、傳輸、可視化查詢、更新和信息管理。大數據通常僅指使用預測分析、用戶行為分析或某些其他高級數據的分析方法,這些方法從數據中提取價值,很少涉及特定大小的數據集。數據集分析可以發現新的聯系與信息。科學家、企業高管、醫學從業者、廣告和政府都定期在互聯網搜集大數據,這些數據在金融、城市信息學和商業信息學等領域更為重要。科學家在電子科學工作中遇到了很多需要處理海量數據的問題,涉及氣象學、基因組學、復雜物理模擬、生物學和環境研究等。大數據包括文本、圖像、音頻、視頻,它通過數據融合可以完成未來數據的機器學習,大數據通常是數字交互的無成本的產品。越來越成熟的概念更清楚地描述了大數據和人工智能之間的區別,人工智能使用具有高信息密度的數據的描述性統計來測量事物、檢測趨勢等。大數據使用歸納統計和來自非線性系統識別的概念,從具有低信息密度的大量數據集中推斷出法則,例如回歸、非線性關系和因果效應,以揭示關系和依賴性或者進行結果和行為的預測。
2 大數據技術中的算法分析
2.1 神經網絡算法
神經網絡系統是由眾多的神經元可調的連接權值連接而成,具有大規模并行處理、分布式信息存儲、良好的自組織自學習能力等特點。神經網絡是一種計算方法,基于神經單元的大集合,解決由軸突連接的生物神經元的大群集的問題。 每個神經單元與許多其他神經單元連接,并且可以對所連接的神經單元的激活狀態影響中實施抑制。每個單獨的神經單元可以具有將所有其輸入的值組合在一起的求和功能。在每個連接和單元本身上可以存在閾值函數或限制函數,使得信號在傳播到其他神經元之前必須超過極限。這些系統是自學習和訓練的,而不是明確編程的,并且在傳統計算機程序中難以表達的,這種方案在特征檢測領域中效果很好。神經網絡的目標是以與人類大腦相同的方式解決問題,現代神經網絡項目通常使用幾千到幾百萬個神經單元和數百萬的連接, 這比人類大腦的復雜性還要少幾個數量級,更接近于蠕蟲的計算能力。 為了訓練它們,通常發生幾千次交互循環。 神經網絡已被用于解決使用普通的基于規則的編程難以解決的各種各樣的任務,如智能化學習。歷史上,神經網絡模型的使用向高級人工智能的方向移動,其特征在于包含在具有一些動力系統的認知模型的參數中的知識。
2.2 灰色關聯度分析
灰色關聯分析方法,是根據因素之間發展趨勢的相似或相異程度,來進行歸納和評價,作為衡量因素間關聯程度的一種方法。灰色關聯度分析使用特定的信息概念。它定義沒有信息為黑色的情況以及具有完美信息為白色的情況,這些理想化的情況都不會出現在現實世界的問題中。事實上,這些過渡階段的情況被描述為灰色。因此,灰色系統意味著其中部分信息是已知的并且部分信息是未知的系統。根據這個定義,信息質量形成從信息的缺乏到完整信息的存在過渡過程。由于不確定性總是存在,灰色分析可以得出一系列關于解決方案的清晰陳述。在一個極端情況下,這種方案無解,在另一個極端情況下,具有完美信息的系統具有獨特的解決方案。在中間情況中,灰色系統將給出各種優化的解決方案。灰色分析試圖找到最好的解決方案,提供了確定一個好的解決方案的技術來解決現實世界的問題。
3 大數據平臺的設計
3.1 平臺層
大數據分布式存儲系統:研究大規模、非結構化數據的存儲問題,突破大數據的存儲、管理和高效訪問關鍵技術,當前需要構建至少 PB 級存儲能力的大數據平臺才能滿足一般的科研和應用需求。
分布式數據挖掘運行時系統:突破 MapReduce 技術的局限,研究有效支持迭代、遞歸、層次及集成機制的海量數據挖掘編程模型和運行時系統,構建大數據運行時系統。
3.2 功能層
高可擴展性大數據挖掘算法:基于云計算的分布式大數據處理與挖掘算法,構建高可擴展的大數據處理與挖掘算法庫,實現 TB 級數據的建模能力。
分布式工作流引擎:基于云計算的分布式工作流調度、負載均衡技術,構建高效分布式工作流執行引擎。
交互式可視化分析技術:啟發式、人機交互、可視化數據挖掘新技術,實現大數據挖掘的高度人機交互功能。
3.3 服務層
基于 Web 的大數據挖掘技術:Web 的大數據挖掘方法和流程,實現易于使用的基于 Web 的大數據挖掘技術,構建基于 Web 的大數據分析環境。
基于Open API 的大數據挖掘技術:Open API 的大數據挖掘方法,研究大數據挖掘開放接口、開放流程,構建基于 Open API 的大數據分析模式。
4 大數據算法的應用分析
4.1 數據挖掘
數據挖掘是發現大數據數據規律的計算過程,涉及人工智能、機器學習、統計和數據庫系統結合的方法,它是一個跨學科的計算機科學子領域。數據挖掘過程的總體目標是從數據集中提取信息并將其轉換為可以理解的結構以供進一步使用。除了原始數據分析外,它涉及數據庫和數據管理方面、數據預處理、模型和推理、復雜性考慮、結構整合處理、可視化和在線更新。數據挖掘是一個熱門的領域,并且經常應用于各種形式的大規模數據或信息處理,主要包括收集、提取、存儲、分析和統計以及計算機決策支持系統的應用,包括人工智能、機器學習和商業智能。實際的數據挖掘任務是大量數據的自動或半自動分析,從而提取先前未知的數據存在模式,例如聚類分析、異常數據檢測和關聯規則挖掘、順序模式分析等,這通常涉及使用諸如數據索引的數據庫技術。數據收集、數據準備或結果解釋和報告都不是數據挖掘步驟的一部分,但是作為附加步驟屬于整個數據挖掘過程。數據挖掘、數據捕獲和數據窺探是指使用數據挖掘方法對較大數據集的部分進行抽樣分析。雖然這些數據集太小,不足以進行可靠的統計推斷以得出更多有價值的信息。然而,這些方法可以用于創建新的假設,以測試更大的數據群體。
4.2 機器學習
機器學習是計算機科學的子領域,它使計算機能夠學習而不用明確編程。從模式識別和計算學習理論在人工智能的研究演變而來,機器學習探索學習對數據進行預測算法的研究和構建,這樣的算法克服了嚴格的靜態程序指令數據驅動的預測或決策,通過從樣本輸入來建立一個模型。機器學習在一系列計算任務中使用,其中有著明確算法的設計和編程是不可行的,比如垃圾郵件過濾、檢測網絡入侵者或惡意內部人員、光學字符識別、搜索引擎和計算機視覺,這些方面都沒有明確的算法表示。機器學習與計算統計密切相關,并且經常與計算統計重疊,計算統計也集中在通過使用計算機的預測中。它與數學優化有著緊密的聯系,它將方法、理論和應用領域傳遞到現場。機器學習有時與數據挖掘相結合,后者的子領域更側重于探索性數據分析。機器學習也可以是全自動化的,用來學習和建立各種實體的行為預測,然后用于發現有價值的異常情況。在數據分析領域,機器學習是一種用于設計適合預測的復雜模型和算法的方法,在商業應用中,這被稱為預測分析。這些分析模型允許研究人員、數據科學家、工程師和分析師通過學習數據中的歷史關系和趨勢來產生可靠的、可重復的決策和結果并揭示隱藏的規律。
5 總結與展望
大數據技術算法的創新是一條光明而曲折的路,在這條路上會出現很多難題與挑戰,這個任務長期而又艱巨,需要結合實際經驗,不斷地進行總結歸納。為實現自身的長遠發展而進行大膽革新,利用創新思維進行現代化建設,從而大踏步地走向智能化的大數據發展目標。
參考文獻
[1]陳曉,趙晶玲.大數據處理中混合型聚類算法的研究與實現[J].信息網絡安全,2015(04).
[2]楊婷婷,林昌露,劉憶寧,張勝元.基于多方排序協議的安全電子投票方案[J].計算機系統應用,2015(08).
[3]文坤,廖瑛,楊雅君.帶有空間機械臂的航天器系統慣性參數辨識[J].飛行器測控學報,2015(04).
[4]何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗技術研究與應用[J].飛行器測控學報,2015(04).
[5]黃冬梅,杜艷玲,賀琪.混合云存儲中海洋大數據遷移算法的研究[J].計算機研究與發展,2014(01).
[6]孔凡新,劉麗.云環境下的隱私保護密文排序查詢[J].計算機工程與設計,2014(01).
[7]何清,李寧,羅文娟,史忠植.大數據下的機器學習算法綜述[J].模式識別與人工智能,2014(04).
[8]程芳權,彭智勇,宋偉,王書林,崔一輝.云環境下一種隱私保護的高效密文排序查詢方法[J].計算機學報,2012(11).
[9]王茜,楊正寬.一種基于加權KNN的大數據集下離群檢測算法[J].計算機科學,2011(10).
[10]陳書讓.超大數據量的快速排序法[J]. 物探化探計算技術,2000(04).
作者簡介
李躍(1979-),男,黑龍江省大慶市人。研究生學歷。現為大慶師范學院講師。
作者單位
大慶師范學院 黑龍江省大慶市 163712