
書名:《人工智能與大數據技術導論》
作者:楊正洪 郭良越 劉瑋
出版社:清華大學出版社
ISBN:978-7-3025-1798-6
出版時間:2018年12月
定價:98 元
2017年由于人工智能技術的應用范圍迅速拓展而被稱為人工智能元年。但在教育領域,因為相關數據收集難度較高,人工智能技術驅動下的智能/智慧教育領域發展的速度一直差強人意。直到2020年,大數據技術支撐下的人工智能才真正以奇點模式迅速覆蓋教育領域,徹底改變了人們的學習和教學工作方式。由楊正洪、郭良越和劉瑋編著、清華大學出版社于2019年出版的《人工智能與大數據技術導論》一書,深入淺出地闡述了人工智能與大數據涉及的技術邏輯與理論基礎,進而幫助讀者全面理解人工智能技術的知識構架。
《人工智能與大數據技術導論》全書共包括十六章,主要內容包括人工智能的整體概述,AI 產業、數據、機器學習概述,模型、機器學習算法、深度學習、TensorFlow、神經網絡、知識圖譜、數據挖掘以及銀行業、醫療、工農業等行業人工智能的應用情況。同時,該書附錄部分還給出了極富參考價值的大數據與人工智能產業參考資料。
數據作為推動AI 智能發展的三大動力之一,是驅動AI 智能發展最核心的生產要素。2020年以前一直是智能教育發展的瓶頸。主要原因有兩點,一方面,教育數據的增長與金融、廣告、影視等行業的大數據形成鮮明對比,教育數據的豐富與否制約著機器學習、深度學習在智慧教育中的應用。另一方面,數據產生價值的難度大、鏈條長,涉及數據的采集、整合與分析等多個平臺的協作,只有運用合理的數據平臺才能有效縮短這一鏈條。
大數據實現圖像識別、語音識別等AI 技術,需要依靠機器學習。機器學習基于概率、統計、優化等數學理論,其是基于一系列算法的解決問題的一種方法,能夠使機器從大量樣本數據中發現數據中暗藏的規律并自動學習規則,最終實現預測未知數據。機器學習的本質即通過大量樣本的訓練獲得經驗模型,最終產生預測新事物的能力,是對輸入到輸出的映射。
機器學習的任務流程一般包括數據導入、探索性分析、數據清洗、特征工程、算法選擇和優化、模型訓練和評估等六個步驟,并針對不同的具體任務會存在差異和側重。在數據導入環節,以圖片或音頻等形式呈現的原始數據,需先轉化成機器學習算法能夠讀入的結構化數據,這類數據的特征是以列的形式展開。在探索性分析環節,往往通過可視化工具對原始數據進行初步分析,挖掘數據集中有價值的信息并為數據清洗和特征工程(特征提取)提供方向,而特征提取是進行機器學習建模前的最為重要且極為耗時的一個環節。模型的訓練即參數的求解,需通過算法來求解參數,以盡可能找到誤差最小的參數為目標,誤差函數的大小成為評估參數優劣的標準,可見參數的確定非常關鍵。
以海量數據積累為基礎的大數據、算法和并行計算能力是構成人工智能發展的三要素。開源的機器學習平臺能大大縮短開發時間,有效提升訓練結果。機器學習首選的常用編程語言Python,內置許多預先寫好的實用代碼Iibrary,這便于直接用來解決機器學習遇到的實際問題。Python 具有完備的機器學習庫,能夠整合大量機器學習模型,使用者即使不懂模型的算法和原理,只需調動程序包,即可獲得需要的結果。當然,受數據集、結構等多種因素的制約,沒有一種算法能夠解決所有問題,研究者需針對不同問題嘗試不同的算法,然后通過保留的測試集對性能進行評估,進而選出最佳的算法。
隨著訓練深度的加深及神經網絡新思路的出現,深度學習算法取得了顛覆性突破。它改變了傳統機器學習通過算法對數據處理、分類、選取特征的路徑,其模仿生物學神經元傳遞的過程,運用復雜模型建構多層神經網絡,這種近似人腦工作原理的“特征學習器”使其能自主學習如何抓取特征,并通過訓練神經網絡中的參數,使神經網絡模型具有預測能力。
數據智能技術驅動下的人工智能技術雖然與最初人們對生物智能技術的期待存在一定差異,但其越來越多地應用于人們日常生活的各方面。同時人工智能也正在改變著教育領域的發展,尤其是2020年大規模的線上教學必然產生大量的教育教學數據,海量的教育教學數據正加速驅動智能教育時代的來臨。