深度學習：深度挖掘數據新經濟

2018-08-24 18:15:26姜疆

新經濟導刊 2018年1期

姜疆

由于傳統的機器學習算法大多是基于內存的，而TB甚至PB級的海量數據又無法裝載進計算機內存，因此，現有的諸多算法不能處理大數據。如何使機器學習算法適應大數據挖掘的要求，已經成為產業界與學術界研究的主要方向。目前，采用深度學習對數據進行挖掘是比較熱門的方法，因為其不僅能自動對數據進行快速處理，而且準確度較高。

事件

“深度學習”應用到醫學診斷

2017年，AI醫療領域備受資本市場關注，尤其是到2017年下半年，推想科技、圖瑪深維、匯醫慧影等企業都相繼完成了B輪融資。國內高端醫療影像設備生產商聯影今年也注資3億元人民幣成立人工智能子公司進軍醫療人工智能領域。此外，還有騰訊的“覓影”，阿里健康的“Doctor You”等都在醫學影像的智能輔助診斷系統上有所布局。

醫學診斷是機器深度學習技術應用對接的重要領域之一。2017年，Nature報道了谷歌運用深度學習技術（主要是卷積神經網絡）在該領域取得的新突破。谷歌通過分析眼球的視網膜圖像，可以預測一個人的血壓、年齡和吸煙狀況，而且初步研究表明，這項技術在防范心臟病發作上很有成效。深度學習技術正改變著生物醫療學家處理分析圖像的方式，甚至有助于發現從未觸及的現象，有望開辟一條新的研究道路。

此外，隨著數據庫技術的發展和中醫領域數據的暴漲，數據挖掘方法甚至開始引入到中醫藥研究上，產生了中醫數據挖掘。不同于傳統科學數據，中醫藥數據有自己的特點，中醫藥數據的特點主要包括：癥狀的模糊性、證候的多態性、證候與癥狀間的非線性、中醫藥數據的多維性以及挖掘的復雜性。基于此類特點，傳統簡單的統計分析工具已經不能滿足中醫現代化、信息化發展的根本需求。而中醫數據挖掘技術正適合于復雜多維的數據分析，運用相應的算法可以從海量的中醫藥數據中發現知識。

尤為值得重視的是，近年來，我國一些院校為進一步促進中醫領域的信息化、智能化發展，數據挖掘在中醫藥相關研究上越來越深入。比如江西中醫藥大學計算機學院的一項研究著重對目前中醫數據挖掘的研究方向進行了具體分析，除了改進傳統挖掘算法的趨勢、擴展經典算法在中醫藥數據領域應用的趨勢之外，還引進了新的挖掘算法和技術。

華東理工大學學者以慢性胃炎患者中醫問診數據為研究樣本，從挖掘樣本特征之間關系和挖掘類別標簽之間關系兩個角度出發，采用二類相關和深度置信網絡，或深度玻爾茲曼機模型的基于深度學習的多標記學習法，分別建立深度學習和條件隨機場模型，對中醫慢性胃炎患者問診數據進行訓練和預測，得到五個常見指標下的實驗結果符合中醫理論，明顯優于其他常見方法。

背景

數據挖掘與機器學習相互促進

從海量的數據庫中挖掘信息的過程就稱之為數據挖掘。換句話說，在數據庫中的海量數據里找出隱含的、之前未知的有研究價值的信息的這一非平凡過程就是所謂數據挖掘。

數據挖掘是一項探測大量數據的業務流程，而且是以發現有意義的模式（pattern）和規則（rule）為目的的。數據挖掘是基于機器學習、人工智能、模式識別等的一種決策支持過程，來智能分析企業數據，做出歸納性預測，幫助決策者根據已挖掘出的潛在的模式決策出正確的方案。

數據挖掘是要構造一個分類函數或模型（常稱作分類器），該函數是根據事物屬性、特點加以劃分，而且該函數或模型能把數據庫中的數據項映射到一個指定的分類類別，即分類功能；把整個數據庫劃分成不同的群組，并且規定同一群組內數據盡量接近相同、不同的組群差別顯著，此為數據的聚類；關聯分析就是采用關聯規則和序列模式技術發現數據庫各值的相關性；數據的預測顧名思義，把握數據規律，做出合理推測；偏差的檢測是對少數的極端數據進行分析，表明其內在原因。

由于數據挖掘是一個復雜的迭代過程。通過在數據集上不斷地循環處理，最終得到有意義的知識或模式。這就要求我們充分利用計算機計算和存儲上的優勢。數據挖掘算法中常用的有統計型算法和機器學習型算法兩類。前者常用相關性分析、聚類分析、概率和判別分析等進行運算；后者的特色是運用了人工智能技術，能在大量樣本集訓練和學習后自動找出運算需要的參數和模式。

機器學習這門學科所關注的問題是：計算機程序如何隨著經驗積累自動提高性能。這是卡內基梅隆大學教授、美國《Machine Leaming》雜志、國際機器學習年度會議（ICML）創始人Tom Mitchell給出的一個能被廣泛接受的經典定義。

機器學習算法應用在歷史數據集上，通過訓練來使計算機獲得智能。機器學習系統一般由環境、學習元、知識庫和執行元四個部分組成。相應的，傳統機器學習主要包括四個部分：對人類學習過程進行理解與模擬；對人類用戶與計算機系統之間的語言接口進行研究；問題自動規劃能力設計；設計能夠發現新事物的程序以實現機器學習目的。

專業人士指出，通過應用機器學習，數據挖掘對數據的處理方法可以分為：分類、回歸分析、關聯規則及聚類等（見表格），而且每種挖掘方法都可以通過不同的機器學習技術來實現。

然而傳統機器學習多在小數據環境下運行，所依賴的機器學習算法難以支撐大數據學習。基于此，為解決大數據問題，必須深入研究大數據環境下的機器學習算法問題。

在大數據環境下，機器學習算法的設計與實現涉及很多方面，包括分布式運算、數據流技術、云技術等。機器學習算法通過與這些技術相結合，高效地處理數以億計的數據對象，并快速地訓練出模型，從而獲取有價值的知識。機器學習技術已經在推薦系統、智能語音識別、搜索引擎等企業級的數據挖掘中得到廣泛應用。大數據發展和研究、關鍵技術、評定指標對機器學習的方法研究工作提出了新的挑戰和要求

焦點

從機器學習到深度學習需要算法支撐

機器學習無疑是當前數據分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的算法。機器學習的算法很多，諸如K–均值算法、K近鄰算法、樸素貝葉斯、支持向量機等。然而，很多時候困惑人們的是，很多算法是一類算法，而有些算法又是從其他算法中延伸出來的。

機器學習型算法中人工神經網絡方法被普遍運用，它具有極好的數據處理能力和自組織學習能力，并且能準確進行識別，從而有助于分類問題中的數據處理。人工神經網絡通過建構模型而工作，其模型多樣，能滿足不同需求。總體來看，人工神經網絡模型精確度高、魯棒性好，具有較強描述能力，在應用時可以無需專家支持。

遺傳算法可以利用生物進化模型，引入選擇算子、變異算子、交換算子等，提高生物進化群體的多樣化。信息論利用率失真理論可以對數據進行壓縮和分析，將海量的數據集劃分到幾個簇中，然后根據率失真代價函數進行優化，實現數據集分類。研究人員對神經網絡的不斷研究，以此引出了深度學習，可以說深度學習是神經網絡的延伸。深度學習常常被誤會為一種機器學習模型，而實際上它是一個框架、一種思路。

經研究表明，為能夠學習表達高階抽象的復雜函數，解決模式識別、數據分類、聚類和語言理解等相關的人工智能任務，需要融合深度學習。

相對淺結構神經網絡其優勢為可以較好地實現高維復雜函數的表示；一個很重要的原因是引用深度學習是它的高精確度；不需要手動提取特征，自動提取特征；其采用分層進行處理數據，神經網絡每一層可以提取出輸入數據不同水平的特征。

啟示

深度學習還面臨多重考驗

大數據時代改變了基于數理統計的傳統數據科學，促進了數據分析方法的創新，從機器學習和多層神經網絡演化而來的深度學習是當前大數據處理與分析的研究前沿。從機器學習到深度學習，經歷了早期的符號歸納機器學習、統計機器學習、神經網絡和20世紀末開始的數據挖掘等幾十年的研究和實踐，發現深度學習可以挖掘大數據的潛在價值。

深度學習的優點在于模型的表達能力強，能夠處理具有高維稀疏特征的數據，而大數據所面臨的挑戰亟待引入深度學習的思想、方法和技術進行及時有效地解決。如何將深度學習應用于大數據分析，發現數據背后的潛在價值成為業界關注的熱點。

北京航空航天大學軟件開發環境國家重點實驗室專家指出，有些深度學習算法是在原有某個深度學習算法的基礎上對其網絡結構進行了調整而形成，例如堆疊自動編碼器就是受深度置信網絡（Deep Belief Network，DBN）啟發，將其中的受限玻爾茲曼機模型（Restricted Boltzmann Machine，RBM）替換為自動編碼器（Auto Encoder，AE）而形成。

而有些深度學習算法則是結合了多種已有深度學習算法派生而來，例如堆疊卷積自動編碼器就是在卷積網絡中采用了自動編碼器AE而形成。在深度學習的整個發展過程中DBN、DBM（深度玻爾茲曼機）、AE和CNN（卷積神經網絡）構成了早期的基礎模型。后續的眾多研究則是在此基礎上提出或改進的新的學習模型。

當前深度學習的主要運用集中于認知類識別，如圖像識別、生物識別等，均為靜態決策，假若進行更深一步的運用，則是復雜和動態決策。如股票預測，需根據時間變化來不斷預測何時買入賣出，以及多種因素和變量均會對決策產生影響。未來的發展可延伸至研究復雜動態性多因素之間的關系，根據觀察環境甚至周圍相似個體做出更為準確的預測。

IEEE互聯網安全領域專家、英國厄爾斯特大學計算機科學專業教授Kevin Curran認為，醫療領域是目前深度學習和人工智能取得重要成果的關鍵領域之一。深度學習能夠探測未來個人健康的潛在風險，它可以通過一系列健康大數據中尋找疾病的致病機理，從而實現在健康和疾病相關研究領域的重大突破。毫無疑問，這僅靠人工計算是永遠不可能實現的。

最終，深度學習將迅速推進科研進度。憑借其強大的運算性能及龐大的數據分析，科研人員可以產出更多研究碩果，有望在更短的時間內實現對現有技術的重要突破。

不過，目前深度學習還是一門不成熟的框架，同樣存在著一些問題。諸如，局部最優問題、內存消耗大和計算復雜的問題、人腦機理許多沒應用上的問題、設計模板可行性的問題，以及代價函數設計及整個網絡的設計等綜合問題。這些問題需要在將來的研究中解決，以便更加完善深度學習，適應大數據時代。