柯登峰 俞棟 賈珈
?
語音圖文信息處理中的深度學習方法進展專刊序言
柯登峰1俞棟2賈珈3
最近幾年來,深度學習賺足了世人的眼球.如果說,前幾年深度學習在工業界受到狂熱追捧的話,那么今年開春以來,深度學習則是受到普通老百姓的百般青睞.隨著阿法狗(AlphaGo)采用深度學習技術打敗了圍棋冠軍李世石的消息傳開,街頭巷尾男女老少都在津津樂道于深度學習技術與人工智能的未來.深度學習技術本質上是深度神經網絡技術,是神經網絡發展的重要階段.它在歷史上經歷了許多挫折和磨難,才成就了如今的輝煌.
起初,神經網絡技術只在神經科學和生物物理學領域流行,科學家用它來解釋神經細胞的工作原理,反對弗洛伊德學派《自我與本我》中對癔癥和催眠等精神分析學的解釋.神經元工作的模型最早由神經生理學家沃倫·麥卡洛克(Warren Mc-Culloch)和數學天才少年沃爾特·皮茲(Walter Pitts)于1943年合作提出.他們認為看似神秘的精神失常是來源于大腦里的神經元的激發異常,其工作原理是純機械式的,可被離散化的時間信號(t=0,1,2,···)所表示,各時刻中神經元的狀態可表示為0或1.1957年,心理學家法蘭克·羅森布拉特(Frank Rosenblatt)在此基礎上建立了感知機模型,并借鑒神經心理學家赫布(Hebb)提出的學習規則,實現了可以自主學習的感知機.他用感知機實現了一些簡單的視覺處理工作,證實了感知機的學習能力和分辨能力.美國政府對此十分重視,給予大力支持.鋒芒畢露的羅森布拉特招致人工智能符號邏輯學派領軍人物閔斯基(Minsky)等的不滿,以感知機無法解決XOR(Exclusive or)這種最簡單的數學問題進行質疑和打擊,從此政府不再對神經網絡研究給予資金支持,使得神經網絡技術陷入了20年大饑荒時期.
直到1974年,保羅·烏博思(Paul Werbos)的博士論文提出了多層感知機網絡和BP(Back propagation)算法,成功解決了XOR問題,才使神經網絡技術有了轉機,但研究的人員依然較少. 1984年,霍普菲爾德用模擬電路實現了自己提出的新型神經網絡,該網絡可以解決模式識別問題,還可以給出組合優化問題的近似解,極大地振奮了神經網絡領域的研究.此時,在諾貝爾生理學獎得主克里克(Crick)等的鼓勵下,開始了“聯接主義(Connectionism)”運動(該運動主張將心理學、人工智能和心理哲學聯接在一起).這個運動的帶頭人則是深度學習鼻祖杰弗里·辛頓(Geoffrey Hinton)和兩位心理學家魯梅爾哈特(Rumelhart)和麥克利蘭德(McLelland).而卷積神經網絡(Convolutional neural network,CNN)的提出者—言·樂村(Yann LeCun)則是辛頓的學生.然而,那時候電腦的處理能力還遠不能滿足深度學習的要求,這使得神經網絡技術的發展十分困難.
在加拿大高級研究院(Canadian Institute for Advanced Research,CIFAR)基金支持下,辛頓于2006年提出了一種快速訓練深度信任網絡(Deep belief nets)的方法.多數人認為,這一工作標志著神經網絡進入深度學習階段.2009年,辛頓的學生默罕穆德(Mohamed)首次將深度學習應用于Timit庫語音識別并取得當時全球最佳的識別率.隨后,微軟和谷歌將深度學習應用于大詞匯量語音識別獲得成功,識別性能比當時最好的GMM-HMM (Gaussian mixture model-hidden Markov model)技術相對提升了20%~30%.緊接著在2012年,辛頓的學生將深度學習技術用于圖像識別國際比賽并奪得冠軍,在ImageNet上前5名候選錯誤率為15.3%,遠超第二名26.2%的成績.值得一提的是,在深度學習出來之前,語音領域已經將傳統的GMM-HMM性能發揮到極致,各種特征優化技術、自適應技術、區分度訓練技術以及時序化訓練技術均被優化到極限,識別性能提升已經非常困難.語音領域的科研工作者們熱切期待還有更好的技術出現,以拯救語音識別的未來.而圖像識別領域的最好成績基本上被支持向量機(Support vector machine,SVM)所壟斷,尋找顛覆性的新技術也成了大家心里的期望.深度學習連續斬獲語音和圖像兩個領域的桂冠,引起了科研人員高度的關注,紛紛購買設備開始了深度學習的研究.
深度學習的成就也引來了IT巨頭的哄搶.谷歌用4億美元巨資收購了辛頓三個人的小公司,百度宣布成立深度學習研究院,臉譜(Facebook)出手搶走了卷積神經網絡(CNN)提出者樂村(LeCun),推特(Twitter)收購了瘋狂比特(Madbits),蘋果則收購了有聲智商(Vocal IQ).事情遠不止如此,巨頭們對深度學習人才和公司的哄搶還在持續進行中.神經網絡技術沉寂了數十年時間,終于以深度學習的方式得到了空前繁榮.
多方的投入使深度學習技術在多個方面取得重要進展.短短幾年內,深度學習顛覆了語音、圖像、視頻等眾多領域的算法設計思路,產生了一系列具有重大價值的新成果.新型的神經網絡結構和學習方法層出不窮.先是出現了各種大數據下的并行計算方法,如異步隨機梯度下降法(Asynchronous stochastic gradient descent,ASGD)、同步隨機梯度下降法(Synchronous stochastic gradient descent,SSGD)、分布式免海森法(Distributed Hessian free)等,使得大規模數據學習成為可能;同時還研究了訓練時候批大小(Batch size)、學習率大小、隱藏節點規模與模型性能的對應關系;隨后又融入了時序化訓練算法、多任務學習算法、自適應技術等多種優化技術.在深度學習幫助下,很多技術達到了產業化的水平,于是出現了深度學習模型解碼時需要的SIMD(Single instruction multiple data)指令優化、內存換頁優化、緩存命中率優化、跳幀識別技術、模型壓縮技術(無損的數據壓縮和有損的SVD(Singular value decomposition)分解)、快速搜索技術等配套技術.學術界對深度學習的研究也日趨多元化.有人從數據入手,研究海量規模數據的篩選、無標注數據對模型的優化、無監督或輕監督學習法對提升模型性能的幫助.有人從結構入手,研究時間序列與神經網絡的結合(如LSTM(Long short term memory)、BLSTM(Bidirectional long short term memory)等)、端到端解碼的結構設計(如LSTM+CTC(Connectionist temporal classification)等)、關注機制與神經網絡的結合(如引入Attention模型)、CNN池化結構優化(如Max Pooling替換成L2-Pooling等)、激活函數優化(如ReLU(Rectified linear unit)等)、權值矩陣的函數化、循環網絡的展開逼近以及隱層之間級聯關系的改造等.有人從算法入手,研究神經網絡的抗噪能力(如SDAE(Stacked denoising autoencoders)等)、泛化能力(如Dropout等)以及自適應方法(如插入線性層、特征聯合自適應等).另外,還有許多難以總結的零碎研究(例如,采用波形信號作為語音識別的輸入,雙說話人條件下的DNN建模和解碼技術,利用DNN的高層輸出進行決策樹分裂等).
相對于語音和圖像領域的突飛猛進發展,深度學習對自然語言處理的作用似乎不是很突出.采用深度學習技術對語言模型進行建模可以獲得比N-gram模型更好的預測效果,但由于計算速度太慢,通常只能用于語言概率重打分,或者轉成普通的N-gram模型后再使用.采用深度學習進行機器翻譯,通常只能獲得與短語模型相近的翻譯質量,卻無法超越短語模型,且受到命名實體和未登錄詞的影響過大,即便引入關注機制、預處理和后處理技術,依然無法超越傳統的短語模型和層次短語模型的翻譯效果,翻譯質量有待提高.
即便如此,我們依然看好深度學習技術未來的發展.深度學習在自然語言處理領域終有突破的一天,而深度學習在語音和圖像領域的前進腳步也不會停止.正因如此,我們組織了“語音圖文信息處理中的深度學習方法進展”專刊,以期對當前國內外最前沿的深度學習方法進行全方位多角度報道,幫助國內科研工作者快速獲取最有效的參考資料.同時,我們也希望發現一些富有創意的新模型和新方法,促進語音圖文多個領域間科研人員的信息溝通.
本次專刊收到了60余篇投稿,其中不乏有新意的學術思想和方法,限于出版時間和篇幅,本刊只收錄了其中16篇,包括4篇綜述文章,9篇行業應用文章以及3篇基礎理論文章.綜述內容主要涵蓋了知識庫問答、語音分離、視頻目標追蹤以及人體行為識別4個領域;行業應用文章包括了人臉性別識別、面部表情識別、圖像美感分類、視頻事件監控、視頻人群計數、復雜場景下目標識別、微博實體鏈、發音器官運動合成以及基音檢測等9個問題;基礎理論文章從采樣算法優化、學習率調整以及人腦仿生學網絡結構改進等三個方面對深度學習技術進行改進.
在此我們對作者們的辛勤工作和無私奉獻表示深深的感謝,也希望大家更多地無保留地交流最新技術成果,共同促進科學技術的向前發展。
客座編委

柯登峰中國科學院自動化研究所數字內容技術與服務研究中心副研究員.主要研究方向為語音語言信息處理技術,深度學習技術.
E-mail:dengfeng.ke@ia.ac.cn
(KE Deng-FengAssociate professor at Digital Content Technique and Service Research Center,Institute of Automation,Chinese Academy of Sciences.His research interest covers speech and language processing,deep learning.)

俞棟微軟雷德蒙研究院首席研究員.主要研究方向為語音識別,自然語言處理,深度學習.
E-mail:dongyu@microsoft.com
(YU DongPrincipal researcher at Microsoft Research,Redmond.His research interest covers speech recognition,natural language processing,and deep learning.)

賈 珈清華大學計算機科學與技術系副教授.主要研究方向為人機語音交互,情感計算,深度學習.
E-mail:jjia@mail.tsinghua.edu.cn
(JIA JiaAssociate professor in Department of Computer Science and Technology,Tsinghua University.Her research interest covers human computer speech interaction,affective computing,and deep learning.)
2016-06-01Manuscript received June 1,2016
10.16383/j.aas.2016.y000005
引用格式柯登峰,俞棟,賈珈.語音圖文信息處理中的深度學習方法進展專刊序言.自動化學報,2016,42(6):805-806
Ke Deng-Feng,Yu Dong,Jia Jia.Guest editorial for special issue on deep learning for speech,text and image understanding.Acta Automatica Sinica,2016,42(6):805-806
1.中國科學院自動化研究所 北京100190中國2.微軟雷德蒙研究院雷德蒙98052美國3.清華大學北京100084中國
1.Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China2.Microsoft Research,Redmond 98052,USA3.Tsinghua University,Beijing 100084,China