江西財經大學軟件與物聯網工程學院|胡文穎
隨著人工智能的三大核心要素,算法、算力、數據的日益完善,人工智能眾多應用型技術也開始逐漸滲透到各個行業,影響著人類的生活方式,可見,工業革命的馬拉松還未跑完,而我們已經逐步邁進智能新時代。
以18世紀為起點的300余年間,世界跑完了一場關于自動化、電氣化、信息化三次工業革命的馬拉松。近年,隨著人工智能的三大核心要素,算法、算力、數據的日益完善,人工智能眾多應用型技術也逐漸滲透到各個行業、影響著人類生活方式,可見,工業革命的馬拉松還未跑完,而我們正逐步邁進智能新時代。
筆者將分別從人工智能最基本的幾個模塊,語音識別、自然語言處理、計算機視覺、決策規劃系統著手,回顧人工智能一路以來的發展脈絡,以史為鏡、正視未來。
語音識別
人類最直接最簡潔的交流方式——語音識別,一直是人工智能實現人機交互尋求突破的一大目標。在1952年,第一個基于電子計算機的語音識別系統“Audrey”面世,作為“開山鼻祖”,它能夠識別10個英文數字,正確率高達98%。之后的70年代,全球開始風靡大規模的語音識別研究,但認知局限使得當時的研究僅停留在對孤立詞、小詞匯量句子的識別上。
由于全球性電傳業務積累了大量文本,且文本可作為機讀語料用于模型的訓練和統計,1980年代就成為了技術取得突破的時代,研究的重點也轉向了大詞匯量和非特定人的連續語音識別上,同時研究思路從基于匹配轉變為基于統計,隱馬爾科夫模型(HMM)的理論和應用趨于完善。20世紀90年代是語音識別基本成熟的時期,但識別效果的實用價值仍然需要完善,語音識別研究的進展也趨緩。
隨著深度神經網絡(DNN)被應用到語音的聲學建模中,系統的持續改進使深層卷積神經網絡和循環神經網絡(RNN)出現,這樣,識別效果就得到了明顯的提升,許多語音識別任務,尤其是近場語音識別任務達到可以進入人們日常生活的標準。以Apple Siri為首的智能語音助手、以Echo為首的智能硬件入口等應用的普及,進一步擴充了語料資源的收集渠道,使得構建大規模通用語言模型和聲學模型將成為可能。表1為語音識別技術的發展歷程。
能否自然地與人類進行交流、理解人們表達的意思并做出合適的回應,是衡量機器智能程度的一個重要參照,因此自然語言處理成為人工智能的核心問題。
早在上世紀50年代,IBM第一臺正式對外發布的IBM-701計算機進行了世界上第一次機器翻譯試驗,把幾個簡單的俄語句子翻譯成了英文。當時,人們對于自然語言處理存在兩派不同的處理方法。一種是基于規則的符號派,另一種為基于概率的隨機派,而受限于當時的數據和算力,規則派的研究更具優勢。而在翻譯方面,人們認為機器的翻譯過程是在解讀密碼,于是試圖讓機器通過查詢詞典的方式來實現翻譯,但達到的結果卻不令人滿意:翻譯效果不佳、難以實用。
1966年,美國科學院的語言自動處理咨詢委員會(ALPAC)發布題為《語言與機器》的研究報告,全面否定了機器翻譯的可行性,因此許多國家開始大幅度減少在這方面的經費投入,自然語言研究從此陷入低谷。但研究者們從中意識到機器和人類兩種語言間的差異體現在詞匯和句法結構上,通過加強對語言模型和語義分析的研究,可以提升譯文的可讀性。

表1 語音識別技術發展歷程

表2 自然語言處理功能發展歷程

表3 計算機視覺別技術發展歷程

?
1976年,是具有里程碑意義的一個時間點。這一年,加拿大蒙特利爾大學與加拿大聯邦政府翻譯局聯合開發了名為TAUMMETEO的機器翻譯系統,提供天氣預報服務。這個系統每小時翻譯6-30萬個詞,每天可翻譯1-2千篇氣象資料,并能夠通過電視、報紙立即公布資料。到了90年代,自然語言處理進入了發展時期。
2010年,基于淺層、深層學習技術和大數據,自然語言處理的功能得到了進一步優化,專門的智能翻譯產品面世,對話交互能力被應用在客服機器人、智能助手等產品中。機器翻譯方面,谷歌推出的神經網絡機器翻譯(GNMT)相比傳統的基于詞組的機器翻譯(PBMT),英語到西班牙語的錯誤率下降87%,英文到中文的錯誤率下降58%,取得了非常顯著的提升。表2為自然語言處理功能的發展歷程。
90年代,計算機視覺技術取得了更大的發展,開始廣泛應用于工業領域。一方面是圖像處理硬件技術有了飛速進步,另一方面是人們也開始嘗試不同的算法,包括統計方法和局部特征描述符的引入。在“先驗知識庫”的方法中,事物的形狀、顏色、表面紋理等特征受到視角和觀察環境所影響,在不同角度、不同光線、不同遮擋的情況下會產生變化。因此,人們找到了一種方法:通過局部特征的識別來判斷事物,對事物建立一個局部特征索引,即使視角或觀察環境發生變化,也能較準確的匹配上。
21世紀,以往許多基于規則的處理方式,都被機器學習所替代:自動從海量數據中總結歸納物體的特征,然后進行識別和判斷。這一階段涌現出了非常多的應用,包括典型的相機人臉檢測、安防人臉識別、車牌識別等。
2010年,借助于深度學習的力量,計算機視覺技術得到了爆發增長和產業化,應用場景也快速擴展。除了在比較成熟的安防領域應用外,也有應用在金融領域的人臉識別身份驗證、電商領域的商品拍照搜索、醫療領域的智能影像診斷、機器人/無人車上作為視覺輸入系統等,包括許多有意思的場景:照片自動分類(圖像識別+分類)、圖像描述生成(圖像識別+理解)等。圖為計算機視覺別技術的發展歷程。
人工智能規劃決策系統的發展,一度是以棋類游戲為載體的。早在18世紀,就出現過一臺可以下棋的機器,當時幾乎擊敗了所有人類棋手,后來才知道,這僅是一場騙局罷了。之后,電子計算機誕生,1962年基于人工智能的規劃決策系統出現,Arthur Samuel屢次改進的西洋跳棋程序Checkers終于戰勝了人類棋手的州冠軍,證明程序已具備了初步的自我學習能力,使得這場勝利在當時引起了巨大的轟動。
但人工智能所面臨的困難比人們想象的還要難得多。人們開始將“剪枝法”運用到了估值函數中,通過剔除低可能性的走法優化最終的估值函數計算。在此改進下,西北大學開發的象棋程序Chess 4.5在1976年首次擊敗了頂尖人類棋手。隨著算法上的不斷優化,國際象棋程序由80年代開始,在判斷能力和計算速度方面大幅提升,幾乎已經能夠擊敗所有頂尖的人類棋手。
2016年,硬件層面出現了基于GPU、TPU的并行計算,算法層面上出現蒙特卡洛決策樹與深度神經網絡的結合。4∶1戰勝李世石、在野狐圍棋對戰頂尖棋手60連勝、3∶0戰勝世界排名第一的圍棋選手柯潔,足以表明人類在博弈游戲中已經完全敗給機器。由此,從棋類游戲中積累的知識和經驗被應用在更廣泛的需要決策規劃的領域,包括機器人控制、無人車等等,人工智能進入一個新的發展階段。

表4 規劃決策系統發展歷程