朱礪博 Arto Kaarna
(拉彭蘭塔理工大學(xué) 芬蘭拉彭蘭塔市 53850)
模式識(shí)別是人工智能領(lǐng)域的基礎(chǔ)技術(shù),以尋找數(shù)據(jù)模式作為基本問(wèn)題,以機(jī)器識(shí)別和感知為基本結(jié)果。模式識(shí)別和機(jī)器學(xué)習(xí)作為基本方法在感知數(shù)據(jù)之外的數(shù)據(jù)中也有使用,例如在大量數(shù)據(jù)中搜索信息的數(shù)據(jù)挖掘?qū)W科。近年來(lái)隨著計(jì)算機(jī)技術(shù)的快速發(fā)展和算法技術(shù)的研究,模式識(shí)別技術(shù)進(jìn)入了一個(gè)新的高速發(fā)展期。無(wú)論是模式識(shí)別本身的理論和方法,還是應(yīng)用場(chǎng)景的拓寬,都取得了長(zhǎng)足的發(fā)展。
模式識(shí)別的基礎(chǔ)理論主要包括特征學(xué)習(xí)、分類器、聚類等,為了達(dá)到更好分類的目的,研究目標(biāo)整體為高效性,魯棒性的改善。
分類器作用是在標(biāo)記好類別的訓(xùn)練數(shù)據(jù)基礎(chǔ)上判斷一個(gè)新的觀察樣本所屬的類別[1]。分類器最熱門的就是現(xiàn)在廣泛使用的深度學(xué)習(xí)算法,在整個(gè)人工智能領(lǐng)域都取得了很多應(yīng)用成果,遠(yuǎn)超先前相關(guān)技術(shù)。其作為一種模式識(shí)別分析手段,包括卷積神經(jīng)網(wǎng)絡(luò),遞歸神經(jīng)網(wǎng)絡(luò)和無(wú)監(jiān)督預(yù)訓(xùn)練三種方法。其中經(jīng)典模型“卷積神經(jīng)網(wǎng)絡(luò)模型”靈感是來(lái)自視覺(jué)系統(tǒng)的結(jié)構(gòu)。關(guān)于深度學(xué)習(xí)的研究雖然基本理論較為固定,但是一直有著算法性能上的特化和改進(jìn),偶爾有優(yōu)化深度學(xué)習(xí)架構(gòu)的嘗試。在深度學(xué)習(xí)架構(gòu)的優(yōu)化中,神經(jīng)網(wǎng)絡(luò)作為一種更加強(qiáng)大的模型,能對(duì)更加豐富的函數(shù)簇建模[2]。此外,在深度學(xué)習(xí)大框架模型中,可算性理論研究也很多。這些研究方法有助于提前估算所選擇的具體方法和數(shù)據(jù)范圍,提高了效率。在研究具體問(wèn)題時(shí),多種分類器合作結(jié)果也是常用的,這種運(yùn)用方式稱之為集成學(xué)習(xí),其往往也能得到更好的訓(xùn)練結(jié)果[3]。
聚類基本思想是定一個(gè)由樣本點(diǎn)組成的數(shù)據(jù)集,通過(guò)聚類分成的簇是一組數(shù)據(jù)集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象相異,其作為簡(jiǎn)化計(jì)算和加快收斂方式在研究中很常用。廣泛使用的K-均值(K-mean)無(wú)監(jiān)督聚類法實(shí)現(xiàn)簡(jiǎn)單,聚類效果也很好,基本思想就是對(duì)于給定的樣本集,按照樣本之間的距離大小,將樣本集劃分為K 個(gè)簇。讓簇內(nèi)的點(diǎn)盡量緊密的連在一起,而讓簇間的距離盡量的大。另一種聚類方式聚類樹,是將自上而下或自下而上的每個(gè)數(shù)據(jù)點(diǎn)視為單一聚類,然后依次合并直到包含一個(gè)數(shù)據(jù)點(diǎn)的單一聚類。除此之外還有多種常用聚類模式如均值偏移聚類和高斯混合模型的期望最大化聚類。
聚類方式的發(fā)展研究主要是針對(duì)特定訓(xùn)練要求的優(yōu)化和改動(dòng)從而改善性能。這些熱度不如深度學(xué)習(xí),但是經(jīng)典的方法也一直有少量研究和改進(jìn)。最近的研究表明K-均值的算法比較穩(wěn)定,偶爾會(huì)有性能下降的情況,改進(jìn)的辦法是重復(fù)優(yōu)化初始化的操作來(lái)提高性能并帶來(lái)更好的聚類精度[4]。多視圖聚類的思路最近也被提出,通過(guò)多視圖聚類可以得到比單視圖聚類更準(zhǔn)確的結(jié)果,此方法從2009年提出到現(xiàn)在取得了長(zhǎng)足發(fā)展。層次聚類也一直有最新的特化應(yīng)用,如在強(qiáng)調(diào)基于環(huán)境而行動(dòng)的強(qiáng)化學(xué)習(xí)中,利用蒙特卡洛搜索樹中將樹的返回值帶入根,可以達(dá)到降噪和加速收斂的目的[5]。
聚類方法也有一定的局限性,很難在眾多聚類算法中找到較為優(yōu)勢(shì)或者說(shuō)參數(shù)合適的聚類方法。最近新起的集成聚類可以將結(jié)果魯棒性提高,也是一個(gè)研究方向。現(xiàn)在更有數(shù)學(xué)上結(jié)合無(wú)限集成聚類的研究,通過(guò)將自動(dòng)編碼器和降噪結(jié)合得到無(wú)限聚類下的期望[5]。
模式識(shí)別技術(shù)的應(yīng)用領(lǐng)域主要包括計(jì)算機(jī)視覺(jué),文字識(shí)別、語(yǔ)音識(shí)別、生物特征識(shí)別、醫(yī)學(xué)分析、遙感數(shù)據(jù)分析等。其中計(jì)算機(jī)視覺(jué)是模式識(shí)別中較為重要也是最熱門的研究方向,其涉及的內(nèi)容廣泛,問(wèn)題也很多。模式識(shí)別技術(shù)廣泛的應(yīng)用價(jià)值受到了人們的極大重視,使用范圍也在不斷擴(kuò)大。
計(jì)算機(jī)視覺(jué)是視覺(jué)是圖像和視頻內(nèi)容在模式識(shí)別領(lǐng)域的應(yīng)用,是模式識(shí)別技術(shù)最早的研究方向和具體應(yīng)用之一,并且至今仍然是模式識(shí)別應(yīng)用研究的主要方向。
物品檢測(cè)其中的研究?jī)?nèi)容更是細(xì)化,從分類,定位,檢測(cè),分割各方面都有成果和應(yīng)用。作為較為成熟發(fā)展的應(yīng)用方向也已經(jīng)大量商業(yè)化運(yùn)用,比如網(wǎng)絡(luò)中的以圖搜圖或者以圖識(shí)物。現(xiàn)在物品檢測(cè)的研究更多是高壓情況下的識(shí)別結(jié)果改善,比如偽裝物體檢測(cè)。通常偽裝物體與其背景之間具有高度相似性,因此偽裝物體檢測(cè)更具挑戰(zhàn)。在最近研究中,模式識(shí)別技術(shù)在物品檢測(cè)上甚至已經(jīng)有超越人類的勢(shì)頭,一些成熟算法甚至在人眼難以分別的圖像中保持較高的魯棒性[7]。
計(jì)算機(jī)視覺(jué)也為自動(dòng)駕駛研發(fā)中也有大量應(yīng)用。人群檢測(cè),軌跡規(guī)劃和立體匹配等方面都有計(jì)算機(jī)視覺(jué)的參與。
二維視覺(jué)模式識(shí)別的長(zhǎng)足發(fā)展給三維視覺(jué)模式識(shí)別打下了堅(jiān)實(shí)的基礎(chǔ)。三維視覺(jué)模式識(shí)別在特征匹配,相機(jī)標(biāo)定,幾何理論的加持下,已經(jīng)在三維重建領(lǐng)域前進(jìn)。運(yùn)動(dòng)結(jié)構(gòu)恢復(fù)作為流行策略,提供了幾何結(jié)構(gòu)和相機(jī)運(yùn)動(dòng)的同時(shí)估計(jì),在無(wú)序圖像中方法能夠推進(jìn)三維重建。
計(jì)算機(jī)視覺(jué)領(lǐng)域另一個(gè)話題就是視頻內(nèi)容的模式識(shí)別,其基礎(chǔ)與靜態(tài)圖像相似,但是視頻內(nèi)容作為動(dòng)態(tài)變化,而且有更可能性要克服模糊,軌跡,形變等問(wèn)題,從而帶來(lái)更多計(jì)算壓力。在運(yùn)用深度卷積網(wǎng)絡(luò)時(shí)也利用類似于視頻壓縮帶來(lái)非必要幀的放棄和運(yùn)動(dòng)補(bǔ)償是加速算法的一種思路[8]。同時(shí)大規(guī)模視頻數(shù)據(jù)庫(kù)的建立也給視頻內(nèi)容的模式識(shí)別提供數(shù)據(jù),但是得注意的是監(jiān)控內(nèi)容與此類數(shù)據(jù)往往質(zhì)量相差甚遠(yuǎn),因?yàn)殡娪半娨晞〉囊曨l內(nèi)容一般是不存在畫質(zhì)干擾的,而是有很多非寫實(shí)畫面。
文字識(shí)別,語(yǔ)音識(shí)別和生物識(shí)別是方面發(fā)展最快也是較為成熟的三種應(yīng)用方面。文字識(shí)別與基本的物品識(shí)別的基礎(chǔ)上,除了將文字識(shí)別出來(lái),還有字符切割,文本行識(shí)別,字符識(shí)別等核心問(wèn)題。同時(shí)特殊文本識(shí)別如手寫識(shí)別,古籍還原等也都要有特向化的技術(shù)改善。
語(yǔ)音識(shí)別總體基于隱馬爾可夫模型和統(tǒng)計(jì)語(yǔ)言模型的語(yǔ)音識(shí)別技術(shù)[9]。除了日常、商務(wù)的使用,在制造業(yè)的控檢,直播和語(yǔ)音消息的內(nèi)容過(guò)濾等方面都有參與。消除環(huán)境噪音是語(yǔ)音識(shí)別的重要課題之一,特征補(bǔ)償一定程度上對(duì)平穩(wěn)噪聲有了適應(yīng)能力,但是對(duì)應(yīng)有變化的噪音則效果不佳。13年在深度神經(jīng)網(wǎng)絡(luò)的映射降噪算法下,語(yǔ)音技術(shù)有了較大突破。17年后各大商業(yè)公司的努力下更是構(gòu)成系統(tǒng),運(yùn)用并行處理的算力解決了例如方言識(shí)別等普及方面的問(wèn)題[10]。生物特征識(shí)別技術(shù)從一開始的指紋檢測(cè),到臉部、虹膜、DNA檢測(cè),再到更多的新應(yīng)用場(chǎng)景如眼動(dòng),步態(tài),其發(fā)展一直需最關(guān)注的是檢測(cè)效率和安全性。
模式識(shí)別是一門理論和實(shí)踐緊密結(jié)合的學(xué)科,未來(lái)幾年發(fā)展主要在于算法的改善、計(jì)算機(jī)算能的提升和應(yīng)用范圍的擴(kuò)大。在理論基礎(chǔ)方面,在分類器和聚類都面臨著大數(shù)據(jù)的考驗(yàn)。在以往研究方向都在提高準(zhǔn)確度追求高精度的現(xiàn)狀下,如何將海量,多源,多類型,可靠性不一的數(shù)據(jù)高效統(tǒng)一分析成為關(guān)鍵。與此同時(shí),如何利用好大數(shù)據(jù)帶來(lái)的訓(xùn)練集數(shù)量的提升也是關(guān)乎效率的課題。應(yīng)用方面,雖然模式識(shí)別技術(shù)已經(jīng)有了不少成果,但是仍然與基礎(chǔ)自然模式識(shí)別(人類、動(dòng)物)能力差距甚大,比如人類通過(guò)味覺(jué)可以輕易分辨出蘋果和蘋果味道的糖。這其中不僅有味覺(jué)這種模式識(shí)別沒(méi)有觸及的領(lǐng)域,還有多類模式識(shí)別結(jié)果綜合的過(guò)程。
模式識(shí)別技術(shù)大有可為但是暫時(shí)發(fā)展不夠的方向就會(huì)是近未來(lái)發(fā)展的熱門。一是自然語(yǔ)言的理解,當(dāng)訓(xùn)練模型中句子,段落甚至文章內(nèi)容的理解效果出色,意味著算法改進(jìn)的達(dá)標(biāo)。二是感情及其波動(dòng)的識(shí)別,不僅包含多種生物特征識(shí)別結(jié)果如語(yǔ)音,視覺(jué)的綜合技術(shù),更意味著神經(jīng)活動(dòng)模式的分析與預(yù)測(cè)變?yōu)榭赡堋H轻t(yī)學(xué)分析,如果在模型,醫(yī)生和病人之間達(dá)到信任,代表著整體模式識(shí)別預(yù)測(cè)結(jié)果魯棒性的提升。稍加思考可知,模式識(shí)別技術(shù)想要長(zhǎng)足發(fā)展,不僅在理論上需要不斷完善和改進(jìn),仍要與工業(yè),光電領(lǐng)域,生物學(xué)科和其他細(xì)節(jié)學(xué)科交叉合作綜合應(yīng)用,只有這樣才能在更多方向的模式識(shí)別中有所貢獻(xiàn)。
當(dāng)然在更未來(lái)高度信息化智能化的社會(huì)里,模式識(shí)別技術(shù)是無(wú)處不在的。理論會(huì)不斷深入,使用場(chǎng)景會(huì)更復(fù)雜,當(dāng)然也會(huì)給模式識(shí)別技術(shù)的發(fā)展帶來(lái)更多的挑戰(zhàn)和機(jī)遇。