百度AI再升級視覺語義化讓百度大腦從看清升級到看懂

2018-09-10 17:36:06陸飛

計(jì)算機(jī)與網(wǎng)絡(luò) 2018年14期

陸飛

近日，“Baidu Create 2018”（百度AI開發(fā)者大會）上，百度高級副總裁、AI技術(shù)平臺體系（AIG）總負(fù)責(zé)人王海峰播放了一段無人超市中的視頻。視頻中，購物可以實(shí)現(xiàn)即拿即走，輕松便捷；購物車既可以為你指路，也可以乖乖跟隨身后，服務(wù)十分到位。

無人超市的背后，是百度視覺語義化技術(shù)的應(yīng)用。當(dāng)天下午的“百度大腦論壇”上，百度視覺技術(shù)部、人臉技術(shù)部、增強(qiáng)現(xiàn)實(shí)技術(shù)部總監(jiān)吳中勤對百度視覺語義化技術(shù)及其應(yīng)用進(jìn)行了詳細(xì)的介紹。他表示，百度視覺技術(shù)團(tuán)隊(duì)通過領(lǐng)先的技術(shù)創(chuàng)新突破，實(shí)現(xiàn)了從看清向看懂的升級，成為新零售、視頻媒體等各大場景應(yīng)用的“福音”。

百度視覺語義化技術(shù)是百度AI全新的視覺感知和理解能力，是一次質(zhì)的飛躍。它以數(shù)據(jù)采集、光學(xué)傳感器、嵌入式芯片和云端計(jì)算服務(wù)為底層依賴，通過人臉、物體檢測、文字識別和場景分析的識別算法，以及動作監(jiān)測、視頻跟蹤和事件分析的語義分析，輸出智能分析與推理、可視化展現(xiàn)和檢索查詢系統(tǒng)等解決方案，能夠被廣泛應(yīng)用在零售、視頻媒體、金融、醫(yī)療、交通運(yùn)輸和營銷等眾多領(lǐng)域。

百度視覺語義化技術(shù)實(shí)現(xiàn)“看懂”需要4個步驟，從識別人、物和場景，到捕捉行為和關(guān)系，然后形成時序化、數(shù)字化、結(jié)構(gòu)化的語義知識，可進(jìn)行智慧推理并在場景落地應(yīng)用。

例如在超市場景，當(dāng)顧客進(jìn)入超市時，基于百度視覺語義化可以首先通過人體識別和ReID確認(rèn)顧客身份（會員/首次光顧），然后通過捕捉用戶的瀏覽區(qū)域、停留時間以及選購商品等，分析用戶偏好，進(jìn)而實(shí)現(xiàn)顧客行為語義化分析。

除了零售行業(yè)，百度視覺語義化在視頻分析和汽車保險智能定損領(lǐng)域也有出色表現(xiàn)。在車輛保險智能定損領(lǐng)域，該解決方案能適用90%乘用車型，囊括67類語義分割部件，擁有8種語義損傷類型，通過對車輛部件和損傷的像素級識別，能夠?qū)p傷部件形成準(zhǔn)確的物理損傷描述，進(jìn)而形成對應(yīng)的維修邏輯和價格，輸出合理的定損及理賠方案。

吳中勤以世界杯賽事為例，展示了視覺語義化技術(shù)在視頻分析領(lǐng)域的應(yīng)用。有了這個技術(shù)，AI能夠通過比賽對球場各種元素的識別，包括球員、足球和賽場區(qū)域等元素，以及行為動作的捕捉，如球員的射門和角球等動作，從而進(jìn)行智能推理與應(yīng)用，為用戶提供精彩射門集錦、球員和球隊(duì)表現(xiàn)分析、視頻中事件智能檢索甚至智能問答等功能，能大幅提升視頻媒體分析的表現(xiàn)。

事實(shí)上，要實(shí)現(xiàn)諸如智能零售、視頻媒體分析這樣的場景，背后依賴于強(qiáng)大算法和技術(shù)能力。百度視覺技術(shù)在此領(lǐng)域首創(chuàng)Pyramidbox算法、Ubiquitous Reweighting Network算法以及Action Proposal Network、StNet和Attention Clusters算法，在WIDER FACE人臉、WebVision大規(guī)模圖像識別以及ActivityNet視頻理解等全球視覺競賽中取得多項(xiàng)世界第一的好成績，在識別人、識別物、捕捉關(guān)系三個技術(shù)領(lǐng)域均有業(yè)界最領(lǐng)先的技術(shù)積累。

除了在算法上，百度視覺語義化技術(shù)與智能手機(jī)等硬件設(shè)備的結(jié)合，也有多項(xiàng)最新進(jìn)展。據(jù)介紹，百度視覺語義化支持百度AR、百度OCR、場景識別、智能相冊分類、拍照識圖等解決方案，通過硬件+OS+算法的聯(lián)動優(yōu)化，為華為、VIVO、小米、三星和魅族等智能手機(jī)合作伙伴提供領(lǐng)先的技術(shù)服務(wù)。

吳中勤進(jìn)一步介紹了視覺語義化技術(shù)與機(jī)器人結(jié)合實(shí)現(xiàn)物理行動能力的進(jìn)展。百度研發(fā)的基于深度增強(qiáng)學(xué)習(xí)的無地圖避障算法，應(yīng)用于機(jī)器人中可以實(shí)現(xiàn)機(jī)器人在密集人流環(huán)境下快速、動態(tài)地避障。而在當(dāng)天的百度AI開發(fā)者大會會場，參會者均看到了搭載此項(xiàng)技術(shù)的機(jī)器人在人群中靈活穿梭的身影。

在軟硬結(jié)合方面，吳中勤還重點(diǎn)介紹了基于百度視覺語義化還介紹了其與新型傳感器、AI芯片進(jìn)行結(jié)合的進(jìn)展，并發(fā)布了兩款自主研發(fā)的智能視覺AI硬件底層模組：紅外3D結(jié)構(gòu)光模組BoteyeR及視覺智能AI相機(jī)模組Xeye。據(jù)介紹，BoteyeR模組通過業(yè)界領(lǐng)先的紅外3D結(jié)構(gòu)光和人臉?biāo)惴ǎ瑢?shí)現(xiàn)人臉活體識別的解決方案，可以有效解決在暗光和攻擊等復(fù)雜場景下人臉認(rèn)證困難的技術(shù)問題。Xeye AI相機(jī)模組打造了一個低成本、小型化、端上計(jì)算的智能物體識別跟蹤相機(jī)，集成了眾多終端計(jì)算的視覺感知能力，如人臉識別、物體識別、手勢識別等，有效解決新零售、安防、智能家具等場景視覺技術(shù)應(yīng)用的隱私、成本、計(jì)算開銷等問題。

增強(qiáng)現(xiàn)實(shí)有潛力成為下一代重要的交互平臺，在視覺語義化技術(shù)基礎(chǔ)之上，加入增強(qiáng)現(xiàn)實(shí)AR這樣的元素，可以讓人們感受到虛實(shí)結(jié)合的互動體驗(yàn)。吳中勤宣布重磅發(fā)布百度增強(qiáng)現(xiàn)實(shí)AR平臺DuMix3.0版本。據(jù)吳中勤介紹，去年百度AI開發(fā)者大會，百度發(fā)布了百度增強(qiáng)現(xiàn)實(shí)AR平臺DuMix1.0版本、去年年底的百度世界大會發(fā)布了DuMix的第二個版本。在過去一年間，用戶與百度AR創(chuàng)造出的虛擬形象，互動人次已經(jīng)超過了十億次。今天發(fā)布的DuMix3.0，重點(diǎn)聚焦在人體、人臉、肢體交互能力升級上，重大升級點(diǎn)包括高精度、真三維的人臉AR和高精度人體AR，把AR虛實(shí)結(jié)合的互動能力帶到了新的高度，也讓用戶更便捷地體驗(yàn)到AR互動的魅力。在隨后播放的視頻中，參會者感受到了百度DuMix3.0多項(xiàng)精細(xì)逼真、高精度、真三維的AR交互能力，包括人臉編輯、3D虛擬裝飾、肢體交互游戲等。

“視覺語義化技術(shù)的應(yīng)用范圍非常廣泛，通過在越來越多場景中的應(yīng)用落地，和持續(xù)更新迭代，將真正實(shí)現(xiàn)機(jī)器設(shè)備從看清到看懂的跨越，”吳中勤表示，未來，百度視覺語義化將持續(xù)創(chuàng)新，攜手開發(fā)者和合作伙伴推動AI技術(shù)的落地，通過助力開發(fā)者，實(shí)現(xiàn)開放共贏，共建更強(qiáng)大的AI生態(tài)，用科技讓復(fù)雜的世界更簡單。