陸飛
近日,“Baidu Create 2018”(百度AI開發(fā)者大會)上,百度高級副總裁、AI技術(shù)平臺體系(AIG)總負(fù)責(zé)人王海峰播放了一段無人超市中的視頻。視頻中,購物可以實(shí)現(xiàn)即拿即走,輕松便捷;購物車既可以為你指路,也可以乖乖跟隨身后,服務(wù)十分到位。
無人超市的背后,是百度視覺語義化技術(shù)的應(yīng)用。當(dāng)天下午的“百度大腦論壇”上,百度視覺技術(shù)部、人臉技術(shù)部、增強(qiáng)現(xiàn)實(shí)技術(shù)部總監(jiān)吳中勤對百度視覺語義化技術(shù)及其應(yīng)用進(jìn)行了詳細(xì)的介紹。他表示,百度視覺技術(shù)團(tuán)隊(duì)通過領(lǐng)先的技術(shù)創(chuàng)新突破,實(shí)現(xiàn)了從看清向看懂的升級,成為新零售、視頻媒體等各大場景應(yīng)用的“福音”。
百度視覺語義化技術(shù)是百度AI全新的視覺感知和理解能力,是一次質(zhì)的飛躍。它以數(shù)據(jù)采集、光學(xué)傳感器、嵌入式芯片和云端計(jì)算服務(wù)為底層依賴,通過人臉、物體檢測、文字識別和場景分析的識別算法,以及動作監(jiān)測、視頻跟蹤和事件分析的語義分析,輸出智能分析與推理、可視化展現(xiàn)和檢索查詢系統(tǒng)等解決方案,能夠被廣泛應(yīng)用在零售、視頻媒體、金融、醫(yī)療、交通運(yùn)輸和營銷等眾多領(lǐng)域。
百度視覺語義化技術(shù)實(shí)現(xiàn)“看懂”需要4個步驟,從識別人、物和場景,到捕捉行為和關(guān)系,然后形成時序化、數(shù)字化、結(jié)構(gòu)化的語義知識,可進(jìn)行智慧推理并在場景落地應(yīng)用。
例如在超市場景,當(dāng)顧客進(jìn)入超市時,基于百度視覺語義化可以首先通過人體識別和ReID確認(rèn)顧客身份(會員/首次光顧),然后通過捕捉用戶的瀏覽區(qū)域、停留時間以及選購商品等,分析用戶偏好,進(jìn)而實(shí)現(xiàn)顧客行為語義化分析。
除了零售行業(yè),百度視覺語義化在視頻分析和汽車保險智能定損領(lǐng)域也有出色表現(xiàn)。在車輛保險智能定損領(lǐng)域,該解決方案能適用90%乘用車型,囊括67類語義分割部件,擁有8種語義損傷類型,通過對車輛部件和損傷的像素級識別,能夠?qū)p傷部件形成準(zhǔn)確的物理損傷描述,進(jìn)而形成對應(yīng)的維修邏輯和價格,輸出合理的定損及理賠方案。
吳中勤以世界杯賽事為例,展示了視覺語義化技術(shù)在視頻分析領(lǐng)域的應(yīng)用。有了這個技術(shù),AI能夠通過比賽對球場各種元素的識別,包括球員、足球和賽場區(qū)域等元素,以及行為動作的捕捉,如球員的射門和角球等動作,從而進(jìn)行智能推理與應(yīng)用,為用戶提供精彩射門集錦、球員和球隊(duì)表現(xiàn)分析、視頻中事件智能檢索甚至智能問答等功能,能大幅提升視頻媒體分析的表現(xiàn)。
事實(shí)上,要實(shí)現(xiàn)諸如智能零售、視頻媒體分析這樣的場景,背后依賴于強(qiáng)大算法和技術(shù)能力。百度視覺技術(shù)在此領(lǐng)域首創(chuàng)Pyramidbox算法、Ubiquitous Reweighting Network算法以及Action Proposal Network、StNet和Attention Clusters算法,在WIDER FACE人臉、WebVision大規(guī)模圖像識別以及ActivityNet視頻理解等全球視覺競賽中取得多項(xiàng)世界第一的好成績,在識別人、識別物、捕捉關(guān)系三個技術(shù)領(lǐng)域均有業(yè)界最領(lǐng)先的技術(shù)積累。
除了在算法上,百度視覺語義化技術(shù)與智能手機(jī)等硬件設(shè)備的結(jié)合,也有多項(xiàng)最新進(jìn)展。據(jù)介紹,百度視覺語義化支持百度AR、百度OCR、場景識別、智能相冊分類、拍照識圖等解決方案,通過硬件+OS+算法的聯(lián)動優(yōu)化,為華為、VIVO、小米、三星和魅族等智能手機(jī)合作伙伴提供領(lǐng)先的技術(shù)服務(wù)。
吳中勤進(jìn)一步介紹了視覺語義化技術(shù)與機(jī)器人結(jié)合實(shí)現(xiàn)物理行動能力的進(jìn)展。百度研發(fā)的基于深度增強(qiáng)學(xué)習(xí)的無地圖避障算法,應(yīng)用于機(jī)器人中可以實(shí)現(xiàn)機(jī)器人在密集人流環(huán)境下快速、動態(tài)地避障。而在當(dāng)天的百度AI開發(fā)者大會會場,參會者均看到了搭載此項(xiàng)技術(shù)的機(jī)器人在人群中靈活穿梭的身影。
在軟硬結(jié)合方面,吳中勤還重點(diǎn)介紹了基于百度視覺語義化還介紹了其與新型傳感器、AI芯片進(jìn)行結(jié)合的進(jìn)展,并發(fā)布了兩款自主研發(fā)的智能視覺AI硬件底層模組:紅外3D結(jié)構(gòu)光模組BoteyeR及視覺智能AI相機(jī)模組Xeye。據(jù)介紹,BoteyeR模組通過業(yè)界領(lǐng)先的紅外3D結(jié)構(gòu)光和人臉?biāo)惴ǎ瑢?shí)現(xiàn)人臉活體識別的解決方案,可以有效解決在暗光和攻擊等復(fù)雜場景下人臉認(rèn)證困難的技術(shù)問題。Xeye AI相機(jī)模組打造了一個低成本、小型化、端上計(jì)算的智能物體識別跟蹤相機(jī),集成了眾多終端計(jì)算的視覺感知能力,如人臉識別、物體識別、手勢識別等,有效解決新零售、安防、智能家具等場景視覺技術(shù)應(yīng)用的隱私、成本、計(jì)算開銷等問題。
增強(qiáng)現(xiàn)實(shí)有潛力成為下一代重要的交互平臺,在視覺語義化技術(shù)基礎(chǔ)之上,加入增強(qiáng)現(xiàn)實(shí)AR這樣的元素,可以讓人們感受到虛實(shí)結(jié)合的互動體驗(yàn)。吳中勤宣布重磅發(fā)布百度增強(qiáng)現(xiàn)實(shí)AR平臺DuMix3.0版本。據(jù)吳中勤介紹,去年百度AI開發(fā)者大會,百度發(fā)布了百度增強(qiáng)現(xiàn)實(shí)AR平臺DuMix1.0版本、去年年底的百度世界大會發(fā)布了DuMix的第二個版本。在過去一年間,用戶與百度AR創(chuàng)造出的虛擬形象,互動人次已經(jīng)超過了十億次。今天發(fā)布的DuMix3.0,重點(diǎn)聚焦在人體、人臉、肢體交互能力升級上,重大升級點(diǎn)包括高精度、真三維的人臉AR和高精度人體AR,把AR虛實(shí)結(jié)合的互動能力帶到了新的高度,也讓用戶更便捷地體驗(yàn)到AR互動的魅力。在隨后播放的視頻中,參會者感受到了百度DuMix3.0多項(xiàng)精細(xì)逼真、高精度、真三維的AR交互能力,包括人臉編輯、3D虛擬裝飾、肢體交互游戲等。
“視覺語義化技術(shù)的應(yīng)用范圍非常廣泛,通過在越來越多場景中的應(yīng)用落地,和持續(xù)更新迭代,將真正實(shí)現(xiàn)機(jī)器設(shè)備從看清到看懂的跨越,”吳中勤表示,未來,百度視覺語義化將持續(xù)創(chuàng)新,攜手開發(fā)者和合作伙伴推動AI技術(shù)的落地,通過助力開發(fā)者,實(shí)現(xiàn)開放共贏,共建更強(qiáng)大的AI生態(tài),用科技讓復(fù)雜的世界更簡單。