
想尋找心儀的圖片素材,可以像“神筆馬良”一樣“所畫即所得”;偶然看到一段感興趣的視頻,只要幾秒鐘就能找到原版鏈接;通過人臉特征定位,你還可以在游戲或虛擬世界中塑造出屬于自己的“阿凡達”……這些令人激動的場景,原本要在童話或是科幻電影中才能出現。然而在微軟亞洲研究院技術研究人員的努力之下,這些夢想正在一步一步變成現實。下面就請大家跟隨CHIP的腳步,一起走進微軟亞洲研究院體驗這些酷技術吧。
所畫即所得的“神筆馬良”
草圖搜索:畫線條,找圖片
自從邁入了互聯網時代,“搜索”就成為了人們工作和生活中最常見的互聯網應用之一。然而與簡單易行的文本搜索相比,如何對圖片甚至視頻等多媒體內容進行搜索,一直是擺在技術人員面前的一大難題。
目前的商用圖像搜索方法,主要有基于關鍵字的圖像搜索和以圖找圖的搜索。而另一項仍處于初步研究階段的草圖搜索技術,則是使用充滿不確定性和創造力的線條作為檢索入口。通過草圖搜索技術將繪畫和搜索創造性地結合,身處大數據時代的用戶就能運用手繪的線條圖在海量的圖片中找到與之相似的圖像。在智能手機、平板電腦等移動智能終端設備非常普及的今天,用戶不僅可以通過它們去拍攝照片、視頻,甚至還能夠在上面進行繪圖。因為目前很多智能設備都已經采用了觸摸屏。這就允許用戶去在移動智能設備屏幕上畫一些線條,然后基于線條來檢索圖像。
在草圖搜索任務中,計算機主要面臨特征表示、特征匹配和建立索引結構三大難題。
特征表示:把手繪的線條圖和數據庫中的圖像都轉換為計算機能夠“認識”的表示,即一組或若干組數字,這就是特征表示。我們需要找到有效的特征表示,使得同一類的物體盡可能有相似的特征,而不同類別物體的特征盡可能不同。
特征匹配:根據特征表示方法定義合理的度量來匹配所畫線條圖與數據庫中圖像的特征,可得出二者的相似度。基于這個相似度,我們就可以把與手繪線條最相似的圖像排在前面,并返回給用戶。
建立索引結構:在數據庫中的數據以千計算時,我們可以一張張地比較得到相似度。但是當數據規模上升到百萬甚至千萬級別時,如何建立有效索引結構使系統在極短時間內返回搜索結果,便成為了一個重要問題。
除了將線條作為類似搜索關鍵詞這樣的特征之外,色彩信息同樣也可以作為圖像的特征。因此通過這些特征表示進行匹配,就可以逐一將用戶繪制的草圖與數據庫中的每一個圖像進行比對。而有效的搜索技術和索引結構可以快速地從海量數據中找到相匹配的圖像,并返回給用戶進行選擇。
譬如,如果用戶想找埃菲爾鐵塔的話,就可以在畫圖的時候添加一些顏色,譬如想找有著藍天背景的圖片,可以在鐵塔線條旁邊加一些藍色,如果需要的話還可以在鐵塔下方加上綠色的草坪。
微軟將這項圖形搜索技術命名為“Magic Brush”,并且還為其賦予了一個極具中國韻味的中文名——“神筆馬良”。顯然這一靈感來自于大受歡迎的國產動畫片《神筆馬良》。雖然它還無法做到像馬良的神筆那樣神通廣大,畫什么就有什么,但是用戶卻可以借此技術從海量的圖片數據中找到最貼近自己需求的東西。
據悉,微軟亞洲研究院目前已經為“神筆馬良”項目構建了一個超過600萬張圖片的數據庫,而另一個還沒有添加顏色信息的數據庫,更是存有大約15億張圖片。有了如此龐大的數據庫,不論是幫助人們尋找圖片,還是幫助兒童學習繪畫,又或是幫助設計師精確尋找素材,都可以提供更好的搜索體驗。
幾秒鐘找到心儀視頻
高精度的移動視頻搜索
微軟多媒體搜索研究的范圍并不僅僅局限于圖片,人們通過隨身攜帶的智能手機拍攝視頻,也能夠進行相關的多媒體搜索。譬如用戶在任何場合看到感興趣的視頻時,都可以用手機進行拍攝,然后通過微軟的多媒體搜索程序點擊一下,就能識別出視頻的來源,甚至提示用戶剛才拍攝片段所在的時間點。
舉例來說,當你偶然在某個屏幕上看到一段視頻,覺得這段影像很有趣,就可以直接掏出手機拍攝一小截片段,通過微軟的“Mobile Video Search”移動視頻搜索在數據庫或云端上找到正在看的這段視頻,然后分享給家人或朋友。而親朋好友在點擊你剛才分享的鏈接時,就能直接看到網上云端的視頻。
移動視頻搜索的速度究竟有多快?據微軟研究人員介紹,用戶在錄制視頻的時候,每一秒都會傳遞一些特征信息,從第5秒開始就會根據匹配程度的高低陸續返回檢索結果。在返回結果的同時,搜索引擎仍然在把進一步的視頻特征信息傳遞給云端,一旦發現用戶看到的視頻信息出現新變化,會立即提供相似度更高的視頻進行實時修正,從而為用戶提供更好的搜索體驗。目前就搜索精度而言,這項技術在10s內的精確度能夠達到90%,如果換成時間更短的5s,也能提供70%~76%的精確度。
移動視頻搜索的原理及應用
與基于文字的搜索相比,視頻、圖片等多媒體文件的體積往往非常龐大,譬如光是一分鐘視頻所包含的數據量就非常可觀。這也給視頻搜索帶來了很大的難題。另外一個需要克服的難點,就是用戶看到視頻可以大體明白其內容,但是目前的計算機還無法做到,這被稱為“語義鴻溝”,也是多媒體分析、多媒體檢索中最大的難題。
微軟移動視頻搜索技術的工作原理,是同時利用視頻信息、影像信息和語音信息的特征,每隔一秒提取一次關鍵信息進行比對。同時其后臺有一個非常有效的索引機制,可以通過這些信息來幫助系統快速查找與用戶拍攝視頻相似度非常高的視頻版本。其提供的搜索結果會依照相似度的高低進行排列,相似度最高的視頻會排在其他視頻前面。這樣即使網上有多個經過編輯的視頻版本,與用戶所拍攝視頻最接近的也會排到第一位,當然用戶也可以根據自己需求查閱后面的不同版本。
對于普通消費者來說,在智能手機已經非常流行的今天,用手機拍攝視頻已經是很常見的應用。譬如在電影院里,又或者是在廣場的大屏幕上看到一段視頻,如果感興趣就可以用移動視頻搜索技術找到這個視頻回家繼續看,還可以把信息分享給朋友。因此這項技術既可以作為手機上的一項應用,也可以作為與手機相機相關的應用。
顯而易見的是,微軟多媒體搜索技術的出現,不僅逾越了多媒體文件和文本文字之間的鴻溝,而且還構建了非常有效的數學結構。事實上,早在2000年甚至是上個世紀九十年代,學術界就對類似的多媒體搜索技術進行了密集研究,并涌現出了許多的技術原型。而微軟所展示的這兩項圖片與視頻搜索技術是最新的,也是相關領域最好的。
人臉特征定位
快速高精度的人臉對齊
在一臺筆記本電腦面前,微軟的人臉特征定位軟件僅僅通過普通的攝像頭,就成功地捕獲了鏡頭前每一位觀眾包括眉毛、眼睛、鼻子、嘴巴等在內的數十個臉部特征點,而且始終保持著非常高的幀數。此外用戶還可以根據自己的實際需要,來確定抓取特征點的個數。
這一過程大致分為兩個步驟:第一步是局部學習,因為我們要識別各個人臉的特征點,為了能更好地定位特征點的位置,就要先在這些特征點的周圍選取有利于判斷點真實位置的特征。這樣我們就需要收集大量數據并通過一些機器學習和算法,讓算法自動挖掘數據找到對定位有用的特征。
由于第一步局部學習并沒有整合全局信息,所以第二步就是用全局線性回歸的方式,把局部信息都整合在一起,然后做一個整體的學習來估計所有特征點的位置。這樣一方面可以整合全局信息,另一方面系統表現也會更加穩健。因為局部細節難免有各種各樣的小錯誤,但如果從全局著眼,就可以利用全局信息來糾正局部小錯誤,從而達到最優效果。
綜上所述,該技術最核心的就是通過算法的不斷優化,研究怎么找點、怎么找得更準確、怎么找得更快。目前就精確率而言,單獨采集特征點的時候,一般情況下誤差大概在4%~5%這樣一個較低的水平。但是在整合全局信息之后,誤差還可以被控制在更小的范圍。
人臉特征定位的應用前景
看到這里,也許有讀者朋友很快想到了美顏相機。沒錯,既然這項技術能夠輕松制作出像史萊克、阿凡達這樣的虛擬人物,那么對攝像頭輸出的人臉影像來一個實時“美顏視頻”,當然更是不在話下。實際操作也證明,不管是美白、磨皮、大眼還是瘦臉,通過這項技術都可以輕而易舉地實現。不過這也讓筆者產生了一點小小的擔憂:如今大家都說照片信不過,以后豈不是連視頻也信不過了?
除了拍特效電影和美顏等娛樂應用,人臉特征定位當然還有更加廣闊的用武之地。譬如在虛擬現實的游戲中用自己的表情塑造虛擬人物,在安防監控中大顯身手,建立人臉數據庫從而大大提高機場、海關的工作效率,甚至可以應用在醫療圖像的組織切片定位等等。