李飛飛
我們沿著這個方向繼續做研究,迎來的下一個成果是稠密說明,就是在一幅圖片中有很多個區域都會分配注意力,這樣我們可以有很多個不同的句子描述不同的區域,而不僅僅是用一個句子描述整個場景。
場景理解和與語言結合的計算機視覺進一步搭起了人類和計算機之間溝通的橋梁,任務驅動的計算機視覺也會在機器人領域大放異彩。
物體識別之后:豐富場景識別
在物體識別問題已經很大程度上解決以后,我們的下一個目標是走出物體本身,關注更為廣泛的對象之間的關系、語言等等。
在Visual Genome數據集之后,我們做的另一項研究是重新認識場景識別。場景識別單獨來看是一項簡單的任務,在谷歌里搜索“穿西裝的男人”或者“可愛的小狗”,都能直接得到理想的結果。但是當你搜索“穿西裝的男人抱著可愛的小狗”的時候,就得不到什么好結果。它的表現在這里就變得糟糕了,這種物體間的關系是一件很難處理的事情。
比如只關注了“長椅”和“人”的物體識別,就得不到“人坐在長椅上”的關系;即便訓練網絡識別“坐著的人”,也無法保證看清全局。我們有個想法是,把物體之外、場景之內的關系全都包含進來,然后再想辦法提取精確的關系。
如果我們有一張場景圖,其中包含了場景內各種復雜的語義信息,那么我們的場景識別就能做得好很多。其中的細節可能難以全部用一個長句子描述,但是把一個長句子變成一個場景圖之后,我們就可以用圖相關的方法把它和圖像做對比;……