維尼
圖像修改是圖像生成領域的一個特殊任務,它要求生成對原圖進行修改后得到的圖片。例如常用的美顏、修圖軟件,可以得到原照調整后的美顏人像。目前,絕大多數的圖片操縱和生成都是在像素級別進行的。隨著技術的進步,基于語義的圖像修改和生成成為可能。
一篇 CVPR2020 的論文 Semantic Image Manipulation Using Scene Graphs 就聚焦圖片語義級別修改問題,實現針對場景圖的修改圖片生成問題。即給定一張圖片,先生成一個表示圖片中出現的對象及其關系的語義場景圖,用戶可以利用場景圖方便地修改其中的節點(對象)和邊(關系),模型再根據這些修改后的場景圖和原圖生成修改后的圖片,如圖一所示。
這需要模型對原圖中的對象進行替換或者改變原圖中對象之間的關系,但還要保持生成的圖片和原圖中語義關系以及風格一致。
高層級的圖片修改是以語義為中心的,這項技術有廣泛的應用場景。
編輯旅行風景照時,不需要再手動切割、刪除其中多余的旅客,直接在場景圖中刪除相應的對象節點即可。用戶還可以輕松地重新安排對象之間的空間關系,重新排列天空中云的位置,創造出更美的圖片。該技術還可以應用到機器人領域。當要求機器人“把房間收拾干凈” 時,可通過該技術構建出整理后的房間圖片,幫助機器人完成任務。
要利用深度學習技術解決這一問題,首先面臨的難題就是訓練數據。給定圖片 I,需要得到場景 G, 修改后的場景圖 g 以及修改后得到的圖片 i。……