
近日,谷歌介紹了一種自回歸文本到圖像生成模型Pavti(帕蒂),可實現高保真照片級圖像輸出,并支持涉及復雜構圖和豐富知識內容的合成。
比如,用文字描述“一只浣熊穿著正裝,拿著拐杖和垃圾袋”和“老虎戴著火車售票員的帽子,拿著一塊滑板”,就能分別生成類似圖片。
除了細節栩栩如生外,對于各種風格,帕蒂也是駕輕就熟,能夠根據描述生成梵高、抽象立體主義、埃及墓象形文字、插圖、雕像、木刻、兒童蠟筆畫、中國水墨畫等多種多樣風格的畫作。
2022年6月22日,相關研究論文以《縮放自回歸模型以實現內容豐富的文本到圖像生成》提交在arXiv上(編者注:一個專門收錄科學文獻預印本的在線數據庫)。
研究人員在谷歌官方博文表示:“用帕蒂輸出圖像是一個序列到序列的建模問題,與機器翻譯相似。因此可受益于大語言模型的進步,特別是通過擴展數據和模型大小來解鎖的功能。此外,目標輸出是圖像標記序列,而不是其他語言中的文本標記。并利用圖像分詞器ViT-VQGAN將圖像編碼為離散標記序列,以重建成高質量、風格多樣化的圖像。”
值得一提的是,谷歌在一個多月前推出的另一個文本到圖像生成模型Imagen,在研究基準上也表現得十分亮眼。帕蒂和Imagen分別是自回歸模型和擴散模型,兩者不同但互補,代表了谷歌的不同探索方向。

此外,研究人員還探索并突出了帕蒂模型的局限性,給出了進一步改進的關鍵示例重點領域。
然后,他們還訓練了3.5億、7.5億、30億和200億參數四個版本的帕蒂,并將它們進行了詳細比較,參數越大的模型在功能和輸出圖像質量方面有著實質性改進。……