發布時間:2023-03-03 19:57:42 來源:本站 作者:admin
如今,基于文本的生成圖片模型能夠創建范圍廣泛的逼真圖像。 最近的許多努力已經擴展了文本到圖像模型,通過添加分割圖、場景圖、繪圖、深度圖和修復掩碼等條件或在少量特定主題數據上微調預訓練模型來進一步完成自定義生成 . 然而,在將這些模型應用于實際應用時,設計人員仍然需要對它們進行更多控制。 例如,在現實世界的設計項目中,生成模型通常需要幫助才能可靠地生成同時具有語義、形式、樣式和顏色需求的圖片。
來自阿里巴巴中國的研究人員介紹了 Composer。 它是一個大型(50 億個參數)可控擴散模型,在數十億(文本、圖像)對上進行訓練。 他們爭辯說,組合性——而不僅僅是調節——是控制圖像形成的秘訣。 后者引入了許多可能的組合,可以極大地擴大控制空間。 在語言和場景理解學科中研究了類似的想法。 在這些領域中,組合性被稱為組合泛化,即從有限數量的可用組件中識別或創建有限數量的獨特組合的能力。 基于前面提到的概念,他們在這項工作中為 Composer 提供了組合生成模型的實現。 他們將能夠平滑地重新組合視覺元素以創建新圖片的生成模型稱為合成生成模型。 他們使用具有 UNet 主干的多條件擴散模型來實現 Composer。 每個 Composer 訓練迭代都有兩個階段:分解階段,其中計算機視覺算法或預訓練模型用于將圖像批次分解為單獨的表示,以及組合階段,其中 Composer 被優化以從表示子集重建圖像。
Composer可以從看不見的表示組合中解碼出獨特的圖片,這些組合可能來自多個來源,并且可能彼此不兼容,而只是接受了重建目的的訓練。 盡管 Composer 的概念簡單且易于使用,但它卻出奇地有效,能夠在傳統和以前未開發的圖像生成和處理任務上實現令人鼓舞的性能,例如但不限于文本到圖像生成、多模態條件圖像生成、樣式轉換 、姿勢轉移、圖像平移、虛擬試穿、來自各個方向的插值和圖像變化、通過修改草圖進行圖像重新配置、依賴圖像平移和圖像平移。
此外,Composer 可以將上述所有操作的可編輯區域限制在用戶指定的區域,這比傳統的修復操作更靈活,同時通過引入遮罩的正交表示來防止該區域之外的像素修改。 盡管經過多任務訓練,Composer 在 COCO 數據集上的文本到圖像合成中獲得了 9.2 的零樣本 FID,同時使用標題作為標準,展示了其提供出色結果的能力。 他們的分解-組合范式表明,當條件是可組合的而不是雇傭的個體時,生成模型的控制空間可能會大大增加。 因此,可以使用 Composer 架構重鑄各種傳統的生成任務,并揭示迄今為止未被認可的生成能力,從而激發對可能獲得更高可控性的各種分解技術的更多研究。 此外,他們基于無分類器和雙向指導,展示了多種使用 Composer 進行不同圖片制作和修改任務的方法,為后續研究提供了有益的參考。 在公開工作之前,他們計劃仔細檢查 Composer 如何減少濫用的危險,并可能提供過濾版本。