亚洲日本va中文字幕午夜福利_欧美VA亚洲vA日韩vA_欧洲尺码日本尺码专线美国欧洲lv_四虎免费地址一地址二地址三_16女下面流水不遮图

當(dāng)前位置: 首頁(yè) > 聚焦

如何簡(jiǎn)單高效地定制自己的文本作畫(huà)模型?|環(huán)球百事通

發(fā)布時(shí)間:2023-01-02 16:19:35 來(lái)源:

強(qiáng)烈建議先閱讀:一文弄懂 Diffusion Model


(資料圖)

1. 論文信息

標(biāo)題:Multi-Concept Customization of Text-to-Image Diffusion

作者:Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.

原文鏈接:https://arxiv.org/pdf/2212.04488.pdf

代碼鏈接:https://www.cs.cmu.edu/~custom-diffusion/

2. 引言

最近通過(guò)文本生成圖像的深度學(xué)習(xí)相關(guān)技術(shù)取得了非常大的進(jìn)展,2021已經(jīng)成為了圖像生成的一個(gè)新的milestone,諸如DALL-E和Stable diffusion這種模型都取得了長(zhǎng)足的進(jìn)步,甚至達(dá)到了“出圈”的效果。通過(guò)簡(jiǎn)單文本prompts,用戶(hù)能夠生成前所未有的質(zhì)量的圖像。這樣的模型可以生成各種各樣的對(duì)象、風(fēng)格和場(chǎng)景,并把它們進(jìn)行組合排序,這讓現(xiàn)有的圖像生成模型看上去是無(wú)所不能的。

但是,盡管這些模型具有多樣性和一些泛化能力,用戶(hù)經(jīng)常希望從他們自己的生活中合成特定的概念。例如,親人、朋友、寵物或個(gè)人物品和地點(diǎn),這些都是非常有意義的concept,也和個(gè)人對(duì)于生成圖像的信息有對(duì)齊。由于這些概念天生就是個(gè)人的,因此在大規(guī)模的模型訓(xùn)練過(guò)程中很難出現(xiàn)。事后通過(guò)詳細(xì)的文字,來(lái)描述這種概念是非常不方便的,也無(wú)法保留足夠多的視覺(jué)細(xì)節(jié)來(lái)生成新的personal的concepts。這就需要模型具有一定的“定制”能力。也就是說(shuō)如果給定少量用戶(hù)提供的圖像,我們能否用新概念(例如寵物狗或者“月亮門(mén)”,如圖所示)增強(qiáng)現(xiàn)有的文本到圖像擴(kuò)散模型?經(jīng)過(guò)微調(diào)的模型應(yīng)該能夠?qū)⑺鼈兣c現(xiàn)有概念進(jìn)行概括并生成新的變化。這帶來(lái)了幾個(gè)比較嚴(yán)峻的挑戰(zhàn):

首先,模型傾向于遺忘現(xiàn)有概念的含義:例如,在添加“moon gate”這一concept的時(shí)候,“moon”的含義就會(huì)丟失。其次,由于stable diffusion這樣的網(wǎng)絡(luò)往往參數(shù)會(huì)超級(jí)多,所以在小數(shù)據(jù)上訓(xùn)練模型,容易造成對(duì)訓(xùn)練樣本進(jìn)行過(guò)擬合,而且采樣中變化也有限。此外,論文還關(guān)注了一個(gè)更具挑戰(zhàn)性的問(wèn)題,即組group fine-tuning,即能夠超越單個(gè)個(gè)體concept的微調(diào),并將多個(gè)概念組合在一起。學(xué)習(xí)多個(gè)新的concepts同時(shí)也是存在一定的挑戰(zhàn)的,比如 concept mixing以及concept omission。

在這項(xiàng)工作中,論文提出了一種fine-tuning技術(shù),即文本到圖像擴(kuò)散模型的“定制擴(kuò)散”。我們的方法在計(jì)算和內(nèi)存方面都很有效。為了克服上述挑戰(zhàn),新方法固定一小部分模型權(quán)重,即文本到潛在特征的key值映射在cross-attention layer中。fine-tuning這些足以更新模型的新concepts。為了防止模型喪失原來(lái)強(qiáng)大的表征能力,新方法僅僅使用一小組的圖像與目標(biāo)圖像類(lèi)似的真實(shí)圖像進(jìn)行訓(xùn)練。我們還在微調(diào)期間引入data的augamation,這可以讓模型更快的收斂,并獲得更好的結(jié)果。論文提出的方法實(shí)驗(yàn)是構(gòu)建在Stable Diffusion之上,并對(duì)各種數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),其中最少有四幅訓(xùn)練圖像。對(duì)于添加單個(gè)concept,新提出的方法顯示出比相似任務(wù)的作品和基線(xiàn)更好的文本對(duì)齊和視覺(jué)相似性。更重要的是,我們的方法可以有效地組成多個(gè)新concepts,而直接對(duì)不同的concepts進(jìn)行組合的方法則遇到困難,經(jīng)常會(huì)省略一個(gè)。最后,我們的方法只需要存儲(chǔ)一小部分參數(shù)(模型權(quán)重的3%),消耗的GPU memory非常有限,同時(shí)也減少了fine-tuning的時(shí)間。

3. 方法

總結(jié)來(lái)講,論文提出的方法,就是僅更新權(quán)重的一小部分,即模型的交叉注意力層。此外,由于目標(biāo)概念的訓(xùn)練樣本很少,所以使用一個(gè)真實(shí)圖像的正則化集,以防止過(guò)擬合。

對(duì)于Single-Concept Fine-tuning,給定一個(gè)預(yù)訓(xùn)練的text-to-image diffusion model,我們的目標(biāo)是在模型中加入一個(gè)新的concept,只要給定四張圖像和相應(yīng)的文本描述進(jìn)行訓(xùn)練。fine-tuning后的模型應(yīng)保留其先驗(yàn)知識(shí),允許根據(jù)文本提示使用新概念生成新的圖像類(lèi)型。這可能具有挑戰(zhàn)性,因?yàn)楦碌奈谋镜綀D像的映射可能很容易過(guò)擬合少數(shù)可用圖像。所以保證泛化性就非常有必要,也比較有挑戰(zhàn)。所以就僅僅fine-tuning新的K和V,而對(duì)于query,則保持不變,這樣就可以增加新概念的同時(shí),保證模型的表征能力不受到太多的影響。優(yōu)化目標(biāo)還是diffusion的形式:

概括起來(lái)實(shí)際上非常簡(jiǎn)單,就是訓(xùn)練一個(gè)k和v的矩陣,來(lái)擴(kuò)充維度,增加模型的表征能力,使其能生成更為豐富的圖像內(nèi)容。

而對(duì)于Multiple-Concept Compositional Fine-tuning,為了對(duì)多個(gè)概念進(jìn)行微調(diào),我們將每個(gè)概念的訓(xùn)練數(shù)據(jù)集合并,并使用我們的方法將它們聯(lián)合訓(xùn)練。為了表示目標(biāo)概念,我們使用不同的修飾符的,并將它們與每個(gè)層的交叉注意關(guān)鍵和值矩陣一起初始化,并優(yōu)化它們。通過(guò)將權(quán)重更新限制為交叉注意key和value參數(shù),與DreamBooth等方法相比,可以顯著更好地將兩個(gè)概念合并在一起。

由于我們的方法僅更新與文本特征相對(duì)應(yīng)的key和value投影矩陣,因此我們可以將它們合并,以允許使用多個(gè)微調(diào)概念生成。讓集合表示預(yù)訓(xùn)練模型中所有交叉注意層的key和value矩陣,并且表示添加概念的相應(yīng)更新矩陣。由于方法隨后的優(yōu)化適用于所有層和key矩陣,為了簡(jiǎn)潔起見(jiàn)忽略key和value的上標(biāo)以及層。我們將合成目標(biāo)表述為以下約束最小二乘問(wèn)題:

這里,是維度為的文本特征。這些是個(gè)跨越所有個(gè)concept的目標(biāo)詞.

可以發(fā)現(xiàn),增加約束還是讓模型具有更強(qiáng)的表征能力的。最下面一行才和真正的門(mén)比較相似,同時(shí)生成的月亮也非常合理。

4. 實(shí)驗(yàn)

給定一個(gè)新concepts的圖像如左側(cè)顯示的目標(biāo)圖像,提出的方法可以在看不見(jiàn)的上下文和藝術(shù)風(fēng)格中生成帶有該概念的圖像。第一行:代表水彩畫(huà)藝術(shù)風(fēng)格中的概念。方法還可以在背景中生成山脈,而 DreamBooth 和 Textual Inversion 忽略了這一點(diǎn)。第二行:改變背景場(chǎng)景。我們的方法和 DreamBooth 的表現(xiàn)與 Textual Inversion 相似且更好。第三行:添加另一個(gè)對(duì)象,例如帶有目標(biāo)桌子的橙色沙發(fā)。新的方法成功地添加了另一個(gè)對(duì)象。第四行:改變對(duì)象屬性,如花瓣的顏色。第五行:用太陽(yáng)鏡裝飾私人寵物貓。我們的方法比基線(xiàn)更好地保留了視覺(jué)相似性,同時(shí)僅更改花瓣顏色或?yàn)樨執(zhí)砑犹?yáng)鏡。

可以發(fā)現(xiàn)Multiple-Concept Compositional Fine-tuning的效果也非常驚艷。

風(fēng)格遷移的效果也不錯(cuò)。

定量指標(biāo)也有比較有競(jìng)爭(zhēng)力的表現(xiàn):

5. 結(jié)論

論文提出了一種基于new concepts的text-to-image生成模型的fine-tuning方法。只需使用一些有限的圖像示例, 新方法就能一高效的方法生成微調(diào)概念的新樣本同時(shí)保留原有的生成能力。而且,我們只需要保存一小部分模型權(quán)重。此外,方法可以連貫地在同一場(chǎng)景中組合多個(gè)新概念,這是之前的方法所缺少的能力。

關(guān)鍵詞: 一個(gè)新的 訓(xùn)練樣本 藝術(shù)風(fēng)格

Copyright   2015-2022 今日藝術(shù)網(wǎng) 版權(quán)所有  備案號(hào):滬ICP備2022005074號(hào)-40   聯(lián)系郵箱:5 85 59 73 @qq.com