【日本語訳】High-Resolution Image Synthesis with Latent Diffusion Models【Stable Diffusion】

悩んでいる人

High-Resolution Image Synthesis with Latent Diffusion Modelsの日本語訳を教えて！

こういった悩みにお答えします．

$$\newcommand{\two}{\mathrm{I}\hspace{-1.2pt}\mathrm{I}}$$

本記事の信頼性

リアルタイムシステムの研究歴12年．
東大教員の時に，英語でOS（Linuxカーネル）の授業．
2012年9月～2013年8月にアメリカのノースカロライナ大学チャペルヒル校（UNC）コンピュータサイエンス学部で客員研究員として勤務．C言語でリアルタイムLinuxの研究開発．
プログラミング歴15年以上，習得している言語: C/C++，Python，Solidity/Vyper，Java，Ruby，Go，Rust，D，HTML/CSS/JS/PHP，MATLAB，Assembler (x64，ARM)．
東大教員の時に，C++言語で開発した「LLVMコンパイラの拡張」，C言語で開発した独自のリアルタイムOS「Mcube Kernel」をGitHubにオープンソースとして公開．
2020年1月～現在はアメリカのノースカロライナ州チャペルヒルにあるGuarantee Happiness LLCのCTOとしてECサイト開発やWeb/SNSマーケティングの業務．2022年6月～現在はアメリカのノースカロライナ州チャペルヒルにあるJapanese Tar Heel, Inc.のCEO兼CTO．
最近は自然言語処理AIとイーサリアムに関する有益な情報発信に従事．

（AI全般を含む）自然言語処理AIの論文の日本語訳や，AIチャットボット（ChatGPT，Auto-GPT，Gemini（旧Bard）など）の記事を50本以上執筆．アメリカのサンフランシスコ（広義のシリコンバレー）の会社でプロンプトエンジニア・マネージャー・Quality Assurance（QA）の業務委託の経験あり．
（スマートコントラクトのプログラミングを含む）イーサリアムや仮想通貨全般の記事を200本以上執筆．イギリスのロンドンの会社で仮想通貨の英語の記事を日本語に翻訳する業務委託の経験あり．

こういった私から学べます．

AIのプログラミング言語「C++/Python言語」を学べるおすすめのWebサイトを知りたいあなたはこちらからどうぞ．

: 【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト【初心者，中級者，上級者】【Triton/Mojo言語】【データサイエンス】

こういった悩みにお答えします．こういった私から学べます．【C++/Python言語】AIのプログラミング言語を学べるおすすめのWebサイト AIのプログラミング言語「C++/Python言語」を学 ...

続きを見る

独学が難しいあなたは，AIを学べるオンラインプログラミングスクール3社で自分に合うスクールを見つけましょう．後悔はさせません！

: AI（人工知能）を学べるおすすめのオンラインプログラミングスクール3社【AIチャットボットやAIバスケロボが作れます】

こういった悩みにお答えします．こういった私から学べます．今すぐ学びたいあなたは，AIを学べるおすすめのオンラインプログラミングスクール3社は下表になります．オンラインプログラミングスクール価格お ...

続きを見る

国内・海外のAIエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のAIエンジニアのおすすめ求人サイト【転職エージェント】【C++/Python言語】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のAIエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． AIエンジニアになるためには，主にC++/Pytho ...

続きを見る

国内・海外のプロンプトエンジニアのおすすめ求人サイトを知りたいあなたはこちらからどうぞ．

: 国内・海外のプロンプトエンジニアのおすすめ求人サイト【転職エージェント】【AIチャットボット，ChatGPT，Auto-GPT，Gemini（旧Bard）】

こういった悩みにお答えします．こういった私が解説していきます．国内・海外のプロンプトエンジニアのおすすめ求人サイト（転職エージェント）を紹介します． ※プロンプトエンジニアのことを，AIトレーナー ...

続きを見る

High-Resolution Image Synthesis with Latent Diffusion Modelsの日本語訳を紹介します．

画像生成AIのStable Diffusionがわかります．

※図表を含む論文の著作権はIEEEに帰属します．

High-Resolution Image Synthesis with Latent Diffusion Modelsの目次は以下になります．

Abstract
1章：Introduction
2章：Related Work
3章：Method
4章：Experiments
5章：Limitations & Societal Impact
6章：Conclusion
References
Appendix
付録A：Changelog
付録B：Detailed Information on Denoising Diffusion Models
付録C：Image Guiding Mechanisms
付録D：Additional Results
付録E：Implementation Details and Hyperparameters
付録F：Computational Requirements
付録G：Details on Autoencoder Models
付録H：Additional Qualitative Results

High-Resolution Image Synthesis with Latent Diffusion Modelsを解説しつつ，私の考えも語ります．

High-Resolution Image Synthesis with Latent Diffusion Modelsの概要と私の日本語訳は以下になります．

By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond.
拡散モデル（DMs：Diffusion Models）は，画像形成処理をノイズ除去オートエンコーダのシーケンシャルアプリケーションに分解することで，画像データおよびそれ以外のデータに対して最先端の合成結果を実現する．

Additionally, their formulation allows for a guiding mechanism to control the image generation process without retraining.
さらに，その定式化により，再訓練することなく画像生成処理を制御するためのガイド機構が可能になる．

However, since these models typically operate directly in pixel space, optimization of powerful DMs often consumes hundreds of GPU days and inference is expensive due to sequential evaluations.
しかし，これらのモデルは通常ピクセル空間で直接動作するため，強力なDMの最適化はしばしば数百GPU日を消費し，推論はシーケンシャル評価により高価になる．

To enable DM training on limited computational resources while retaining their quality and flexibility, we apply them in the latent space of powerful pretrained autoencoders.
DMの品質と柔軟性を維持しつつ，限られた計算資源でDMの訓練を可能にするために，我々は，強力な事前訓練済みオートエンコーダの潜在空間にDMを適用する．

In contrast to previous work, training diffusion models on such a representation allows for the first time to reach a near-optimal point between complexity reduction and detail preservation, greatly boosting visual fidelity.
従来の研究とは異なり，このような表現で拡散モデルを訓練することで，複雑さの軽減と細部の保存の間のほぼ最適なポイントに初めて到達し，視覚的忠実度を大幅に向上させることができる．

By introducing cross-attention layers into the model architecture, we turn diffusion models into powerful and flexible generators for general conditioning inputs such as text or bounding boxes and high-resolution synthesis becomes possible in a convolutional manner.
また，Cross-Attention層をモデルアーキテクチャに導入することで，拡散モデルをテキストやバウンディングボックスのような一般的な条件入力に対する強力で柔軟な生成器に変え，畳み込み方式で高解像度合成を可能にする．

Our latent diffusion models (LDMs) achieve a new state of the art for image inpainting and highly competitive performance on various tasks, including unconditional image generation, semantic scene synthesis, and super-resolution, while significantly reducing computational requirements compared to pixel-based DMs.
我々の潜在拡散モデル（LDMs：Latent Diffusion Models）は，ピクセルベースのDMと比較して計算量を大幅に削減しながら，無条件画像生成，意味的シーン合成，超解像などの様々なタスクにおいて，画像インペインティングの新しい状態や高い競争力を達成した．

※訳注：arXivの概要にはないですが，論文のPDFの概要には様々なタスクの中にtext-to-image synthesis（テキストから画像への合成）があります．その代わりarXivの概要にはsemantic scene synthesis（意味的シーン合成）がありますが，論文のPDFの概要にはありません．

Code is available at this https URL.
コードは，このhttpsのURLで入手可能である．

https://arxiv.org/abs/2112.10752

私の日本語訳の注意点は以下になります．

概要は英語と日本語を両方掲載しましたが，本文は私の日本語訳のみを掲載していること（英語で読みたいあなたは原文を読みましょう！）
基本的には原文の直訳ですが，わかりにくい箇所は意訳や説明を追加している箇所があること
原文の付録Aの「Changelog」は省略していること
本文中に登場する表記「[66,67]」などは参考文献ですので，興味がある方は本記事の参考文献を参照されたいこと

それでは，High-Resolution Image Synthesis with Latent Diffusion Modelsの本文を読みすすめましょう！

Table of Contents

1章：Introduction（はじめに）

画像合成は，コンピュータビジョン分野の中で最も目覚しい発展を遂げている分野の一つであるが，同時に最も計算量の多い分野の一つでもある．

特に複雑で自然なシーンの高解像度合成は，現在，自己回帰（AR：AutoRegressive）Transformerの数十億のパラメータを含む尤度ベースモデルのスケールアップが主流となっている[66,67]．

一方，GANs[3, 27, 40]の有望な結果は，その敵対的学習手順が複雑なマルチモーダル分布のモデリングに容易に拡張できないため，ほとんどが比較的に変動性の低いデータに限られていることが明らかにされている．

最近では，ノイズ除去オートエンコーダの階層から構築される拡散モデル[82]が，画像合成[30,85]以降[7,45,48,57]で素晴らしい結果を達成し，クラス条件付き画像合成[15,31]や超解像[72]の最先端を定義することが示された．

さらに，他のタイプの生成モデル[19,46,69]とは対照的に，無条件DMでさえ，インペインティングやカラー化[85]，ストロークベースの合成[53]といったタスクに容易に適用することができる．

尤度ベースモデルであるため，GANのようなモード崩壊や学習不安定性がなく，また，パラメータ共有を多用することで，ARモデルのように数十億のパラメータを必要とせず，自然画像の非常に複雑な分布をモデル化できる[67]．

高解像度画像合成の民主化：

DMは尤度ベースのモデルに属し，そのモードカバリング動作により，データの知覚できない細部をモデル化するために過剰な容量（したがって計算資源）を費やす傾向がある[16, 73] ．

再重み付け変分目的関数[30]は，最初のノイズ除去ステップをアンダーサンプリングすることでこの問題に対処することを目指しているが，このようなモデルの訓練と評価には，RGB画像の高次元空間で関数評価（および勾配計算）を繰り返す必要があるため，DMは依然として計算負荷が高い．

例えば，最も強力なDMの訓練には数百GPU日（[15]では150～1000V100日）かかることが多く，入力空間のノイズバージョンで繰り返し評価すると推論も高価になるため，50kサンプルを作成するにはA100 GPU1台で約5日かかる[15]と言われている．

このことは，研究コミュニティや一般ユーザにとって2つの結果をもたらす．

第一に，このようなモデルの訓練には，研究分野のごく一部にしか利用できない大規模な計算リソースが必要であり，膨大なカーボンフットプリントが残る[65, 86]．

第二に，すでに訓練されたモデルを評価することは，同じモデルアーキテクチャを多数のステップ（例えば，[15]では25〜1000ステップ）で連続して実行する必要があるため，時間とメモリも高価である．

この強力なモデルクラスのアクセシビリティを向上させ，同時にリソースの大幅な消費を抑えるためには，訓練とサンプリングの両方で計算量を減らす方法が必要である．

したがって，DMの性能を損なうことなく計算量を削減することが，DMのアクセシビリティを向上させる鍵となる．

Stable Diffusion Figure2 — 図2：知覚的圧縮と意味的圧縮を説明する．デジタル画像のほとんどのビットは，知覚できない細部に対応している．DMは，Responsible（責任ある）損失項を最小化することにより，この意味的に無意味な情報を抑制することができるが，（訓練中の）勾配と（訓練と推論の）ニューラルネットワークのバックボーンは，すべてのピクセルで評価する必要があり，余計な計算と不必要に高い最適化と推論を引き起こす．我々は，効果的な生成モデルとして潜在拡散モデル（LDMs：Latent Diffusion Models）を提案し，知覚できない細部のみを除去するマイルドな圧縮段階を別に設ける．データおよび画像は[30]より引用している．

潜在空間への出発：

我々のアプローチは，画素空間ですでに訓練された拡散モデルの分析からスタートする．

図2は，訓練済みモデルのRate-Distortionのトレードオフを示したものである．

※訳注：図1は図2の後に後述します．

他の尤度ベースモデルと同様に，学習は大きく2つの段階に分けられる．

第一段階は知覚的圧縮で，高周波の細部を取り除くが，意味的な変化はほとんど学習されない．

第二段階では，実際の生成モデルがデータの意味的・概念的な構成を学習する（意味的圧縮）．

このように，我々はまず，高解像度画像合成のための拡散モデルを訓練するために，知覚的に同等であるが計算上より適した空間を見つけることを目指している．

一般的な方法[11, 23, 66, 67, 96]に従って，我々は訓練を2つの異なるフェーズに分ける．

まず，データ空間と知覚的に等価な低次元（による効率的な）表現空間を提供するオートエンコーダを訓練する．

重要なことは，先行研究[23, 66]とは対照的に，空間次元に対してより優れたスケーリング特性を示す学習済み潜在空間でDMを訓練するため，過度の空間圧縮に頼る必要がないことである．

また，複雑さが軽減されたことで，1回のネットワークパスで潜在空間から効率的に画像を生成することができる．

この結果得られたモデルクラスを潜在拡散モデル（LDMs：Latent Diffusion Models）と呼ぶ．

このアプローチの特筆すべき利点は，普遍的な自動符号化段階を一度だけ訓練する必要があるため，複数のDM訓練や，全く異なるタスクの探索のために再利用できることである[81]．

これにより，様々な画像から画像（Image-to-Image），テキストから画像（Text-to-Image）へのタスクに対して，多数の拡散モデルを効率的に探索することができる．

後者については，TransformerをDMのUNetバックボーン[71]に接続し，任意のタイプのトークンベースの条件付け機構を可能にするアーキテクチャを設計する（3.3節参照）．

Stable Diffusion Figure1 — 図1：より少ないダウンサンプリングで達成可能な品質の上限を高めることができる．拡散モデルは空間データに対して優れた帰納的バイアスを提供するため，潜在空間における関連する生成モデルの重い空間ダウンサンプリングは必要ないが，適切な自動符号化モデルによってデータの次元を大幅に削減できる（3章参照）．画像はDIV2K[1]の検証セットからのもので，$512^2$pxで評価した．空間ダウンサンプリング係数をfとする．再構成FID[29]とPSNRはImageNet-val.で計算した[12]．表8も参照されたい．

まとめると，我々の研究は以下のような貢献をしている．

純粋にTransformerベースのアプローチ[23, 66]とは対照的に，本手法は高次元のデータに対してより優雅にスケールするため，（a）従来の研究よりも忠実で詳細な再構成を提供する圧縮レベルで動作し（図1参照），（b）メガピクセル画像の高解像度合成に効率的に適用することが可能である．
計算コストを大幅に低減しながら，複数のタスク（無条件画像合成，インペインティング，確率的超解像）およびデータセットにおいて競争力のある性能を達成する．また，ピクセルベースの拡散アプローチと比較して，推論コストを大幅に削減する．
エンコーダ/デコーダアーキテクチャとscore-based priorを同時に学習する先行研究[93]とは対照的に，我々のアプローチは再構成能力と生成能力の微妙な重み付けを必要としないことを示す．これにより，極めて忠実な再構成が保証され，潜在空間の正則化もほとんど必要ない．
超解像，インペインティング，意味合成のような高密度な条件を持つタスクに対して，本モデルを畳み込み方式で適用し，$1024^2$px以下の大規模で一貫した画像をレンダリングできることを見出すことができた．
さらに，Cross-Attentionに基づく汎用的な条件付け機構を設計し，マルチモーダルな訓練を可能にする．これを用いて，クラス条件付けモデル，テキストから画像への変換モデル，レイアウトから画像への変換モデルを訓練する．
最後に，訓練済みの潜在拡散モデルと自動符号化モデルをhttps://github.com/CompVis/latent-diffusionで公開し，DMの訓練以外にも様々なタスクに再利用できる可能性がある[81]．

2章：Related Work（関連研究）

画像合成のための生成モデル：

画像の高次元の性質は，生成的なモデリングに明確な課題を与える．

Generative Adversarial Networks（GANs）[27]は，高解像度の画像を効率よくサンプリングすることができ，知覚的品質も高いが[3, 42]，最適化が難しく[2, 28, 54]，データ分布を完全に把握することが難しい[55]．

一方，尤度ベースの手法は，密度推定を重視するため，最適化がより適切に行われる．

変分オートエンコーダ（VAEs：Variational AutoEncoders）[46]やフローベースモデル[18, 19]は，高解像度画像の効率的な合成を可能にするが[9, 44, 92]，サンプル品質はGANと同程度ではない．

自己回帰モデル（ARMs：AutoRegressive Models）[6, 10, 94, 95]は密度推定で高い性能を発揮するが，計算量の多いアーキテクチャ[97]と連続したサンプリング処理により，低解像度画像に限られる．

画像のピクセルベースの表現には，ほとんど知覚できない高周波の詳細が含まれているため[16, 73]，最尤訓練はそれらのモデル化に不釣り合いな量の容量を費やし，結果として訓練時間が長くなってしまう．

より高い解像度に対応するため，いくつかの2段階アプローチ[23, 67, 101, 103]では，ARMを使用して，生のピクセルではなく，圧縮された潜在画像空間をモデル化している．

最近，拡散確率モデル（DMs：Diffusion Probabilistic Models）[82]は，密度推定[45]やサンプル品質[15]で最先端の結果を達成している．

これらのモデルの生成力は，その基礎となるニューラルバックボーンがUNetとして実装されている場合に，画像のようなデータの帰納的バイアスに自然に適合することに由来する[15, 30, 71, 85]．

最良の合成品質は，通常，再重み付けされた目的関数[30]を訓練に使用したときに達成される．

この場合，DMは非可逆圧縮機に相当し，画質と圧縮能力を交換することができる．

しかし，ピクセル空間でこれらのモデルを評価し最適化することは，推論速度が低く，訓練コストが非常に高いという欠点がある．

前者は高度なサンプリング戦略[47, 75, 84]や階層的アプローチ[31, 93]によって部分的に対処できるが，高解像度画像データでの訓練には常に高価な勾配を計算することが必要となる．

※訳注：原文のadressedはaddressedの間違い．

我々は，低次元の圧縮された潜在空間上で動作するLDMを提案し，この2つの欠点に対処する．

※訳注：原文のadressはaddressの間違い．

これにより，合成の品質をほとんど落とさずに，訓練の計算量を減らし，推論を高速化することができる（図1参照）．

二段式画像合成：

個々の生成アプローチの欠点を軽減するために，多くの研究[11, 23, 67, 70, 101, 103]が，異なる手法の長所を組み合わせて，2段階のアプローチによってより効率的で性能の高いモデルにすることに取り組んできた．

VQ-VAE[67, 101]は，自己回帰モデルを用いて，離散化された潜在空間に対するexpressive priorを学習する．

[66]は，離散化された画像とテキスト表現に対する共同分布を学習することで，このアプローチをテキストから画像への生成に拡張している．

※訳注：原文のextendはextends，distributationはdistributionの間違い．

より一般的には，[70]が条件付き反転ネットワークを用いて，多様なドメインの潜在空間の間の汎用的な転送を提供している．

VQ-VAEとは異なり，VQGAN[23, 103]は，自己回帰Transformerをより大きな画像に拡大するために，敵対的かつ知覚的な目的関数を持つ第1段階を採用している．

しかし，実現可能なARM訓練に必要な高い圧縮率は，何十億もの訓練可能なパラメータを導入するため[23, 66]，このようなアプローチの全体的な性能を制限し，より少ない圧縮は高い計算コストと引き換えになる[23, 66]．

我々の提案するLDMは，その畳み込みバックボーンにより，より高次元の潜在空間に対してより優しくスケールするため，このようなトレードオフを防ぐことができる．

したがって，我々は，高忠実度の再構成を保証しながら，生成拡散モデルにあまり知覚的圧縮を委ねることなく，強力な第1段階の学習を最適に仲介する圧縮のレベルを自由に選択できる（図1参照）．

score-based priorとともに符号化・復号化モデルを学習するアプローチ[93]や個別学習するアプローチ[80]が存在するが，前者は再構成能力と生成能力の間の難しい重み付けを必要とし[11]，我々のアプローチ（4章）に劣り，後者は人間の顔などの高度な構造の画像に焦点を当てている．

3章：Method（方法）

高解像度画像合成のために拡散モデルを訓練する際の計算量を減らすために，拡散モデルは対応する損失項をアンダーサンプリングすることで知覚的に無関係な細部を無視することができる[30]．

しかし，ピクセル空間での高価な関数評価を必要とし，計算時間やエネルギー資源に大きな需要があることを確認した．

我々は，この欠点を回避するために，圧縮学習と生成学習を明示的に分離することを提案する（図2参照）．

これを実現するために，画像空間と知覚的に等価な空間を学習する自動エンコードモデルを利用するが，計算量を大幅に削減することができる．

このようなアプローチにはいくつかの利点がある．

高次元の画像空間から離れることで，低次元の空間上でサンプリングが行われるため，計算効率が非常に高いDMを得ることができる．
UNetアーキテクチャ[71]に由来するDMの帰納的バイアスを利用し，空間構造を持つデータに対して特に有効であるため，従来のアプローチ[23, 66]で必要とされた積極的で品質を下げる圧縮レベルの必要性が緩和される．
最後に，潜在空間が複数の生成モデルの訓練に使用でき，単一画像CLIPガイド付き合成[25]などの他の下流アプリケーションに利用できる汎用圧縮モデルを得ることができる．

3.1節：Perceptual Image Compression（知覚的画像圧縮）

我々の知覚圧縮モデルは，先行研究[23]に基づいており，知覚損失[106]とパッチベース[33]の敵対的目的関数[20, 23, 103]を組み合わせて訓練したオートエンコーダで構成されている．

これにより，局所的なリアリズムを強制することで再構成が画像多様体に限定されることを保証し，$L_2$や$L_1$目的関数などのピクセル空間損失のみに依存することで生じる「blurriness」（ぼやけ）を回避している．

※訳注：原文のblurinessはblurrinessの間違い．

より正確には，RGB空間の画像$x \in \mathbb{R}^{H*W*3}$が与えられたとき，エンコーダ$\mathcal{E}$はxを潜在表現$z = \mathcal{E}(x)$に符号化し，デコーダ$\mathcal{D}$は潜在から画像を再構成し，$\tilde{x} = \mathcal{D}(z) = \mathcal{D}(\mathcal{E}(x))$を与える．

ここで，$z \in \mathbb{R}^{h*w*c}$である．

重要なのは，エンコーダが画像を係数$f=H/h=W/w$でダウンサンプリングすることであり，我々は異なるダウンサンプリング係数$f=2^m$，$m \in \mathbb{N}$を調査する．

任意に高変量な潜在空間を避けるために，我々は2つの異なる種類の正則化を実験した．

最初のバリエーションであるKL-reg.は，VAE[46, 69]と同様に，学習した潜在に対して標準正規形に対するわずかなKL-penaltyを課し，一方VQ-reg.はデコーダ内のベクトル量子化層[96]を使用する．

このモデルはVQGAN[23]と解釈できるが，量子化層がデコーダに吸収されている．

我々の後続のDMは，学習した潜在空間$z = \mathcal{E}(x)$の2次元構造を扱うように設計されているため，比較的穏やかな圧縮率を使用し，非常に優れた再構成を実現することができる．

これは，学習した空間zの分布を自己回帰的にモデル化するために，任意の1次元の順序に依存し，それによってzの固有の構造の多くを無視していた先行研究[23, 66]とは対照的である．

したがって，我々の圧縮モデルはxの詳細をよりよく保存している（表8参照）．

完全な目的関数および訓練の詳細については，付録を参照されたい．

3.2節：Latent Diffusion Models（潜在拡散モデル）

拡散モデル[82]は，正規分布の変数を徐々にノイズ除去することによってデータ分布p(x)を学習するように設計された確率的モデルであり，これは長さTの固定マルコフ連鎖の逆処理を学ぶことに相当する．

画像合成において，最も成功したモデル[15, 30, 72]は，p(x)の変分下界の再重み付けvariantに依存しており，これはノイズ除去スコアマッチング[85]を反映する．

これらのモデルは，等しく重み付けされた一連のノイズ除去オートエンコーダ$\epsilon_\theta(x_t, t); t = 1…T$として解釈できる．

$x_t$は入力xのノイズバージョンであり，入力$x_t$のノイズ除去されたvariantを予測するように訓練されている．

対応する目的関数は次のように単純化できる（付録B）．

$$ L_{DM} = \mathbb{E}_{x,\epsilon \sim \mathcal{N}(0, 1), t} \left[ || \epsilon - \epsilon_\theta (x_t, t) ||_2^2 \right] \tag{1}$$

tは$\{1, …, T\}$から一様にサンプリングされる．

潜在的表現の生成モデリング：

$\mathcal{E}$と$\mathcal{D}$からなる知覚圧縮モデルの訓練により，高周波数で知覚できない細部が抽象化された，効率的で低次元の潜在空間へのアクセスが可能になった．

この空間は，高次元の画素空間と比較して，尤度ベースの生成モデルに適している．

なぜなら，（i）データの重要な意味的ビットに焦点を当て，（ii）低次元で計算効率の高い空間で訓練することができるからである．

高度に圧縮された離散的な潜在空間における自己回帰的なAttentionベースの変換モデル[23, 66, 103]に依存した先行研究とは異なり，我々のモデルが提供する画像固有の誘導バイアスを利用することができる．

これには，主に2次元畳み込み層から基礎となるUNetを構築する能力が含まれる．

また，再重み付け境界を使用して知覚的に最も関連するビットに目的関数をさらに焦点を当てると，以下のようになる．

$$ L_{LDM} := \mathbb{E}_{\mathcal{E}(x),\epsilon \sim \mathcal{N}(0, 1), t} \left[ || \epsilon - \epsilon_\theta (z_t, t) ||_2^2 \right] $$

本モデルのニューラルバックボーン$\epsilon_\theta(\circ,t)$は，時間条件付きUNetとして実現されている[71]．

前進処理が固定されているため，訓練中に$\mathcal{E}$から$z_t$を効率的に得ることができ，p(z)からのサンプルは$\mathcal{D}$を一回通過するだけで画像空間に復号することができる．

3.3節：Conditioning Mechanisms（条件付きの仕組み）

他のタイプの生成モデル[56, 83]と同様に，拡散モデルは原理的にp(z|y)の形の条件付き分布をモデル化することが可能である．

これは条件付きノイズ除去オートエンコーダ$\epsilon_\theta(z_t, t, y)$で実装でき，テキスト[68]，意味マップ[33, 61]や他のImage-to-Image Translation（画像変換）タスク[34]などの入力yを通して合成処理を制御する道を開く．

しかし，画像合成の文脈では，クラスラベル[15]や入力画像の不鮮明な変形[72]以外の他のタイプの条件とDMの生成力を組み合わせることは，今のところ未開拓の研究分野である．

我々は，DMをより柔軟な条件付き画像生成器とするために，その基礎となるUNetバックボーンを，様々な入力モダリティのAttentionベースのモデルの学習に有効なCross-Attentionメカニズム[97]で補強している[35, 36]．

様々なモダリティ（言語プロンプトなど）からのyを前処理するために，我々は，yを中間表現$\tau_\theta (y) \in \mathbb{R}^{M * d_\tau}$に投影するドメイン固有のエンコーダ$\tau_\theta$を導入し，これを，$(Q, K, V) = {\rm softmax}\left( \frac{QK^T}{\sqrt{d}} \right) \cdot V$と実装するCross-Attention層を介してUNetの中間層へマップされる．

ここで，$Q = W_Q^{(i)} \cdot \varphi_i(z_t)$，$K = W_K^{(i)} \cdot \tau_\theta(y)$，$V = W_V^{(i)} \cdot \tau_\theta(y)$である．

また，$\varphi_i(z_t) \in \mathbb{R}^{N * d_\epsilon^i}$は$\epsilon_\theta$を実装したUNetの（平坦化された）中間表現を示し，$W_V^{(i)} \in \mathbb{R}^{d * d_\epsilon^i}$，$W_Q^{(i)} \in \mathbb{R}^{d * d_\tau}$，$W_K^{(i)} \in \mathbb{R}^{d * d_\tau}$は学習型射影行列 [36, 97] を示す．

視覚的な描写については，図3を参照されたい．

Stable Diffusion Figure3 — 図3：LDMの条件付けは，連結によって行うか，より一般的なCross-Attentionメカニズムによって行う（3.3節参照）．

画像-条件ペアに基づき，条件付きLDMを下式で学習する．

$$ L_{LDM} := \mathbb{E}_{\mathcal{E}(x), y, \epsilon \sim \mathcal{N}(0, 1), t} \left[ || \epsilon - \epsilon_\theta (z_t, t, \tau_\theta (y)) ||_2^2 \right] $$

ここで，$\tau_\theta$と$\epsilon_\theta$は式（3）により共同最適化される．

この条件付けメカニズムは柔軟であり，ドメイン固有のエキスパート，例えばyがテキストプロンプトの場合は（マスクされていない）Transformer[97]でパラメータ化できる（4.3.1項参照）．

4章：Experiments（実験）

LDMは，様々な画像モダリティの拡散に基づく画像合成のための柔軟で計算しやすい手段を提供し，我々はそれを以下のように実証的に示す．

まず，訓練と推論の両方において，ピクセルベースの拡散モデルと比較して，我々のモデルの利点を分析する．

興味深いことに，VQ正則化された潜在空間で訓練したLDMは，VQ正則化された第一段階モデルの再構成能力が連続モデルの再構成能力にわずかに及ばないにもかかわらず，より優れたサンプル品質を達成する場合があることがわかった（表8参照）．

LDM訓練における第一段階の正則化スキームの効果と，解像度$256^2$を超える汎化能力の視覚的比較は，付録D.1にある通りである．

付録E.2には，この章で紹介したすべての結果について，アーキテクチャ，実装，訓練，評価の詳細を列挙する．

4.1節：On Perceptual Compression Tradeoffs（知覚的圧縮のトレードオフについて）

本節では，異なるダウンサンプリングファクター$f \in \{1, 2, 4, 8, 16, 32\}$（LDM-fと略記，LDM-1はピクセルベースのDMに対応）を持つLDMの動作を分析する．

比較可能なテストフィールドを得るため，本節のすべての実験において，計算資源を単一のNVIDIA A100に固定し，すべてのモデルを同じステップ数，同じパラメータ数で訓練する．

Stable Diffusion Figure6 — 図6：ImageNetデータセットにおける，ダウンサンプリング係数fが異なるクラス条件付きLDMの2M訓練ステップにわたる訓練の分析．ピクセルベースのLDM-1は，より大きなダウンサンプリング係数を持つモデル（LDM-{4-16}）と比較して，大幅に大きな訓練時間を必要とする．LDM-32のように知覚的な圧縮が強すぎると，全体のサンプル品質が制限される．すべてのモデルは，同じ計算予算で単一のNVIDIA A100で訓練されている．100 DDIMステップ[84]と$\kappa = 0$で得られた結果．

表8は，本節で比較したLDMに用いた第一段階モデルのハイパーパラメータと再構成性能である．

図6は，ImageNet[12]データセットにおいて，クラス条件モデルを2Mステップで訓練させた場合の，訓練進度の関数としてのサンプル品質である．

※図4と図5は，図6の後に後述します．

我々は，（i）LDM-{1,2}のダウンサンプリング係数が小さいと訓練の進捗が遅くなり，（ii）fの値が大きすぎると，比較的少ない訓練ステップで忠実度が停滞することがわかった．

上記の分析結果（図1と図2）を再確認すると，これは，（i）知覚圧縮の大部分を拡散モデルに委ね，（ii）第一段階の圧縮が強すぎて情報損失が生じ，達成可能な品質が制限されるためであると考えられる．

LDM-{4-16}は，効率と知覚に忠実な結果のバランスが取れており，2M訓練ステップ後のピクセルベース拡散（LDM-1）とLDM-8の間のFID[29]ギャップが38と大きく開いていることがわかる．

Stable Diffusion Figure7 — 図7：CelebA-HQ（左）とImageNet（右）のデータセットで圧縮率を変化させたLDMを比較した．異なるマーカーは，DDIMを用いた{10, 20, 50, 100, 200}のサンプリングステップを，各線に沿って右から左へ示している．破線は200ステップのFIDスコアで，LDM-{4-8}の強力な性能を示している．5000サンプルで評価したFIDスコア．すべてのモデルは，A100で500k（CelebA）/2M（ImageNet）ステップの訓練を行った．

図7では，CelebAHQ[39]とImageNetで訓練したモデルを，DDIMサンプラー[84]を用いて異なるノイズ除去ステップ数のサンプリング速度で比較し，FID-スコア[29]に対してプロットしている．

LDM-{4-8}は，知覚的圧縮と概念的圧縮の比率が不適当なモデルを凌駕している．

特にピクセルベースのLDM-1と比較すると，サンプルのスループットを大幅に向上させると同時に，より低いFIDスコアを達成している．

ImageNetのような複雑なデータセットでは，品質を低下させないために圧縮率を下げる必要がある．

つまり，LDM-4と-8は，高品質な合成結果を得るための最適な条件を提供している．

4.2節：Image Generation with Latent Diffusion（潜在拡散を用いた画像生成）

Stable Diffusion Table1 — 表1：無条件画像合成の評価指標．CelebA-HQの結果は[43, 63, 100]から，FFHQは[42, 43]から再現された．†：N-sはDDIM[84]サンプラーによるN回のサンプリングステップを指す．*：KL正則化潜在空間で訓練．その他の結果は補足にある．

CelebA-HQ[39]，FFHQ[41]，LSUN-Churches and Bedrooms[102]の$256^2$画像の無条件モデルを訓練し，（i）FID[29]と（ii）Precision-and-Recall[50]を用いて，（i）サンプルの品質と（ii）データ多様体のカバー率を評価した．

※訳注：原文のii) FIDはi) FIDの間違い．

表1がその結果である．

CelebA-HQにおいて，我々は5.11という最新のFIDを報告し，これまでの尤度ベースモデルやGANを凌駕した．

また，潜在拡散モデルを第一段階と共同で訓練するLSGM[93]をも凌駕する．

一方，我々は拡散モデルを固定空間で訓練することで，再構成の品質と潜在空間上の事前訓練とを比較検討する難しさを回避している（図1～2参照）．

Stable Diffusion Figure4 — 図4：CelebAHQ[39]，FFHQ[41]，LSUN-Churches[102]，LSUN-Bedrooms[102]，クラス条件付きImageNet[12]で訓練したLDMのサンプル（それぞれ256*256の解像度を持つ）．拡大すると見やすくなる．その他のサンプルは，付録を参照されたい．

LSUN-Bedroomsデータセットを除くすべてのデータセットにおいて，先行する拡散ベースのアプローチを凌駕している．

ADM[15]の半分のパラメータを利用し，4倍の訓練リソースを必要とするにもかかわらず，ADM[15]に迫るスコアを達成した（付録E.3.5参照）．

さらに，LDMはGANベースの手法よりもPrecisionとRecallで一貫して向上しており，モードカバー尤度ベースの訓練目的関数が敵対的アプローチよりも優れていることが確認された．

図4では，各データセットの定性的な結果も示している．

4.3節：Conditional Latent Diffusion（条件付き潜在拡散）

4.3.1項：Transformer Encoders for LDMs（LDMs用Transformerエンコーダ）

Stable Diffusion Figure5 — 図5：LAION[78]データベースで訓練させたテキストから画像への合成モデルLDM-8（KL）によるユーザ定義テキストプロンプトのサンプル．200 DDIMステップ，$\eta = 1.0$で生成したサンプル．無条件ガイダンス[32]を用い，s = 10.0とした．

Stable Diffusion Figure8 — 図8：COCO[4]上のLDMによるレイアウトから画像への合成，4.3.1項参照．定量的な評価については，付録D.3.1で説明する．

Stable Diffusion Table2 — 表2：256 * 256サイズのMS-COCO[51]データセットにおける，テキスト条件付き画像合成の評価．250 DDIM[84]ステップで，我々のモデルは，大幅に少ないパラメータを使用しているにもかかわらず，最新の拡散[59]と自己回帰[26]の方法と同等であることがわかる．†/*：数値は[109]/[26]から引用．

LDMにCross-Attentionに基づく条件付けを導入することで，これまで拡散モデルで未開拓だった様々な条件付けの様式に対応できるようになる．

テキストから画像への（Text-to-Image）画像モデリングのために，LAION-400M [78]で言語プロンプトを条件とする1.45BパラメータのKL正則化LDMを訓練する．

BERT-tokenizer[14]を採用し，$\tau_\theta$をTransformer[97]として実装して，（Multi-Head）Cross-Attentionを介してUNetにマッピングされる潜在コードを推測する（3.3節）．

このように，言語表現の学習と視覚的合成のためのドメイン固有の専門家の組み合わせは，複雑なユーザ定義のテキストプロンプトによく汎化する強力なモデルをもたらす（図8と図5参照）．

定量的な分析については，先行研究に従い，MS-COCO[51]の検証セットでテキストから画像への生成を評価し，我々のモデルがAR[17, 66]やGANベース[109]の強力な手法より優れていることを確認した（表2参照）．

分類器を使わない拡散ガイダンス[32]を適用することで，LDM-KL-8-Gは，パラメータ数を大幅に削減しながら，テキストから画像への合成のための最近の最先端のAR[26]や拡散モデル[59]と同等であるように，サンプル品質を大幅に向上させていることに注意されたい．

Cross-Attentionベースの条件付けメカニズムの柔軟性をさらに分析するために，OpenImages[49]のセマンティックレイアウト（semantic layout）に基づく画像合成と，COCO[4]のファインチューニングを行うモデルも訓練した（図8参照）．

定量的な評価と実装の詳細については，付録D.3を参照されたい．

Stable Diffusion Table3 — 表3：クラス条件付きImageNet LDMと，ImageNetにおけるクラス条件付き画像生成のための最近の最先端手法との比較[12]．追加のベースラインとのより詳細な比較は，付録D.4，表10，付録Fにある．ここで，c.f.g.は，[32]で提案されたスケールsを用いた分類器なしガイダンス（classifier-free guidance）を示す．

最後に，先行研究[3, 15, 21, 23]に従い，4.1節の$f \in \{4, 8\}$で最も性能の良いクラス条件付き（class-conditional）ImageNetモデルを表3，図4，付録D.4で評価する．

ここでは，計算量とパラメータ数を大幅に削減しながら，最先端の拡散モデルADM[15]を凌駕する（表18参照）．

4.3.2項：Convolutional Sampling Beyond $256^2$（$256^2$を超える畳み込みサンプリング）

Stable Diffusion Figure9 — 図9：$256^2$の解像度で訓練したLDMは，風景画像の意味合成のような空間的に条件付けられたタスクに対して，より大きな解像度（ここでは512*1024）に汎化できる（4.3.2項参照）．

空間的に整列した条件付け情報を$\epsilon_\theta$の入力に連結することで，LDMは効率的な汎用の画像間変換モデルとして機能する．

これを用いて，意味合成，超解像（4.4節），インペインティング（4.5節）のモデルを訓練する．

意味合成では，意味マップ[23, 61]と対になった風景の画像を用い，意味マップのダウンサンプル版とf=4モデルの潜在画像表現を連結する（VQ-reg.，表8参照）．

入力解像度は$256^2$（$384^2$からクロップ）であるが，我々のモデルはより大きな解像度に汎化し，畳み込み方式で評価するとメガピクセル領域までの画像を生成できることがわかった（図9参照）．

この振る舞いを利用して，4.4節の超解像モデルと4.5節のインペインティングモデルを適用し，$512^2$から$1024^2$の間の大きな画像を生成することもできる．

このアプリケーションでは，（潜在空間のスケールによって引き起こされる）信号対ノイズ比が結果に大きく影響する．

付録D.1では，（i）f=4モデル（KL-reg.，表8参照）によって提供される潜在空間と，（ii）成分ごとの標準偏差でスケーリングされた再スケーリングバージョンでLDMを学習したときのことを説明する．

後者は，分類器不要のガイダンス[32]と組み合わせることで，図13のようにテキスト条件付きLDM-KL-8-Gに対して，$256^2$を超える画像を直接合成することも可能である．

4.4節：Super Resolution with Latent Diffusion（潜在拡散を利用した超解像）

Stable Diffusion Figure10 — 図10：ImageNet-ValでのImageNet 64->256超解像．LDM-SRはリアルなテクスチャの描画に優れているが，SR3はよりコヒーレントな微細構造の合成が可能である．追加のサンプルとクロップアウトについては，付録を参照されたい．SR3の結果は[72]による．

Stable Diffusion Table4 — 表4：タスク1：対象者は，グランドトゥルースと生成画像を見せられ，好みを尋ねられた．タスク2：対象者は2つの生成画像のどちらを選ぶか決定する必要があった．詳細は付録E.3.6に記載．

Stable Diffusion Table5 — 表5：ImageNet-Val.（$256^2$）に対するx4アップスケーリング結果．†：検証用分割で計算されたFID特徴量．‡：訓練分割で計算されたFID特徴量．*：NVIDIA A100で評価．

LDMは，連結によって低解像度画像に直接条件付けすることで，超解像のための訓練を効率的に行うことができる（3.3節参照）．

最初の実験では，SR3[72]に従い，画像劣化を4x-downsamplingによるバイキュービック補間に固定し，SR3のデータ処理パイプラインに従ってImageNetで訓練する．

OpenImagesで事前訓練したf = 4自動符号化モデル（VQ-reg.，表8参照）を使用し，低解像度条件付けyとUNetへの入力を連結する．

つまり$\tau_\theta$がアイデンティティ（同一）である．

定性的および定量的な結果（図10と表5参照）は，競争力のある性能を示し，LDM-SRはFIDにおいてSR3を上回り，SR3はISが優れていることがわかった．

単純な画像回帰モデルは，最高のPSNRとSSIMスコアを達成した．

しかし，これらの指標は人間の知覚[106]とあまりアラインメントせず，不完全にアラインメントされた高周波の詳細よりもぼやけが好まれる[72]．

さらに，ピクセルベースラインとLDM-SRを比較するユーザ調査を実施した．

SR3[72]に従い，2つの高解像度画像の間に低解像度画像を表示し，対象者に好みを聞いている．

その結果，表4では，LDM-SRの性能が高いことが確認できる．

PSNRとSSIMは，ポストホックガイドメカニズム[15]を使用することで押し上げることができ，我々はこの画像ベースのガイドを知覚的損失によって実装している（付録D.6参照）．

バイキュービック劣化処理は，この事前処理に従わない画像にはあまり汎化しないため，より多様な劣化を利用した汎用モデルLDM-BSRの訓練も行った．

その結果を付録D.6.1に示す．

4.5節：Inpainting with Latent Diffusion（潜在拡散を利用したインペインティング）

インペインティングとは，画像の一部が破損しているため，あるいは画像内の既存の望ましくないコンテンツを置き換えるために，画像のマスクされた領域を新しいコンテンツで埋めるタスクである．

我々は，条件付き画像生成のための我々の一般的なアプローチが，このタスクのためのより専門的で最先端のアプローチと比較してどうであるかを評価する．

我々の評価は，高速フーリエ変換[8]に依存する特殊なアーキテクチャを導入した最近のインペインティングモデルであるLaMa[88]のプロトコルに従っている．

Places[108]の正確な訓練と評価プロトコルは，付録E.2.2で説明されている．

Stable Diffusion Table6 — 表6：インペインティングの効率を評価する．†：GPU設定/バッチサイズの違いによる図7との乖離（参照：補足）．

まず，第一段階における異なる設計選択の効果を分析する．

特に，LDM-1（すなわちピクセルベースの条件付きDM）とLDM-4（KLおよびVQ正則化の両方），および第一段階に注意を払わないVQ-LDM-4（表8参照）のインペイント効率を比較する．

後者は高解像度でのデコードのためにGPUメモリを削減する．

比較のため，すべてのモデルでパラメータ数を固定している．

表6では，解像度$256^2$と$512^2$での訓練とサンプリングのスループット，1エポックあたりの総訓練時間（時間），6エポック後の検証分割でのFIDスコアが報告されている．

全体として，ピクセルベースと潜在ベースの拡散モデルの間で少なくとも2.7倍のスピードアップが見られ，同時にFIDスコアは少なくとも1.6倍向上していることが確認された．

Stable Diffusion Table7 — 表7：Places[108]のテスト画像からサイズ512x512の30kクロップに対するインペインティング性能の比較．40～50%の列は，画像領域の40～50%をインペイントする必要がある難しい例で計算されたメトリクスを報告している．[88]で使用されたオリジナルのテストセットが入手できなかったため，†は我々のテストセットで再計算された．

表7では，他のインペインティングアプローチと比較していて，Attentionありの我々のモデルが，[88]のものよりFIDで測定される全体的な画像品質を改善することを示している．

マスクなし画像と我々のサンプルの間のLPIPSは，[88]のものよりわずかに高い．

これは，[88]が単一の結果しか出さず，我々のLDM（図21参照）の多様な結果と比較して，平均的な画像をより多く回復する傾向があるためであると考えられる．

さらに，ユーザ調査（表4）では，対象者は[88]の結果よりも我々の結果を支持している．

これらの初期結果に基づき，我々はまた，より大きな拡散モデル（表7のbig）を，AttentionのないVQ-regularized第一段階の潜在空間で訓練した．

この拡散モデルのUNetは，[15]に従い，特徴階層の3つのレベルにAttention層を用い，アップ・ダウンサンプリングにBigGAN[3]残差ブロックを用い，215Mではなく387Mのパラメータを持っている．

訓練後，解像度$256^2$と$512^2$で生成されたサンプルの品質に不一致があることに気づいたが，これは追加されたAttentionモジュールが原因であると推測される．

しかし，解像度$512^2$で半エポック分のファインチューニングを行うことで，モデルが新しい特徴統計量に適応し，画像インペインティングに関する新しい状態のFIDを設定することができた（表7，図11のbig，w/o attn，w/ ft）．

※訳注：原文のw/o attnはwithout attention（Attentionなし），w/ftはwith fine-tuning（ファインチューニングあり）の略．

Stable Diffusion Figure11 — 図11：我々のbig，w/ftのインペインティングモデルによるオブジェクト除去の定性的結果．より詳細な結果については，図22を参照されたい．

5章：Limitations & Societal Impact（制限と社会的インパクト）

制限：

LDMは，ピクセルベースのアプローチと比較して計算量を大幅に削減することができるが，そのシーケンシャルサンプリング処理はGANよりも遅い．

また，高精度が要求される場合には，LDMの使用には疑問が残る．

f=4の自動符号化モデル（図1参照）では，画質の低下は非常に小さいものの，ピクセル空間でのきめ細かな正解率が求められるタスクでは，その再構成能力がボトルネックとなる可能性がある．

この点については，超解像モデル（4.4節）がすでにある程度制限されていると想定される．

社会的インパクト：

画像のようなメディアの生成モデルは，諸刃の剣である．

一方では，さまざまなクリエイティブなアプリケーションを可能にする．

特に，訓練と推論のコストを削減する我々のアプローチは，この技術へのアクセスを容易にし，その探求を民主化する可能性を持っている．

他方では，操作されたデータを作成し広めることや，誤情報やスパムを広めることが容易になることも意味している．

特に，画像の意図的な操作（「ディープフェイク」）は，この文脈でよく見られる問題であり，特に女性はその影響を不当に受けている[13, 24]．

生成モデルは訓練データを公開することも可能であり[5, 90]，そのデータが機密情報や個人情報を含み，明示的な同意なしに収集された場合は大きな懸念材料となる．

しかし，これが画像のDMにもどの程度適用されるかは，まだ十分に理解されていない．

最後に，深層学習モジュールは，データに既に存在するバイアスを再現したり悪化させたりする傾向がある[22, 38, 91]．

拡散モデルは，GANベースのアプローチなどよりもデータ分布の優れたカバレッジを達成するが，敵対的な訓練と尤度ベースの目的関数を組み合わせた我々の2段階のアプローチが，どの程度データを誤って表現するのかは，依然として重要な研究課題となっている．

深層生成モデルの倫理的考察についてのより一般的で詳細な議論については，例えば[13]を参照されたい．

6章：Conclusion（結論）

我々は，ノイズ除去拡散モデルの品質を低下させることなく，訓練効率とサンプリング効率の両方を大幅に改善する簡単で効率的な方法である潜在的拡散モデルを提案した．

これと我々のCross-Attentionの条件付けメカニズムに基づき，我々の実験は，タスク固有のアーキテクチャを持たない広範囲の条件付き画像合成タスクにおいて，最先端の手法と比較して好ましい結果を示すことができた．

References（参考文献）

※訳注：出版年の後に書いてある数字は，論文が引用されている原文のページ番号を意味します．

Eirikur Agustsson and Radu Timofte. NTIRE 2017 challenge on single image super-resolution: Dataset and study. In 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops, CVPR Workshops 2017, Honolulu, HI, USA, July 21-26, 2017, pages 1122–1131. IEEE Computer Society, 2017. 1
Martin Arjovsky, Soumith Chintala, and L´eon Bottou. Wasserstein gan, 2017. 3
Andrew Brock, Jeff Donahue, and Karen Simonyan. Large scale GAN training for high fidelity natural image synthesis. In Int. Conf. Learn. Represent., 2019. 1, 2, 7, 8, 22, 28
Holger Caesar, Jasper R. R. Uijlings, and Vittorio Ferrari. Coco-stuff: Thing and stuff classes in context. In 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, June 18- 22, 2018, pages 1209–1218. Computer Vision Foundation / IEEE Computer Society, 2018. 7, 20, 22
Nicholas Carlini, Florian Tramer, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Ulfar Erlingsson, et al. Extracting training data from large language models. In 30th USENIX Security Symposium (USENIX Security 21), pages 2633–2650, 2021. 9
Mark Chen, Alec Radford, Rewon Child, Jeffrey Wu, Heewoo Jun, David Luan, and Ilya Sutskever. Generative pretraining from pixels. In ICML, volume 119 of Proceedings of Machine Learning Research, pages 1691–1703. PMLR, 2020. 3
Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi, and William Chan. Wavegrad: Estimating gradients for waveform generation. In ICLR. OpenReview. net, 2021. 1
Lu Chi, Borui Jiang, and Yadong Mu. Fast fourier convolution. In NeurIPS, 2020. 8
Rewon Child. Very deep vaes generalize autoregressive models and can outperform them on images. CoRR, abs/2011.10650, 2020. 3
Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever. Generating long sequences with sparse transformers. CoRR, abs/1904.10509, 2019. 3
Bin Dai and David P.Wipf. Diagnosing and enhancing VAE models. In ICLR (Poster). OpenReview.net, 2019. 2, 3
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Fei-Fei Li. Imagenet: A large-scale hierarchical image database. In CVPR, pages 248–255. IEEE Computer Society, 2009. 1, 5, 7, 22
Emily Denton. Ethical considerations of generative ai. AI for Content Creation Workshop, CVPR, 2021. 9
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805, 2018. 7
Prafulla Dhariwal and Alex Nichol. Diffusion models beat gans on image synthesis. CoRR, abs/2105.05233, 2021. 1, 2, 3, 4, 6, 7, 8, 18, 22, 25, 26, 28
Sander Dieleman. Musings on typicality, 2020. 1, 3
Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, and Jie Tang. Cogview: Mastering text-to-image generation via transformers. CoRR, abs/2105.13290, 2021. 6, 7
Laurent Dinh, David Krueger, and Yoshua Bengio. Nice: Non-linear independent components estimation, 2015. 3
Laurent Dinh, Jascha Sohl-Dickstein, and Samy Bengio. Density estimation using real NVP. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017. 1, 3
Alexey Dosovitskiy and Thomas Brox. Generating images with perceptual similarity metrics based on deep networks. In Daniel D. Lee, Masashi Sugiyama, Ulrike von Luxburg, Isabelle Guyon, and Roman Garnett, editors, Adv. Neural Inform. Process. Syst., pages 658–666, 2016. 3
Patrick Esser, Robin Rombach, Andreas Blattmann, and Bj¨orn Ommer. Imagebart: Bidirectional context with multinomial diffusion for autoregressive image synthesis. CoRR, abs/2108.08827, 2021. 6, 7, 22
Patrick Esser, Robin Rombach, and Bj¨orn Ommer. A note on data biases in generative models. arXiv preprint arXiv:2012.02516, 2020. 9
Patrick Esser, Robin Rombach, and Bj¨orn Ommer. Taming transformers for high-resolution image synthesis. CoRR, abs/2012.09841, 2020. 2, 3, 4, 6, 7, 21, 22, 29, 34, 36
Mary Anne Franks and Ari Ezra Waldman. Sex, lies, and videotape: Deep fakes and free speech delusions. Md. L. Rev., 78:892, 2018. 9
Kevin Frans, Lisa B. Soros, and OlafWitkowski. Clipdraw: Exploring text-to-drawing synthesis through languageimage encoders. ArXiv, abs/2106.14843, 2021. 3
Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, and Yaniv Taigman. Make-a-scene: Scenebased text-to-image generation with human priors. CoRR, abs/2203.13131, 2022. 6, 7, 16
Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, DavidWarde-Farley, Sherjil Ozair, Aaron C. Courville, and Yoshua Bengio. Generative adversarial networks. CoRR, 2014. 1, 2
Ishaan Gulrajani, Faruk Ahmed, Martin Arjovsky, Vincent Dumoulin, and Aaron Courville. Improved training of wasserstein gans, 2017. 3
Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium. In Adv. Neural Inform. Process. Syst., pages 6626– 6637, 2017. 1, 5, 26
Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020. 1, 2, 3, 4, 6, 17
Jonathan Ho, Chitwan Saharia, William Chan, David J. Fleet, Mohammad Norouzi, and Tim Salimans. Cascaded diffusion models for high fidelity image generation. CoRR, abs/2106.15282, 2021. 1, 3, 22
Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. In NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications, 2021. 6, 7, 16, 22, 28, 37, 38
Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, pages 5967–5976. IEEE Computer Society, 2017. 3, 4
Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-to-image translation with conditional adversarial networks. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5967–5976, 2017. 4
Andrew Jaegle, Sebastian Borgeaud, Jean-Baptiste Alayrac, Carl Doersch, Catalin Ionescu, David Ding, Skanda Koppula, Daniel Zoran, Andrew Brock, Evan Shelhamer, Olivier J. H´enaff, Matthew M. Botvinick, Andrew Zisserman, Oriol Vinyals, and Jo˜ao Carreira. Perceiver IO: A general architecture for structured inputs &outputs. CoRR, abs/2107.14795, 2021. 4
Andrew Jaegle, Felix Gimeno, Andy Brock, Oriol Vinyals, Andrew Zisserman, and Jo˜ao Carreira. Perceiver: General perception with iterative attention. In Marina Meila and Tong Zhang, editors, Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event, volume 139 of Proceedings of Machine Learning Research, pages 4651–4664. PMLR, 2021. 4, 5
Manuel Jahn, Robin Rombach, and Bj¨orn Ommer. Highresolution complex scene synthesis with transformers. CoRR, abs/2105.06458, 2021. 20, 22, 27
Niharika Jain, Alberto Olmo, Sailik Sengupta, Lydia Manikonda, and Subbarao Kambhampati. Imperfect imaganation: Implications of gans exacerbating biases on facial data augmentation and snapchat selfie lenses. arXiv preprint arXiv:2001.09528, 2020. 9
Tero Karras, Timo Aila, Samuli Laine, and Jaakko Lehtinen. Progressive growing of gans for improved quality, stability, and variation. CoRR, abs/1710.10196, 2017. 5, 6
Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In IEEE Conf. Comput. Vis. Pattern Recog., pages 4401– 4410, 2019. 1
T. Karras, S. Laine, and T. Aila. A style-based generator architecture for generative adversarial networks. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019. 5, 6
Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. CoRR, abs/1912.04958, 2019. 2, 6, 28
Dongjun Kim, Seungjae Shin, Kyungwoo Song, Wanmo Kang, and Il-Chul Moon. Score matching model for unbounded data score. CoRR, abs/2106.05527, 2021. 6
Durk P Kingma and Prafulla Dhariwal. Glow: Generative flow with invertible 1x1 convolutions. In S. Bengio, H.Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, 2018. 3
Diederik P. Kingma, Tim Salimans, Ben Poole, and Jonathan Ho. Variational diffusion models. CoRR, abs/2107.00630, 2021. 1, 3, 16
Diederik P. Kingma and MaxWelling. Auto-Encoding Variational Bayes. In 2nd International Conference on Learning Representations, ICLR, 2014. 1, 3, 4, 29
Zhifeng Kong and Wei Ping. On fast sampling of diffusion probabilistic models. CoRR, abs/2106.00132, 2021. 3
Zhifeng Kong, Wei Ping, Jiaji Huang, Kexin Zhao, and Bryan Catanzaro. Diffwave: A versatile diffusion model for audio synthesis. In ICLR. OpenReview.net, 2021. 1
Alina Kuznetsova, Hassan Rom, Neil Alldrin, Jasper R. R. Uijlings, Ivan Krasin, Jordi Pont-Tuset, Shahab Kamali, Stefan Popov, Matteo Malloci, Tom Duerig, and Vittorio Ferrari. The open images dataset V4: unified image classification, object detection, and visual relationship detection at scale. CoRR, abs/1811.00982, 2018. 7, 20, 22
Tuomas Kynk¨a¨anniemi, Tero Karras, Samuli Laine, Jaakko Lehtinen, and Timo Aila. Improved precision and recall metric for assessing generative models. CoRR, abs/1904.06991, 2019. 5, 26
Tsung-Yi Lin, Michael Maire, Serge J. Belongie, Lubomir D. Bourdev, Ross B. Girshick, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C. Lawrence Zitnick. Microsoft COCO: common objects in context. CoRR, abs/1405.0312, 2014. 6, 7, 27
Yuqing Ma, Xianglong Liu, Shihao Bai, Le-Yi Wang, Aishan Liu, Dacheng Tao, and Edwin Hancock. Region-wise generative adversarial imageinpainting for large missing areas. ArXiv, abs/1909.12507, 2019. 9
Chenlin Meng, Yang Song, Jiaming Song, Jiajun Wu, Jun- Yan Zhu, and Stefano Ermon. Sdedit: Image synthesis and editing with stochastic differential equations. CoRR, abs/2108.01073, 2021. 1
Lars M. Mescheder. On the convergence properties of GAN training. CoRR, abs/1801.04406, 2018. 3
Luke Metz, Ben Poole, David Pfau, and Jascha Sohl- Dickstein. Unrolled generative adversarial networks. In 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. OpenReview.net, 2017. 3
Mehdi Mirza and Simon Osindero. Conditional generative adversarial nets. CoRR, abs/1411.1784, 2014. 4
Gautam Mittal, Jesse H. Engel, Curtis Hawthorne, and Ian Simon. Symbolic music generation with diffusion models. CoRR, abs/2103.16091, 2021. 1
Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, and Mehran Ebrahimi. Edgeconnect: Generative image inpainting with adversarial edge learning. ArXiv, abs/1901.00212, 2019. 9
Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models. CoRR, abs/2112.10741, 2021. 6, 7, 16
Anton Obukhov, Maximilian Seitzer, Po-Wei Wu, Semen Zhydenko, Jonathan Kyl, and Elvis Yu-Jing Lin. High-fidelity performance metrics for generative models in pytorch, 2020. Version: 0.3.0, DOI: 10.5281/zenodo. 4957738. 26, 27
Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu. Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019. 4, 7
Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun- Yan Zhu. Semantic image synthesis with spatially-adaptive normalization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. 22
Gaurav Parmar, Dacheng Li, Kwonjoon Lee, and Zhuowen Tu. Dual contradistinctive generative autoencoder. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, June 19-25, 2021, pages 823–832. Computer Vision Foundation / IEEE, 2021. 6
Gaurav Parmar, Richard Zhang, and Jun-Yan Zhu. On buggy resizing libraries and surprising subtleties in fid calculation. arXiv preprint arXiv:2104.11222, 2021. 26
David A. Patterson, Joseph Gonzalez, Quoc V. Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David R. So, Maud Texier, and Jeff Dean. Carbon emissions and large neural network training. CoRR, abs/2104.10350, 2021. 2
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. CoRR, abs/2102.12092, 2021. 1, 2, 3, 4, 7, 21, 27
Ali Razavi, A¨aron van den Oord, and Oriol Vinyals. Generating diverse high-fidelity images with VQ-VAE-2. In NeurIPS, pages 14837–14847, 2019. 1, 2, 3, 22
Scott E. Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, and Honglak Lee. Generative adversarial text to image synthesis. In ICML, 2016. 4
Danilo Jimenez Rezende, Shakir Mohamed, and Daan Wierstra. Stochastic backpropagation and approximate inference in deep generative models. In Proceedings of the 31st International Conference on International Conference on Machine Learning, ICML, 2014. 1, 4, 29
Robin Rombach, Patrick Esser, and Bj¨orn Ommer. Network-to-network translation with conditional invertible neural networks. In NeurIPS, 2020. 3
Olaf Ronneberger, Philipp Fischer, and Thomas Brox. Unet: Convolutional networks for biomedical image segmentation. In MICCAI (3), volume 9351 of Lecture Notes in Computer Science, pages 234–241. Springer, 2015. 2, 3, 4
Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J. Fleet, and Mohammad Norouzi. Image super-resolution via iterative refinement. CoRR, abs/2104.07636, 2021. 1, 4, 8, 16, 22, 23, 27
Tim Salimans, Andrej Karpathy, Xi Chen, and Diederik P. Kingma. Pixelcnn++: Improving the pixelcnn with discretized logistic mixture likelihood and other modifications. CoRR, abs/1701.05517, 2017. 1, 3
Dave Salvator. NVIDIA Developer Blog. https://developer.nvidia.com/blog/getting-immediate-speedups-with-a100-tf32, 2020. 28
Robin San-Roman, Eliya Nachmani, and Lior Wolf. Noise estimation for generative diffusion models. CoRR, abs/2104.02600, 2021. 3
Axel Sauer, Kashyap Chitta, Jens M¨uller, and Andreas Geiger. Projected gans converge faster. CoRR, abs/2111.01007, 2021. 6
Edgar Sch¨onfeld, Bernt Schiele, and Anna Khoreva. A unet based discriminator for generative adversarial networks. In 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13-19, 2020, pages 8204–8213. Computer Vision Foundation / IEEE, 2020. 6
Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev, and Aran Komatsuzaki. Laion- 400m: Open dataset of clip-filtered 400 million image-text pairs, 2021. 6, 7
Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. In Yoshua Bengio and Yann LeCun, editors, Int. Conf. Learn. Represent., 2015. 29, 43, 44, 45
Abhishek Sinha, Jiaming Song, Chenlin Meng, and Stefano Ermon. D2C: diffusion-denoising models for few-shot conditional generation. CoRR, abs/2106.06819, 2021. 3
Charlie Snell. Alien Dreams: An Emerging Art Scene. ttps://ml.berkeley.edu/blog/posts/clip-art/, 2021. [Online; accessed November-2021]. 2
※訳注：ttps://ml.berkeley.edu/blog/posts/clip-art/はデッドリンクで，現在はhttps://clipart-library.com/berkeley-cliparts.htmlになります．
Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. CoRR, abs/1503.03585, 2015. 1, 3, 4, 18
Kihyuk Sohn, Honglak Lee, and Xinchen Yan. Learning structured output representation using deep conditional generative models. In C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 28. Curran Associates, Inc., 2015. 4
Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. In ICLR. OpenReview.net, 2021. 3, 5, 6, 22
Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Scorebased generative modeling through stochastic differential equations. CoRR, abs/2011.13456, 2020. 1, 3, 4, 18
Emma Strubell, Ananya Ganesh, and Andrew McCallum. Energy and policy considerations for modern deep learning research. In The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, February 7-12, 2020, pages 13693–13696. AAAI Press, 2020. 2
Wei Sun and Tianfu Wu. Learning layout and style reconfigurable gans for controllable image synthesis. CoRR, abs/2003.11571, 2020. 22, 27
Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor S. Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. ArXiv, abs/2109.07161, 2021. 8, 9, 26, 32
Tristan Sylvain, Pengchuan Zhang, Yoshua Bengio, R. Devon Hjelm, and Shikhar Sharma. Object-centric image generation from layouts. In Thirty-Fifth AAAI Conference on Artificial Intelligence, AAAI 2021, Thirty-Third Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, EAAI 2021, Virtual Event, February 2-9, 2021, pages 2647–2655. AAAI Press, 2021. 20, 22, 27
Patrick Tinsley, Adam Czajka, and Patrick Flynn. This face does not exist… but it might be yours! identity leakage in generative models. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 1320–1328, 2021. 9
Antonio Torralba and Alexei A Efros. Unbiased look at dataset bias. In CVPR 2011, pages 1521–1528. IEEE, 2011. 9
Arash Vahdat and Jan Kautz. NVAE: A deep hierarchical variational autoencoder. In NeurIPS, 2020. 3
Arash Vahdat, Karsten Kreis, and Jan Kautz. Scorebased generative modeling in latent space. CoRR, abs/2106.05931, 2021. 2, 3, 5, 6
Aaron van den Oord, Nal Kalchbrenner, Lasse Espeholt, koray kavukcuoglu, Oriol Vinyals, and Alex Graves. Conditional image generation with pixelcnn decoders. In Advances in Neural Information Processing Systems, 2016. 3
A¨aron van den Oord, Nal Kalchbrenner, and Koray Kavukcuoglu. Pixel recurrent neural networks. CoRR, abs/1601.06759, 2016. 3
A¨aron van den Oord, Oriol Vinyals, and Koray Kavukcuoglu. Neural discrete representation learning. In NIPS, pages 6306–6315, 2017. 2, 4, 29
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017. 3, 4, 5, 7
Rivers Have Wings. Tweet on Classifier-free guidance for autoregressive models. https://twitter.com/RiversHaveWings/status/1478093658716966912, 2022. 6
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R´emi Louf, Morgan Funtowicz, and Jamie Brew. Huggingface’s transformers: State-of-the-art natural language processing. CoRR, abs/1910.03771, 2019. 26
Zhisheng Xiao, Karsten Kreis, Jan Kautz, and Arash Vahdat. VAEBM: A symbiosis between variational autoencoders and energy-based models. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net, 2021. 6
Wilson Yan, Yunzhi Zhang, Pieter Abbeel, and Aravind Srinivas. Videogpt: Video generation using VQ-VAE and transformers. CoRR, abs/2104.10157, 2021. 3
Fisher Yu, Yinda Zhang, Shuran Song, Ari Seff, and Jianxiong Xiao. LSUN: construction of a large-scale image dataset using deep learning with humans in the loop. CoRR, abs/1506.03365, 2015. 5
Jiahui Yu, Xin Li, Jing Yu Koh, Han Zhang, Ruoming Pang, James Qin, Alexander Ku, Yuanzhong Xu, Jason Baldridge, and Yonghui Wu. Vector-quantized image modeling with improved vqgan, 2021. 3, 4
Jiahui Yu, Zhe L. Lin, Jimei Yang, Xiaohui Shen, Xin Lu, and Thomas S. Huang. Free-form image inpainting with gated convolution. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 4470–4479, 2019. 9
K. Zhang, Jingyun Liang, Luc Van Gool, and Radu Timofte. Designing a practical degradation model for deep blind image super-resolution. ArXiv, abs/2103.14006, 2021. 23
Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 3, 8, 19
Shengyu Zhao, Jianwei Cui, Yilun Sheng, Yue Dong, Xiao Liang, Eric I-Chao Chang, and Yan Xu. Large scale image completion via co-modulated generative adversarial networks. ArXiv, abs/2103.10428, 2021. 9
Bolei Zhou, A` gata Lapedriza, Aditya Khosla, Aude Oliva, and Antonio Torralba. Places: A 10 million image database for scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40:1452–1464, 2018. 8, 9, 26
Yufan Zhou, Ruiyi Zhang, Changyou Chen, Chunyuan Li, Chris Tensmeyer, Tong Yu, Jiuxiang Gu, Jinhui Xu, and Tong Sun. LAFITE: towards language-free training for text-to-image generation. CoRR, abs/2111.13792, 2021. 6, 7, 16

Appendix（付録）

Stable Diffusion Figure12 — 図12：4.3.2項の意味風景モデルの畳み込みサンプル，$512^2$の画像でファインチューニングした．

Stable Diffusion Figure13 — 図13：分類器不要の拡散ガイダンスと4.3.2項の畳み込みサンプリング戦略を組み合わせることで，我々の1.45Bパラメータのテキストから画像へのモデルは，モデルが訓練されたネイティブ$256^2$解像度よりも大きな画像のレンダリングに使用することができる．

付録B：Detailed Information on Denoising Diffusion Models（ノイズ除去拡散モデルの詳細情報）

拡散モデルは，データサンプル$x_0$からスタートして，前方拡散処理qを次のように定義するシーケンス$(\alpha_t)_{t=1}^T$および$(\sigma_t)_{t=1}^T$からなる信号対ノイズ比$SNR(t) = \frac{\alpha_t^2}{\sigma_t^2}$で指定することができる．

$$ q(x_t | x_0) = \mathcal{N} (x_t | \alpha_t x_0, \sigma_t^2 \two) $$

以下を用いて，s<tのマルコフ構造で表現する．

\begin{align*}
q(x_t | x_s) &= \mathcal{N} (x_t | \alpha_{t|s} x_s, \sigma_{t|s}^2 \two) \\
\alpha_{t|s} &= \frac{\alpha_t}{\alpha_s} \\
\sigma_{t|s}^2 &= \sigma_t^2 - \alpha_{t|s}^2 \sigma_s^2
\end{align*}

ノイズ除去拡散モデルは，この処理を時間的に逆行する同様のマルコフ構造で回帰する生成モデル$p(x_0)$であり，すなわち，以下のように規定される．

$$ p(x_0) = \int_z p(x_T) \prod_{t=1}^T p(x_{t-1} | x_t) $$

このモデルに関連する証拠下限（ELBO：Evidence Lower BOund）は，離散的な時間ステップで次のように分解される．

$$ -\log p(x_0) \leq \mathbb{KL} (q(x_T | x_0) | p(x_T)) + \sum_{t=1}^T \mathbb{E}_{q(x_t | x_0)} \mathbb{KL} (q(x_{t-1} | x_t, x_0)|p(x_{t-1} | x_t)) $$

事前分布$p(x_T)$は一般的に標準正規分布として選択され，ELBOの第1項は最終的な信号対ノイズ比SNR(T)にのみ依存する．

残りの項を最小化するために，$p(x_{t-1}|x_t)$をパラメータ化する一般的な選択は，真の事後分布$q(x_{t-1}|x_t, x_0)$の観点から指定するが，未知の$x_0$は現在のステップ$x_t$に基づく推定$x_\theta(x_t, t)$で置換することである．

これにより，[45]が得られる．

\begin{align*}
p(x_{t-1}|x_t) &:= q(x_{t-1}|x_t,x_\theta(x_t, t)) \\
&= \mathcal{N}(x_{t-1}|\mu_\theta (x_t, t), \sigma_{t|t-1}^2 \frac{\sigma_{t-1}^2}{\sigma_t^2} \two)
\end{align*}

ここで，平均は次のように表すことができる．

$$ \mu_\theta (x_t, t) = \frac{\alpha_{t|t-1} \sigma_{t-1}^2}{\sigma_t^2} x_t + \frac{\alpha_{t-1} \sigma_{t|t-1}^2 }{\sigma_t^2} x_\theta (x_t, t) $$

この場合，ELBOの合計が以下のように簡略化される．

\begin{align*}
& \sum_{t=1}^T \mathbb{E}_{q (x_t | x_0)} \mathbb{KL} (q(x_{t-1} | x_t, x_0) | p(x_{t-1}) \\
&= \sum_{t=1}^T \mathbb{E}_{\mathcal{N}(\epsilon | 0, \two) } \frac{1}{2} (SNR(t - 1) - SNR(t)) || x_0 - x_\theta (\alpha_t x_0 + \sigma_t \epsilon, t)||^2
\end{align*}

[30]に従い，再パラメータ化を行う．

$$ \epsilon_\theta (x_t, t) = (x_t - \alpha_t x_\theta (x_t, t)) / \sigma_t $$

再構成項をノイズ除去の目的関数として表現する．

$$ || x_0 - x_\theta (\alpha_t x_0 + \sigma_t \epsilon, t)||^2 = \frac{\sigma_t^2}{\alpha_t^2} || \epsilon - \epsilon_\theta (\alpha_t x_0 + \sigma_t \epsilon, t)||^2 $$

各項を同じ重さにする再重量化により，式（1）となる．

付録C：Image Guiding Mechanisms（画像ガイドのメカニズム）

拡散モデルの興味深い特徴は，無条件モデルがテスト時に条件付けできることである[15, 82, 85]．

特に，[15]では，拡散処理の各$x_t$で訓練した分類器$\log p_\Phi (y|x_t)$を用いてImageNetデータセットで訓練した無条件モデルと条件モデルの両方をガイドするアルゴリズムが示された．

この定式化に直接基づいて，ポストホックイメージガイドを導入する．

固定分散を持つ$\epsilon$-パラメータ化されたモデルの場合，[15]で紹介されたガイドアルゴリズムは次のようになる．

$$ \hat{\epsilon} \leftarrow \epsilon_\theta (z_t, t) + \sqrt{1 - \alpha^2} \nabla_{z_t} \log p_\Phi (y | z_t) $$

これは，条件付き分布$\log p_\Phi (y|z_t)$で「スコア」$\epsilon_\theta$を補正するアップデートと解釈できる．

これまでのところ，このシナリオは単一クラスの分類モデルにしか適用されていない．

我々は，ガイド分布$p_\Phi (y|T (\mathcal{D}(z_0(z_t))))$を，ターゲット画像yを与えられた汎用画像間変換タスクとして再解釈する．

ここで，Tは，手元の画像間変換タスクに採用される任意の微分可能変換，例えばアイデンティティ，ダウンサンプリング操作または同様のものとすることができる．

例として，固定分散$\sigma^2=1$のガウシアンガイドを想定し，次のようにする．

$$ \log p_\Phi (y | z_t) = - \frac{1}{2} || y - T(\mathcal{D}(z_0(z_t)))||_2^2$$

上式はL2回帰の目的関数となる．

Stable Diffusion Figure14 — 図14：ランドスケープにおいて，無条件モデルを用いた畳み込みサンプリングは，ホモジニアスかつインコヒーレントなグローバル構造をもたらすことがある（2列目参照）．低解像度の画像で$L_2$-guidingを行うと，コヒーレントなグローバル構造を再確立することができる．
※訳注：2列目はおそらく表7のLPIPSの列の意味だと思います．

図14は，この定式化が，$256^2$の画像で訓練した無条件モデルのアップサンプリングメカニズムとして機能することを示す．

ここで，サイズ$256^2$の無条件サンプルは，$512^2$の画像の畳み込み合成をガイドし，Tは2バイキュービックダウンサンプリングである．

この動機に従って，我々は知覚的類似性ガイドの実験も行い，$L_2$目的関数をLPIPS[106]メトリックに置き換えた（4.5節参照）．

※訳注：原文の4.4節は4.5節の間違い．

付録D：Additional Results（追加結果）

付録D.1：Choosing the Signal-to-Noise Ratio for High-Resolution Synthesis（高解像度合成のための信号対ノイズ比の選択）

Stable Diffusion Figure15 — 図15：ここでは風景上の意味画像合成のために，畳み込みサンプリングにおける潜在空間再スケーリングの効果を説明する．4.3.2項と付録D.1を参照されたい．

4.3.2項で述べたように，潜在空間の分散によって引き起こされる信号対ノイズ比（すなわち$Var(z)/\sigma_t^2)$は，畳み込みサンプリングの結果に大きく影響する．

例えば，KL正則化モデルの潜在空間でLDMを直接訓練させた場合（表8参照），この比率は非常に高く，逆ノイズ処理の初期段階でモデルが多くの意味情報を割り当ててしまうようなものである．

一方，潜在空間を潜在の成分別標準偏差で再スケーリングすると（付録G参照），SNRは減少する．

図15に，意味画像合成のための畳み込みサンプリングへの影響を示す．

なお，VQ正則化された空間は分散が1に近いため，再スケーリングする必要がない．

付録D.2：Full List of all First Stage Models（すべての第一段階モデルの完全なリスト）

Stable Diffusion Table8 — 表8：OpenImagesで訓練したオートエンコーダZooをImageNet-Valで評価した．†はAttention-freeオートエンコーダを表す．

OpenImagesデータセットで訓練させた様々な自動認識モデルの完全なリストを表8に示す．

付録D.3：Layout-to-Image Synthesis（レイアウトから画像への合成）

Stable Diffusion Figure16 — 図16：OpenImagesデータセットで訓練し，COCOデータセットでファインチューニングした，レイアウトから画像への合成に最適なモデル「LDM-4」によるさらなるサンプル．100 DDIMステップ，$\eta = 0$で生成したサンプル．レイアウトはCOCO検証セットから．

Stable Diffusion Table9 — 表9：COCO[4]とOpenImages[49]データセットにおける我々のレイアウトから画像へのモデルの定量的比較．†：COCOでゼロから訓練．*：OpenImagesからファインチューニング．

ここでは，4.3.1項のレイアウトから画像へのモデルの定量的評価と追加サンプルを提供する．

COCO[4]とOpenImages[49]データセットでモデルを訓練し，その後，COCOで追加的にファインチューニングを行った．

表9はその結果である．

我々のCOCOモデルは，その訓練と評価プロトコル[89]に従った場合，レイアウトから画像への合成における最近の最先端モデルの性能に到達する．

OpenImagesモデルからファインチューニングした場合，これらの研究を凌駕する．

OpenImagesモデルは，Jahnら[37]の結果を，FIDの点でほぼ11のマージンで上回った．

図16では，COCO上でファインチューニングしたモデルの追加サンプルを示している．

付録D.4：Class-Conditional Image Synthesis on ImageNet（ImageNet上のクラス条件付き画像合成）

Stable Diffusion Table10 — 表10：ImageNet[12]データセットにおけるクラス条件付きImageNet LDMと最近のクラス条件付き画像生成のための最先端手法との比較．*：[67]で提案された，与えられた拒絶率での分類器拒絶サンプリング．

表10は，FIDとInception score（IS）で測定したクラス条件付きLDMの結果である．

LDM-8は，非常に競争力のある性能を達成するために，必要なパラメータと計算量を大幅に削減した（表18参照）．

先行研究と同様に，各ノイズスケールで分類器を訓練し，それを用いてガイドすることで，さらに性能を高めることができる（付録C参照）．

ピクセルベースの方法とは異なり，この分類器は潜在空間で非常に安価に訓練される．

その他の定性的な結果については，図26と図27を参照されたい．

付録D.5：Sample Quality vs. V100 Days (Continued from Sec. 4.1)（サンプルの品質とV100Daysの比較（4.1節より続く））

Stable Diffusion Figure17 — 図17：また，完全性を期すため，ImageNetデータセットにおけるクラス条件付きLDMの学習進捗を，35 V100日の固定数で報告する．100 DDIMステップ[84]と$\kappa = 0$で得られた結果．FIDは効率化のため，5000サンプルで計算した．

4.1節で訓練の進捗に伴うサンプルの品質評価として，FIDとISのスコアを訓練ステップの関数として報告した．

もう一つの可能性は，V100日の使用リソースに対してこれらのメトリクスを報告することである．

このような分析は，図17で追加的に提供され，定性的には同様の結果を示している．

付録D.6：Super-Resolution（超解像）

Stable Diffusion Table11 — 表11：ImageNet-Val.（$256^2$）に対するx4アップスケーリング結果．†：検証用分割で計算されたFID特徴量．‡：訓練分割で計算されたFID特徴量．また，LDM-4と同量の計算を受けるピクセル空間ベースラインを含む．最後の2行は，以前の結果と比較して，15エポックの追加訓練を受けたものである．

Stable Diffusion Figure20 — 図20：PixelspaceにおけるLDM-SRとベースライン拡散モデルの2つのランダムサンプルの定性的超解像比較．同じ量の訓練ステップを経て，imagenetの検証セットで評価された．
※訳注：原文のdiffusionmodelはdiffusion modelの間違い．

画素空間におけるLDMと拡散モデルの比較のために，表5の分析を拡張し，LDMと同じステップ数，同等のパラメータ数で訓練させた拡散モデルを比較することにした．

※拡散モデルは画素空間で動作するため，両者のアーキテクチャを正確に一致させることはできない．

この比較の結果は，表11の最後の2行に示されており，LDMがより良い性能を達成しながら，大幅に高速なサンプリングを可能にしていることが示されている．

定性的な比較は，ピクセル空間におけるLDMと拡散モデルの両方からのランダムなサンプルを示す図20に与えられる．

付録D.6.1：LDM-BSR: General Purpose SR Model via Diverse Image Degradation（LDM-BSR：多様な画像劣化を考慮した汎用SRモデル）

Stable Diffusion Figure18 — 図18：LDM-BSRは，任意の入力に対して汎化し，クラス条件付きLDM（図4の画像）からのサンプルを$1024^2$の解像度にアップスケーリングする，汎用アップサンプラーとして使用することが可能である．一方，固定的な劣化処理（4.4節参照）を用いると，汎化が損なわれる．

Stable Diffusion Figure19 — 図19：LDM-BSRは任意の入力に汎化し，汎用のアップサンプラーとして，LSUN-Cowsデータセットのサンプルを$1024^2$の解像度にアップスケーリングして使用することができる．

LDM-SRの汎化を評価するため，クラス条件付きImageNetモデル（4.1節）から得た合成LDMサンプルとインターネットからクローリングした画像の両方に適用した．

興味深いことに，[72]のように2次元的にダウンサンプリングした条件付けのみで訓練したLDM-SRは，この前処理を行わない画像にはうまく汎化しないことがわかる．

したがって，カメラノイズ，圧縮アーチファクト，ぼかし，補間などの複雑な重ね合わせを含む可能性のある，幅広い実世界画像の超解像モデルを得るために，LDM-SRのバイキュービックダウンサンプリング操作を[105]の劣化パイプラインと置き換える．

BSR劣化処理は，JPEG圧縮ノイズ，カメラセンサノイズ，ダウンサンプリング用の異なる画像補間，ガウシアンぼかしカーネル，ガウシアンノイズをランダムな順序で画像に適用する劣化パイプラインである．

[105]のようにオリジナルのパラメータでbsr-degredation処理を使用すると，非常に強い劣化処理になることがわかった．

我々のアプリケーションでは，より穏やかな劣化処理が適していると思われたため，bsr-degradationのパラメータを変更した（変更した劣化処理は，我々のコードベース（https://github.com/CompVis/latent-diffusion）に掲載されている）．

※訳注：原文のapppropirateはappropriateの間違い．

図18は，LDM-SRとLDM-BSRを直接比較することで，このアプローチの有効性を示している．

後者は，固定された事前処理に限定されたモデルよりもはるかに鮮明な画像を生成し，実世界でのアプリケーションに適している．

LDM-BSRのさらなる結果をLSUN-cowsで示したのが図19である．

付録E：Implementation Details and Hyperparameters（実装の詳細とハイパーパラメータ）

付録E.1：Hyperparameters（ハイパーパラメータ）

すべての訓練済みLDMモデルのハイパーパラメータの概要を，表12，表13，表14，表15に示す．

Stable Diffusion Table12 — 表12：表1に示した数値を生成する無条件LDMのハイパーパラメータ．すべてのモデルは1台のNVIDIA A100で訓練させた．

Stable Diffusion Table13 — 表13：4.1節の解析のためにImageNetデータセットで訓練した条件付きLDMのハイパーパラメータ．すべてのモデルはNVIDIA A100一台で訓練した．

Stable Diffusion Table14 — 表14：図7の解析のためにCelebAデータセットで訓練した無条件LDMのハイパーパラメータ．すべてのモデルは，単一のNVIDIA A100で訓練された．*：すべてのモデルは500k反復で訓練している．より早く収束した場合は，提供されたFIDスコアを評価するための最適なチェックポイントを使用した．

Stable Diffusion Table15 — 表15：4章の条件付きLDMのハイパーパラメータ．すべてのモデルは，8台のV100で訓練したインペインティングモデルを除き，1台のNVIDIA A100で訓練した．

付録E.2：Implementation Details（実装の詳細）

付録E.2.1：Implementations of $\tau_\theta$ for conditional LDMs（条件付きLDMのための$\tau_\theta$の実装）

テキストから画像，レイアウトから画像（4.3.1項）合成の実験では，条件器$\tau_\theta$を，入力yをトークン化して処理し，出力$\zeta := \tau_\theta(y)$，ここで$\zeta \in \mathbb{R}^{M*d_\tau}$で表現するマスクなしTransformerとして実装した．

より具体的には，このTransformerは，以下のように，グローバルSelf-Attention層，レイヤ正規化，位置毎のMLPからなるN個のTransformerブロックから実装される．

※https://github.com/lucidrains/x-transformersより引用．

\begin{align*}
& \zeta \leftarrow TokEmb(y) + PosEmb(y) \\
& for\ i = 1, ..., N: \\
& \ \ \ \ \zeta_1 \leftarrow LayerNorm(\zeta) \\
& \ \ \ \ \zeta_2 \leftarrow MultiHeadSelfAttention(\zeta_1) + \zeta \\
& \ \ \ \ \zeta_3 \leftarrow LayerNorm(\zeta_2) \\
& \ \ \ \ \zeta \leftarrow MLP(\zeta_3) + \zeta_2 \\
& \zeta \leftarrow LayerNorm(\zeta)
\end{align*}

Stable Diffusion Table16 — 表16：標準的な「ablated UNet」アーキテクチャ[15]のSelf-Attention層を置き換えた，付録E.2.1で説明したTransformerブロックのアーキテクチャ．ここで，$n_h$はAttention Headsの数を示し，dはHeadあたりの次元数を示す．

$\zeta$が利用できるようになると，図3に描かれているように，コンディショニングはCross-Attentionメカニズムを介してUNetにマッピングされる．

我々は，「ablated UNet」[15]アーキテクチャを変更し，Self-Attention層を，（i）Self-Attention層，（ii）位置毎のMLP，（iii）Cross-Attention層の交互層を持つTブロックからなる浅い（マスクされない）Transformerと置き換える（表16参照）．

なお，（ii）と（iii）がない場合，このアーキテクチャは「ablated UNet」と同等となる．

時間ステップtの条件付けを追加することで，$\tau_\theta$の表現力を高めることは可能であるが，推論速度を低下させるため，この選択は追求しない．

この修正についてのより詳細な分析は，今後の課題とする．

テキストから画像へのモデルでは，一般に公開されているトークナイザー[99]を利用する．

レイアウトから画像へのモデルは，バウンディングボックスの空間位置を離散化し，各ボックスを(l, b, c)-タプルで符号化する．

ここで，lは（離散）左上，bは右下の位置を表す．

クラス情報はcに含まれる．

Stable Diffusion Table17 — 表17：4.3節のTransformerエンコーダを用いた実験のハイパーパラメータ．

$\tau_\theta$のハイパーパラメータは表17，上記のタスク（訳注：表17のText-to-ImageとLayout-to-Imageのこと）の両方向けUNetのハイパーパラメータは表13を参照されたい．

なお，4.1節で述べたようなクラス条件付きモデルもCross-Attentionによって実装されており，$\tau_\theta$は，クラスyを$\zeta \in R^{1*512}$にマッピングする，次元数512の単一の学習可能埋め込み層である．

付録E.2.2：Inpainting（インペインティング）

Stable Diffusion Figure21 — 図21：画像のインペインティングに関する定性的な結果．[88]とは対照的に，我々の生成的アプローチでは，与えられた入力に対して複数の多様なサンプルを生成することができる．

Stable Diffusion Figure22 — 図22：図11と同様にオブジェクト除去に関するより定性的な結果．

4.5節の画像補間に関する実験では，[88]のコードを用いて合成マスクの生成を行った．

Places[108]の2kの検証用サンプルと30kのテスト用サンプルの固定セットを使用する．

訓練では，サイズ256 * 256のランダムなクロップを使用し，サイズ512 * 512のクロップで評価する．

これは[88]の訓練とテストのプロトコルに従ったもので，彼らの報告したメトリクスを再現している（表7の†参照）．

図21にLDM-4，w/attnの定性的な結果を，図22にLDM-4，w/o attn，big，w/ ftの定性的な結果を追加で掲載する．

付録E.3：Evaluation Details（評価の詳細）

本章では，4章で示した実験に対する評価について，さらに詳しく説明する．

付録E.3.1：Quantitative Results in Unconditional and Class-Conditional Image Synthesis（無条件およびクラス条件付き画像合成における定量的な結果）

我々は一般的な慣習に従い，我々のモデルから50kのサンプルと示された各データセットの全訓練セットに基づいて，表1および表10に示されたFID-，Precision-，Recall-スコア[29, 50]を計算するための統計量を推定する．

FIDスコアの計算にはtorch-fidelityパッケージ[60]を使用した．

しかし，データ処理パイプラインが異なると結果が異なる可能性があるため[64]，Dhariwal and Nichol[15]が提供するスクリプトで我々のモデルも評価した．

その結果，ImageNetとLSUN-Bedroomsデータセットでは，7.76（torch-fidelity） vs. 7.77（Nichol and Dhariwal）と，2.95 vs. 3.0という微妙に異なるスコアが得られた以外は，ほぼ一致した結果が得られた．

将来的には，サンプルの品質評価のための統一的な手順の重要性を強調する．

Precision and Recallは，Nichol and Dhariwalが提供したスクリプトを使用しても計算されている．

付録E.3.2：Text-to-Image Synthesis（テキストから画像への合成）

[66]の評価プロトコルに従い，生成されたサンプルをMS-COCOデータセット[51]の検証セットの30000サンプルと比較することで，表2のテキストから画像へのモデルのFIDとInception Scoreを算出した．

FIDとInception Scoreはtorch-fidelityで計算される．

付録E.3.3：Layout-to-Image Synthesis（レイアウトから画像への合成）

COCOデータセットにおける表9のレイアウトから画像へのモデルのサンプル品質を評価するために，一般的な手法[37, 87, 89]に従って，COCO Segmentation Challenge splitの2048個の未補正例を用いてFIDスコアを算出した．

より良い比較可能性を得るために，[37]と全く同じサンプルを使用している．

OpenImagesデータセットについても同様に，彼らのプロトコルに従い，検証セットから2048個の中央で切り取られたテスト画像を使用する．

付録E.3.4：Super Resolution（超解像）

超解像モデルの評価は，[72]で提案されたパイプラインに従ってImageNet上で行う．

すなわち，256px未満の短いサイズの画像は削除する（訓練と評価の両方で）．

ImageNetでは，低解像度画像はアンチエイリアスをかけたバイキュービック補間を用いて生成される．

FIDはtorch-fidelity[60]を用いて評価し，検証用分割でサンプルを作成する．

FIDのスコアについては，さらに訓練分割で計算された参照特徴量と比較する（表5と表11参照）．

付録E.3.5：Efficiency Analysis（効率性分析）

効率化のため，図6，図17，図7にプロットしたサンプル品質メトリクスは，5k個のサンプルに基づいて計算した．

そのため，結果は表1や表10で示したものと異なる場合がある．

すべてのモデルは，表13と表14で提供されているように，同程度の数のパラメータを持つ．

個々のモデルの学習率は，安定的に訓練できるように最大化している．

そのため，学習率は異なる実行毎にわずかに異なる（表13と表14参照）．

付録E.3.6：User Study（ユーザ調査）

表4に示したユーザ調査の結果については，[72]のプロトコルに従い，2つの異なるタスクに対する人間の好みスコアを評価するために，2-alternative force-choice paradigmを使用している．

Task-1では，対象者は，対応するグランドトゥルースの高解像度/非マスクバージョンの間の低解像度/マスクされた画像と，中央の画像を条件付けとして使用して生成された合成画像を見せられた．

超解像では，対象者は「2つの画像のうちどちらが真ん中の低解像度画像のより良い高画質版か?」と質問された．

インペインティングについては，「2つの画像のうち，どちらが真ん中の画像のよりリアルなインペイント領域を含んでいるか?」と質問された．

Task-2では，同様に低解像度/マスク版を人間に見せ，2つの競合する方法によって生成された2つの対応する画像から好みを尋ねた．

[72]と同様に，人間は3秒間画像を見てから回答した．

付録F：Computational Requirements（計算機の要件）

Stable Diffusion Table18 — 表18：最先端の生成モデルによる訓練時の計算量と推論スループットの比較．訓練時の計算量はV100-days，競合手法の数は特に断りのない限り[15]から引用した．*：スループットは，NVIDIA A100のサンプル数/秒で測定．†：数値は[15]から引用した．‡：25Mの訓練例で訓練されたと仮定される．††：R-FID vs. ImageNet検証セット．

表18では，使用した計算資源についてより詳細な分析を行い，CelebA-HQ，FFHQ，LSUN，ImageNetデータセットで最も性能の高いモデルを，最近の最先端モデルと比較した結果を掲載している（[15]参照）．

※訳注：原文のressourcesはresourcesの間違い．

また，NVIDIA A100 GPUですべてのモデルを訓練しているため，A100とV100の速度差を2.2倍と仮定し，A100日をV100日に変換している[74]．

※この係数は，[74]の図1で定義されているように，U-NetのV100に対するA100の高速化に相当する．

サンプルの品質を評価するため，報告されたデータセットのFIDスコアを追加で報告する．

我々は，必要な計算資源を大幅に削減しながら，StyleGAN2[42]やADM[15]といった最先端の手法の性能に近いものを実現している．

付録G：Details on Autoencoder Models（オートエンコーダモデルの詳細）

我々は，パッチベースの識別器$D_\psi$が，元画像と再構成画像$\mathcal{D}(\mathcal{E}(x))$を区別するように最適化されるように，[23]に従って，全てのオートエンコーダモデルを敵対的に訓練する．

任意にスケーリングされた潜在空間を避けるために，正則化損失項$L_{reg}$を導入することにより，潜在zをゼロセンター化し，小さな分散を得るよう正則化する．

我々は2つの異なる正則化方法を調査する．

$q_{\mathcal{E}} (z|x) = N(z; \mathcal{E}_\mu, \mathcal{E}_{\sigma^2})$と標準変分オートエンコーダ[46, 69]のように標準正規分布$\mathcal{N}(z; 0, 1)$との間の低重みのカルバック-ライブラー（KL：Kullback-Leibler）項
$|\mathcal{Z}|$個の異なる模範のコードブック[96]を学習して潜在空間をベクトル量子化層で正則化

高忠実度の再構成を得るために，両シナリオとも非常に小さな正則化しか使用していない．

すなわち，$\mathbb{KL}$項を係数$10^{-6}$以下で重み付けするか，コードブックの次元$|\mathcal{Z}|$を高く選ぶかである．

自動符号化モデルを訓練する完全な目的関数$(\mathcal{E}, \mathcal{D})$は，次のようになる．

$$L_{\rm Autoencoder} = \underset{\mathcal{E}, \mathcal{D}}{\min} \underset{\psi}{\max} \left( L_{rec} (x, (\mathcal{D}(\mathcal{E}(x))) - L_{adv} (\mathcal{D}(\mathcal{E}(x))) + \log D_\psi (x) + L_{reg} (x; \mathcal{E}, \mathcal{D}) \right) $$

潜在空間でのDM訓練：

学習した潜在空間上で拡散モデルを訓練するために，p(z)またはp(z|y)を学習する場合，再び2つのケースに区別されることに注意する（4.3節)．

（i）KL正則化された潜在空間に対して，$z = \mathcal{E}_\mu(x)+\mathcal{E}_\sigma(x) \cdot \epsilon =: \mathcal{E}(x)$をサンプルする．

ここで$\epsilon \sim \mathcal{N}(0, 1)$とする．

潜在を再スケーリングするとき，データ内の最初のバッチから成分ごとの分散を下式で推定する．

$$ \hat{\sigma}^2 = \frac{1}{bchw} \sum_{b,c,h,w} (z^{b,c,h,w} - \hat{\mu})^2 $$

ここで，$\hat{\mu}^2 = \frac{1}{bchw} \sum_{b,c,h,w} z^{b,c,h,w} $である．

$\mathcal{E}$の出力は，再スケーリングされた潜在が単位標準偏差を持つようにスケーリングされる．

すなわち，$z \leftarrow \frac{z}{\hat{\sigma}} = \frac{\mathcal{E}(x)}{\hat{\sigma}}$である．

（ii）VQ正則化された潜在空間では，量子化層の前にzを抽出し，量子化演算をデコーダに吸収させる．

すなわち$\mathcal{D}$の第1層と解釈することができる．

付録H：Additional Qualitative Results（追加の定性的結果）

最後に，ランドスケープモデル（図12，23，24，25），クラス条件付きImageNetモデル（図26～27），CelebA-HQ，FFHQ，LSUNデータセットの無条件モデル（図28～31）の定性的結果を追加で示す．

また，4.5節のインペインティングモデルと同様に，4.3.2項のセマンティックランドスケープモデルを$512^2$の画像で直接ファインチューニングし，図12と図23に定性的結果を示した．

また，比較的に小さなデータセットで訓練したモデルについて，VGG[79]特徴空間における最近傍を図32〜34に示す．

※訳注：図12は掲載済みなので，図23～34を掲載します．

Stable Diffusion Figure23 — 図23：4.3.2項の意味的風景モデルの畳み込みサンプル，$512^2$の画像でファインチューニングした．

Stable Diffusion Figure24 — 図24：$256^2$の解像度で学習したLDMは，風景画像の意味合成のような空間的に条件付けられたタスクでは，より大きな解像度に汎化できる（4.3.2項参照）．

Stable Diffusion Figure25 — 図25：意味マップを条件として与えた場合，我々のLDMは訓練中に見た解像度よりも大幅に大きな解像度に汎化する．このモデルは$256^2$サイズの入力で訓練されたが，ここに示すような解像度1024 * 384の高解像度サンプルの作成に使用することが可能である．

Stable Diffusion Figure26 — 図26：ImageNetデータセットで訓練されたLDM-4のランダムサンプル．分類器なしガイダンス[32]のスケールs = 5.0，$\eta$ = 1.0，200 DDIMステップでサンプリング．

Stable Diffusion Figure27 — 図27：ImageNetデータセットで訓練されたLDM-4のランダムサンプル．分類器なしガイダンス[32]のスケールs = 3.0，$\eta$ = 1.0，200 DDIMステップでサンプリング．

Stable Diffusion Figure28 — 図28：CelebA-HQデータセットにおける最高性能モデルLDM-4のランダムサンプル．500 DDIMステップ，$\eta$ = 0 (FID = 5.15)でサンプリング．

Stable Diffusion Figure29 — 図29：FFHQデータセットにおける我々の最高性能モデルLDM-4のランダムサンプル．200 DDIMステップ，$\eta$ = 1でサンプリング（FID = 4.98）．

Stable Diffusion Figure30 — 図30：LSUN-Churchesデータセットにおける我々の最高性能モデルLDM-8のランダムサンプル．200 DDIMステップ，$\eta$ = 0でサンプリング（FID = 4.48）．

Stable Diffusion Figure31 — 図31：LSUN-Bedroomsデータセットにおける最高性能モデルLDM-4のランダムサンプル．200 DDIMステップ，$\eta$ = 1でサンプリング（FID = 2.95）．

Stable Diffusion Figure32 — 図32：VGG-16[79]の特徴空間で計算されたCelebA-HQの最良モデルの最近接モデル．一番左のサンプルは，我々のモデルのものである．各行の残りのサンプルは，その10個の最近傍である．

Stable Diffusion Figure33 — 図33：VGG-16[79]の特徴空間で計算された，我々の最良のFFHQモデルの近傍モデル．一番左のサンプルは，我々のモデルのものである．各行の残りのサンプルは，その10個の最近傍である．

Stable Diffusion Figure34 — 図34：VGG-16[79]の特徴空間で計算された，我々の最良のLSUN-Churchesモデルの近傍モデル．一番左のサンプルは我々のモデルのものである．各行の残りのサンプルは，その10個の最近傍である．

参考：High-Resolution Image Synthesis with Latent Diffusion Modelsの解説動画

High-Resolution Image Synthesis with Latent Diffusion Modelsの解説動画です．

まとめ

High-Resolution Image Synthesis with Latent Diffusion Modelsの日本語訳を紹介しました．

画像生成AIのStable Diffusionがわかりました．