SD 3.5 Large モデルが10月22日に公開されましたが、Stable Diffusion 3.5 Medium モデルも 10月29日に追加されました。今回は Hugging Face Diffusers で高品質な画像を生成してみます。
Stable Diffusion 3.5 Medium モデル登場
作成 : Masashi Okumura (@ClassCat)
作成日時 : 10/30/2024
* 本記事の作成には Hugging Face Model Hub の以下のページを参考にしています :
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
◆ お問合せ : 本件に関するお問合せは下記までお願いします。
- クラスキャット セールス・インフォメーション
- sales-info@classcat.com
- ClassCatJP
Stable Diffusion 3.5 Medium モデル登場
SD 3.5 Large モデルが10月22日に公開されましたが、Stable Diffusion 3.5 Medium モデルも 10月29日に追加されました。
Large モデルについては記事 : Stable Diffusion 3.5 Large : Colab / ComfyUI による高品質な画像生成 で ComfyUI を利用しましたので、今回は Hugging Face Diffusers で高品質な画像を生成してみます。
Diffusers のコードは、モデルカード stabilityai/stable-diffusion-3.5-medium のサンプルコードに従っています。
モデル
Stable Diffusion 3.5 Medium は、画像品質、タイポグラフィ、複雑なプロンプトの理解とリソース効率性の点で改良されたパフォーマンスを特徴とする、Multimodal Diffusion Transformer with improvements (MMDiT-X) テキスト-to-画像変換モデルです。
モデル説明
- 開発者 : Stability AI
- モデルタイプ : MMDiT-X テキスト-to-画像生成モデル
- モデルの説明 : このモデルはテキストプロンプトに基づいて画像を生成します。それは、トレーニングの安定性を向上させる QK-正規化と、最初の 12 transformer 層の dual アテンションブロックを装備した、3 つの固定された、事前トレーニング済みテキストエンコーダを使用する改良を施した、マルチモーダル拡散 Transformer ( https://arxiv.org/abs/2403.03206 ) です。
Diffusers ライブラリによる利用
Hugging Face Diffusers ライブラリによる SD3.5 Medium モデルの利用は StableDiffusion3Pipeline パイプラインを利用するだけです :
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A capybara holding a sign that reads Hello World",
num_inference_steps=40,
guidance_scale=4.5,
).images[0]
image.save("capybara.png")
※ Stable Diffusion 3 が参考になります。
以上