Stable Diffusion 3.5 Medium モデル登場

SD 3.5 Large モデルが10月22日に公開されましたが、Stable Diffusion 3.5 Medium モデルも 10月29日に追加されました。今回は Hugging Face Diffusers で高品質な画像を生成してみます。

Stable Diffusion 3.5 Medium モデル登場

作成 : Masashi Okumura (@ClassCat)
作成日時 : 10/30/2024

* 本記事の作成には Hugging Face Model Hub の以下のページを参考にしています :

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

クラスキャット 人工知能 研究開発支援サービス ⭐️ リニューアルしました 😉

クラスキャット は人工知能に関する各種サービスを提供しています。お気軽にご相談ください :

  • 人工知能導入個別相談会(無償)実施中! [詳細]

  • 人工知能研究開発支援 [詳細]
    1. 自社特有情報を含むチャットボット構築支援
    2. 画像認識 (医療系含む) / 画像生成

  • PoC(概念実証)を失敗させないための支援 [詳細]

お問合せ : 本件に関するお問合せは下記までお願いします。

  • クラスキャット セールス・インフォメーション
  • sales-info@classcat.com
  • ClassCatJP

 

 

Stable Diffusion 3.5 Medium モデル登場

SD 3.5 Large モデルが10月22日に公開されましたが、Stable Diffusion 3.5 Medium モデルも 10月29日に追加されました。

Large モデルについては記事 : Stable Diffusion 3.5 Large : Colab / ComfyUI による高品質な画像生成 で ComfyUI を利用しましたので、今回は Hugging Face Diffusers で高品質な画像を生成してみます。

Diffusers のコードは、モデルカード stabilityai/stable-diffusion-3.5-medium のサンプルコードに従っています。

 

モデル

Stable Diffusion 3.5 Medium は、画像品質、タイポグラフィ、複雑なプロンプトの理解とリソース効率性の点で改良されたパフォーマンスを特徴とする、Multimodal Diffusion Transformer with improvements (MMDiT-X) テキスト-to-画像変換モデルです。

 
モデル説明

  • 開発者 : Stability AI

  • モデルタイプ : MMDiT-X テキスト-to-画像生成モデル

  • モデルの説明 : このモデルはテキストプロンプトに基づいて画像を生成します。それは、トレーニングの安定性を向上させる QK-正規化と、最初の 12 transformer 層の dual アテンションブロックを装備した、3 つの固定された、事前トレーニング済みテキストエンコーダを使用する改良を施した、マルチモーダル拡散 Transformer ( https://arxiv.org/abs/2403.03206 ) です。

 

Diffusers ライブラリによる利用

Hugging Face Diffusers ライブラリによる SD3.5 Medium モデルの利用は StableDiffusion3Pipeline パイプラインを利用するだけです :

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A capybara holding a sign that reads Hello World",
    num_inference_steps=40,
    guidance_scale=4.5,
).images[0]
image.save("capybara.png")

Stable Diffusion 3 が参考になります。

 

以上