Black Forest Labs から、テキスト-to-画像変換モデル FLUX.1 に制御と操作性を追加し、リアル画像と生成画像の変更や再生成を可能にするように設計されたモデル群、FLUX.1 ツールについてアナウンスがありました (Introducing FLUX.1 Tools) ので、簡単に翻訳しておきます。
FLUX.1 ツール の紹介 (翻訳/解説)
作成 : クラスキャット セールスインフォメーション
作成日時 : 01/03/2025
* 本ページは、blackforestlabs.ai の以下のページを独自に翻訳して、適宜、補足説明したものです :
- Introducing FLUX.1 Tools (Nov 21, 2024)
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
◆ お問合せ : 下記までお願いします。
- クラスキャット セールス・インフォメーション
- sales-info@classcat.com
- ClassCatJP
FLUX.1 ツールの紹介
Today, we are excited to release FLUX.1 Tools. FLUX.1 ツールは、テキスト-to-画像変換モデル FLUX.1 に制御と操作性を追加し、リアル画像と生成画像の変更や再生成を可能にするように設計されたモデル群です。リリース時、FLUX.1 ツールは 4 つの異なる機能から構成され、FLUX.1 [dev] モデル・シリーズ内のオープンアクセス・モデルとして、そして FLUX.1 [pro] を補完する BFL API として利用可能になります。
- FLUX.1 Fill : 最先端のインペインティングとアウトペインティング・モデルで、テキスト説明と二値マスクが与えられたとき、リアル画像と生成画像の編集や拡張を可能にします。
- FLUX.1 Depth : 入力画像とテキストプロンプトから抽出された深度マップに基づいて、構造的なガイダンスを可能にするようにトレーニングされたモデル。
- FLUX.1 Canny : 入力画像とテキストプロンプトから抽出された canny エッジに基づいて、構造的なガイダンスを可能にするようにトレーニングされたモデル。
- FLUX.1 Redux : 入力画像とテキストプロンプトのミキシングと再生成を可能にするアダプター。
このリリースは私たちの二つのコミットメントを強化します : API を通してクラス最高の機能を提供しながら、研究コミュニティに最先端のオープンウェイト・モデルを提供することです。各ツールを BFL API では FLUX.1 [pro] バリアントとしてリリースし、推論コードと重みはガイダンスが蒸留された (guidance-distrilled)、オープンアクセス可能な FLUX.1 [dev] バリアントとして利用可能です。更に、リリースされたモデルが私たちのパートナー fal.ai, Replicate, Together.ai, Freepik と krea.ai を通して利用可能になることを嬉しく思います。
以下のセクションは、新しいモデルの詳細、そのパフォーマンスの分析、そしてそれらへのアクセス方法を含みます。活気のある FLux エコシステムが新しいツールによってどのように補完されるかを見るのが楽しみです。
FLUX.1 Fill によるインペインティングとアウトペインティング
FLUX.1 Fill は高度なインペインティング機能を導入します、これは Ideogram 2.0 のような既存のツールや、AlimamaCreative の FLUX-Controlnet-Inpainting のようなポピュラーなオープンソースのバリアントを超えています。それは既存の画像と自然に統合するシームレスな編集を可能にします。
更に、FLUX.1 Fill はアウトペインティングもサポートし、ユーザが画像を元の境界を超えて拡張することを可能にします。
ベンチマークを行い、ここ で公開しています。結果は、Flux.1 Fill [pro] が他のすべての競合する手法の性能を超え、現時点で最先端のインペインティング・モデルであることを示しています。2 番目は Flux.1 Fill [dev] で、推論時に効率的でありながら proprietary なソリューションを超えています。
Flux.1 Fill [dev] は Flux Dev ライセンスのもとで利用可能です、with :
Flux.1 Fill [pro] は [BFL API] で利用可能です。
FLUX.1 Canny / Depth による構造的条件付け
構造的条件付けは、画像変換中に正確な制御を維持するために canny エッジや深度検出を使用します。エッジや深度マップを通して元の画像の構造を保持することにより、ユーザは中核の構成をそのまま維持しながらテキストでガイドされた編集を行うことができます。これは画像の再テキスチャリングに特に効果的です。
私たちの評価では、ベンチマークは ここ にありますが、FLUX.1 Depth は Midjourney ReTexture のような proprietary なモデルよりも優れています。特に、FLUX.1 Depth [pro] はより多様な出力を提供し、その一方で FLUX.1 Depth の Dev バージョンは depth-aware なタスクにおいてより首尾一貫した結果を提供します。canny エッジモデルについては、ベンチマークは ここ にありますが、FLUX.1 Canny [pro] はクラス最高で、FLUX.1 Canny [dev] が続きます。
FLUX.1 Canny / Depth は 2 つのバージョンで利用可能です : 最大パフォーマンスのための完全モデル、そしてより簡単な開発用に FLUX.1 [dev] に基づく LoRA バージョンです。
Flux Depth / Canny [dev] は Flux Dev ライセンスのもとで利用可能です、with :
- 完全なモデル重みは Hugging Face: [Depth] [Canny] で利用可能です。
- LoRA 重みは Hugging Face: [Depth] [Canny] で利用可能です。
- 推論コードは GitHub で利用可能です。
Flux.1 Depth / Canny [pro] は BFL API で利用可能です。
FLUX.1 Redux による画像バリエーションと再スタイリング
FLUX.1 Redux は画像バリエーション生成用のすべての FLUX.1 ベースモデル用のアダプターです。画像が指定されたとき、FLUX.1 Redux は僅かなバリエーションを含む画像を再生成し、指定画像を洗練することができます。
それはより複雑なワークフローに自然に統合され、プロンプトを通して画像の再スタイリングを可能にします。再スタイリングは画像とプロンプトを提供することで API を通して利用可能です。この機能は最新モデル FLUX1.1 [pro] Ultra でサポートされ、入力画像とテキストプロンプトを組み合わせて高品質な 4 メガピクセル出力を柔軟なアスペクト比で生成します。
ベンチマーク は、FLUX.1 Redux が画像バリエーションにおいて最先端のパフォーマンスを達成していることを示します。
Flux.1 Redux [dev] は Flux Dev ライセンスのもとで利用可能です、with :
FLUX1.1 [pro] Ultra をサポートする Flux.1 Redux は BFL API で利用可能です。
We’re excited to see what the community is going to build with our new set of tools. Try our API at [api.bfl.ml].
以上