Paella : 概要 (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 12/11/2022 (v2.7.0)
* 本ページは、dome272/Paella の以下のドキュメントを翻訳した上で適宜、補足説明したものです:
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
- 人工知能研究開発支援
- 人工知能研修サービス(経営者層向けオンサイト研修)
- テクニカルコンサルティングサービス
- 実証実験(プロトタイプ構築)
- アプリケーションへの実装
- 人工知能研修サービス
- PoC(概念実証)を失敗させないための支援
- お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。
- 株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
- sales-info@classcat.com ; Web: www.classcat.com ; ClassCatJP
Paella : 概要
条件付きテキスト-to-画像生成は、品質、多様性と忠実度の観点から、数え切れないほどの最近の改良を見せてきました。それでもなお、殆どの最先端モデルは忠実な画像を生成するには多くの推論ステップを必要とし、エンドユーザのアプリケーションについてパフォーマンスのボトルネックという結果になります。この論文では、Paella を紹介しています、573M パラメータを持ちながら、500 ms 以下で単一画像をサンプリングすることを可能にする速度に最適化されたアーキテクチャを使用して、高忠実度の画像をサンプリングするのに 10 ステップ以下しか必要としない新規のテキスト-to-画像モデルです。モデルは圧縮・量子化された潜在空間上で動作し、CLIP 埋め込み上で条件付けされ、従来のワークを超える改良サンプリング関数を使用しています。テキストで条件付けられた画像生成とは別に、私たちのモデルは潜在空間補間、そしてインペインティング, アウトペインティングと構造編集 (structural editing) のような画像操作を行なうことができます。
Please find all details about the model and how it was trained in our preprint paper on arxiv.
コード
Paella を実行 & 訓練するために必要な最小主義のコード量を特に強調したいです。訓練、サンプリング、アーキテクチャとユティリティを含むコード全体は約 400 行のコードに収まります。このように私たちはこの手法をより多くの人にアクセスしやすいようにすることを望んでいます。単に基本ロジックを理解するには、paella_minimal.py をご覧ください。
サンプリング
サンプリングについては sampling.ipynb ノートブックをご覧ください。 😎
貴方自身の Paella の訓練
訓練のための主要ファイルは paella.py です。貴方自身のニーズに応じてすべての ハイパーパラメータ を調整できます。訓練の間に webdataset を使用しますが、それを貴方自身のカスタム dataloader と自由に置き換えてください。貴方自身の dataloader を指定するために paella.py の 119 行目を変更するだけです。それが (images, captions) のタプルを返すことを確実にしてください、ここで images は shape batch_size x channels x height x width の torch.Tensor で、captions は長さ batch_size の List です。そして Paella を微調整するかゼロから新しい訓練を開始するかを決めます :
From Scratch
python3 paella.py
Finetune
微調整したい場合、最初に 最新のチェックポイントとその optimizer 状態 をダウンロードし、finetune ハイパーパラメータ を True に設定し、そしてフォルダ models/<RUN_NAME> を作成し、そして両方のチェックポイントをこのフォルダに移動する必要があります。その後、以下を単に実行することもできます :
python3 paella.py
ライセンス
(訳注: 原文 参照)
以上