HuggingFace Diffusers 0.12 : API : パイプライン – 音声拡散 (翻訳/解説)

翻訳 : (株)クラスキャットセールスインフォメーション
作成日時 : 03/12/2023 (v0.14.0)

* 本ページは、HuggingFace Diffusers の以下のドキュメントを翻訳した上で適宜、補足説明したものです：

API : Pipelines – Audio Diffusion

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

クラスキャット人工知能研究開発支援サービス

◆ クラスキャットは人工知能・テレワークに関する各種サービスを提供しています。お気軽にご相談ください :

人工知能研究開発支援
1. 人工知能研修サービス(経営者層向けオンサイト研修)
2. テクニカルコンサルティングサービス
3. 実証実験(プロトタイプ構築)
4. アプリケーションへの実装
人工知能研修サービス
PoC(概念実証)を失敗させないための支援

◆ 人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。スケジュール。

お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。

◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

株式会社クラスキャット セールス・マーケティング本部セールス・インフォメーション
sales-info@classcat.com ; Web: www.classcat.com ; ClassCatJP

HuggingFace Diffusers 0.12 : API : パイプライン – 音声拡散

概要

Robert Dargavel Smith による音声拡散。

音声拡散は、音声サンプルをメルスペクトログラム画像に/から変換することにより、拡散モデルを使用した画像生成の最近の進歩を活用しています。

この実装のオリジナルなコードベースは、訓練スクリプトとサンプル・ノートブックも含めて、ここで見つけられます。

利用可能なパイプライン

パイプライン – pipeline_audio_diffusion.py
タスク – 条件なし音声生成
Colab

サンプル

音声拡散

import torch
from IPython.display import Audio
from diffusers import DiffusionPipeline

device = "cuda" if torch.cuda.is_available() else "cpu"
pipe = DiffusionPipeline.from_pretrained("teticio/audio-diffusion-256").to(device)

output = pipe()
display(output.images[0])
display(Audio(output.audios[0], rate=mel.get_sample_rate()))

潜在的音声拡散

import torch
from IPython.display import Audio
from diffusers import DiffusionPipeline

device = "cuda" if torch.cuda.is_available() else "cpu"
pipe = DiffusionPipeline.from_pretrained("teticio/latent-audio-diffusion-256").to(device)

output = pipe()
display(output.images[0])
display(Audio(output.audios[0], rate=pipe.mel.get_sample_rate()))

音声拡散 with DDIM (より高速)

import torch
from IPython.display import Audio
from diffusers import DiffusionPipeline

device = "cuda" if torch.cuda.is_available() else "cpu"
pipe = DiffusionPipeline.from_pretrained("teticio/audio-diffusion-ddim-256").to(device)

output = pipe()
display(output.images[0])
display(Audio(output.audios[0], rate=pipe.mel.get_sample_rate()))

バリエーション, インペインティング, アウトペインティング etc.

output = pipe(
    raw_audio=output.audios[0, 0],
    start_step=int(pipe.get_default_steps() / 2),
    mask_start_secs=1,
    mask_end_secs=1,
)
display(output.images[0])
display(Audio(output.audios[0], rate=pipe.mel.get_sample_rate()))

AudioDiffusionPipeline

class AudioDiffusionPipeline(DiffusionPipeline):
    def __init__(
        self,
        vqvae: AutoencoderKL,
        unet: UNet2DConditionModel,
        mel: Mel,
        scheduler: Union[DDIMScheduler, DDPMScheduler],
    ):

パラメータ

vqae (AutoencoderKL) — 変分オートエンコーダ for 潜在的音声拡散 or None
unet (UNet2DConditionModel) — UNET モデル
mel (Mel) — 変換音声 <-> スペクトログラム
scheduler ([DDIMScheduler or DDPMScheduler]) — ノイズ除去スケジューラ

このモデルは DiffusionPipeline から継承されます。(ダウンロードやセーブ, 特定のデバイス上の実行等のような) すべてのパイプラインに対してライブラリが実装する汎用メソッドについてはスーパークラスのドキュメントを確認してください。

class Mel(ConfigMixin, SchedulerMixin):
    def __init__(
        self,
        x_res: int = 256,
        y_res: int = 256,
        sample_rate: int = 22050,
        n_fft: int = 2048,
        hop_length: int = 512,
        top_db: int = 80,
        n_iter: int = 32,
    ):

パラメータ

x_res (int) — x 解像度 of スペクトログラム (時間)
y_res (int) — y 解像度 of スペクトログラム (周波数ビン)
sample_rate (int) — 音声のサンプリングレート
n_fft (int) — number of 高速フーリエ変化の数
hop_length (int) — ホップ長 (256 y_res より低い場合は、より高い数値が推奨されます)
top_db (int) — 最大音量 in デシベル
n_iter (int) — Griffin Linn mel inversion の反復数

以上

月	火	水	木	金	土	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31