HuggingFace Transformers 4.31 : リリースノート – Llama v2, MusicGen, Bark, MMS, EnCodec, InstructBLIP 等 (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 07/20/2023 (v4.31.0 – 07/19/2023)
* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです:
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
- 人工知能研究開発支援
- 人工知能研修サービス(経営者層向けオンサイト研修)
- テクニカルコンサルティングサービス
- 実証実験(プロトタイプ構築)
- アプリケーションへの実装
- 人工知能研修サービス
- PoC(概念実証)を失敗させないための支援
- お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。
- 株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
- sales-info@classcat.com ; Web: www.classcat.com ; ClassCatJP
HuggingFace Transformers 4.31 : リリースノート – Llama v2, MusicGen, Bark, MMS, EnCodec, InstructBLIP 等
新モデル
Llama v2
Llama 2 は LLaMA: Open Foundation and Fine-Tuned Chat Models by Hugo Touvron et al. で提案されました。それは効率的な推論のためのグループ化 Query アテンションを追加した Llama アーキテクチャ上に構築されています。
- Add support for Llama 2 by @ArthurZucker in #24891
Musicgen
MusicGen モデルは論文 Simple and Controllable Music Generation by Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi and Alexandre Défossez で提案されました。
MusicGen は単一ステージの自動回帰 Transformer モデルで、テキスト記述や音声プロンプトで条件付けされた高品質な音楽サンプルを生成することができます。テキスト記述は、隠れ状態表現のシークエンスを取得するために凍結されたテキストエンコーダモデルに渡されます。そして MusicGen はこれらの隠れ状態を条件として、離散音声トークンや音声コードを予測するために訓練されます。それからこれらの音声トークンは、音声波形を復元するために EnCodec のような音声圧縮モデルを使用してデコードされます。
効率的なトークン interleaving パターンにより、MusicGen はテキスト/音声プロンプトの自己教師あり意味表現を必要としません、そのためコードブックのセットを予測するために複数のモデルをカスケードする必要性をなくしています (例えば階層的に、あるいはアップサンプリング)。代わりに、単一の forward パスですべてのコードブックを生成することができます。
- Add Musicgen by @sanchit-gandhi in #24109
Bark
Bark は suno-ai/bark で Suno AI により提案された transformer ベースのテキスト-to-発話変換モデルです。
MMS
MMS モデルは Scaling Speech Technology to 1,000+ Languages by Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, Michael Auli で提案されました。
- Add MMS CTC Fine-Tuning by @patrickvonplaten in #24281
EnCodec
EnCodec ニューラル codec モデルは High Fidelity Neural Audio Compression by Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi で提案されました。
InstructBLIP
InstructBLIP モデルは InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning by Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi で提案されました。InstructBLIP は視覚 instruction 調整のために BLIP-2 アーキテクチャを利用しています。
- Add InstructBLIP by @NielsRogge in #23460
Umt5
UMT5 モデルは UniMax: Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining by Hyung Won Chung, Xavier Garcia, Adam Roberts, Yi Tay, Orhan Firat, Sharan Narang, Noah Constant で提案されました。
- [Umt5] Add google’s umt5 to transformers by @ArthurZucker in #24477
MRA
MRA モデルは Multi Resolution Analysis (MRA) for Approximate Self-Attention by Zhanpeng Zeng, Sourav Pal, Jeffery Kline, Glenn M Fung, and Vikas Singh で提案されました。
ViViT
Vivit モデルは ViViT: A Video Vision Transformer by Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid で提案されました。論文は動画理解のための最初の成功的な純粋な transformer ベースのモデル群の一つを提案しています。
以上