HuggingFace Transformers 4.31 : リリースノート – Llama v2, MusicGen, Bark, MMS, EnCodec, InstructBLIP 等

HuggingFace Transformers 4.31 : リリースノート – Llama v2, MusicGen, Bark, MMS, EnCodec, InstructBLIP 等 (翻訳/解説)

翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 07/20/2023 (v4.31.0 – 07/19/2023)

* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです:

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

クラスキャット 人工知能 研究開発支援サービス

クラスキャット は人工知能・テレワークに関する各種サービスを提供しています。お気軽にご相談ください :

◆ 人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。スケジュール
  • お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。

お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

  • 株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
  • sales-info@classcat.com  ;  Web: www.classcat.com  ;   ClassCatJP

 

HuggingFace Transformers 4.31 : リリースノート – Llama v2, MusicGen, Bark, MMS, EnCodec, InstructBLIP 等

新モデル

Llama v2

Llama 2 は LLaMA: Open Foundation and Fine-Tuned Chat Models by Hugo Touvron et al. で提案されました。それは効率的な推論のためのグループ化 Query アテンションを追加した Llama アーキテクチャ上に構築されています。

 

Musicgen

MusicGen モデルは論文 Simple and Controllable Music Generation by Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi and Alexandre Défossez で提案されました。

MusicGen は単一ステージの自動回帰 Transformer モデルで、テキスト記述や音声プロンプトで条件付けされた高品質な音楽サンプルを生成することができます。テキスト記述は、隠れ状態表現のシークエンスを取得するために凍結されたテキストエンコーダモデルに渡されます。そして MusicGen はこれらの隠れ状態を条件として、離散音声トークンや音声コードを予測するために訓練されます。それからこれらの音声トークンは、音声波形を復元するために EnCodec のような音声圧縮モデルを使用してデコードされます。

効率的なトークン interleaving パターンにより、MusicGen はテキスト/音声プロンプトの自己教師あり意味表現を必要としません、そのためコードブックのセットを予測するために複数のモデルをカスケードする必要性をなくしています (例えば階層的に、あるいはアップサンプリング)。代わりに、単一の forward パスですべてのコードブックを生成することができます。

 

Bark

Bark は suno-ai/bark で Suno AI により提案された transformer ベースのテキスト-to-発話変換モデルです。

 

MMS

MMS モデルは Scaling Speech Technology to 1,000+ Languages by Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, Michael Auli で提案されました。

 

EnCodec

EnCodec ニューラル codec モデルは High Fidelity Neural Audio Compression by Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi で提案されました。

 

InstructBLIP

InstructBLIP モデルは InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning by Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi で提案されました。InstructBLIP は視覚 instruction 調整のために BLIP-2 アーキテクチャを利用しています。

 

Umt5

UMT5 モデルは UniMax: Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining by Hyung Won Chung, Xavier Garcia, Adam Roberts, Yi Tay, Orhan Firat, Sharan Narang, Noah Constant で提案されました。

 

MRA

MRA モデルは Multi Resolution Analysis (MRA) for Approximate Self-Attention by Zhanpeng Zeng, Sourav Pal, Jeffery Kline, Glenn M Fung, and Vikas Singh で提案されました。

 

ViViT

Vivit モデルは ViViT: A Video Vision Transformer by Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid で提案されました。論文は動画理解のための最初の成功的な純粋な transformer ベースのモデル群の一つを提案しています。

 

以上