HuggingFace Transformers 4.31 : リリースノート – Llama v2, MusicGen, Bark, MMS, EnCodec, InstructBLIP 等 (翻訳/解説)

翻訳 : (株)クラスキャットセールスインフォメーション
作成日時 : 07/20/2023 (v4.31.0 – 07/19/2023)

* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです：

v4.31.0: Llama v2, MusicGen, Bark, MMS, EnCodec, InstructBLIP, Umt5, MRa, vIvIt

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

クラスキャット人工知能研究開発支援サービス

◆ クラスキャットは人工知能・テレワークに関する各種サービスを提供しています。お気軽にご相談ください :

人工知能研究開発支援
1. 人工知能研修サービス(経営者層向けオンサイト研修)
2. テクニカルコンサルティングサービス
3. 実証実験(プロトタイプ構築)
4. アプリケーションへの実装
人工知能研修サービス
PoC(概念実証)を失敗させないための支援

◆ 人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。スケジュール。

お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。

◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

株式会社クラスキャット セールス・マーケティング本部セールス・インフォメーション
sales-info@classcat.com ; Web: www.classcat.com ; ClassCatJP

HuggingFace Transformers 4.31 : リリースノート – Llama v2, MusicGen, Bark, MMS, EnCodec, InstructBLIP 等

新モデル

Llama v2

Llama 2 は LLaMA: Open Foundation and Fine-Tuned Chat Models by Hugo Touvron et al. で提案されました。それは効率的な推論のためのグループ化 Query アテンションを追加した Llama アーキテクチャ上に構築されています。

Add support for Llama 2 by @ArthurZucker in #24891

Musicgen

MusicGen モデルは論文 Simple and Controllable Music Generation by Jade Copet, Felix Kreuk, Itai Gat, Tal Remez, David Kant, Gabriel Synnaeve, Yossi Adi and Alexandre Défossez で提案されました。

MusicGen は単一ステージの自動回帰 Transformer モデルで、テキスト記述や音声プロンプトで条件付けされた高品質な音楽サンプルを生成することができます。テキスト記述は、隠れ状態表現のシークエンスを取得するために凍結されたテキストエンコーダモデルに渡されます。そして MusicGen はこれらの隠れ状態を条件として、離散音声トークンや音声コードを予測するために訓練されます。それからこれらの音声トークンは、音声波形を復元するために EnCodec のような音声圧縮モデルを使用してデコードされます。

効率的なトークン interleaving パターンにより、MusicGen はテキスト/音声プロンプトの自己教師あり意味表現を必要としません、そのためコードブックのセットを予測するために複数のモデルをカスケードする必要性をなくしています (例えば階層的に、あるいはアップサンプリング)。代わりに、単一の forward パスですべてのコードブックを生成することができます。

Add Musicgen by @sanchit-gandhi in #24109

Bark

Bark は suno-ai/bark で Suno AI により提案された transformer ベースのテキスト-to-発話変換モデルです。

Add bark by @ylacombe in #24086

MMS

MMS モデルは Scaling Speech Technology to 1,000+ Languages by Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, Michael Auli で提案されました。

Add MMS CTC Fine-Tuning by @patrickvonplaten in #24281

EnCodec

EnCodec ニューラル codec モデルは High Fidelity Neural Audio Compression by Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi で提案されました。

Add EnCodec model by @hollance in #23655

InstructBLIP

InstructBLIP モデルは InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning by Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi で提案されました。InstructBLIP は視覚 instruction 調整のために BLIP-2 アーキテクチャを利用しています。

Add InstructBLIP by @NielsRogge in #23460

Umt5

UMT5 モデルは UniMax: Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining by Hyung Won Chung, Xavier Garcia, Adam Roberts, Yi Tay, Orhan Firat, Sharan Narang, Noah Constant で提案されました。

[Umt5] Add google’s umt5 to transformers by @ArthurZucker in #24477

MRA

MRA モデルは Multi Resolution Analysis (MRA) for Approximate Self-Attention by Zhanpeng Zeng, Sourav Pal, Jeffery Kline, Glenn M Fung, and Vikas Singh で提案されました。

Add Multi Resolution Analysis (MRA) by @novice03 in #24513

ViViT

Vivit モデルは ViViT: A Video Vision Transformer by Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid で提案されました。論文は動画理解のための最初の成功的な純粋な transformer ベースのモデル群の一つを提案しています。

Add ViViT by @jegork in #22518

以上

月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31