HuggingFace Transformers 4.25 : リリースノート – PyTorch 2.0 サポート, 音声スペクトグラム Transformer, Jukebox, Switch Transformers

HuggingFace Transformers 4.25 : リリースノート – PyTorch 2.0 サポート, 音声スペクトグラム Transformer, Jukebox, Switch Transformers (翻訳/解説)

翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 07/11/2023 (v4.25.1 – 12/03/2022)

* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです:

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

クラスキャット 人工知能 研究開発支援サービス

クラスキャット は人工知能・テレワークに関する各種サービスを提供しています。お気軽にご相談ください :

◆ 人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。スケジュール
  • お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。

お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

  • 株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
  • sales-info@classcat.com  ;  Web: www.classcat.com  ;   ClassCatJP

 

HuggingFace Transformers 4.25 : リリースノート – PyTorch 2.0 サポート, 音声スペクトグラム Transformer, Jukebox, Switch Transformers

PyTorch 2.0 スタック・サポート

新しく公表された PyTorch 2.0 スタックに非常にワクワクしています。私たちの任意のモデルで torch.compile を有効にして、(そして私たちの PyTorch サンプルのすべてで) torchdynamo 訓練引数を使用して Trainer によるサポートを得ることができます。例えば、コマンドラインからそれらのサンプルを起動するとき “–torchdynamo inductor” を追加するだけです。

この API はまだ実験的で PyTorch 2.0 スタックが成熟するにつれて変更される可能性があります。

注意してください、最高のパフォーマンスを得るために、以下を勧めます :

  • Ampere GPU (or より最近のもの) を使用。
  • 当面は固定された shape に忠実であること (そのため私たちのサンプルでは –pad_to_max_length を使用します)
  • Repurpose torchdynamo training args towards torch._dynamo by @sgugger in #20498

 

音声スペクトログラム Transformer

音声スペクトログラム Transformer モデルは AST: Audio Spectrogram Transformer by Yuan Gong, Yu-An Chung, James Glass で提案されました。音声スペクトラム Transformer は音声を画像 (スペクトログラム) に変換することにより Vision Transformer を音声に適用します。このモデルは音声分類に対して最先端の結果を得ます。

 

Jukebox

Jukebox モデルは Jukebox: A generative model for music by Prafulla Dhariwal, Heewoo Jun, Christine Payne, Jong Wook Kim, Alec Radford, Ilya Sutskever で提案されました。それは生成音楽モデルを導入し、これはアーテスト、ジャンルや歌詞で条件付けできる 1 分間長のサンプルを生成できます。

 

Switch Transformers

Switch Transformers モデルは Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity by William Fedus, Barret Zoph, Noam Shazeer で提案されました。

それは transformers でサポートされる最初の MoE モデルで、現在利用可能な最大のチェックポイントは現在 1T パラメータを含みます。

 

CLIPSeg

CLIPSeg モデルは Image Segmentation Using Text and Image Prompts by Timo Lüddecke and Alexander Ecker で提案されました。

CLIPSeg は、ゼロショットとワンショット画像セグメンテーション用に、凍結された CLIP モデルの上に最小限のデコーダを追加しています。

 

NAT と DiNAT

NAT

NAT は Neighborhood Attention Transformer by Ali Hassani, Steven Walton, Jiachen Li, Shen Li, and Humphrey Shi により提案されました。

それは Neighborhood アテンション、スライディングウィンドウ自己アテンションパターン、に基づく階層型 (hierarchical) vision transformer です。

 

DiNAT

DiNAT は Dilated Neighborhood Attention Transformer by Ali Hassani and Humphrey Shi により提案されました。

それはグローバルな文脈を捕捉するために Dilated Neighborhood アテンションパターンを追加することで NAT を拡張し、それを超える大幅な性能改良を示しています。

  • Add Neighborhood Attention Transformer (NAT) and Dilated NAT (DiNAT) models by @alihassanijr in #20219

 

MobileNetV2

MobileNet モデルは MobileNetV2: Inverted Residuals and Linear Bottlenecks by Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, Liang-Chieh Chen により提案されました。

 

MobileNetV1

MobileNet モデルは MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications by Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam により提案されました。

 

以上