HuggingFace Transformers 4.22 : リリースノート – Swin Transformer v2, VideoMAE, Donut, Pegasus-X, X-CLIP, ERNIE

HuggingFace Transformers 4.22 : リリースノート – Swin Transformer v2, VideoMAE, Donut, Pegasus-X, X-CLIP, ERNIE (翻訳/解説)

翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 07/09/2023 (v4.22.0 – 09/15/2022)

* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです:

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

クラスキャット 人工知能 研究開発支援サービス

クラスキャット は人工知能・テレワークに関する各種サービスを提供しています。お気軽にご相談ください :

◆ 人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。スケジュール
  • お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。

お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

  • 株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
  • sales-info@classcat.com  ;  Web: www.classcat.com  ;   ClassCatJP

 

HuggingFace Transformers 4.22 : リリースノート – Swin Transformer v2, VideoMAE, Donut, Pegasus-X, X-CLIP, ERNIE

Swin Transformer v2

Swin Transformer V2 モデルは Swin Transformer V2: Scaling Up Capacity and Resolution by Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, Furu Wei, Baining Guo で提案されました。

Swin Transformer v2 は 3 つの主要なテクニックを使用してオリジナルの Swin Transformer を改良しています : 1) 訓練の安定性を改良するために cosine アテンションと組み合わせた residual-post-norm 法 ; 2) 低解像度画像を使用して事前訓練したモデルを高解像度入力による下流タスクに効果的に転移させる log-spaced (対数間隔の) 連続位置バイアス法 ; 3) 膨大なラベル付けされた画像の必要性を減らすため、自己教師あり事前訓練法, SimMIM

 

VideoMAE

VideoMAE モデルは VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training by Zhan Tong, Yibing Song, Jue Wang, Limin Wang で提案されました。VideoMAE はマスクされたオートエンコーダ (MAE) を動画に拡張し、幾つかの動画分類ベンチマークで最先端の性能を主張しています。

VideoMAE は ViTMAE の動画用の拡張です。

 

Donut

Donut モデルは OCR-free Document Understanding Transformer by Geewook Kim, Teakgyu Hong, Moonbin Yim, Jeongyeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, Seunghyun Park で提案されました。Donut は画像 Transformer エンコーダと自己回帰テキスト Transformer デコーダから構成され、文書画像分類、フォーム理解と視覚的質問応答のような文書理解タスクを遂行します。

 

Pegasus-X

PEGASUS-X モデルは Investigating Efficiently Extending Transformers for Long Input Summarization by Jason Phang, Yao Zhao and Peter J. Liu で提案されました。

PEGASUS-X (PEGASUS eXtended) は、PEGASUS モデルを追加の長入力事前訓練により、そしてエンコーダでグローバルトークンを使用する staggered block-local アテンションを使用し、長入力要約のために拡張しています。

 

X-CLIP

X-CLIP モデルは Expanding Language-Image Pretrained Models for General Video Recognition by Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling で提案されました。X-CLIP は CLIP の動画用の最小限の拡張です。モデルはテキストエンコーダ, 交差フレーム・ビジョンエンコーダ, マルチフレーム統合 Transformer, そして動画固有のプロンプトジェネレータから構成されます。

X-CLIP は CLIP の動画言語理解用の最小限の拡張です。

 

ERNIE

ERNIE は ERNIE1.0, ERNIE2.0, ERNIE3.0, ERNIE-Gram, ERNIE-health 等を含む、baidu により提案された一連の特に中国語タスクにおいて強力なモデルです。これらのモデルは nghuyong によって提供され、公式コードは PaddleNLP (in PaddlePaddle) で見つけられます。

 

以上