HuggingFace Transformers 4.22 : リリースノート – Swin Transformer v2, VideoMAE, Donut, Pegasus-X, X-CLIP, ERNIE (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 07/09/2023 (v4.22.0 – 09/15/2022)
* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです:
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
- 人工知能研究開発支援
- 人工知能研修サービス(経営者層向けオンサイト研修)
- テクニカルコンサルティングサービス
- 実証実験(プロトタイプ構築)
- アプリケーションへの実装
- 人工知能研修サービス
- PoC(概念実証)を失敗させないための支援
- お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。
- 株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
- sales-info@classcat.com ; Web: www.classcat.com ; ClassCatJP
HuggingFace Transformers 4.22 : リリースノート – Swin Transformer v2, VideoMAE, Donut, Pegasus-X, X-CLIP, ERNIE
Swin Transformer v2
Swin Transformer V2 モデルは Swin Transformer V2: Scaling Up Capacity and Resolution by Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, Furu Wei, Baining Guo で提案されました。
Swin Transformer v2 は 3 つの主要なテクニックを使用してオリジナルの Swin Transformer を改良しています : 1) 訓練の安定性を改良するために cosine アテンションと組み合わせた residual-post-norm 法 ; 2) 低解像度画像を使用して事前訓練したモデルを高解像度入力による下流タスクに効果的に転移させる log-spaced (対数間隔の) 連続位置バイアス法 ; 3) 膨大なラベル付けされた画像の必要性を減らすため、自己教師あり事前訓練法, SimMIM
- Add swin transformer v2 by @nandwalritik in #17469
VideoMAE
VideoMAE モデルは VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training by Zhan Tong, Yibing Song, Jue Wang, Limin Wang で提案されました。VideoMAE はマスクされたオートエンコーダ (MAE) を動画に拡張し、幾つかの動画分類ベンチマークで最先端の性能を主張しています。
VideoMAE は ViTMAE の動画用の拡張です。
- Add VideoMAE by @NielsRogge in #17821
Donut
Donut モデルは OCR-free Document Understanding Transformer by Geewook Kim, Teakgyu Hong, Moonbin Yim, Jeongyeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, Seunghyun Park で提案されました。Donut は画像 Transformer エンコーダと自己回帰テキスト Transformer デコーダから構成され、文書画像分類、フォーム理解と視覚的質問応答のような文書理解タスクを遂行します。
- Add Donut by @NielsRogge in #18488
Pegasus-X
PEGASUS-X モデルは Investigating Efficiently Extending Transformers for Long Input Summarization by Jason Phang, Yao Zhao and Peter J. Liu で提案されました。
PEGASUS-X (PEGASUS eXtended) は、PEGASUS モデルを追加の長入力事前訓練により、そしてエンコーダでグローバルトークンを使用する staggered block-local アテンションを使用し、長入力要約のために拡張しています。
X-CLIP
X-CLIP モデルは Expanding Language-Image Pretrained Models for General Video Recognition by Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng, Jianlong Fu, Shiming Xiang, Haibin Ling で提案されました。X-CLIP は CLIP の動画用の最小限の拡張です。モデルはテキストエンコーダ, 交差フレーム・ビジョンエンコーダ, マルチフレーム統合 Transformer, そして動画固有のプロンプトジェネレータから構成されます。
X-CLIP は CLIP の動画言語理解用の最小限の拡張です。
- Add X-CLIP by @NielsRogge in #18852
ERNIE
ERNIE は ERNIE1.0, ERNIE2.0, ERNIE3.0, ERNIE-Gram, ERNIE-health 等を含む、baidu により提案された一連の特に中国語タスクにおいて強力なモデルです。これらのモデルは nghuyong によって提供され、公式コードは PaddleNLP (in PaddlePaddle) で見つけられます。
以上