HuggingFace Transformers 4.23 : リリースノート – Whisper, Deformable DETR, Conditional DETR, MarkupLM, MSN, `safetensors` (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 07/10/2023 (v4.23.0 – 10/11/2022)
* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです:
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
- 人工知能研究開発支援
- 人工知能研修サービス(経営者層向けオンサイト研修)
- テクニカルコンサルティングサービス
- 実証実験(プロトタイプ構築)
- アプリケーションへの実装
- 人工知能研修サービス
- PoC(概念実証)を失敗させないための支援
- お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。
- 株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
- sales-info@classcat.com ; Web: www.classcat.com ; ClassCatJP
HuggingFace Transformers 4.23 : リリースノート – Whisper, Deformable DETR, Conditional DETR, MarkupLM, MSN, `safetensors`
Whisper
Whisper モデルは Robust Speech Recognition via Large-Scale Weak Supervision by Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskever で提案されました。
Whisper は 680,000 時間のラベル付けされた (書き起こしされた) 音声で訓練されたエンコーダ・デコーダ Transformer です。このモデルはマルチ言語で、ゼロショット設定で印象的な性能と堅牢性を示します。
- Add WhisperModel to transformers by @ArthurZucker in #19166
- Add TF whisper by @amyeroberts in #19378
Deformable DETR
Deformable DETR モデルは Deformable DETR: Deformable Transformers for End-to-End Object Detection by Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai で提案されました。
Deformable DETR は (リファレンス周りのキーサンプリングポイントの小さいセットにのみ注目する) 新しい変形可能なアテンション・モジュールを活用することにより、オリジナルの DETR の遅い収束の問題と特徴空間の解像度の制限を軽減・緩和します。
- Add Deformable DETR by @NielsRogge in #17281
- [fix] Add DeformableDetrFeatureExtractor by @NielsRogge in #19140
条件付き DETR
条件付き DETR モデルは Conditional DETR for Fast Training Convergence by Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, Jingdong Wang で提案されました。
条件付き DETR は高速な DETR 訓練のための条件付き交差アテンション機構を提示します。条件付き DETR は DETR よりも 6.7× から 10× 倍速く収束します。
- Add support for conditional detr by @DeppMeng in #18948
- Improve conditional detr docs by @NielsRogge in #19154
時系列 Transformer
時系列 Transformer モデルは時系列予測のための vanilla エンコーダ・デコーダ Transformer です。
このモデルは機械翻訳のための (T5 や BART のような) エンコーダ・デコーダ Transformer を訓練する方法に類似した方法で訓練されます ; つまり teacher forcing が使用されます。推論時には、一度に 1 時間ステップ、サンプルを自己回帰的に生成できます。
⚠️ これは最近導入されたモデルとモダリティですので、API は広範囲にはテストされていません。今後、幾つかバグがあったりそれを修正するために僅かな breaking チェンジがあるかもしれません。おかしな点があれば、Gitthub Issue を提出してください。
マスクされた Siamese ネットワーク
ViTMSN モデルは Masked Siamese Networks for Label-Efficient Learning by Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas で提案されました。
MSN (マスクされた siamese ネットワーク) はマスクされたパッチのプロトタイプ非マスクパッチのそれと一致させるために joint-embedding (連結埋め込み) アーキテクチャから構成されています。このセットアップで、この手法は画像分類について低ショットと超 (extreme) 低ショット形態 (regimes) で優れた性能を発揮し、DINO のような他の自己教師あり手法のパフォーマンスを超えます。例えば、ImageNet-1K の 1% のラベルで、この手法は 75.7% top-1 精度を達成します。
- MSN (Masked Siamese Networks) for ViT by @sayakpaul in #18815
MarkupLM
MarkupLM モデルは MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding by Junlong Li, Yiheng Xu, Lei Cui, Furu Wei で提案されました。
MarkupLM は BERT ですが、raw テキスト文書の代わりに HTML ページに適用されます。このモデルは LayoutLM と同様に、性能を改良するために追加の埋め込み層を組み込んでいます。
このモデルは web ページの質問応答や web ページの情報抽出のようなタスクに使用できます。It obtains state-of-the-art results on 2 important benchmarks: WebSRC and SWDE.
- Add MarkupLM by @NielsRogge in #19198
セキュリティ & 安全性
私たちは、サポートする 3 つのフレームワーク: PyTorch, TensorFlow と JAX で利用できる、Pickle を使用しない新しいシリアライゼーション形式を探求しています。そのために safetensors ライブラリを活用します。
現段階ではサポートは PyTorch モデルに対してのみで、まだ実験的です。
以上