HuggingFace Transformers 4.6 : 上級ガイド : 事前訓練モデル (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 05/16/2021 (4.6.0)
* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです:
- Advanced Guides : Pretrained models
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
★ 無料 Web セミナー開催中 ★ クラスキャット主催 人工知能 & ビジネス Web セミナー
人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。
スケジュールは弊社 公式 Web サイト でご確認頂けます。
スケジュールは弊社 公式 Web サイト でご確認頂けます。
- お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
- ウェビナー運用には弊社製品「ClassCat® Webinar」を利用しています。
クラスキャットは人工知能・テレワークに関する各種サービスを提供しております :
人工知能研究開発支援 | 人工知能研修サービス | テレワーク & オンライン授業を支援 |
PoC(概念実証)を失敗させないための支援 (本支援はセミナーに参加しアンケートに回答した方を対象としています。) |
◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。
株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション |
E-Mail:sales-info@classcat.com ; WebSite: https://www.classcat.com/ ; Facebook |
HuggingFace Transformers : 上級ガイド : 事前訓練モデル
ここに各モデルの短い説明とともに利用可能な事前訓練モデルの部分的なリストがあります。
完全なリストについては、https://huggingface.co/models を参照してください。
アーキテクチャ | モデル id | モデルの詳細 |
BERT | bert-base-uncased | 12-層、768-隠れ次元、12-ヘッド、110M パラメータ lower-cased 英語テキスト上で訓練 |
bert-large-uncased | 24-層、1024-隠れ次元、16-ヘッド、336M パラメータlower-cased 英語テキスト上で訓練 | |
bert-base-cased | 12-層、768-隠れ次元、12-ヘッド、109M パラメータcased 英語テキスト上で訓練 | |
bert-large-cased | 24-層、1024-隠れ次元、16-ヘッド、335M パラメータcased 英語テキスト上で訓練 | |
bert-base-multilingual-uncased | (オリジナル、非推奨) 12-層、768-隠れ次元、12-ヘッド、168M パラメータ the largest Wikipedias 内でトップ 102 言語内の lower-cased テキスト上で訓練 (詳細 参照) |
|
bert-base-multilingual-cased | (新規、推奨) 12-層、768-隠れ次元、12-ヘッド、179M パラメータ the largest Wikipedias 内でトップ 104 言語内の cased テキスト上で訓練 (詳細 参照) |
|
bert-base-chinese | 12-層、768-隠れ次元、12-ヘッド、103M パラメータcased 中国語 (簡体字と繁体字) テキスト上で訓練 | |
bert-base-german-cased | 12-層、768-隠れ次元、12-ヘッド、110M パラメータDeepset.ai による cased ドイツ語テキスト上で訓練 (deepset.ai website 上の詳細 参照) |
|
bert-large-uncased-whole-word-masking | 24-層、1024-隠れ次元、16-ヘッド、336M パラメータWhole-Word-Masking を使用して lower-cased 英語テキスト上で訓練 (詳細 参照) |
|
bert-large-cased-whole-word-masking | 24-層、1024-隠れ次元、16-ヘッド、335M パラメータWhole-Word-Masking を使用して cased 英語テキスト上で訓練 (詳細 参照) |
|
bert-large-uncased-whole-word-masking-finetuned-squad | 24-層、1024-隠れ次元、16-ヘッド、336M パラメータSQuAD 上で再調整された bert-large-uncased-whole-word-masking モデル (example セクション の再調整の詳細参照) |
|
bert-large-cased-whole-word-masking-finetuned-squad | 24-層、1024-隠れ次元、16-ヘッド、335M パラメータSQuAD 上で再調整された bert-large-cased-whole-word-masking モデル (example セクション の再調整の詳細参照) |
|
bert-base-cased-finetuned-mrpc | 12-層、768-隠れ次元、12-ヘッド、110M パラメータMRPC 上で再調整された bert-base-cased モデル (example セクション の再調整の詳細参照) |
|
bert-base-german-dbmdz-cased | 12-層、768-隠れ次元、12-ヘッド、110M パラメータDBMDZ による cased ドイツ語テキスト上で訓練 (dbmdz レポジトリ上の詳細 参照) |
|
bert-base-german-dbmdz-uncased | 12-層、768-隠れ次元、12-ヘッド、110M パラメータDBMDZ による uncased ドイツ語テキスト上で訓練 (dbmdz レポジトリ上の詳細 参照) |
|
cl-tohoku/bert-base-japanese | 12-層、768-隠れ次元、12-ヘッド、111M パラメータ日本語テキスト上で訓練。テキストは MeCab と WordPiece でトークン化され、これは幾つかの追加の依存性を必要とします、fugashi これは MeCab のラッパーです。 それらをインストールするには pip install transformers[“ja”] (or ソースからインストールする場合は pip install -e .[“ja”]) を使用します。 (cl-tohoku レポジトリ 上の詳細参照) |
|
cl-tohoku/bert-base-japanese-whole-word-masking | 12-層、768-隠れ次元、12-ヘッド、111M パラメータ日本語テキスト上で訓練。テキストは MeCab と WordPiece でトークン化され、これは幾つかの追加の依存性を必要とします、fugashi これは MeCab のラッパーです。 それらをインストールするには pip install transformers[“ja”] (or ソースからインストールする場合は pip install -e .[“ja”]) を使用します。 (cl-tohoku レポジトリ 上の詳細参照) |
|
cl-tohoku/bert-base-japanese-char | 12-層、768-隠れ次元、12-ヘッド、90M パラメータ日本語テキスト上で訓練。テキストは文字にトークン化されます。 (cl-tohoku レポジトリ 上の詳細参照) |
|
cl-tohoku/bert-base-japanese-char-whole-word-masking | 12-層、768-隠れ次元、12-ヘッド、90M パラメータWhole-Word-Masking を使用して日本語テキスト上で訓練。テキストは文字にトークン化されます。 (cl-tohoku レポジトリ 上の詳細参照) |
|
TurkuNLP/bert-base-finnish-cased-v1 | 12-層、768-隠れ次元、12-ヘッド、125M パラメータcased フィンランド語テキスト上で訓練。 (turkunlp.org 上の詳細 参照。) |
TurkuNLP/bert-base-finnish-uncased-v1 | 12-層、768-隠れ次元、12-ヘッド、110M パラメータuncased フィンランド語テキスト上で訓練。 (turkunlp.org 上の詳細 参照。) |
wietsedv/bert-base-dutch-cased | 12-層、768-隠れ次元、12-ヘッド、110M パラメータcased オランダ語テキスト上で訓練。 (wietsedv レポジトリ上の詳細 参照。) |
GPT | openai-gpt | 12-層、768-隠れ次元、12-ヘッド、110M パラメータOpenAI GPT 英語モデル |
GPT-2 | gpt2 | 12-層、768-隠れ次元、12-ヘッド、117M パラメータOpenAI GPT-2 英語モデル |
gpt2-medium | 24-層、1024-隠れ次元、16-ヘッド、345M パラメータOpenAI のミディアムサイズ GPT-2 英語モデル | |
gpt2-large | 36-層、1280-隠れ次元、20-ヘッド、774M パラメータOpenAI のラージサイズ GPT-2 英語モデル | |
gpt2-xl | 48-層、1600-隠れ次元、25-ヘッド、1558M パラメータOpenAI の XL サイズ GPT-2 英語モデル | |
GPTNeo | EleutherAI/gpt-neo-1.3B | 24-層、2048-隠れ次元、16-ヘッド、1.3B パラメータEleutherAI の GPT-3 ライク言語モデル |
EleutherAI/gpt-neo-2.7B | 32-層、2560-隠れ次元、20-ヘッド、2.7B パラメータEleutherAI の GPT-3 ライク言語モデル | |
Transformer-XL | transfo-xl-wt103 | 18-層、1024-隠れ次元、16-ヘッド、257M パラメータwikitext-103 上で訓練された英語モデル |
XLNet | xlnet-base-cased | 12-層、768-隠れ次元、12-ヘッド、110M パラメータXLNet 英語モデル |
xlnet-large-cased | 24-層、1024-隠れ次元、16-ヘッド、340M パラメータXLNet ラージ英語モデル | |
XLM | xlm-mlm-en-2048 | 12-層、2048-隠れ次元、16-ヘッドXLM 英語モデル |
xlm-mlm-ende-1024 | 6-層、1024-隠れ次元、8-ヘッド英語とドイツ語 wikipedia の結合上で訓練された XLM 英独モデル | |
xlm-mlm-enfr-1024 | 6-層、1024-隠れ次元、8-ヘッド英語とフランス語 wikipedia の結合上で訓練された XLM 英仏モデル | |
xlm-mlm-enro-1024 | 6-層、1024-隠れ次元、8-ヘッドXLM 英語ルーマニア語多言語モデル | |
xlm-mlm-xnli15-1024 | 12-層、1024-隠れ次元、8-ヘッド15 XNLI 言語 上 MLM で事前訓練された XLM モデル | |
xlm-mlm-tlm-xnli15-1024 | 12-層、1024-隠れ次元、8-ヘッド15 XNLI 言語 上 MLM + TLM で事前訓練された XLM モデル | |
xlm-clm-enfr-1024 | 6-層、1024-隠れ次元、8-ヘッド英語とフランス語 wikipedia の結合上で CLM で訓練された XLM 英仏モデル | |
xlm-clm-ende-1024 | 6-層、1024-隠れ次元、8-ヘッド英語とドイツ語 wikipedia の結合上で CLM で訓練された XLM 英独モデル | |
xlm-mlm-17-1280 | 16-層、1280-隠れ次元、16-ヘッド17 言語上で MLM で訓練された XLM モデル | |
xlm-mlm-100-1280 | 16-層、1280-隠れ次元、16-ヘッド100 言語上で MLM で訓練された XLM モデル | |
RoBERTa | roberta-base | 12-層、768-隠れ次元、16-ヘッド、125M パラメータBERT ベースのアーキテクチャを使用する RoBERTa (詳細 参照) |
roberta-large | 24-層、1024-隠れ次元、16-ヘッド、355M パラメータBERT-large アーキテクチャを使用する RoBERTa (詳細 参照) |
|
roberta-large-mnli | 24-層、1024-隠れ次元、16-ヘッド、355M パラメータMNLI 上で再調整された roberta-large (詳細 参照) |
|
distilroberta-base | 6-層、768-隠れ次元、12-ヘッド、82M パラメータRoBERTa モデル roberta-base チェックポイント から蒸留された DistilRoBERTa モデル (詳細 参照) |
|
roberta-base-openai-detector | 12-層、768-隠れ次元、12-ヘッド、125M パラメータ1.5B-パラメータ GPT-2 モデルの出力上で OpenAI により再調整された roberta-base (詳細 参照) |
|
roberta-large-openai-detector | 24-層、1024-隠れ次元、16-ヘッド、355M パラメータ1.5B-パラメータ GPT-2 モデルの出力上で OpenAI により再調整された roberta-large (詳細 参照) |
|
DistilBERT | distilbert-base-uncased | 6-層、768-隠れ次元、12-ヘッド、66M パラメータBERT モデル bert-base-uncased チェックポイントから蒸留された DistilBERT モデル (詳細 参照) |
distilbert-base-uncased-distilled-squad | 6-層、768-隠れ次元、12-ヘッド、66M パラメータ追加の線形層を持ち、BERT モデル bert-base-uncased チェックポイントから蒸留された DistilBERT モデル (詳細 参照) |
|
distilbert-base-cased | 6-層、768-隠れ次元、12-ヘッド、65M パラメータBERT モデル bert-base-cased チェックポイントから蒸留された DistilBERT モデル (詳細 参照) |
|
distilbert-base-cased-distilled-squad | 6-層、768-隠れ次元、12-ヘッド、65M パラメータ追加の質問応答層を持ち、BERT モデル bert-base-cased チェックポイントから蒸留された DistilBERT モデル (詳細 参照) |
|
distilgpt2 | 6-層、768-隠れ次元、12-ヘッド、82M パラメータGPT2 モデル gpt2 チェックポイントから蒸留された DistilGPT2 モデル (詳細 参照) |
|
distilbert-base-german-cased | 6-層、768-隠れ次元、12-ヘッド、66M パラメータドイツ語 DBMDZ BERT モデル bert-base-german-dbmdz-cased チェックポイントから蒸留されたドイツ語 DistilBERT モデル (詳細 参照) |
|
distilbert-base-multilingual-cased | 6-層、768-隠れ次元、12-ヘッド、134M パラメータ多言語 BERT モデル bert-base-multilingual-cased チェックポイントから蒸留された多言語 DistilBERT モデル (詳細 参照) |
|
CTRL | ctrl | 48-層、1280-隠れ次元、16-ヘッド、1.6B パラメータSalesforce のラージサイズ CTRL 英語モデル |
CamemBERT | camembert-base | 12-層、768-隠れ次元、12-ヘッド、110M パラメータBERT-base アーキテクチャを使用する CamemBERT (詳細 参照) |
ALBERT | albert-base-v1 | 12-反復 (= repeating) 層、128 埋め込み、768-隠れ次元、12-ヘッド、11M パラメータALBERT ベースモデル (詳細 参照) |
albert-large-v1 | 24-反復 (= repeating) 層、128 埋め込み、1024-隠れ次元、16-ヘッド、17M パラメータALBERT ラージモデル (詳細 参照) |
|
albert-xlarge-v1 | 24-反復 (= repeating) 層、128 埋め込み、2048-隠れ次元、16-ヘッド、58M パラメータALBERT xlarge モデル (詳細 参照) |
|
albert-xxlarge-v1 | 12-反復 (= repeating) 層、128 埋め込み、4096-隠れ次元、64-ヘッド、223M パラメータALBERT xxlarge モデル (詳細 参照) |
|
albert-base-v2 | 12-反復 (= repeating) 層、128 埋め込み、768-隠れ次元、12-ヘッド、11M パラメータdropout なし、追加の訓練データとより長い訓練を伴う、ALBERT ベースモデル (詳細 参照) |
|
albert-large-v2 | 24-反復 (= repeating) 層、128 埋め込み、1024-隠れ次元、16-ヘッド、17M パラメータdropout なし、追加の訓練データとより長い訓練を伴う、ALBERT ラージモデル (詳細 参照) |
|
albert-xlarge-v2 | 24-反復 (= repeating) 層、128 埋め込み、2048-隠れ次元、16-ヘッド、58M パラメータdropout なし、追加の訓練データとより長い訓練を伴う、ALBERT xlarge モデル (詳細 参照) |
|
albert-xxlarge-v2 | 12-反復 (= repeating) 層、128 埋め込み、4096-隠れ次元、64-ヘッド、223M パラメータdropout なし、追加の訓練データとより長い訓練を伴う、ALBERT xxlarge モデル (詳細 参照) |
|
T5 | t5-small | 6-層、512-隠れ状態、2048 順伝播隠れ状態、8-ヘッド を持つ ~60M パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練 |
t5-base | 12-層、768-隠れ状態、3072 順伝播隠れ状態、12-ヘッド を持つ ~220M パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練 | |
t5-large | 24-層、1024-隠れ状態、4096 順伝播隠れ状態、16-ヘッド を持つ ~770M パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練 | |
t5-3B | 24-層、1024-隠れ状態、16384 順伝播隠れ状態、32-ヘッド を持つ ~2.8B パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練 | |
t5-11B | 24-層、1024-隠れ状態、65536 順伝播隠れ状態、128-ヘッド を持つ ~11B パラメータ英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練 | |
XLM-RoBERTa | xlm-roberta-base | 12-層、768-隠れ状態、3072 順伝播隠れ状態、8-ヘッド を持つ ~270M パラメータ100 言語の新たに作成された clean CommonCrawl データの 2.5 TB 上で訓練 |
xlm-roberta-large | 24-層、1024-隠れ状態、4096 順伝播隠れ状態、16-ヘッド を持つ ~550M パラメータ100 言語の新たに作成された clean CommonCrawl データの 2.5 TB 上で訓練 | |
FlauBERT | flaubert/flaubert_small_cased | 6-層、512-隠れ状態、8-ヘッド、54M パラメータFlauBERT small アーキテクチャ (詳細 参照) |
flaubert/flaubert_base_uncased | 12-層、768-隠れ状態、12-ヘッド、137M パラメータuncased 語彙による FlauBERT ベースアーキテクチャ (詳細 参照) |
|
flaubert/flaubert_base_cased | 12-層、768-隠れ状態、12-ヘッド、138M パラメータcased 語彙による FlauBERT ベースアーキテクチャ (詳細 参照) |
|
flaubert/flaubert_large_cased | 24-層、1024-隠れ状態、16-ヘッド、373M パラメータFlauBERT large アーキテクチャ (詳細 参照) |
|
Bart | facebook/bart-large | 24-層、1024-隠れ状態、16-ヘッド、406M パラメータ(詳細 参照) |
facebook/bart-base | 12-層、768-隠れ状態、16-ヘッド、139M パラメータ | |
facebook/bart-large-mnli | 1M パラメータを持つ 2 層分類ヘッドを追加 MNLI 上で再調整された、分類ヘッドを持つ bart-large ベースアーキテクチャ |
|
facebook/bart-large-cnn | 24-層、1024-隠れ状態、16-ヘッド、406M パラメータ (large と同じ) cnn 要約タスク上で再調整された bart-large ベースアーキテクチャ |
|
BARThez | moussaKam/barthez | 12-層、768-隠れ状態、12-ヘッド、216M パラメータ (詳細 参照) |
moussaKam/mbarthez | 24-層、1024-隠れ状態、16-ヘッド、516M パラメータ | |
DialoGPT | DialoGPT-small | 12-層、768-隠れ状態、12-ヘッド、124M パラメータ 英語テキスト: Reddit から抽出された 147M の会話 like なやり取り – 上で訓練 |
DialoGPT-medium | 24-層、1024-隠れ状態、16-ヘッド、355M パラメータ 英語テキスト: Reddit から抽出された 147M の会話 like なやり取り – 上で訓練 |
|
DialoGPT-large | 36-層、1280-隠れ状態、20-ヘッド、774M パラメータ 英語テキスト: Reddit から抽出された 147M の会話 like なやり取り – 上で訓練 |
|
Reformer | reformer-enwik8 | 12-層、1024-隠れ状態、8-ヘッド、149M パラメータ 英語 Wikipedia データ – enwiki8 上で訓練 |
reformer-crime-and-punishment | 6-層、256-隠れ状態、2-ヘッド、3M パラメータ 英語テキスト: 罪と罰 小説 by フョードル・ドストエフスキー – 上で訓練 |
|
M2M100 | facebook/m2m100_418M | 24-層、1024-隠れ状態、16-ヘッド、418M パラメータ 100言語のための多言語機械翻訳モデル |
facebook/m2m100_1.2B | 48-層、1024-隠れ状態、16-ヘッド、1.2B パラメータ 100言語のための多言語機械翻訳モデル |
|
MarianMT | Helsinki-NLP/opus-mt-{src}-{tgt} | 12-層、512-隠れ状態、8-ヘッド、~74M パラメータ機械翻訳モデル。パラメータ数は語彙サイズに依存して様々です。 (モデルリスト 参照) |
Pegasus | google/pegasus-{dataset} | 16-層、1024-隠れ状態、16-ヘッド、~568M パラメータ、要約のためには 2.2 GB。モデルリスト |
Longformer | allenai/longformer-base-4096 | 12-層、768-隠れ状態、12-ヘッド、~149M パラメータ RoBERTa-base チェックポイントから始めて、最大長 4,096 のドキュメント上で訓練 |
allenai/longformer-large-4096 | 24-層、1024-隠れ状態、16-ヘッド、~435M パラメータ RoBERTa-large チェックポイントから始めて、最大長 4,096 のドキュメント上で訓練 |
|
MBart | facebook/mbart-large-cc25 | 24-層、1024-隠れ状態、16-ヘッド、610M パラメータ 25 言語の monolingual コーパス上で訓練された mBART (bart-large アーキテクチャ) モデル |
facebook/mbart-large-en-ro | 24-層、1024-隠れ状態、16-ヘッド、610M パラメータ WMT 英語ルーマニア翻訳上で再調整された mbart-large-cc25 モデル |
|
facebook/mbart-large-50 | 24-層、1024-隠れ状態、16-ヘッド 50 言語の monolingual コーパス上で訓練された mBART モデル |
|
facebook/mbart-large-50-one-to-many-mmt | 24-層、1024-隠れ状態、16-ヘッド 一つ (英語) を 50 言語をカバーする多くの多言語機械翻訳のために再調整された mbart-50-large モデル |
|
facebook/mbart-large-50-many-to-many-mmt | 24-層、1024-隠れ状態、16-ヘッド 多数 (の言語) を 50 言語をカバーする多くの多言語機械翻訳のために再調整された mbart-50-large モデル |
|
Lxmert | lxmert-base-uncased | 9-言語層、9-関係 (= relationship) 層と 12-交差モーダリティ層、768-隠れ状態、12-ヘッド (各層について) ~ 228M パラメータ lxmert-base チェックポイントから始めて、COCO, VisualGenome, GQA, VQA からの 9 百万を越える画像-テキストのカプレット (= couplet) 上で訓練 |
Funnel Transformer | funnel-transformer/small | 14 層: 4 層の 3 ブロックから 2 層デコーダ、768-隠れ状態、12-ヘッド、130M パラメータ (詳細 参照) |
funnel-transformer/small-base | 12 層: 4 層の 3 ブロック (no デコーダ)、768-隠れ状態、12-ヘッド、115M パラメータ (詳細 参照) |
|
funnel-transformer/medium | 14 層: 3 ブロック 6, 3×2, 3×2 層から 2 層デコーダ、768-隠れ状態、12-ヘッド、130M パラメータ (詳細 参照) |
|
funnel-transformer/medium-base | 12 層: 3 ブロック 6, 3×2, 3×2 層 (no デコーダ)、768-隠れ状態、12-ヘッド、115M パラメータ (詳細 参照) |
|
funnel-transformer/intermediate | 20 層: 6 層の 3 ブロックから 2 層デコーダ、768-隠れ状態、12-ヘッド、177M パラメータ (詳細 参照) |
|
funnel-transformer/intermediate-base | 18 層: 6 層の 3 ブロック (no デコーダ)、768-隠れ状態、12-ヘッド、161M パラメータ (詳細 参照) |
|
funnel-transformer/large | 26 層: 8 層の 3 ブロックから 2 層デコーダ、1024-隠れ状態、12-ヘッド、386M パラメータ (詳細 参照) |
|
funnel-transformer/large-base | 24 層: 8 層の 3 ブロック (no デコーダ)、1024-隠れ状態、12-ヘッド、358M パラメータ (詳細 参照) |
|
funnel-transformer/xlarge | 32 層: 10 層の 3 ブロックから 2 層デコーダ、1024-隠れ状態、12-ヘッド、468M パラメータ (詳細 参照) |
|
funnel-transformer/xlarge-base | 30 層: 10 層の 3 ブロック (no デコーダ)、1024-隠れ状態、12-ヘッド、440M パラメータ (詳細 参照) |
|
LayoutLM | microsoft/layoutlm-base-uncased | 12-層、768-隠れ状態、12-ヘッド、113M パラメータ (詳細 参照) |
microsoft/layoutlm-large-uncased | 24-層、1024-隠れ状態、16-ヘッド、343M パラメータ (詳細 参照) |
|
DeBERTa | microsoft/deberta-base | 12-層、768-隠れ状態、12-ヘッド、~140M パラメータ BERT ベース・アーキテクチャを使用する DeBERTa (詳細 参照) |
microsoft/deberta-large | 24-層、1024-隠れ状態、16-ヘッド、~400M パラメータ BERT large アーキテクチャを使用する DeBERTa (詳細 参照) |
|
microsoft/deberta-xlarge | 48-層、1024-隠れ状態、16-ヘッド、~750M パラメータ 類似した BERT アーキテクチャによる DeBERTa XLarge (詳細 参照) |
|
microsoft/deberta-xlarge-v2 | 24-層、1536-隠れ状態、24-ヘッド、~900M パラメータ 類似した BERT アーキテクチャによる DeBERTa XLarge V2 (詳細 参照) |
|
microsoft/deberta-xxlarge-v2 | 48-層、1536-隠れ状態、24-ヘッド、~1.5B パラメータ 類似した BERT アーキテクチャによる DeBERTa XXLarge V2 (詳細 参照) |
|
SqueezeBERT | squeezebert/squeezebert-uncased | 12-層、768-隠れ状態、12-ヘッド、51M パラメータ、スマートフォン上で bert-base-uncased より 4.3x 高速。 MLM とセンテンス順序予測 (SOP) タスク上でスクラッチから事前訓練された SqueezeBERT アーキテクチャ。 |
squeezebert/squeezebert-mnli | 12-層、768-隠れ状態、12-ヘッド、51M パラメータ、スマートフォン上で bert-base-uncased より 4.3x 高速。 これは electra-base からの蒸留による MNLI センテンス・ペア分類タスク上で再調整された squeezebert-uncased モデル。 |
|
squeezebert/squeezebert-mnli-headless | 12-層、768-隠れ状態、12-ヘッド、51M パラメータ、スマートフォン上で bert-base-uncased より 4.3x 高速。 これは electra-base からの蒸留による MNLI センテンス・ペア分類タスク上で再調整された squeezebert-uncased モデル。 最後の分類層は除去されていますので、貴方が再調整するとき、最終層は最初期化されます。 |
以上