HuggingFace Transformers 4.6 : 上級ガイド : 事前訓練モデル

HuggingFace Transformers 4.6 : 上級ガイド : 事前訓練モデル (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 05/16/2021 (4.6.0)

* 本ページは、HuggingFace Transformers の以下のドキュメントを翻訳した上で適宜、補足説明したものです:

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

無料 Web セミナー開催中 クラスキャット主催 人工知能 & ビジネス Web セミナー

人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。
スケジュールは弊社 公式 Web サイト でご確認頂けます。
  • お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
  • ウェビナー運用には弊社製品「ClassCat® Webinar」を利用しています。
クラスキャットは人工知能・テレワークに関する各種サービスを提供しております :

人工知能研究開発支援 人工知能研修サービス テレワーク & オンライン授業を支援
PoC(概念実証)を失敗させないための支援 (本支援はセミナーに参加しアンケートに回答した方を対象としています。)

お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
E-Mail:sales-info@classcat.com  ;  WebSite: https://www.classcat.com/  ;  Facebook

 

HuggingFace Transformers : 上級ガイド : 事前訓練モデル

ここに各モデルの短い説明とともに利用可能な事前訓練モデルの部分的なリストがあります。

完全なリストについては、https://huggingface.co/models を参照してください。

アーキテクチャ モデル id モデルの詳細
BERT bert-base-uncased 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
lower-cased 英語テキスト上で訓練
bert-large-uncased 24-層、1024-隠れ次元、16-ヘッド、336M パラメータ
lower-cased 英語テキスト上で訓練
bert-base-cased 12-層、768-隠れ次元、12-ヘッド、109M パラメータ
cased 英語テキスト上で訓練
bert-large-cased 24-層、1024-隠れ次元、16-ヘッド、335M パラメータ
cased 英語テキスト上で訓練
bert-base-multilingual-uncased (オリジナル、非推奨) 12-層、768-隠れ次元、12-ヘッド、168M パラメータ
the largest Wikipedias 内でトップ 102 言語内の lower-cased テキスト上で訓練
(詳細 参照)
bert-base-multilingual-cased (新規、推奨) 12-層、768-隠れ次元、12-ヘッド、179M パラメータ
the largest Wikipedias 内でトップ 104 言語内の cased テキスト上で訓練
(詳細 参照)
bert-base-chinese 12-層、768-隠れ次元、12-ヘッド、103M パラメータ
cased 中国語 (簡体字と繁体字) テキスト上で訓練
bert-base-german-cased 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
Deepset.ai による cased ドイツ語テキスト上で訓練
(deepset.ai website 上の詳細 参照)
bert-large-uncased-whole-word-masking 24-層、1024-隠れ次元、16-ヘッド、336M パラメータ
Whole-Word-Masking を使用して lower-cased 英語テキスト上で訓練
(詳細 参照)
bert-large-cased-whole-word-masking 24-層、1024-隠れ次元、16-ヘッド、335M パラメータ
Whole-Word-Masking を使用して cased 英語テキスト上で訓練
(詳細 参照)
bert-large-uncased-whole-word-masking-finetuned-squad 24-層、1024-隠れ次元、16-ヘッド、336M パラメータ
SQuAD 上で再調整された bert-large-uncased-whole-word-masking モデル
(example セクション の再調整の詳細参照)
bert-large-cased-whole-word-masking-finetuned-squad 24-層、1024-隠れ次元、16-ヘッド、335M パラメータ
SQuAD 上で再調整された bert-large-cased-whole-word-masking モデル
(example セクション の再調整の詳細参照)
bert-base-cased-finetuned-mrpc 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
MRPC 上で再調整された bert-base-cased モデル
(example セクション の再調整の詳細参照)
bert-base-german-dbmdz-cased 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
DBMDZ による cased ドイツ語テキスト上で訓練
(dbmdz レポジトリ上の詳細 参照)
bert-base-german-dbmdz-uncased 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
DBMDZ による uncased ドイツ語テキスト上で訓練
(dbmdz レポジトリ上の詳細 参照)
cl-tohoku/bert-base-japanese 12-層、768-隠れ次元、12-ヘッド、111M パラメータ
日本語テキスト上で訓練。テキストは MeCab と WordPiece でトークン化され、これは幾つかの追加の依存性を必要とします、fugashi これは MeCab のラッパーです。
それらをインストールするには pip install transformers[“ja”] (or ソースからインストールする場合は pip install -e .[“ja”]) を使用します。
(cl-tohoku レポジトリ 上の詳細参照)
cl-tohoku/bert-base-japanese-whole-word-masking 12-層、768-隠れ次元、12-ヘッド、111M パラメータ
日本語テキスト上で訓練。テキストは MeCab と WordPiece でトークン化され、これは幾つかの追加の依存性を必要とします、fugashi これは MeCab のラッパーです。
それらをインストールするには pip install transformers[“ja”] (or ソースからインストールする場合は pip install -e .[“ja”]) を使用します。
(cl-tohoku レポジトリ 上の詳細参照)
cl-tohoku/bert-base-japanese-char 12-層、768-隠れ次元、12-ヘッド、90M パラメータ
日本語テキスト上で訓練。テキストは文字にトークン化されます。
(cl-tohoku レポジトリ 上の詳細参照)
cl-tohoku/bert-base-japanese-char-whole-word-masking 12-層、768-隠れ次元、12-ヘッド、90M パラメータ
Whole-Word-Masking を使用して日本語テキスト上で訓練。テキストは文字にトークン化されます。
(cl-tohoku レポジトリ 上の詳細参照)
TurkuNLP/bert-base-finnish-cased-v1 12-層、768-隠れ次元、12-ヘッド、125M パラメータ
cased フィンランド語テキスト上で訓練。
(turkunlp.org 上の詳細 参照。)
TurkuNLP/bert-base-finnish-uncased-v1 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
uncased フィンランド語テキスト上で訓練。
(turkunlp.org 上の詳細 参照。)
wietsedv/bert-base-dutch-cased 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
cased オランダ語テキスト上で訓練。
(wietsedv レポジトリ上の詳細 参照。)
GPT openai-gpt 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
OpenAI GPT 英語モデル
GPT-2 gpt2 12-層、768-隠れ次元、12-ヘッド、117M パラメータ
OpenAI GPT-2 英語モデル
gpt2-medium 24-層、1024-隠れ次元、16-ヘッド、345M パラメータ
OpenAI のミディアムサイズ GPT-2 英語モデル
gpt2-large 36-層、1280-隠れ次元、20-ヘッド、774M パラメータ
OpenAI のラージサイズ GPT-2 英語モデル
gpt2-xl 48-層、1600-隠れ次元、25-ヘッド、1558M パラメータ
OpenAI の XL サイズ GPT-2 英語モデル
GPTNeo EleutherAI/gpt-neo-1.3B 24-層、2048-隠れ次元、16-ヘッド、1.3B パラメータ
EleutherAI の GPT-3 ライク言語モデル
EleutherAI/gpt-neo-2.7B 32-層、2560-隠れ次元、20-ヘッド、2.7B パラメータ
EleutherAI の GPT-3 ライク言語モデル
Transformer-XL transfo-xl-wt103 18-層、1024-隠れ次元、16-ヘッド、257M パラメータ
wikitext-103 上で訓練された英語モデル
XLNet xlnet-base-cased 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
XLNet 英語モデル
xlnet-large-cased 24-層、1024-隠れ次元、16-ヘッド、340M パラメータ
XLNet ラージ英語モデル
XLM xlm-mlm-en-2048 12-層、2048-隠れ次元、16-ヘッド
XLM 英語モデル
xlm-mlm-ende-1024 6-層、1024-隠れ次元、8-ヘッド
英語とドイツ語 wikipedia の結合上で訓練された XLM 英独モデル
xlm-mlm-enfr-1024 6-層、1024-隠れ次元、8-ヘッド
英語とフランス語 wikipedia の結合上で訓練された XLM 英仏モデル
xlm-mlm-enro-1024 6-層、1024-隠れ次元、8-ヘッド
XLM 英語ルーマニア語多言語モデル
xlm-mlm-xnli15-1024 12-層、1024-隠れ次元、8-ヘッド
15 XNLI 言語 上 MLM で事前訓練された XLM モデル
xlm-mlm-tlm-xnli15-1024 12-層、1024-隠れ次元、8-ヘッド
15 XNLI 言語 上 MLM + TLM で事前訓練された XLM モデル
xlm-clm-enfr-1024 6-層、1024-隠れ次元、8-ヘッド
英語とフランス語 wikipedia の結合上で CLM で訓練された XLM 英仏モデル
xlm-clm-ende-1024 6-層、1024-隠れ次元、8-ヘッド
英語とドイツ語 wikipedia の結合上で CLM で訓練された XLM 英独モデル
xlm-mlm-17-1280 16-層、1280-隠れ次元、16-ヘッド
17 言語上で MLM で訓練された XLM モデル
xlm-mlm-100-1280 16-層、1280-隠れ次元、16-ヘッド
100 言語上で MLM で訓練された XLM モデル
RoBERTa roberta-base 12-層、768-隠れ次元、16-ヘッド、125M パラメータ
BERT ベースのアーキテクチャを使用する RoBERTa
(詳細 参照)
roberta-large 24-層、1024-隠れ次元、16-ヘッド、355M パラメータ
BERT-large アーキテクチャを使用する RoBERTa
(詳細 参照)
roberta-large-mnli 24-層、1024-隠れ次元、16-ヘッド、355M パラメータ
MNLI 上で再調整された roberta-large
(詳細 参照)
distilroberta-base 6-層、768-隠れ次元、12-ヘッド、82M パラメータ
RoBERTa モデル roberta-base チェックポイント から蒸留された DistilRoBERTa モデル
(詳細 参照)
roberta-base-openai-detector 12-層、768-隠れ次元、12-ヘッド、125M パラメータ
1.5B-パラメータ GPT-2 モデルの出力上で OpenAI により再調整された roberta-base
(詳細 参照)
roberta-large-openai-detector 24-層、1024-隠れ次元、16-ヘッド、355M パラメータ
1.5B-パラメータ GPT-2 モデルの出力上で OpenAI により再調整された roberta-large
(詳細 参照)
DistilBERT distilbert-base-uncased 6-層、768-隠れ次元、12-ヘッド、66M パラメータ
BERT モデル bert-base-uncased チェックポイントから蒸留された DistilBERT モデル
(詳細 参照)
distilbert-base-uncased-distilled-squad 6-層、768-隠れ次元、12-ヘッド、66M パラメータ
追加の線形層を持ち、BERT モデル bert-base-uncased チェックポイントから蒸留された DistilBERT モデル
(詳細 参照)
distilbert-base-cased 6-層、768-隠れ次元、12-ヘッド、65M パラメータ
BERT モデル bert-base-cased チェックポイントから蒸留された DistilBERT モデル
(詳細 参照)
distilbert-base-cased-distilled-squad 6-層、768-隠れ次元、12-ヘッド、65M パラメータ
追加の質問応答層を持ち、BERT モデル bert-base-cased チェックポイントから蒸留された DistilBERT モデル
(詳細 参照)
distilgpt2 6-層、768-隠れ次元、12-ヘッド、82M パラメータ
GPT2 モデル gpt2 チェックポイントから蒸留された DistilGPT2 モデル
(詳細 参照)
distilbert-base-german-cased 6-層、768-隠れ次元、12-ヘッド、66M パラメータ
ドイツ語 DBMDZ BERT モデル bert-base-german-dbmdz-cased チェックポイントから蒸留されたドイツ語 DistilBERT モデル
(詳細 参照)
distilbert-base-multilingual-cased 6-層、768-隠れ次元、12-ヘッド、134M パラメータ
多言語 BERT モデル bert-base-multilingual-cased チェックポイントから蒸留された多言語 DistilBERT モデル
(詳細 参照)
CTRL ctrl 48-層、1280-隠れ次元、16-ヘッド、1.6B パラメータ
Salesforce のラージサイズ CTRL 英語モデル
CamemBERT camembert-base 12-層、768-隠れ次元、12-ヘッド、110M パラメータ
BERT-base アーキテクチャを使用する CamemBERT
(詳細 参照)
ALBERT albert-base-v1 12-反復 (= repeating) 層、128 埋め込み、768-隠れ次元、12-ヘッド、11M パラメータ
ALBERT ベースモデル
(詳細 参照)
albert-large-v1 24-反復 (= repeating) 層、128 埋め込み、1024-隠れ次元、16-ヘッド、17M パラメータ
ALBERT ラージモデル
(詳細 参照)
albert-xlarge-v1 24-反復 (= repeating) 層、128 埋め込み、2048-隠れ次元、16-ヘッド、58M パラメータ
ALBERT xlarge モデル
(詳細 参照)
albert-xxlarge-v1 12-反復 (= repeating) 層、128 埋め込み、4096-隠れ次元、64-ヘッド、223M パラメータ
ALBERT xxlarge モデル
(詳細 参照)
albert-base-v2 12-反復 (= repeating) 層、128 埋め込み、768-隠れ次元、12-ヘッド、11M パラメータ
dropout なし、追加の訓練データとより長い訓練を伴う、ALBERT ベースモデル
(詳細 参照)
albert-large-v2 24-反復 (= repeating) 層、128 埋め込み、1024-隠れ次元、16-ヘッド、17M パラメータ
dropout なし、追加の訓練データとより長い訓練を伴う、ALBERT ラージモデル
(詳細 参照)
albert-xlarge-v2 24-反復 (= repeating) 層、128 埋め込み、2048-隠れ次元、16-ヘッド、58M パラメータ
dropout なし、追加の訓練データとより長い訓練を伴う、ALBERT xlarge モデル
(詳細 参照)
albert-xxlarge-v2 12-反復 (= repeating) 層、128 埋め込み、4096-隠れ次元、64-ヘッド、223M パラメータ
dropout なし、追加の訓練データとより長い訓練を伴う、ALBERT xxlarge モデル
(詳細 参照)
T5 t5-small 6-層、512-隠れ状態、2048 順伝播隠れ状態、8-ヘッド を持つ ~60M パラメータ
英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
t5-base 12-層、768-隠れ状態、3072 順伝播隠れ状態、12-ヘッド を持つ ~220M パラメータ
英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
t5-large 24-層、1024-隠れ状態、4096 順伝播隠れ状態、16-ヘッド を持つ ~770M パラメータ
英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
t5-3B 24-層、1024-隠れ状態、16384 順伝播隠れ状態、32-ヘッド を持つ ~2.8B パラメータ
英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
t5-11B 24-層、1024-隠れ状態、65536 順伝播隠れ状態、128-ヘッド を持つ ~11B パラメータ
英語テキスト: Colossal Clean Crawled コーパス (C4) 上で訓練
XLM-RoBERTa xlm-roberta-base 12-層、768-隠れ状態、3072 順伝播隠れ状態、8-ヘッド を持つ ~270M パラメータ
100 言語の新たに作成された clean CommonCrawl データの 2.5 TB 上で訓練
xlm-roberta-large 24-層、1024-隠れ状態、4096 順伝播隠れ状態、16-ヘッド を持つ ~550M パラメータ
100 言語の新たに作成された clean CommonCrawl データの 2.5 TB 上で訓練
FlauBERT flaubert/flaubert_small_cased 6-層、512-隠れ状態、8-ヘッド、54M パラメータ
FlauBERT small アーキテクチャ
(詳細 参照)
flaubert/flaubert_base_uncased 12-層、768-隠れ状態、12-ヘッド、137M パラメータ
uncased 語彙による FlauBERT ベースアーキテクチャ
(詳細 参照)
flaubert/flaubert_base_cased 12-層、768-隠れ状態、12-ヘッド、138M パラメータ
cased 語彙による FlauBERT ベースアーキテクチャ
(詳細 参照)
flaubert/flaubert_large_cased 24-層、1024-隠れ状態、16-ヘッド、373M パラメータ
FlauBERT large アーキテクチャ
(詳細 参照)
Bart facebook/bart-large 24-層、1024-隠れ状態、16-ヘッド、406M パラメータ
(詳細 参照)
facebook/bart-base 12-層、768-隠れ状態、16-ヘッド、139M パラメータ
facebook/bart-large-mnli 1M パラメータを持つ 2 層分類ヘッドを追加
MNLI 上で再調整された、分類ヘッドを持つ bart-large ベースアーキテクチャ
facebook/bart-large-cnn 24-層、1024-隠れ状態、16-ヘッド、406M パラメータ (large と同じ)
cnn 要約タスク上で再調整された bart-large ベースアーキテクチャ
BARThez moussaKam/barthez 12-層、768-隠れ状態、12-ヘッド、216M パラメータ
(詳細 参照)
moussaKam/mbarthez 24-層、1024-隠れ状態、16-ヘッド、516M パラメータ
DialoGPT DialoGPT-small 12-層、768-隠れ状態、12-ヘッド、124M パラメータ
英語テキスト: Reddit から抽出された 147M の会話 like なやり取り – 上で訓練
DialoGPT-medium 24-層、1024-隠れ状態、16-ヘッド、355M パラメータ
英語テキスト: Reddit から抽出された 147M の会話 like なやり取り – 上で訓練
DialoGPT-large 36-層、1280-隠れ状態、20-ヘッド、774M パラメータ
英語テキスト: Reddit から抽出された 147M の会話 like なやり取り – 上で訓練
Reformer reformer-enwik8 12-層、1024-隠れ状態、8-ヘッド、149M パラメータ
英語 Wikipedia データ – enwiki8 上で訓練
reformer-crime-and-punishment 6-層、256-隠れ状態、2-ヘッド、3M パラメータ
英語テキスト: 罪と罰 小説 by フョードル・ドストエフスキー – 上で訓練
M2M100 facebook/m2m100_418M 24-層、1024-隠れ状態、16-ヘッド、418M パラメータ
100言語のための多言語機械翻訳モデル
facebook/m2m100_1.2B 48-層、1024-隠れ状態、16-ヘッド、1.2B パラメータ
100言語のための多言語機械翻訳モデル
MarianMT Helsinki-NLP/opus-mt-{src}-{tgt} 12-層、512-隠れ状態、8-ヘッド、~74M パラメータ機械翻訳モデル。パラメータ数は語彙サイズに依存して様々です。
(モデルリスト 参照)
Pegasus google/pegasus-{dataset} 16-層、1024-隠れ状態、16-ヘッド、~568M パラメータ、要約のためには 2.2 GB。モデルリスト
Longformer allenai/longformer-base-4096 12-層、768-隠れ状態、12-ヘッド、~149M パラメータ
RoBERTa-base チェックポイントから始めて、最大長 4,096 のドキュメント上で訓練
allenai/longformer-large-4096 24-層、1024-隠れ状態、16-ヘッド、~435M パラメータ
RoBERTa-large チェックポイントから始めて、最大長 4,096 のドキュメント上で訓練
MBart facebook/mbart-large-cc25 24-層、1024-隠れ状態、16-ヘッド、610M パラメータ
25 言語の monolingual コーパス上で訓練された mBART (bart-large アーキテクチャ) モデル
facebook/mbart-large-en-ro 24-層、1024-隠れ状態、16-ヘッド、610M パラメータ
WMT 英語ルーマニア翻訳上で再調整された mbart-large-cc25 モデル
facebook/mbart-large-50 24-層、1024-隠れ状態、16-ヘッド
50 言語の monolingual コーパス上で訓練された mBART モデル
facebook/mbart-large-50-one-to-many-mmt 24-層、1024-隠れ状態、16-ヘッド
一つ (英語) を 50 言語をカバーする多くの多言語機械翻訳のために再調整された mbart-50-large モデル
facebook/mbart-large-50-many-to-many-mmt 24-層、1024-隠れ状態、16-ヘッド
多数 (の言語) を 50 言語をカバーする多くの多言語機械翻訳のために再調整された mbart-50-large モデル
Lxmert lxmert-base-uncased 9-言語層、9-関係 (= relationship) 層と 12-交差モーダリティ層、768-隠れ状態、12-ヘッド (各層について) ~ 228M パラメータ
lxmert-base チェックポイントから始めて、COCO, VisualGenome, GQA, VQA からの 9 百万を越える画像-テキストのカプレット (= couplet) 上で訓練
Funnel Transformer funnel-transformer/small 14 層: 4 層の 3 ブロックから 2 層デコーダ、768-隠れ状態、12-ヘッド、130M パラメータ
(詳細 参照)
funnel-transformer/small-base 12 層: 4 層の 3 ブロック (no デコーダ)、768-隠れ状態、12-ヘッド、115M パラメータ
(詳細 参照)
funnel-transformer/medium 14 層: 3 ブロック 6, 3×2, 3×2 層から 2 層デコーダ、768-隠れ状態、12-ヘッド、130M パラメータ
(詳細 参照)
funnel-transformer/medium-base 12 層: 3 ブロック 6, 3×2, 3×2 層 (no デコーダ)、768-隠れ状態、12-ヘッド、115M パラメータ
(詳細 参照)
funnel-transformer/intermediate 20 層: 6 層の 3 ブロックから 2 層デコーダ、768-隠れ状態、12-ヘッド、177M パラメータ
(詳細 参照)
funnel-transformer/intermediate-base 18 層: 6 層の 3 ブロック (no デコーダ)、768-隠れ状態、12-ヘッド、161M パラメータ
(詳細 参照)
funnel-transformer/large 26 層: 8 層の 3 ブロックから 2 層デコーダ、1024-隠れ状態、12-ヘッド、386M パラメータ
(詳細 参照)
funnel-transformer/large-base 24 層: 8 層の 3 ブロック (no デコーダ)、1024-隠れ状態、12-ヘッド、358M パラメータ
(詳細 参照)
funnel-transformer/xlarge 32 層: 10 層の 3 ブロックから 2 層デコーダ、1024-隠れ状態、12-ヘッド、468M パラメータ
(詳細 参照)
funnel-transformer/xlarge-base 30 層: 10 層の 3 ブロック (no デコーダ)、1024-隠れ状態、12-ヘッド、440M パラメータ
(詳細 参照)
LayoutLM microsoft/layoutlm-base-uncased 12-層、768-隠れ状態、12-ヘッド、113M パラメータ
(詳細 参照)
microsoft/layoutlm-large-uncased 24-層、1024-隠れ状態、16-ヘッド、343M パラメータ
(詳細 参照)
DeBERTa microsoft/deberta-base 12-層、768-隠れ状態、12-ヘッド、~140M パラメータ
BERT ベース・アーキテクチャを使用する DeBERTa (詳細 参照)
microsoft/deberta-large 24-層、1024-隠れ状態、16-ヘッド、~400M パラメータ
BERT large アーキテクチャを使用する DeBERTa (詳細 参照)
microsoft/deberta-xlarge 48-層、1024-隠れ状態、16-ヘッド、~750M パラメータ
類似した BERT アーキテクチャによる DeBERTa XLarge (詳細 参照)
microsoft/deberta-xlarge-v2 24-層、1536-隠れ状態、24-ヘッド、~900M パラメータ
類似した BERT アーキテクチャによる DeBERTa XLarge V2 (詳細 参照)
microsoft/deberta-xxlarge-v2 48-層、1536-隠れ状態、24-ヘッド、~1.5B パラメータ
類似した BERT アーキテクチャによる DeBERTa XXLarge V2 (詳細 参照)
SqueezeBERT squeezebert/squeezebert-uncased 12-層、768-隠れ状態、12-ヘッド、51M パラメータ、スマートフォン上で bert-base-uncased より 4.3x 高速。
MLM とセンテンス順序予測 (SOP) タスク上でスクラッチから事前訓練された SqueezeBERT アーキテクチャ。
squeezebert/squeezebert-mnli 12-層、768-隠れ状態、12-ヘッド、51M パラメータ、スマートフォン上で bert-base-uncased より 4.3x 高速。
これは electra-base からの蒸留による MNLI センテンス・ペア分類タスク上で再調整された squeezebert-uncased モデル。
squeezebert/squeezebert-mnli-headless 12-層、768-隠れ状態、12-ヘッド、51M パラメータ、スマートフォン上で bert-base-uncased より 4.3x 高速。
これは electra-base からの蒸留による MNLI センテンス・ペア分類タスク上で再調整された squeezebert-uncased モデル。
最後の分類層は除去されていますので、貴方が再調整するとき、最終層は最初期化されます。

 

以上