PyCaret 2.2 概要 (README) (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 11/25/2020 (2.2)
* 本ページは、PyCaret 2.2 ドキュメントの以下のページを翻訳した上で適宜、補足説明したものです:
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
- お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
- Windows PC のブラウザからご参加が可能です。スマートデバイスもご利用可能です。
◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。
株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション |
E-Mail:sales-info@classcat.com ; WebSite: https://www.classcat.com/ |
Facebook: https://www.facebook.com/ClassCatJP/ |
PyCaret 2.2 : 概要 (README)
What is PyCaret?
PyCaret はオープンソースの、Python の低コード機械学習ライブラリで機械学習ワークフローを自動化します。それは end-to-end な機械学習とモデル管理ツールで、実験サイクルを指数関数的にスピードアップして貴方の生産性をより高めます。
他のオープンソース機械学習ライブラリと比較して、PyCaret は数百行のコードを少ないワードだけで置き換えるために利用可能な代替的な低コード・ライブラリです。これは実験を指数関数的に高速化そして効率化します。PyCaret は本質的には scikit-learn, XGBoost, LightGBM, CatBoost, spaCy, Optuna, Hyperopt, Ray 等々のような幾つかの機械学習ライブラリとフレームワーク周りの Python ラッパーです。
PyCaret の設計と単純性は、最初に Gartner により使用された用語である、シチズン・データサイエンティストの新しい役割によりインスパイアされました。シチズン・データサイエンティストは、以前は専門性を必要としたであろう単純でかつ適度に洗練された分析タスクを遂行できるパワーユーザです。熟練したデータサイエンティストはしばしば見つけるのが困難で雇うのも高価ですが、シチズン・データサイエンティストはこの隔たりを軽減してビジネスシーンのデータ関連の挑戦に対処するための効果的な方法である可能性があります。
PyCaret はシチズン・データサイエンティストのための機械学習タスクを単純化するだけでなく、データサイエンティストのチーム内での新しいスタートアップに投資のコストを減じる手助けをする、素晴らしいライブラリです。従って、このライブラリはシチズン・データサイエンティストを手助けするだけでなく、データサイエンスの分野を事前知識なく探求し始めることを望む個人も手助けします。
- 公式 Website: https://www.pycaret.org
- ドキュメント: https://pycaret.readthedocs.io/en/latest/
Current リリース
PyCaret 2.2 が今では利用可能です。2.2 リリースノートを見てください。pycaret をインストールする最も容易な方法は pip を使用することです。
pip install pycaret
PyCaret のデフォルトインストールは pycaret のスリム・バージョンで、これは requirements.txt でリストされるハードな依存性をインストールするだけです。pycaret の完全なバージョンをインストールするためには、次のコマンドを使用してください :
pip install pycaret[full]
マイナー・リリース
- [November 9, 2020] 2.2.1 released fixing several bugs. リリースノートを見るためには ここ をクリックしてください。
PyCaret on GPU
PyCaret >= 2.2 は選択されたモデル訓練とハイパーパラメータ調整のために GPU を利用するためのオプションを提供します。API の使用に変更はありませんが、幾つかのケースでは、追加のライブラリがインストールされなければなりません、何故ならばそれらはデフォルトのスリム・バージョンや full バージョンではインストールされないからです。以下の estimator が GPU 上で訓練できます。
- Extreme 勾配ブースティング (更なるインストールを必要としません)
- CatBoost (更なるインストールを必要としません)
- Light 勾配ブースティング機械 (GPU インストールを必要とします: https://lightgbm.readthedocs.io/en/latest/GPU-Tutorial.html)
- ロジスティック回帰、リッジ分類器、ランダムフォレスト、K 近傍分類器、K 近傍 Regressor、サポートベクターマシン、線形回帰、リッジ回帰、ラッソ回帰 (requires cuML >= 0.15 https://github.com/rapidsai/cuml)
Google Colab を使用している場合 GPU のために Light 勾配ブースティング機械をインストールできますが、最初に CPU 上で LightGBM をアンインストールしなければなりません。それを行なうために下のコマンドを使用します :
pip uninstall lightgbm -y # install lightgbm GPU pip install lightgbm --install-option=--gpu --install-option="--opencl-include-dir=/usr/local/cuda/include/" --install-option="--opencl-library=/usr/local/cuda/lib64/libOpenCL.so"
CatBoost はデータセットが > 50,000 行のときに GPU 上で有効にされるだけです。
Google Colab 上 cuML >= 0.15 はインストールできません。代わりに blazingSQL (https://blazingsql.com/) を使用します、これは cuML 0.15 とともに pre-インストールされます。pycaret をインストールするために次のコマンドを使用します :
# install pycaret on blazingSQL !/opt/conda-environments/rapids-stable/bin/python -m pip install --upgrade pycaret
重要なリンク
- リリースノート : https://github.com/pycaret/pycaret/releases
- ドキュメント : https://pycaret.readthedocs.io/en/latest/
- チュートリアル : https://pycaret.readthedocs.io/en/latest/tutorials.html
- サンプル・ノートブック : https://github.com/pycaret/pycaret/tree/master/examples
- 他のリソース : https://github.com/pycaret/pycaret/tree/master/resources
- Issue ログ : https://github.com/pycaret/pycaret/issues
- Contribute : https://pycaret.readthedocs.io/en/latest/contribute.html
PyCaret を誰が利用するべきでしょう?
PyCaret は誰でも利用できるオープンソース・ライブラリです。私達の視点では PyCaret の理想的な対象利用者は :
- 生産性をあげたい経験あるデータサイエンティスト。
- 低コード機械学習ソリューションを好むシチズン・データサイエンティスト。
- データサイエンスの生徒。
- ラピッド・プロトタイプを構築することを望むデータサイエンス専門家。
以上