Open-Assistant v0.0.3 : イントロダクション

Open-Assistant v0.0.3 : イントロダクション (翻訳/解説)

翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 06/17/2023 (v0.0.3-alpha32)

* 本ページは、LAION-AI / Open-Assistant の以下のドキュメントを翻訳した上で適宜、補足説明したものです:

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

クラスキャット 人工知能 研究開発支援サービス

クラスキャット は人工知能・テレワークに関する各種サービスを提供しています。お気軽にご相談ください :

◆ 人工知能とビジネスをテーマに WEB セミナーを定期的に開催しています。スケジュール
  • お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。

お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。

  • 株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション
  • sales-info@classcat.com  ;  Web: www.classcat.com  ;   ClassCatJP

 
Open-Assistant   

 

Open-Assistant v0.0.3 : イントロダクション

FAQ ページは ここ で利用可能です。

Open Assistant (略称 OA) はチャットベース、そしてオープンソースのアシスタントです。このプロジェクトのビジョンは単一のハイエンドのコンシューマー GPU 上で実行可能な大規模言語モデルを作成することです。幾つかの変更で、Open Assistant は他のサードパーティのアプリケーションと簡単に連動できて、データベースやインターネットから情報を取得できるようになるはずです。

ここ で現時点のベストモデルで遊ぶことができます!

大きな変更をする前に、Open Assistant discord サーバ に参加して and/or Github issues 上でコメントする必要があります。殆どの開発コミュニケーションは Discord サーバで行われます。貴方が取り組むことができる 4 つの主要な領域があります :

  1. open-assistant.io でランキング、ラベル付け、そしてレスポンスします。詳細は タスク docs セクション を見ることができます。

  2. データセットのキュレーションを行いデータ増強を実行します。これはスクレイピング, 他の公開データセットの収集等を含みます。これらの殆どの労力は /data/datasets に集中しており ここ で文書化されています。

  3. Open Assistant 自体を作成して微調整します。そのためには、/model に特別な注意を払う必要があります。

  4. open-assistant.io dev. /website そして /backend を良く見てください。

 

GitHub フォルダの說明

更に多くの情報については 開発者ガイド を読んでください。

ここに Open Assistant の Github ページ の第一階層のフォルダのリストがあります。

  • /ansibleAnsible を使用してフルスタックを管理するため
  • /assets – ロゴを含みます
  • /backend – open-assistant.io と discord bots 用のバックエンド、多分ローカルでの API 呼び出しのテストに有用です。
  • /copilot – AWS の Copilot で更に読んでください。また、これは OpenAI の Codex に類似したものを含むフォルダではありません。
  • /data/data/datasets を含みます、これはデータスクレイピング・コードと Hugging Face のデータセットへのリンクを含みます。
  • /deploy
  • /discord-bot – ボランティアデータ収集用の discord ボットとしてのフロントエンド
  • /docker
  • /docs – この web サイト!
  • /inference – Open Assistant 用推論パイプライン
  • /model – 現在は Open Assistant と他のニューラルネットワークを訓練/微調整するためのスクリプトとツールを含みます
  • */notebooks*/data/datasets のため DEPRECATED です。データスクレイピングと増強用の jupyter ノートブックを含みます。
  • /oasst-shared – Open Assistant 用の共有 Python コード
  • /scripts – 様々なスクリプトを含みます。
  • /text-frontend
  • /website – gamification を含む、open-assistant.io のすべて

 

原則

  • 人間を中心に据えます。
  • 機運のあるうちに、MVP を早く公開する必要があります。
  • 一つの方向に引き入れます。
  • 私たちは実用主義 (pragmatic) です。
  • コンシューマー向けハードウェアで実行できる (or 何某かの労力で実行できるような) モデルを目指します。
  • スーパークラスターに進む前に、小規模で ML 実験を素早く検証します。

 

以上