Agno 2.x : エージェント – プロンプト注入ガードレール

プロンプト注入ガードレールについて、およびエージェントでの使用方法について学習します。
プロンプト注入ガードレールは、エージェントの入力においてプロンプト注入攻撃の試行を検出する組み込みガードレールです。

Agno 2.x : Learn : エージェント – ガードレール : プロンプト注入ガードレール

作成 : クラスキャット・セールスインフォメーション
作成日時 : 11/03/2025
バージョン : Agno 2.2.6

* 本記事は docs.agno.com の以下のページを独自に翻訳した上で、補足説明を加えてまとめ直しています。スニペットはできる限り日本語を使用しています :

* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。

 

クラスキャット AI 研究開発支援サービス ⭐️ 創立30周年(30th Anniversary)🎉💐

クラスキャット は AI に関する各種サービスを提供しています。お気軽にご相談ください :

  • AI 研究開発支援 [詳細]

    1. AI エージェント構築支援
    2. 画像認識 (医療系含む) / 画像生成

  • AI 導入個別相談会(無償)実施中! [詳細]

  • PoC(概念実証)を失敗させないための支援 [詳細]

お問合せ : 下記までお願いします。

  • クラスキャット セールス・インフォメーション
  • sales-info@classcat.com
  • ClassCatJP

 

 

Agno 2.x : Learn : エージェント – ガードレール : プロンプト注入ガードレール

プロンプト注入ガードレールについて、およびエージェントでの使用方法について学習します。

プロンプト注入ガードレールは、エージェントの入力においてプロンプト注入攻撃の試行を検出する組み込みガードレールです。

これは、悪意のある指示をシステムに注入する試みを防ぎたい場合、実際のユーザに公開されるアプリケーションに対して有用です。

 

基本的な使用方法

エージェントにプロンプト注入ガードレールを提供する場合、それをインポートして pre_hooks パラメータを使用してエージェントに渡す必要があります :

from agno.guardrails import PromptInjectionGuardrail
from agno.agent import Agent
from agno.models.openai import OpenAIChat

prompt_injection_guardrail = PromptInjectionGuardrail()

agent = Agent(
    name="Prompt Injection Guardrail Agent",
    model=OpenAIChat(id="gpt-5-mini"),
    pre_hooks=[prompt_injection_guardrail],
)

 

注入パターン

プロンプト注入ガードレールは、悪意ある指示をシステムに注入するために使用される傾向がある、入力内のパターンを検出することで機能します。

ガードレールにより処理される、注入パターンのデフォルトのリストは :

  • “ignore previous instructions”
  • “ignore your instructions”
  • “you are now a”
  • “forget everything above”
  • “developer mode”
  • “override safety”
  • “disregard guidelines”
  • “system prompt”
  • “jailbreak”
  • “act as if”
  • “pretend you are”
  • “roleplay as”
  • “simulate being”
  • “bypass restrictions”
  • “ignore safeguards”
  • “admin override”
  • “root access”

注入パターンの独自のカスタムリストを提供することで、注入パターンのデフォルトのリストを上書きできます。

prompt_injection_guardrail = PromptInjectionGuardrail(
    injection_patterns=["ignore previous instructions", "ignore your instructions"],
)

 

以上