SB C&Sの最新技術情報 発信サイト

C&S ENGINEER VOICE

SB C&S

【Palo Alto】【Prisma AIRS】AIシステムの弱点をあぶり出すAI Red Teamingのご紹介

セキュリティ
2026.01.09

本記事はPalo Alto Networks社の最新AIセキュリティ製品であるPrisma AIRSについてご紹介します。

Prisma AIRSには "Security for AI" を実現するための様々な機能が備わっていますが今回はそのひとつである AI Red Teaming 機能を取り上げてご紹介していきます。


はじめに

AI Red Teamingは、LLMを含むAIシステムに対して攻撃者視点のテストを実施し、潜在的な弱点やリスクを洗い出すための取り組みです。

Prisma AIRSのAI Red Teamingでは、攻撃シミュレーションを通じて応答を評価する形でスキャンを実行します。複数のスキャンモードで現実的な攻撃を模擬しながら、脆弱性の解明やリスクスコアリングまで自動的に評価を回し結果をレポートとして確認することができます。

Red-T16.png


ターゲット (攻撃対象) 追加

事前にRed Teaming用のDeployment Profileを作成してTSGに紐づけて有効化しておき、続いてスキャン対象となるターゲットを定義します。

Prisma AIRS > Red Teaming > Targets > [+ New Target] を選択します

Red-T1.png


まずStep 1にてターゲットタイプを選択します。以下3種類があり用途に合わせて選択します。

  • モデル:シミュレーションのために明確に定義されたエンドポイントを持つ、ファーストパーティまたはサードパーティのモデル

  • アプリケーション:特定のタスクや目的のために設計されたAI搭載システム

  • エージェント:AIモデルが制御フローを担う、アプリケーションの特定サブタイプ

タイプ選択後は、ターゲットに対してPrisma AIRSが接続する方法を選択します。今回は「REST API」を指定します。

Red-T2.png


Step 2に進み、利用しているAIサービスに実際に投げている API リクエストをcURL形式で貼り付けます。
ユーザープロンプトが入る箇所は {INPUT} で設定してください。この部分にAIRS が攻撃プロンプトを差し込んでエンドポイントへ送ります。
※AIサービス側で利用時に認証設定をしている場合などはAIRSがターゲットに辿り着けるように事前に考慮しておく必要があります

Step3/4はここで入れた値を元に自動で反映されますのでそのまま進みます。

Red-T3.png


Step 5ではRate Limitsの値などを設定出来ます。ここではターゲット単位ですが各スキャン毎にも設定可能なため、「Add Target」にてこのまま進みます。

Red-T5.png


正しく設定出来ていると以下の画面が表示され、ターゲット追加はこれにて完了です。
この画面から「Start a Scan」を選択すればそのままスキャン設定に移行できます。

Red-T6.png


スキャン設定

ターゲット追加後はスキャンが可能です。スキャンは、攻撃プロンプトという形の攻撃ペイロードを AI システムに送信して実施されます。

Prisma AIRS AI Red Teaming は、AI システム向けに次の3種類のスキャンを提供します。

  • Red Teaming using Attack Library:厳選され、定期的に更新される定義済み攻撃シナリオのリストを使用するスキャンです。既知の脆弱性とレッドチーミングのベストプラクティスに基づいて設計されています。

  • Red Teaming using Agent:LLM 攻撃者による動的な攻撃生成を利用するスキャンです。リアルタイムで攻撃ペイロードを生成でき、ターゲットの挙動や応答に合わせて高い適応性を発揮します。

  • Red Teaming using Custom Prompt Sets:ユーザー自身で作成したプロンプトセットをアップロードし、AI Red Teaming の組み込み攻撃ライブラリと併せて、ターゲット に対して実行できるスキャンです。

Step 1にてスキャンターゲット、スキャンタイプを選択し次に進みます。今回は「Red Teaming using Attack Library」を利用します。

Red-T7.png


Step 2で検査項目の詳細を選択します。「Red Teaming using Attack Library」では各カテゴリ毎に幅広い検査が可能になっています。プロンプトインジェクションや有害コンテンツ検査の他、OWASP/ATLASなどへの準拠状況も確認できます。
※デフォルトではカテゴリ/テストケースが幅広く選ばれているため、初回の検査はレート制限やテストの有用性を見る意味でも項目を絞って軽めに実施するのがお勧めです

Red-T8.png


Step 3ではターゲット追加時と同様にRate Limitsの値などを設定出来ます。こちらは今回のスキャンに対してのみ有効になる設定です。「Start Scan」を選択するとスキャンが開始します。


Red-T10.png


スキャンレポート確認

ここまででスキャンが完了しましたので、続いてはレポートから結果を確認します。ここでのスキャンレポートの結果を基に改善し、再テストするというサイクルでAIを安全に構築・利用出来ます。

Prisma AIRS > Red Teaming > Scans > View Report から対象のスキャンを確認します。

Red-T11.png


攻撃のサクセスレートやリスクスコアがグラフ化され表示されます。
またカテゴリ単位で、各項目に対する攻撃の成功/失敗の状況が一覧化されています。

Red-T12.png


Compiance Risk Overviewの項目ではOWASP Top 10 for LLMs/MITRE ATLASなどへの準拠状況が各項目毎に確認できます。

Red-T13.png


Attack Detailsでは実際に行った攻撃が表示されます。ここを見るだけでも絵文字などを利用したりといった実際に攻撃者が用いるような回避テクニックを利用しているのが分かります。

Red-T14.png


さらに攻撃毎の詳細を見るとプロンプトに対しての応答が確認出来ます。
AIの応答には、同一の質問であっても回答が変わる「ゆらぎ」が存在するため、同じプロンプトを複数回実行して検査をしています。
今回の環境ではPrisma AIRSのAI Runtime Security (API) 機能を利用しているため、それによってブロックされたメッセージも確認出来ました。
※AI Runtime Security (API) の紹介記事はこちら

Red-T15.png

まとめ

今回はPalo Alto Networks社のAIセキュリティ製品 Prisma AIRS の機能のひとつである AI Red Teaming を取り上げました。AI Red Teamingは、AIシステムの挙動を攻撃者視点で検証し、プロンプト注入や意図しない情報の出力など、AI特有のリスクを可視化するのに有効です。

Prisma AIRSではテストの実行と評価、レポート化までが揃っており、運用の中で継続的に回しやすい構成になっています。AIシステムを本番利用する前の点検だけでなく、モデルやプロンプト、データソースなどの変更時に定期的に評価することで、リスクの早期発見と品質向上に繋げることができます。

AIシステムの導入・運用を進める上で、リリース前や構成変更時のチェックとして取り入れることをおすすめします。

__________________________________________________________________________________

※本ブログの内容は投稿時点での情報となります。
 今後アップデートが重なるにつれ正確性、最新性、完全性は保証できませんのでご了承ください。

「Palo Alto Networksコンシェルジュ」
製品パンフレットのDLからお見積り依頼まで受け付けております

Paloバナーブログ用.jpg

著者紹介

SB C&S株式会社
技術統括部 第4技術部 2課
CISSP, PCNSE, PSE Strata/SASE/Cortex Professional
横山 章太郎 -Shotaro Yokoyama-