【Black Hat Asia 2025】LLMセキュリティ評価ツール「FuzzyAI」の可能性と限界
- おぐりん
- 2 日前
- 読了時間: 2分
こんにちは、ペネトレーションテスターの小栗です。
2025/4/1~4/4にて開催されたBlack Hat Asiaに参加してきましたので、その中からCyberArk社が公開しているオープンソースツール FuzzyAI について、概要と所感を中心にレポートをお届けします。
FuzzyAIとは
FuzzyAIは、LLM(大規模言語モデル)に対するプロンプトインジェクション攻撃への耐性を自動評価するツールです。具体的には、あらかじめ用意された複数のジェイルブレイク用ペイロード(意図しない応答を引き出すための入力)を対象のLLMに送信し、その応答を分析することで、セキュリティ上の脆弱性の有無をチェックします。
所感と評価
◯ 有用性と限界
FuzzyAIは、LLMの応答の中にセキュリティ的に望ましくない内容(例:悪意あるコード、社会的に不適切な回答など)が含まれていないかを確認する簡易的なスキャナーとして利用できます。生成AIに関わるペネトレーションテストの一部として導入する用途においては、有用なツールであると感じました。
一方で、LLMの攻撃ベクトルは極めて多様であり、従来のWebアプリケーションの脆弱性スキャナーのように網羅的な検査を行うことは困難です。FuzzyAIも例外ではなく、生成される攻撃ペイロードのバリエーションには限りがあり、すべてのバイパス手法が網羅できるわけではありません。また、デモにおいても、分析結果に誤検出が散見される場面があり、このツールの結果を100%鵜呑みにすることもまた危険であると感じました。
◯ テスターの視点として
根本的課題として、生成AIのセキュリティ対策は、単なるスキャニングやWAFでの対処では不十分です。モデル自体が進化を続けている中で、ペイロードの種類は爆発的に増加しており、網羅性(ペネトレーションテストにおける課題)やレイテンシー(WAFにおける課題)の問題を解決することは困難であると思われます。
そのため、設計段階から学習データや与える権限、コンテキストの制限などの安全策を講じることが、これまで以上に重要になります。セキュリティテスターとしても、FuzzyAIのようなツールを活用しつつ、進化し続けるLLMセキュリティの最前線にキャッチアップしていく姿勢が重要であると思われます。