top of page

非自然言語プロンプト注入攻撃によるLLM脆弱性を実証──第1回国際ワークショップ SPAIML 2025 にて論文発表

2025年10月26日(イタリア・ボローニャ)に開催される第1回国際ワークショップ《SPAIML 2025(Security and Privacy-Preserving AI/ML)》にて、「Experimental Evaluation of Non-Natural Language Prompt Injection Attacks on LLMs」と題した研究論文を、北陸先端科学技術大学院とサイバーマトリックスとの共同にて開発/発表しました。


本研究は、市場で利用される14種類のLLMが、従来の防御策が想定していない「非自然言語(Non-NL)プロンプト注入攻撃」に対して一様に高い脆弱性を持つことを大規模に実証しました。この発見は、既存のプロンプト注入防御技術が「非自然言語」に直面すると無効化されることを示しており、LLMのセキュリティ設計における緊急な見直しを強く促すものです。


背景:従来の防御策が抱える構造的な課題


大規模言語モデル(LLM)の安全性を確保するため、データのフィルタリングやプロンプト注入検知など、様々な防御技術が提案・導入されてきました。しかし、これらの防御策は主に「自然言語(Natural Language)」による攻撃を対象とされています。

一方、「異常な、非構造化された、または非自然言語(Non-NL)のプロンプト注入」に直面した場合、これらの防御は機能せず、LLMは悪意ある指示を受け入れてしまう脆弱な状態に置かれます。この「非自然言語」を対象とした防御策の欠如が、現在のLLMセキュリティにおける最大の課題となっています。


本研究の概要と実証結果


本研究では、LLMの非自然言語プロンプト注入への対応能力を評価するための新しい評価手法(Methodology)を確立し、この手法を用いて主要なLLMの安全性を検証しました。

  • 攻撃の定義と評価手法の確立: 非自然言語(Non-NL)形式のプロンプト注入攻撃を定義・モデル化し、LLMの防御能力を測るための評価手法を提示しました。

  • 大規模な実証実験: 市場で一般的に利用されている14種類のLLMに対し、確立した手法に基づき攻撃を実施しました。

  • 実証結果(高い脆弱性): 攻撃成功率は0.38から0.52の範囲に達し、テストしたすべてのLLMで高い脆弱性が示されました。

この結果は、より強力な防御策の必要性を強く裏付けるものであり、本研究論文ではこれらの攻撃に対する新たな防御戦略も提案しています。


意義・期待される効果:AI利用の安全基準を再構築


  • 新たな攻撃ベクトルの可視化 

    従来の防御技術の盲点であった非自然言語プロンプトの脅威を顕在化し、AI/MLセキュリティ研究の焦点を拡大します。

  • セキュリティ設計の強化

    LLMをサービスに組み込む企業に対し、非自然言語攻撃への備えを含めた、より強固なセキュリティ設計と監査基準の導入を促します。

  • 安全なAI利用基盤の構築

    本研究で提案する防御戦略に基づき、実効性のある防御技術やLLMファイアウォールの開発を加速させ、安全で信頼性の高いAI社会基盤の実現に貢献します。


登壇概要

項目

詳細

イベント名

第1回国際ワークショップ「SPAIML 2025」

Webサイト

日時

2025年10月26日(イタリア・ボローニャ)

論文タイトル

Experimental Evaluation of Non-Natural Language Prompt Injection Attacks on LLMs

著者

Huynh Phuong Thanh Nguyen, Shivang Kumar, Katsutoshi Yotsuyanagi, Razvan Beuran


今後の展開


  • 防御機構の研究開発: 非自然言語プロンプト防御に特化した防御手法(LLM Firewallなど)の研究開発を推進。

  • 実運用環境での検証: パートナー企業との共同研究を通じて、実運用環境での攻撃・防御の実証実験を実施。

  • 技術の社会実装: 研究成果に基づいたセキュリティ製品やサービスの開発・提供を目指す。

サービスのお問い合わせはこちら!

cta-005.png

​関連記事

​関連記事

bottom of page