GPTsプロンプトリークの脆弱性を克服：プロンプトインジェクション対策ガイド

2023年12月17日 17:30

プロンプトインジェクションとは？

プロンプトインジェクションは、ChatGPTなどのAIシステム、特に対話型のAIに対し、特定の質問や命令を行うことで、予期せぬ結果や秘密の情報を引き出す一種の攻撃です。この攻撃は、AIの制約やルールを巧みに回避しようとするものです。

特にGPTsの文脈で言うと、GPTsに設定したオリジナルのインストラクションが他人に漏洩してしまう大きなリスクになります。そこで、GPTsのインストラクションの中に、その漏洩を防ぐように行う対策が、今回の記事で言うところのプロンプトインジェクション対策になります。

対策の基礎

対策プロンプトをインストラクションの最初と最後に記載する

GPTsのみならず、LLM全体として、最初と最後の文言を重要視する傾向があります。なので、中間に実際のインストラクションを書いて、その上下を対策文章で囲む、"ハンバーガー形式"にすることがおすすめです。

使用している対策プロンプトを公開しない

これは当然ですが、防御方法を攻撃側に知られてしまうと、そこに対してスポットで対策した攻撃を行えるようになるため、突破が容易になってしまいます。これを防ぐためにも、基本的に対策文言はSNSなどで公開しないようにしましょう。(Discordのコミュニティなどではインジェクション用のグループがあるとこも多いので、共有がしたい方はそこがおすすめです)