LLMは過去形に弱い！？ AIの意外な脆弱性が明らかに

2024年7月23日 21:06

はじめに

最新の論文「過去形への言い換えによるLLMの拒否訓練の回避(Does Refusal Training in LLMs Generalize to the Past Tense?)」が注目を集めています。

この研究は、大規模言語モデル（LLM）の安全性対策に潜む意外な脆弱性を明らかにしたものです。

特に、有害な要求を単に過去形に言い換えるだけで、多くの最先端LLMの安全機能を容易に回避できることを示しています。

本記事では、この重要な研究の詳細と影響について解説していきます。

本研究のポイントは、LLMの安全機能に予想外の弱点があることを明らかにした点です。

有害な要求を過去形に言い換えるだけで、多くのLLMの防御を回避できることが分かりました。

例えば：

この単純な言い換えで、LLMの回答拒否率が大幅に低下することが判明しました。

①現在系の質問↓ *GPT-4oで検証

1,535字 / 8画像

¥2,980 / 月

300以上の過去記事から最新の記事まで全て読み放題。AGIラボはGPTs Difyなど、最前線のAI活用情報に特化したマガジン・コミュニティです。実践的なAI活用術を含む記事で得られる知見で業務の効率化、自動化から創造的なタスクまですぐに活用可能。生成AI革命の最前線をお届け。

#AIとやってみた

38,052件