ChatGPTが「見る」「聞く」「話す」能力を獲得 | GPT-4Vを解説
はじめに本記事では、OpenAIが開発した、視覚と言語を統合した新しいシステム、GPT-4Vについてご紹介します。GPT-4Vは、ウェブ版のChatGPTでも使用可能なGPT-4モデルを拡張したもので、テキスト入力と画像入力の両方を扱えるように設計されており、それによってマルチモーダルアプリケーションの領域で多くの可能性を広げています。
この紹介する論文の主な焦点は、このような強力なモデルを展開する際の安全面です。GPT-4Vを展開するためにOpenAIがとった、多様なユー