【動画付き】異次元のクオリティ!OpenAIが発表した最強動画生成AI「Sora」を徹底解説 *12/10更新
2024年2月15日、OpenAIは研究段階である、Text-to-Video(動画生成)モデルAI「Sora」を発表しました。
Soraが生成する動画のクオリティは驚異的で、Text-to-Videoの新しい時代に突入したと言えるでしょう。
Soraとは?
「Sora」(日本語の「空」に由来)はOpenAIによって開発された最新の動画生成モデルです。Text-conditional diffusionモデルを用いて様々な長さ、解像度、アスペクト比のビデオおよび画像でトレーニングされ、高解像度のビデオを最大1分間生成できます。
物理世界のシュミレーション
重要な点は、Soraは、物理世界シミュレーターを構築するための有望な方法である点です。OpenAIは、現実世界の相互作用を解析し解決するための学習モデルの開発を目指しており、
AIに物理的な世界の理解とシミュレーションを教える取り組みを進めています。
Soraの性能
異次元の言語理解力
DALL・E 3と同様に、GPTを活用して短いユーザープロンプトをより長い詳細なキャプションに変換し、動画生成モデルに送信します。これにより、Soraはユーザーのプロンプトに正確に従う高品質なビデオを生成できるようになります。
画像から動画生成
画像やビデオによるプロンプト
Soraは、画像とプロンプトの入力をもとに動画を生成できます。この機能により、Soraは、以下のような幅広い画像およびビデオ編集タスクを実行できるようになります。
無限ループするビデオの作成
静止画像のアニメーション化
ビデオの前後方向への拡張
生成されたビデオの拡張
Soraは、ビデオを前後に拡張することができます。これにより、ビデオを前方と後方の両方に拡張して、シームレスな無限ループ動画などを生成できます。
動画間の編集
SDEditと呼ばれる手法を適用し、Soraは入力動画のスタイルや背景などをゼロショットプロンプトで変換することができます。
二つ以上の動画を繋げる
Soraは、2つの入力ビデオ間を徐々に補間し、全く異なる主題やシーン構成を持つビデオ間にシームレスなトランジションを作成することもできます。
画像生成機能
Soraは画像を生成することもできます。これを行うには、ガウスノイズのパッチを1フレームの時間範囲で空間グリッドに配置します。このモデルは、最大2048x2048の解像度まで、さまざまなサイズの画像を生成することができます。
シミュレーション機能
3Dの一貫性: Soraは動くカメラを含む動画で、人物やオブジェクトを3D空間内で一貫して動かすことができます。
長距離コヒーレンスとオブジェクト永続性: Soraは時間を通じてオブジェクトを追跡し、長いビデオで一貫性を保つことができます。
世界との交流: Soraは世界に影響を与えるアクション(例:ペインティング、食べ物を食べる)をシミュレートできます。
デジタル世界のシミュレーション: Soraはビデオゲームの世界を高忠実度で再現し、制御することができます。