実践！ElevenLabsで自然な音声と効果音を自在に生成【LumaAIとの組み合わせも】

ChatGPT研究所

2024年6月19日 08:13

ElevenLabsは、AIを活用した音声合成と効果音生成ツールを提供する革新的なプラットフォームです。

高品質な音声や効果音を簡単に作成できるので、動画、ゲーム、プレゼンテーションなどのコンテンツ制作に便利なツールとなっています。

例えば、ナレーションや登場人物の声を自然な音声で生成したり、効果音を自動で作成したりできます。

本記事では、ElevenLabsの主な機能と使い方を解説していきます！

ElevenLabsでできること

Speech Synthesis：テキストデータから自然で表現力豊かな音声を生成。ニュース読み上げ、ナレーション、オーディオブックなど、幅広い用途で利用可能。
Sound Effects：テキストによる指示で、爆発音や風の音などの自然音から、ゲームの効果音、SF映画のような未来的な音まで、あらゆる効果音を生成。
Voice Cloning：自身の声や許可を得た他者の声を使って、オリジナルのAIボイスを作成。
Dubbing：動画の音声を、AIによって自然な発音とイントネーションで、他の言語に吹き替え。
Projects：オーディオブックなどの長編コンテンツの音声制作を効率化。

ElevenLabsのメリット

手軽に利用可能：ウェブ版から簡単にアクセスでき、複雑な設定や操作は不要。直感的なインターフェースで、初心者でも簡単に使いこなせる。
高品質な音声と効果音：まるで人間が話しているかのような自然な音声と、リアルな効果音を生成。日本語の生成にも対応しています。
コスト効率：登録時にもらえるクレジットを使えば、無料で十分な量の音声コンテンツを作成可能。従来の音声制作や効果音制作に比べて、低コストで高品質な音声が実現。
多様な用途: YouTube動画、ゲーム開発、ナレーション、eラーニング教材など、様々なシーンで活用可能。

クレジット使用後の料金プラン ElevenLabsでは、クレジットを使い切った後も、用途に合わせた柔軟な料金プランを用意しています。

個人利用の場合、月額$5から利用可能。
コンテンツクリエイターには、月額$22からのプランがおすすめです。最大10万文字のテキストを音声化できます。
本格的なコンテンツ制作には、月額$99のProプランがお得。最大50万文字の音声化が可能です。
企業やスタートアップ向けには、カスタマイズ可能な$330/月のScaleプランを提供しています。

次のセクションからは、Speech SynthesisとSound Effectsの具体的な使用方法について、詳しく解説していきます。

Speech Synthesis機能

Speech Synthesis機能は、入力したテキストを、まるで人間が話しているかのような自然な音声に変換する機能です。ニュース読み上げ、ナレーション、オーディオブック、動画の吹き替えなど、活用の幅は無限に広がります。

Speech Synthesis機能でできること

多様な話者： 言語や性別、年齢、声質の異なる、様々なAIボイスから選択できます。
感情表現の調整： 声のトーンや抑揚を調整することで、喜びや悲しみ、怒りなどの感情を表現できます。
複数言語への対応： 英語はもちろん日本語など、様々な言語で音声を生成できます。

Speech Synthesis機能を使ってみよう

Step 1： ElevenLabsにログイン（アカウント作成）

まずは、ElevenLabsのウェブサイト(https://elevenlabs.io/app/)にアクセスし、アカウントを作成するか、既存のアカウントでログインします。

ログイン後、最初に出てくるのがSpeech Synthesisを使用する画面です。他の機能を使う場合は、左のサイドバーから選択することができます。

Step 2：テキストを入力し、言語、声の種類、音声のスタイルなどを設定

音声に変換したいテキストを入力します。例えば、「今日は良い天気ですね。ピクニックにでも行きませんか？」と入力します。

左下の「Rachel」と書かれている部分から声の種類を設定します。

Step 3：生成ボタンをクリックし、音声をプレビュー

設定が完了したら、生成ボタンをクリックします。AIがテキストに基づいて音声を生成し、プレビューが表示されます。

Step 4：音声をダウンロードまたはプロジェクトに保存

生成された音声を確認し、問題なければダウンロードまたはプロジェクトに保存します。

音声はこちらからダウンロードしていただけます。

音声の微調整

ElevenLabsでは、Stability、Similarity、Style Exaggeration、Speaker Boost という４つのパラメータを調整することで、音声の微調整が可能です。「Settings」と書かれた部分を選択すると調整画面が表示されます。

Stability（安定性）：このスライダーは、AIボイスの声の安定性を調整します。数値が低いほど、感情表現が豊かになり、抑揚のある、人間らしい声になります。ただし、その分、発音が不安定になったり、イントネーションが不自然になる可能性もあります。逆に、数値を高くすると、声は安定しますが、棒読みのように聞こえることもあります。
Similarity（類似性）：オリジナル音声に似せる度合いを調整します。数値が低いと、感情表現は抑えられますが、テキストの内容を忠実に読み上げます。数値が高いほど、感情豊かに、より自然な発音に近づきますが、テキストと異なる表現になることもあります。オリジナル音声にノイズや雑音が入っている場合は、この数値が高いと、それらも再現されてしまうので注意が必要です。
Style Exaggeration（スタイル強調）：数値を大きくするほど、そのスタイルの特徴が強く表れます。ただし、音声の安定性が低下する可能性があるので注意が必要です。通常は、この数値は「0」のままで問題ありません。
Speaker Boost（話者強調）：オリジナル音声の話し方を強調します。より人間らしい、自然で感情豊かな音声になりますが、その分、処理に時間がかかる場合があります。

例えば、「今日は良い天気ですね。ピクニックにでも行きませんか？」というテキストを、明るい声で表現したい場合は、Stabilityを低めに、Similarityを高く設定し、Style Exaggerationで希望のスタイルを調整すると効果的です。状況に応じてSpeaker Boostも調整してみましょう。

次のセクションでは、Sound Effects機能を使って、様々な効果音を作成する方法を解説します。

Sound Effects機能

動画やゲーム、音楽に命を吹き込む「効果音」。ドアの開閉音や風の音、爆発音など、効果音ひとつで、コンテンツの質は大きく変わります。

ElevenLabsのSound Effects機能を使えば、誰でも簡単に、高品質な効果音を作成できます。

Sound Effects機能でできること

言葉で音を形にする： テキストで指示するだけで、AIがあらゆる効果音を生成します。「雷の音」「森の中の鳥のさえずり」「SF映画のレーザービーム音」など、想像力を活かして、自由自在に音作りができます。
微調整で理想の音に： 生成された効果音は、長さや雰囲気を調整できます。
組み合わせは無限大： 複数の効果音を組み合わせて、より複雑でリアルな音作りも可能です。例えば、「雨の音」「雷の音」「風の音」を組み合わせれば、臨場感あふれる嵐のシーンを演出できます。

Sound Effects機能を使ってみよう

ElevenLabsのSound Effects機能は、シンプルな操作で、初心者でも簡単に使いこなせます。

Step 1：ホーム画面左側のサイドバーから「Sound Effects」を選択

ElevenLabsにログイン後、ホーム画面左側のサイドバーから「Sound Effects」を選択します。

Step 2：テキストボックスに生成したい効果音を言葉で記述

生成したい効果音を、できるだけ具体的に英語で記述します。例えば、「Sound of an old wooden door opening（古い木製のドアが開く音）」「Sound of small birds chirping in a quiet forest（静かな森の中で小鳥がさえずる音）」「Sound of a futuristic vehicle engine running through a futuristic city（未来都市を走る近未来的な乗り物のエンジン音）」のように入力します。

Step 3：必要に応じて、長さや雰囲気などを設定

生成される効果音の長さや、AIがどれだけ自由に効果音を作るかを調整できます。

Duration（長さ）: 効果音の長さを秒単位で指定できます。自動で長さを決めたい場合は、「Automatically pick the best length（最適な長さを自動的に選択）」をオンにします。
Prompt Influence（プロンプトの影響度）: AIがテキストの指示にどれだけ忠実に従うかを調整します。「More Creative（よりクリエイティブに）」側にスライダーを設定すると、AIは自由に解釈して効果音を作成します。「Follow Prompt（プロンプトに従う）」側に設定すると、AIはテキストの指示に忠実に従って効果音を作成します。

Step 4：生成ボタンをクリックし、効果音をプレビュー

設定が完了したら、生成ボタンをクリックします。AIがテキストに基づいて効果音を生成し、プレビューが表示されます。

Step 5：効果音をダウンロードまたはプロジェクトに保存

4つの効果音が生成されます。生成された効果音を確認し、問題なければダウンロードできます。

プロンプトのポイント：

具体的な言葉を選ぶ： 「quiet（静かな）」「intense（激しい）」「metallic（金属的な）」など、効果音をイメージしやすい言葉を選びましょう。
DeepLやChatGPTを使う： 日本語の入力には未対応のため、英語での入力が難しいと感じる方は、DeepLやChatGPTを活用すると便利でしょう。
組み合わせを意識する： 複数の効果音を組み合わせることで、より深みのあるサウンドスケープを作り出すことができます。