見出し画像

【完全ガイド】進化したChatGPTのボイスモード。使い方から高度な活用法まで紹介

AIとの音声対話は、もはやSFの話ではありません。

先日、遂に一般公開されたOpenAIの高度なボイスモードによって、より人間らしい会話をAIと行えるようになりました。

この技術は単なる音声認識を超えています。ChatGPTは音声のトーンや速さを変え、様々な役割を演じることができます。

英会話の相手から専門知識の教師まで、用途は多岐にわたるでしょう。

本記事では、このボイスモードの使い方と効果的なカスタマイズ方法を紹介します。それでは早速みていきましょう!

高度なボイスモードとは

OpenAIの高度なボイスモードは、上記の動画のように、これまでのAI音声会話と比べて格段にリアルで人間らしく会話することができる機能です。

主な特徴:

  • GPT-4oモデルを使用

  • より自然でリアルタイムな会話が可能

    • 音声入力に対する応答時間:最短232ミリ秒、平均320ミリ秒(人間の会話の反応時間に匹敵)

  • 話す速度などの非言語的な部分を理解

  • 感情を込めた応答が可能

  • GPTsでの使用は不可

今後はさらに、音声だけではなく、動画などのマルチモーダル入力にも対応が予想されます(*現状音声のみ入力に対応)

https://openai.com/index/hello-gpt-4o/

利用可能なユーザー:

  • TeamアカウントのすべてのユーザーとPlus会員の大部分

    • すでに日本では全てのTeam/Plus会員が使用可能です

    • *EU、スイス、アイスランド、ノルウェー、リヒテンシュタインでは現在利用できません。

高度なボイスモードの始め方

アプリのアップデート

まずは、ChatGPTアプリを最新バージョン(1.2024.261以降)に更新します。App StoreまたはGoogle Playストアでアップデートを確認してください。

アプリのバージョンは、『Settings』画面を下にスクロールすると表示される『About』の欄で確認できます。

ボイスチャットの開始

アプリを開いてから、画面右下のマイクアイコンをタップします。このアイコンが4本線の波形マークになっている場合、使用可能な状態です。

初めて使用する場合、マイクへのアクセス許可を求められます。

音声の選択

9つの音声オプションから好みの声を選びます。
各声には独自の特徴があるので、横にスライドして試してみることをおすすめします。

  1. Arbor - のんびりとして器用

  2. Breeze - 生き生きとして誠実

  3. Cove - 落ち着いていて率直

  4. Ember - 自信に満ちて楽観的

  5. Juniper - 開放的で明るい

  6. Maple - 朗らかで素直

  7. Sol - 抜け目なくてくつろいだ

  8. Spruce - 穏やかで前向き

  9. Vale - 聡明で雄弁

音声を決めたら『Done』を選択します。

会話の開始

青い円が表示されたら、ChatGPTが音声を聞き取っている状態です。
この状態になったら、実際に話しかけてみましょう!

※高度なボイスモードは非常に敏感に外部の音声を拾ってしまうため、それが原因で会話が途切れてしまうことがあります。そのため、できるだけ静かな場所で会話することをおすすめします。

高度なボイスモードの表示

会話の管理

左下のマイクアイコンで、自分の音声入力をミュートまたはアンミュートできます。
右下の終了アイコンで、ボイスチャットを終了できます。

注意点

注意点として、高度なボイスモードの使用には日単位の制限があります。OpenAIは具体的な制限時間を公表しておらず、日毎に制限が変わるとだけ説明していますが、ここ数日使った感覚では、1日あたり約30分程度が最大のようです。

制限に関して注意すべき点:

  1. 制限に近づくと通知が表示されます。

  2. 制限に達すると、自動的に標準ボイスモードに切り替わります。

標準ボイスモードの表示

制限の消費方法について:

  • また、ボイスモードを起動している間、常に制限時間が消費されているように感じます。

  • ユーザーが話していなくても、周囲の音などが入力として認識され、制限時間が減少しているようです。

日単位の制限については、数日間の使用経験に基づくものです。正確な時間についてOpenAIからの公式説明ではないことに注意してください。

高度なボイスモード活用事例

【初級編】
相談相手になってもらう

最もシンプルな活用法として、まずは話し相手になってもらいましょう。
これまでの音声会話AIとの一番の違いは、感情をより豊かに表現できることです。

淡白な会話ではなく、より心に寄り添ったような会話をしてくれます。

“体力の衰えを感じるから、体調管理に気をつけたいと思ってるんだけど、 明日の朝から何かできるトレーニングはある?”

音声入力

“最近、高校で好きな子が出来たんだけど、どう話しかけたら良いか分からないんだよね”

音声入力

このように、どんな話題を振っても優しく回答してくれるのがAIの一番の強みとも言えるでしょう。
さらに、返答も非常に早くなっているため、自然さが増し、スムーズに会話が行えるようになりました。

【中級編】
①英語教師になって英語の発音を矯正してもらう

今回のモデルの大きな改良点の一つは、音声を直接処理できるようになったことです。以前のモデルでは、音声は一度テキストに変換されていました。

このアップデートにより、例えば英語の発音を修正してもらうことが可能になりました。

まず、練習したい単語やアルファベットを伝え、それぞれの発音のポイントと例文を作成してもらいます。

“英語の 'R'と'L'の発音の練習がしたいです。それぞれ発音のポイントと両方練習できる例文を作成してください。“

音声入力

次に、作成された例文を実際に発音し、ChatGPTに評価してもらいます。

“今からそれを私が発音するので、それを評価してください。
…..

音声入力

実際の例:


ここからはAGIラボ会員限定のコンテンツです

AGIラボとは?
AGIラボは最新のAI活用情報が集まるマガジン・コミュニティです。

会員特典
ChatGPT研究所が執筆した300以上ののAI関連記事が読み放題
AIに関する情報交換や議論ができる限定コミュニティへアクセス

AGIラボに興味のある方は、以下のリンクからぜひご参加ください

【中級編】
②キャラクター性を付与して会話してもらう

ここから先は

4,888字 / 4画像

AGIラボ

¥2,980 / 月
初月無料
このメンバーシップの詳細

この記事が参加している募集