【完全ガイド】進化したChatGPTのボイスモード。使い方から高度な活用法まで紹介

ChatGPT研究所

2024年10月1日 23:06

AIとの音声対話は、もはやSFの話ではありません。

先日、遂に一般公開されたOpenAIの高度なボイスモードによって、より人間らしい会話をAIと行えるようになりました。

この技術は単なる音声認識を超えています。ChatGPTは音声のトーンや速さを変え、様々な役割を演じることができます。

英会話の相手から専門知識の教師まで、用途は多岐にわたるでしょう。

本記事では、このボイスモードの使い方と効果的なカスタマイズ方法を紹介します。それでは早速みていきましょう！

高度なボイスモードとは

OpenAIの高度なボイスモードは、上記の動画のように、これまでのAI音声会話と比べて格段にリアルで人間らしく会話することができる機能です。

主な特徴：

GPT-4oモデルを使用
より自然でリアルタイムな会話が可能
- 音声入力に対する応答時間：最短232ミリ秒、平均320ミリ秒（人間の会話の反応時間に匹敵）
話す速度などの非言語的な部分を理解
感情を込めた応答が可能
GPTsでの使用は不可

今後はさらに、音声だけではなく、動画などのマルチモーダル入力にも対応が予想されます(*現状音声のみ入力に対応)

利用可能なユーザー：

TeamアカウントのすべてのユーザーとPlus会員の大部分
- すでに日本では全てのTeam/Plus会員が使用可能です
- *EU、スイス、アイスランド、ノルウェー、リヒテンシュタインでは現在利用できません。

高度なボイスモードの始め方

アプリのアップデート

まずは、ChatGPTアプリを最新バージョン（1.2024.261以降）に更新します。App StoreまたはGoogle Playストアでアップデートを確認してください。

アプリのバージョンは、『Settings』画面を下にスクロールすると表示される『About』の欄で確認できます。

ボイスチャットの開始

アプリを開いてから、画面右下のマイクアイコンをタップします。このアイコンが4本線の波形マークになっている場合、使用可能な状態です。

初めて使用する場合、マイクへのアクセス許可を求められます。

音声の選択

9つの音声オプションから好みの声を選びます。
各声には独自の特徴があるので、横にスライドして試してみることをおすすめします。

Arbor - のんびりとして器用
Breeze - 生き生きとして誠実
Cove - 落ち着いていて率直
Ember - 自信に満ちて楽観的
Juniper - 開放的で明るい
Maple - 朗らかで素直
Sol - 抜け目なくてくつろいだ
Spruce - 穏やかで前向き
Vale - 聡明で雄弁

音声を決めたら『Done』を選択します。

会話の開始

青い円が表示されたら、ChatGPTが音声を聞き取っている状態です。
この状態になったら、実際に話しかけてみましょう！

※高度なボイスモードは非常に敏感に外部の音声を拾ってしまうため、それが原因で会話が途切れてしまうことがあります。そのため、できるだけ静かな場所で会話することをおすすめします。

会話の管理

左下のマイクアイコンで、自分の音声入力をミュートまたはアンミュートできます。
右下の終了アイコンで、ボイスチャットを終了できます。

注意点

注意点として、高度なボイスモードの使用には日単位の制限があります。OpenAIは具体的な制限時間を公表しておらず、日毎に制限が変わるとだけ説明していますが、ここ数日使った感覚では、1日あたり約30分程度が最大のようです。

制限に関して注意すべき点：

制限に近づくと通知が表示されます。
制限に達すると、自動的に標準ボイスモードに切り替わります。

制限の消費方法について：

また、ボイスモードを起動している間、常に制限時間が消費されているように感じます。
ユーザーが話していなくても、周囲の音などが入力として認識され、制限時間が減少しているようです。

日単位の制限については、数日間の使用経験に基づくものです。正確な時間についてOpenAIからの公式説明ではないことに注意してください。

高度なボイスモード活用事例

【初級編】
相談相手になってもらう

最もシンプルな活用法として、まずは話し相手になってもらいましょう。
これまでの音声会話AIとの一番の違いは、感情をより豊かに表現できることです。

淡白な会話ではなく、より心に寄り添ったような会話をしてくれます。

“体力の衰えを感じるから、体調管理に気をつけたいと思ってるんだけど、明日の朝から何かできるトレーニングはある?”

音声入力

“最近、高校で好きな子が出来たんだけど、どう話しかけたら良いか分からないんだよね”

音声入力

このように、どんな話題を振っても優しく回答してくれるのがAIの一番の強みとも言えるでしょう。
さらに、返答も非常に早くなっているため、自然さが増し、スムーズに会話が行えるようになりました。

【中級編】
①英語教師になって英語の発音を矯正してもらう

今回のモデルの大きな改良点の一つは、音声を直接処理できるようになったことです。以前のモデルでは、音声は一度テキストに変換されていました。

このアップデートにより、例えば英語の発音を修正してもらうことが可能になりました。

まず、練習したい単語やアルファベットを伝え、それぞれの発音のポイントと例文を作成してもらいます。

“英語の 'R'と'L'の発音の練習がしたいです。それぞれ発音のポイントと両方練習できる例文を作成してください。“

音声入力

次に、作成された例文を実際に発音し、ChatGPTに評価してもらいます。

“今からそれを私が発音するので、それを評価してください。
…..
“

音声入力

実際の例：

ここからはAGIラボ会員限定のコンテンツです

AGIラボとは？
AGIラボは最新のAI活用情報が集まるマガジン・コミュニティです。

会員特典
ChatGPT研究所が執筆した300以上ののAI関連記事が読み放題
AIに関する情報交換や議論ができる限定コミュニティへアクセス

AGIラボに興味のある方は、以下のリンクからぜひご参加ください

【中級編】
②キャラクター性を付与して会話してもらう

ここから先は

4,888字 / 4画像

AGIラボ

¥2,980 / 月

初月無料

300以上の記事が全て読み放題。AGIラボはGPTs Difyなど、最前線のAI活用情報に特化したマガジン・コミュニティです。実践的なプロンプトを含む記事で得られる知見で業務の効率化、自動化から創造的なプロジェクトまですぐに活用可能。生成AI革命の最前線をお届け。

メンバー限定コミュニティに参加できます
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が参加している募集

#AIとやってみた

33,496件

公式LINEをフォロー

LINE登録で、Notion GPT の作り方をプレゼント中

【完全ガイド】進化したChatGPTのボイスモード。使い方から高度な活用法まで紹介

高度なボイスモードとは

主な特徴：

利用可能なユーザー：

高度なボイスモードの始め方

アプリのアップデート

ボイスチャットの開始

音声の選択

会話の開始

会話の管理

注意点

高度なボイスモード活用事例

【初級編】相談相手になってもらう

【中級編】①英語教師になって英語の発音を矯正してもらう

【中級編】②キャラクター性を付与して会話してもらう

ここから先は

AGIラボ

この記事が参加している募集

【初級編】
相談相手になってもらう

【中級編】
①英語教師になって英語の発音を矯正してもらう

【中級編】
②キャラクター性を付与して会話してもらう