見出し画像

OpenAI Text-to-Speech(TTS)API の使い方や料金について

OpenAIのText-to-Speech(TTS)APIは、テキストをリアルタイムで自然な音声に変換する強力なツールです。このAPIは、ブログ記事の朗読、多言語での音声生成、リアルタイムの音声出力など、さまざまな用途に使用できます。

使い方


TTS APIを使用するためには、まずOpenAIクライアントを作成します。

次に、speechエンドポイントに対してリクエストを送信します。このリクエストには、モデル名、音声に変換するテキスト、そして音声生成に使用する音声の3つの主要な入力が必要です。

以下に、Pythonでの簡単なリクエストの例を示します:

from pathlib import Path
from openai import OpenAI

client = OpenAI()

speech_file_path = Path(__file__).parent / "speech.mp3"
response = client.audio.speech.create(
  model="tts-1",
  voice="alloy",
  input="今日は素晴らしい日ですね!"
)

response.stream_to_file(speech_file_path)

このコードは、指定したテキストを音声に変換し、その結果をMP3ファイルとして保存します。

上記のコードを実行すると、同じフォルダに speech.mp3 が保存されます。
実際にやってみましたが、極めて自然な日本語が出力されました。


音声オプション


OpenAIのTTS APIは、alloy、echo、fable、onyx、nova、shimmerという6つの異なる音声を提供しています。これらの音声を試して、あなたの目的や聴衆に最も適したものを見つけることができます。

出力形式

デフォルトのレスポンス形式は"mp3"ですが、"opus"、"aac"、"flac"などの他の形式も利用可能です。

リアルタイムオーディオストリーミング

Speech APIは、チャンク転送エンコーディングを使用したリアルタイムの音声ストリーミングをサポートしています。これにより、全体のファイルが生成されて利用可能になる前に、音声を再生することができます。


料金について

OpenAIのText-to-Speech(TTS)APIの使用料金は、使用したトークンの数に基づいて計算されます。トークンは、自然言語処理に使用される単語の一部と考えることができます。英語のテキストでは、1トークンは約4文字または0.75単語に相当します。たとえば、シェイクスピアの全作品は約900,000単語または1.2Mトークンです。

OpenAIは、使用したリソースのみを支払うシンプルで柔軟な料金設定を提供しています。具体的な料金は$0.015 / 1000 文字です。

また、OpenAIでは、使用量の追跡ダッシュボードを通じて、現在および過去の請求サイクル中に使用したトークンの数を確認することができます。さらに、一定の使用量を超えた場合にメールアラートを受け取るためのソフトリミットを設定することも可能です。これにより、使用量を管理し、予算を超えないようにすることができます。

なお、料金は変更される可能性がありますので、最新の情報についてはOpenAIの公式ウェブサイトをご確認ください。


まとめ

OpenAIのText-to-Speech APIは、テキストを自然な音声に変換するための強力なツールです。その多機能性と柔軟性により、さまざまな用途で利用することができます。


参考URL:


みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!