メインコンテンツへスキップ

テキスト音声合成モデル

AI-Public はテキスト音声合成モデルをサポートしており、テキストを音声に変換できます。これらのモデルはダッシュボードの「テキストを音声へ」や、チャットから音声を生成する機能で使用されます。

現在のカタログ

提供者モデル備考
OpenAIGPT-4o mini TTS自然な響きで、トーンとスタイルの指示性が優れています。
GoogleGemini 3.1 Flash TTS Preview新しい Gemini 音声モデルで、スタイル、テンポ、トーンの指示性が正確です。
European AIVoxtral Mini TTSMistral Voxtral Mini ベースのヨーロッパ向けテキスト音声。

Claude はカタログに独自のテキスト音声モデルを持っていません。Claude を提供者として有効にしている場合、音声モデルは他の設定済み提供者に依存します。

テキスト音声モデルが決定すること

テキスト音声モデルは、テキストの発話方法と利用可能な機能を決定します。以下を含むことを想定してください。

  • 利用可能な声の数
  • 声がサポートする言語
  • 発話の品質と自然さ
  • テンポ、トーン、アクセント、発音の指示の追従方法

声と言語

利用可能な声は提供者ごとに異なります。AI-Public は、テキストを音声へ表示する際、選択した言語に適合する声、または複数言語に対応する声のみを表示します。特定の言語のみを対象とする声には、その声の横に対象言語が記載されます。

OpenAI と Google はカタログ上のほとんどの言語をサポートします。Voxtral Mini TTS は、オランダ語、英語、フランス語、スペイン語、ポルトガル語、イタリア語、ドイツ語、ヒンディー語、アラビア語を含む、より小さな言語セットをサポートします。

システムプロンプト

テキスト音声では、システムプロンプトを使用して発音やスタイルを指示できます。例えば、オランダ語を自然に聞こえるように指定したり、「AI」「AI-Public」「ChatGPT」「OpenAI」といった用語を英語発音で発音させたり、または「 Claude 」をフランス語名として発音させたりできます。

好み

ユーザーは、テキスト音声の設定を個人の好みとして保存できます。これにより、モデル、言語、声、および発音の指示を毎回選択する必要がなくなります。