Перейти к основному содержимому

Текстово-голосовые модели

AI-Public поддерживает текстово-голосовые модели, которые позволяют преобразовать текст в аудиофайл. Эти модели используются в разделе Текст в аудио на панели управления и в функциях, которые генерируют аудио из чата.

Текущий каталог

ПоставщикМодельПримечание
OpenAIGPT-4o мини TTSЕстественно звучащая речь с хорошим управлением тоном и стилем.
GoogleGemini 3.1 Flash TTS PreviewНовый Gemini-голосовой модель с точным управлением стилем, темпом и тоном.
Европейский ИИVoxtral Mini TTSЕвропейский text-to-speech на базе Mistral Voxtral Mini.

Claude не имеет собственной модели текст-до-речи в каталоге. Если Claude включен как поставщик, голосовые модели зависят от остальных сконфигурированных поставщиков.

Что определяет голосовая модель

Голосовая модель определяет, как произносится текст и какие возможности доступны. Например:

  • доступные голоса;
  • языки, которые поддерживает голос;
  • качество и естественность произношения;
  • способ, которым выполняются инструкции по темпу, тону, акценту и произношению.

Голоса и языки

Доступные голоса зависят от поставщика. AI-Public отображает в текст в аудио только те голоса, которые соответствуют выбранному языку, или голоса, подходящие для нескольких языков. Если голос предназначен только для определённых языков, этот язык указан рядом с голосом.

OpenAI и Google поддерживают большинство языков в каталоге. Voxtral Mini TTS поддерживает меньший набор языков, включая нидерландский, английский, французский, испанский, португальский, итальянский, немецкий, хинди и арабский.

Системная подсказка

В текст в аудио системная подсказка может использоваться для управления произношением и стилем. Например, можно указать, что голоса должны звучать естественно на нидерландском, что термины как AI, AI-Public, ChatGPT и OpenAI следует произносить по-английски, или что Claude следует произносить как французское имя.

Предпочтения

Пользователи могут сохранять параметры текст в аудио как личные настройки. Так выбор модели, языка, голоса и инструкций по произношению не нужно выбирать каждый раз заново.