Gå till huvudinnehållet

Text- to-speechmodeller

AI-Public stöder text- to-speechmodeller som kan omvandla text till ljud. Dessa modeller används vid Text till ljud på instrumentpanelen och i funktioner som genererar ljud från en chat.

Nuvarande katalog

LeverantörModellKommentar
OpenAIGPT-4o mini TTSNaturlikt ljudande tal med god styrning av ton och stil.
GoogleGemini 3.1 Flash TTS PreviewNytt Gemini- talmodell med exakt styrning av stil, tempo och ton.
Europeisk AIVoxtral Mini TTSEuropeisk text-till-tal baserad på Mistral Voxtral Mini.

Claude har ingen egen text- till- ljudmodell i katalogen. Om Claude som leverantör är aktiverad, är röstmodellerna beroende av övriga konfigurerade leverantörer.

Vad ett text- till- ljudmodell bestämmer

En talmodell bestämmer hur texten uttalas och vilka möjligheter som är tillgängliga. Tänk på:

  • de tillgängliga rösterna;
  • vilka språk en röst stöder;
  • kvaliteten och naturligheten i uttalet;
  • hur instruktioner om tempo, ton, accent och uttal följs.

Röster och språk

Tillgängliga röster varierar beroende på leverantör. AI-Public visar vid text till ljud endast röster som passar det valda språket, eller röster som lämpar sig för flera språk. Om en röst är avsedd endast för vissa språk, anges det språket bredvid rösten.

OpenAI och Google stödjer de flesta språken i katalogen. Voxtral Mini TTS stödjer ett mindre antal språk, inklusive nederländska, engelska, franska, spanska, portugisiska, italienska, tyska, hindi och arabiska.

Systeemprompt

Vid text till ljud kan systeemprompten användas för att styra uttal och stil. Du kan till exempel ange att svenska ska låta naturligt, att termer som AI, AI-Public, ChatGPT och OpenAI ska uttalas på engelska, eller att Claude ska uttalas som ett franskt namn.

Preferenser

Användare kan spara sina text- till- ljud-inställningar som personliga preferenser. Så behöver modell, språk, röst och uttalsinstruktioner inte väljas varje gång.