Text- to-speechmodeller

AI-Public stöder text- to-speechmodeller som kan omvandla text till ljud. Dessa modeller används vid Text till ljud på instrumentpanelen och i funktioner som genererar ljud från en chat.

Nuvarande katalog

Leverantör	Modell	Kommentar
OpenAI	GPT-4o mini TTS	Naturlikt ljudande tal med god styrning av ton och stil.
Google	Gemini 3.1 Flash TTS Preview	Nytt Gemini- talmodell med exakt styrning av stil, tempo och ton.
Europeisk AI	Voxtral Mini TTS	Europeisk text-till-tal baserad på Mistral Voxtral Mini.

Claude har ingen egen text- till- ljudmodell i katalogen. Om Claude som leverantör är aktiverad, är röstmodellerna beroende av övriga konfigurerade leverantörer.

Vad ett text- till- ljudmodell bestämmer

En talmodell bestämmer hur texten uttalas och vilka möjligheter som är tillgängliga. Tänk på:

de tillgängliga rösterna;
vilka språk en röst stöder;
kvaliteten och naturligheten i uttalet;
hur instruktioner om tempo, ton, accent och uttal följs.

Röster och språk

Tillgängliga röster varierar beroende på leverantör. AI-Public visar vid text till ljud endast röster som passar det valda språket, eller röster som lämpar sig för flera språk. Om en röst är avsedd endast för vissa språk, anges det språket bredvid rösten.

OpenAI och Google stödjer de flesta språken i katalogen. Voxtral Mini TTS stödjer ett mindre antal språk, inklusive nederländska, engelska, franska, spanska, portugisiska, italienska, tyska, hindi och arabiska.

Systeemprompt

Vid text till ljud kan systeemprompten användas för att styra uttal och stil. Du kan till exempel ange att svenska ska låta naturligt, att termer som AI, AI-Public, ChatGPT och OpenAI ska uttalas på engelska, eller att Claude ska uttalas som ett franskt namn.

Preferenser

Användare kan spara sina text- till- ljud-inställningar som personliga preferenser. Så behöver modell, språk, röst och uttalsinstruktioner inte väljas varje gång.

Nuvarande katalog​

Vad ett text- till- ljudmodell bestämmer​

Röster och språk​

Systeemprompt​

Preferenser​

Nuvarande katalog

Vad ett text- till- ljudmodell bestämmer

Röster och språk

Systeemprompt

Preferenser