Gå til hovedindhold

Tekst-til-tale-modeller

AI-Public understøtter tekst-til-tale-modeller, som kan konvertere tekst til lyd. Disse modeller bruges ved Tekst til audio på dashboardet og ved funktioner, der genererer lyd fra en chat.

Nuværende katalog

LeverandørModelBemærkning
OpenAIGPT-4o mini TTSNaturligt klingende tale med god styring af tone og stil.
GoogleGemini 3.1 Flash TTS PreviewNy Gemini-tale-model med præcis styring af stil, tempo og tone.
Europeiske AIVoxtral Mini TTSEuropéisk tekst-til-tale baseret på Mistral Voxtral Mini.

Claude har ingen egen tekst-til-tale-model i kataloget. Hvis Claude er aktiveret som leverandør, forbliver tale-modeller afhængige af de øvrige konfigurerede leverandører.

Hvad et tale-model bestemmer

Et tale-model bestemmer, hvordan teksten udtales og hvilke muligheder der er tilgængelige. Tænk på:

  • tilgængelige stemmer;
  • de sprog, en stemme understøtter;
  • kvaliteten og naturaliteten af udtalen;
  • måden instruktioner om tempo, tone, accent og udtale følges op på.

Stemmer og sprog

Tilgængelige stemmer varierer efter leverandør. AI-Public viser kun stemmer ved tekst til audio, der passer til det valgte sprog, eller stemmer der er egnet til flere sprog. Hvis en stemme kun er til bestemte sprog, står det angivne sprog ved stemmen.

OpenAI og Google understøtter de fleste sprog i kataloget. Voxtral Mini TTS understøtter et mindre sæt sprog, herunder dansk, engelsk, fransk, spansk, portugisisk, italiensk, tysk, hindi og arabisk.

Systemprompt

Ved tekst til audio kan systemprompten bruges til at styre udtale og stil. Du kan for eksempel angive, at dansk skal lyde naturligt, at termer som AI, AI-Public, ChatGPT og OpenAI kan udtales med engelsk udtale, eller at Claude skal lyde som et fransk navn.

Præferencer

Brugere kan gemme deres tekst-til-audio-indstillinger som personlige præferencer. Så behøver modell, sprog, stemme og udtaleinstruktioner ikke vælges igen og igen.