Gå til hovedinnhold

Tekst-til-språkmodeller

AI-Public støtter tekst-til-språkmodeller som kan konvertere tekst til lyd. Disse modellene brukes ved Tekst til lyd på dashbordet og i funksjoner som genererer lyd fra en chat.

Nåværende katalog

LeverandørModellMerknad
OpenAIGPT-4o mini TTSNaturlig klingende tale med god styring av tone og stil.
GoogleGemini 3.1 Flash TTS PreviewNytt Gemini-talemodell med nøyaktig kontroll av stil, tempo og tone.
Europeisk AIVoxtral Mini TTS-Europeisk tekst-til-tale basert på Mistral Voxtral Mini.

Claude har ikke en egen tekst-til-tale-modell i katalogen. Hvis Claude som leverandør er aktivert, forblir talemodellene avhengige av de øvrige konfigurerte leverandørene.

Hva en talemodell bestemmer

En talemodell bestemmer hvordan tekst uttales og hvilke muligheter som er tilgjengelige. Tenk på:

  • de tilgjengelige stemmene;
  • språkene en stem støtter;
  • kvaliteten og naturaliteten i uttalen;
  • måten instruksjoner om tempo, tone, accenter og uttale følges opp på.

Stemmer og språk

Tilgjengelige stemmer varierer etter leverandør. AI-Public viser ved tekst til lyd bare stemmer som passer til det valgte språket, eller stemmer som er egnet for flere språk. Hvis en stemme er ment bare for visse språk, står språket ved stemmen.

OpenAI og Google støtter de fleste språk i katalogen. Voxtral Mini TTS støtter et mindre sett språk, inkludert nederlandsk, engelsk, fransk, spansk, portugisisk, italiensk, tysk, hindi og arabisk.

Systeemprompt

Ved tekst til lyd kan systeemprompten brukes for å styre uttale og stil. Du kan for eksempel angi at nederlandsk skal høres naturlig ut, at termer som AI, AI-Public, ChatGPT og OpenAI skal uttales på engelsk, eller at Claude skal uttales som et fransk navn.

Preferanser

Brukere kan lagre sine tekst-til-lydinstillinger som personlige preferanser. På den måten trenger ikke modell, språk, stemme og uttaleinstruksjoner å velges på nytt hver gang.