Przejdź do głównej treści

Modele zamiany tekstu na mowę

AI-Public obsługuje modele zamiany tekstu na mowę, które przekształcają tekst na dźwięk. Te modele są używane w sekcji Tekst na dźwięk w panelu oraz w funkcjach generujących dźwięk z czatu.

Obecny katalog

DostawcaModelUwaga
OpenAIGPT-4o mini TTSBrzmi naturalnie, z dobrym sterowaniem tonem i stylem.
GoogleGemini 3.1 Flash TTS PreviewNowy model mowy Gemini z precyzyjnym sterowaniem stylem, tempem i tonem.
Europejska AIVoxtral Mini TTSEuropejski tekst-na-mowę oparty na Mistral Voxtral Mini.

Claude nie posiada własnego modelu zamiany tekstu na mowę w katalogu. Jeśli Claude jest włączony jako dostawca, modele mowy zależą od pozostałych skonfigurowanych dostawców.

Co określa model mowy

Model mowy określa, jak tekst jest wymawiany i jakie możliwości są dostępne. Należy brać pod uwagę:

  • dostępne głosy;
  • języki, które obsługuje dany głos;
  • jakość i naturalność wymowy;
  • sposób, w jaki wykonywane są instrukcje dotyczące tempa, tonu, akcentu i wymowy.

Głosy i języki

Dostępne głosy różnią się w zależności od dostawcy. AI-Public pokazuje przy tekście na dźwięk tylko te głosy, które pasują do wybranego języka, lub głosy odpowiednie dla wielu języków. Jeśli głos jest przeznaczony tylko dla określonych języków, ten język będzie podany przy głosie.

OpenAI i Google obsługują większość języków w katalogu. Voxtral Mini TTS obsługuje mniejszy zestaw języków, w tym polski, angielski, francuski, hiszpański, portugalski, włoski, niemiecki, hindi i arabski.

Systemprompt

W tekście na dźwięk można użyć systemprompt, aby sterować wymową i stylem. Możesz na przykład wskazać, że polski ma brzmieć naturalnie, że terminy takie jak AI, AI-Public, ChatGPT i OpenAI mają być wymawiane po angielsku, lub że Claude ma brzmieć jak francuskie imię.

Preferencje

Użytkownicy mogą zapisać swoje ustawienia tekstu na dźwięk jako preferencje. Dzięki temu model, język, głos i instrukcje wymowy nie muszą być wybierane za każdym razem od nowa.