Modele zamiany tekstu na mowę

AI-Public obsługuje modele zamiany tekstu na mowę, które przekształcają tekst na dźwięk. Te modele są używane w sekcji Tekst na dźwięk w panelu oraz w funkcjach generujących dźwięk z czatu.

Obecny katalog

Dostawca	Model	Uwaga
OpenAI	GPT-4o mini TTS	Brzmi naturalnie, z dobrym sterowaniem tonem i stylem.
Google	Gemini 3.1 Flash TTS Preview	Nowy model mowy Gemini z precyzyjnym sterowaniem stylem, tempem i tonem.
Europejska AI	Voxtral Mini TTS	Europejski tekst-na-mowę oparty na Mistral Voxtral Mini.

Claude nie posiada własnego modelu zamiany tekstu na mowę w katalogu. Jeśli Claude jest włączony jako dostawca, modele mowy zależą od pozostałych skonfigurowanych dostawców.

Co określa model mowy

Model mowy określa, jak tekst jest wymawiany i jakie możliwości są dostępne. Należy brać pod uwagę:

dostępne głosy;
języki, które obsługuje dany głos;
jakość i naturalność wymowy;
sposób, w jaki wykonywane są instrukcje dotyczące tempa, tonu, akcentu i wymowy.

Głosy i języki

Dostępne głosy różnią się w zależności od dostawcy. AI-Public pokazuje przy tekście na dźwięk tylko te głosy, które pasują do wybranego języka, lub głosy odpowiednie dla wielu języków. Jeśli głos jest przeznaczony tylko dla określonych języków, ten język będzie podany przy głosie.

OpenAI i Google obsługują większość języków w katalogu. Voxtral Mini TTS obsługuje mniejszy zestaw języków, w tym polski, angielski, francuski, hiszpański, portugalski, włoski, niemiecki, hindi i arabski.

Systemprompt

W tekście na dźwięk można użyć systemprompt, aby sterować wymową i stylem. Możesz na przykład wskazać, że polski ma brzmieć naturalnie, że terminy takie jak AI, AI-Public, ChatGPT i OpenAI mają być wymawiane po angielsku, lub że Claude ma brzmieć jak francuskie imię.

Preferencje

Użytkownicy mogą zapisać swoje ustawienia tekstu na dźwięk jako preferencje. Dzięki temu model, język, głos i instrukcje wymowy nie muszą być wybierane za każdym razem od nowa.

Obecny katalog​

Co określa model mowy​

Głosy i języki​

Systemprompt​

Preferencje​

Obecny katalog

Co określa model mowy

Głosy i języki

Systemprompt

Preferencje