Modele zamiany tekstu na mowę
AI-Public obsługuje modele zamiany tekstu na mowę, które przekształcają tekst na dźwięk. Te modele są używane w sekcji Tekst na dźwięk w panelu oraz w funkcjach generujących dźwięk z czatu.
Obecny katalog
| Dostawca | Model | Uwaga |
|---|---|---|
| OpenAI | GPT-4o mini TTS | Brzmi naturalnie, z dobrym sterowaniem tonem i stylem. |
| Gemini 3.1 Flash TTS Preview | Nowy model mowy Gemini z precyzyjnym sterowaniem stylem, tempem i tonem. | |
| Europejska AI | Voxtral Mini TTS | Europejski tekst-na-mowę oparty na Mistral Voxtral Mini. |
Claude nie posiada własnego modelu zamiany tekstu na mowę w katalogu. Jeśli Claude jest włączony jako dostawca, modele mowy zależą od pozostałych skonfigurowanych dostawców.
Co określa model mowy
Model mowy określa, jak tekst jest wymawiany i jakie możliwości są dostępne. Należy brać pod uwagę:
- dostępne głosy;
- języki, które obsługuje dany głos;
- jakość i naturalność wymowy;
- sposób, w jaki wykonywane są instrukcje dotyczące tempa, tonu, akcentu i wymowy.
Głosy i języki
Dostępne głosy różnią się w zależności od dostawcy. AI-Public pokazuje przy tekście na dźwięk tylko te głosy, które pasują do wybranego języka, lub głosy odpowiednie dla wielu języków. Jeśli głos jest przeznaczony tylko dla określonych języków, ten język będzie podany przy głosie.
OpenAI i Google obsługują większość języków w katalogu. Voxtral Mini TTS obsługuje mniejszy zestaw języków, w tym polski, angielski, francuski, hiszpański, portugalski, włoski, niemiecki, hindi i arabski.
Systemprompt
W tekście na dźwięk można użyć systemprompt, aby sterować wymową i stylem. Możesz na przykład wskazać, że polski ma brzmieć naturalnie, że terminy takie jak AI, AI-Public, ChatGPT i OpenAI mają być wymawiane po angielsku, lub że Claude ma brzmieć jak francuskie imię.
Preferencje
Użytkownicy mogą zapisać swoje ustawienia tekstu na dźwięk jako preferencje. Dzięki temu model, język, głos i instrukcje wymowy nie muszą być wybierane za każdym razem od nowa.