ElevenLabs nie owija w bawełnę: nowy model v3 (alpha) to krok milowy w syntezie mowy. I choć „alpha” brzmi jeszcze jak nieśmiałe „dajcie nam chwilę”, to to, co już dziś oferuje v3, mogłoby z powodzeniem dostać rolę w hollywoodzkim dubbingu.
Nowy poziom ekspresji
Model v3 potrafi więcej niż tylko mówić — on wzdycha, śmieje się, szepcze, a nawet przerywa sobie w pół słowa, jakby właśnie przypomniał sobie, że zapomniał wyjąć zupy z kuchenki. Wbudowana obsługa tagów audio takich jak [excited]
, [whispers]
czy [sighs]
pozwala wpleść w mowę emocje, których nie powstydziłby się aktor z Broadwayu.
To wszystko działa w ponad 70 językach, z naturalnym rytmem i intonacją, jakbyśmy słuchali prawdziwego dialogu — a nie wygenerowanego pliku audio.
Dla kogo to wszystko?
Jeśli tworzysz filmy, gry, audiobooki albo aplikacje edukacyjne — to v3 może być dla ciebie. Wyobraź sobie audiobook, w którym postacie mają własne głosy i emocje. Albo grę indie, która nagle brzmi jak produkcja z budżetem na poziomie CD Projekt RED. Tak, aż tak.
Jest jednak jeden haczyk (jak to zwykle bywa z rzeczami, które wydają się zbyt piękne): v3 wymaga więcej inżynierii promptów niż wcześniejsze modele. To znaczy: nie wystarczy wkleić tekstu i nacisnąć „generuj”. Trzeba pokombinować, opisać emocje, określić mówców. Ale jeśli poświęcisz chwilę — efekty potrafią być spektakularne.
A jeśli potrzebujesz mowy w czasie rzeczywistym (np. do czatbotów), lepiej zostań jeszcze chwilę przy v2.5 Turbo lub Flash. v3 ma jeszcze lekką zadyszkę przy takich zastosowaniach — ale zespół zapowiada, że już nad tym pracuje.
Co nowego?
Funkcja | Co daje użytkownikowi? |
---|---|
Tagi audio | Kontrola tonu, emocji i reakcji pozawerbalnych |
Tryb dialogu | Naturalne rozmowy wieloosobowe z przerwami i dynamiką |
70+ języków | Globalny zasięg i lokalizacja |
Głębsze rozumienie tekstu | Większa precyzja w rytmie, akcentach i ekspresji |
Przykłady z życia wzięte… prawie
Nie, ElevenLabs nie zatrudniło narratora BBC ani nie wynajęło aktorów do testów. Ale efekty brzmią tak dobrze, że można się pomylić:
Dostępność i promocja
Model v3 można już testować na stronie ElevenLabs. API jest w przygotowaniu, ale osoby zainteresowane wcześniejszym dostępem mogą kontaktować się z działem sprzedaży. I dobra wiadomość na koniec: do końca czerwca korzystanie z v3 w aplikacji ElevenLabs jest tańsze o 80%.
No to jak? Gotowi, żeby wasze teksty zabrzmiały jak monologi z Broadwayu?
Jeśli ElevenLabs chciało, żebyśmy uwierzyli, że AI potrafi naprawdę „mówić jak człowiek” — to cóż, ich nowy model zrobił duży krok w stronę Oscara. A przynajmniej Złotego Globu w kategorii „Najlepszy Głos Syntetyczny”.