ElevenLabs v3: Nowy król ekspresji w świecie AI?
Wybór redakcji LLM

ElevenLabs v3: Nowy król ekspresji w świecie AI?

ElevenLabs nie owija w bawełnę: nowy model v3 (alpha) to krok milowy w syntezie mowy. I choć „alpha” brzmi jeszcze jak nieśmiałe „dajcie nam chwilę”, to to, co już dziś oferuje v3, mogłoby z powodzeniem dostać rolę w hollywoodzkim dubbingu.

Nowy poziom ekspresji

Model v3 potrafi więcej niż tylko mówić — on wzdycha, śmieje się, szepcze, a nawet przerywa sobie w pół słowa, jakby właśnie przypomniał sobie, że zapomniał wyjąć zupy z kuchenki. Wbudowana obsługa tagów audio takich jak [excited], [whispers] czy [sighs] pozwala wpleść w mowę emocje, których nie powstydziłby się aktor z Broadwayu.

To wszystko działa w ponad 70 językach, z naturalnym rytmem i intonacją, jakbyśmy słuchali prawdziwego dialogu — a nie wygenerowanego pliku audio.

Dla kogo to wszystko?

Jeśli tworzysz filmy, gry, audiobooki albo aplikacje edukacyjne — to v3 może być dla ciebie. Wyobraź sobie audiobook, w którym postacie mają własne głosy i emocje. Albo grę indie, która nagle brzmi jak produkcja z budżetem na poziomie CD Projekt RED. Tak, aż tak.

Jest jednak jeden haczyk (jak to zwykle bywa z rzeczami, które wydają się zbyt piękne): v3 wymaga więcej inżynierii promptów niż wcześniejsze modele. To znaczy: nie wystarczy wkleić tekstu i nacisnąć „generuj”. Trzeba pokombinować, opisać emocje, określić mówców. Ale jeśli poświęcisz chwilę — efekty potrafią być spektakularne.

A jeśli potrzebujesz mowy w czasie rzeczywistym (np. do czatbotów), lepiej zostań jeszcze chwilę przy v2.5 Turbo lub Flash. v3 ma jeszcze lekką zadyszkę przy takich zastosowaniach — ale zespół zapowiada, że już nad tym pracuje.

Co nowego?

FunkcjaCo daje użytkownikowi?
Tagi audioKontrola tonu, emocji i reakcji pozawerbalnych
Tryb dialoguNaturalne rozmowy wieloosobowe z przerwami i dynamiką
70+ językówGlobalny zasięg i lokalizacja
Głębsze rozumienie tekstuWiększa precyzja w rytmie, akcentach i ekspresji

Przykłady z życia wzięte… prawie

Nie, ElevenLabs nie zatrudniło narratora BBC ani nie wynajęło aktorów do testów. Ale efekty brzmią tak dobrze, że można się pomylić:

Dostępność i promocja

Model v3 można już testować na stronie ElevenLabs. API jest w przygotowaniu, ale osoby zainteresowane wcześniejszym dostępem mogą kontaktować się z działem sprzedaży. I dobra wiadomość na koniec: do końca czerwca korzystanie z v3 w aplikacji ElevenLabs jest tańsze o 80%.

No to jak? Gotowi, żeby wasze teksty zabrzmiały jak monologi z Broadwayu?

Jeśli ElevenLabs chciało, żebyśmy uwierzyli, że AI potrafi naprawdę „mówić jak człowiek” — to cóż, ich nowy model zrobił duży krok w stronę Oscara. A przynajmniej Złotego Globu w kategorii „Najlepszy Głos Syntetyczny”.

Źródło