Nowa era głosowych agentów AI: OpenAI wprowadza przełomowe modele audio
Big Data LLM Wybór redakcji

Nowa era głosowych agentów AI: OpenAI wprowadza przełomowe modele audio

OpenAI nie zwalnia tempa. Po miesiącach intensywnych prac firma ogłosiła wprowadzenie nowych modeli do przetwarzania mowy – zarówno na poziomie zamiany głosu na tekst, jak i odwrotnie. To krok w stronę bardziej naturalnej interakcji z AI, w której użytkownicy nie muszą ograniczać się do pisania, ale mogą swobodnie mówić do swoich wirtualnych asystentów.

Przełom w transkrypcji i syntezie mowy

Nowe modele speech-to-text (zamiana mowy na tekst) osiągają rekordowe wyniki pod względem dokładności. OpenAI chwali się, że pokonują dotychczasowe rozwiązania – szczególnie w trudnych warunkach, takich jak rozmowy w hałasie, różne akcenty czy zmienna szybkość mówienia. To otwiera nowe możliwości dla biznesu: centra obsługi klienta, transkrypcja spotkań czy automatyczna analiza rozmów telefonicznych to tylko kilka potencjalnych zastosowań.

To jednak nie wszystko. Firma zaprezentowała również nowy model text-to-speech (zamiana tekstu na mowę), który po raz pierwszy pozwala na „sterowanie” tym, jak AI mówi. Można na przykład powiedzieć modelowi, żeby mówił jak sympatyczny doradca klienta albo emocjonalny narrator audiobooka. To zupełnie nowy poziom personalizacji – i duży krok naprzód w budowie realistycznych agentów głosowych.

Jak działają nowe modele?

OpenAI wprowadza dwa modele transkrypcji:

  • gpt-4o-transcribe – flagowy model o najwyższej precyzji,
  • gpt-4o-mini-transcribe – lżejsza wersja, zoptymalizowana pod kątem szybkości działania.

Oba bazują na ulepszonych algorytmach uczenia maszynowego, wykorzystując zaawansowane techniki uczenia ze wzmocnieniem (reinforcement learning). Dzięki temu są bardziej odporne na błędy i potrafią lepiej interpretować kontekst wypowiedzi.

Natomiast nowy model syntezy mowy, gpt-4o-mini-tts, umożliwia dostosowanie stylu wypowiedzi. Choć obecnie ogranicza się do predefiniowanych głosów, OpenAI zapowiada dalsze prace nad większą personalizacją, oczywiście w granicach standardów bezpieczeństwa.

OpenAI nie zamierza się zatrzymywać. Firma zapowiada dalsze inwestycje w rozwój modeli audio, a także eksplorację innych technologii – w tym analizy obrazu i wideo. Jednocześnie trwają rozmowy z ekspertami i ustawodawcami na temat etyki i bezpieczeństwa głosowych agentów AI.

Co dalej? Niewykluczone, że wkrótce rozmawianie z AI będzie tak powszechne jak pisanie na klawiaturze.

Źródło