Big Data Wybór redakcji

GPT-realtime – głos jak u człowieka, nie robota

OpenAI oficjalnie wypuściło Realtime API z nowym modelem gpt-realtime – i to nie jest zwykła aktualizacja, tylko skok jakościowy, który może sporo namieszać w świecie voicebotów. Od dziś deweloperzy i firmy mogą korzystać z produkcyjnie gotowego rozwiązania, które obsługuje nie tylko rozmowy głosowe, ale także obrazki, zdalne serwery MCP oraz – uwaga – dzwonienie przez zwykły telefon dzięki wsparciu dla SIP. Innymi słowy: AI może teraz rozmawiać z tobą w aplikacji, w call center, a nawet… zadzwonić na stacjonarny numer.

Nowy model gpt-realtime to najbardziej zaawansowany system mowy do mowy, jaki OpenAI do tej pory wypuściło. Potrafi nie tylko lepiej rozumieć złożone polecenia, ale też brzmi bardziej naturalnie – zmienia ton, akcent, potrafi w połowie zdania przejść na inny język, a nawet oddać drobne niuanse jak śmiech czy westchnienie. OpenAI dorzuciło też dwie świeże barwy głosu – Marin i Cedar – które od razu trafiły wyłącznie do Realtime API. Reszta istniejących głosów też dostała lifting, więc różnicę będzie słychać.

Introducing gpt-realtime in the API

Inteligencja i sprawność

Według testów wewnętrznych model jest po prostu bystrzejszy. Lepiej radzi sobie z alfanumerykami (np. literowanie VIN-ów czy numerów seryjnych), działa sprawniej w wielu językach i potrafi elastycznie dostosować styl rozmowy – od “snappy & professional” po “kind & empathetic”. W benchmarku Big Bench Audio osiągnął 82,8% skuteczności, podczas gdy poprzedni model z grudnia 2024 zatrzymał się na 65,6%.

Instrukcje, funkcje i mniej przerw w rozmowie

Deweloperzy dostają narzędzie, które dużo lepiej słucha ich instrukcji. Model poprawnie reaguje nawet na drobne wskazówki typu “mów szybko i oficjalnie” czy “mów z empatią i francuskim akcentem”. Do tego poprawiono wywoływanie funkcji – czyli np. sprawdzanie danych, wysyłanie zapytań czy korzystanie z dodatkowych narzędzi. I co ważne – teraz rozmowa nie musi się zatrzymywać, kiedy model czeka na wyniki dłuższej operacji. Brzmi jak koniec epoki niezręcznych pauz w call center.

Obraz + głos = nowy poziom interakcji

Kolejna nowość: obsługa obrazów. Możesz wrzucić screenshot, zdjęcie czy dokument i zapytać model „co tu widzisz?” albo „przeczytaj ten tekst”. Nie działa to jak wideoczat, ale bardziej jak dorzucenie zdjęcia do konwersacji. Ty decydujesz, co AI widzi i kiedy.

Telefon, bezpieczeństwo i cena

Dzięki SIP Realtime API może łączyć się z klasycznymi sieciami telefonicznymi czy centralami PBX – a więc AI spokojnie zadzwoni na infolinię lub odbierze połączenie od klienta. Do tego OpenAI obiecuje solidne zabezpieczenia (np. filtrowanie rozmów w czasie rzeczywistym), zgodność z polityką prywatności w UE i jasne zasady, by nikt nie używał tych głosów do oszustw.

Na deser – cena spada o 20% względem poprzedniej wersji preview. Za milion tokenów wejściowych audio zapłacimy 32 dolary, a za milion wyjściowych – 64 dolary. Do tego deweloperzy dostają większą kontrolę nad limitem kontekstu, co w dłuższych sesjach pozwoli oszczędzić sporo pieniędzy.

Nie ma co ukrywać – to jest duży krok. Do tej pory voiceboty często brzmiały jak automaty z lat 90., które miały ci sprzedać garnki albo wcisnąć kredyt. Teraz? Jeśli ktoś nie będzie wiedział, że rozmawia z AI, może się nawet nie zorientować. A skoro już Zillow testuje Realtime API do rozmów o kupnie domu, to można się spodziewać, że wkrótce voicebot zadzwoni do nas nie tylko z banku, ale i od lekarza czy nawet z biura podróży.

👉 Oficjalne ogłoszenie i dokumentację znajdziecie tutaj: Introducing gpt-realtime

Wyjście z wersji mobilnej