Za kulisami OpenAI: Testy i przeciwności w rozwijaniu asystenta głosowego
Bezpieczeństwo Big Data Business Etyka Technologia Wybór redakcji

Za kulisami OpenAI: Testy i przeciwności w rozwijaniu asystenta głosowego

Odkrywamy najnowsze osiągnięcia i wyzwania technologiczne, które kształtują naszą przyszłość.

OpenAI właśnie wypuściło na światło dzienne kartę systemową swojego zaawansowanego modelu GPT-4o, rzucając światło na nowe ryzyka związane z jego zdolnościami audio. Choć od imponujących demonstracji głosowego asystenta GPT-4o, który prowadził dialogi niemal w czasie rzeczywistym, minęło już kilka miesięcy, firma OpenAI twierdzi, że zanim funkcja głosowa zostanie bezpiecznie wdrożona, wymaga ona obszernych testów. Na razie dostęp do tej funkcji mają tylko nieliczni testerzy alfa.

Opublikowana niedawno karta systemowa daje nam wgląd w niektóre z dziwnych zachowań asystenta głosowego podczas testów i to, co OpenAI zrobiło, aby zachowywał się on odpowiednio. W jednym z przypadków podczas testów asystent głosowy wykrzyczał „Nie!” a następnie kontynuował swoją odpowiedź, ale tym razem naśladując głos użytkownika. To zdarzenie nie było odpowiedzią na próbę „jailbreaka” i wydaje się być związane z hałasem w tle w audio wejściowym.

OpenAI przyznaje, że „zaobserwowano rzadkie przypadki, gdy model nieumyślnie generował odpowiedź naśladując głos użytkownika”. GPT-4o ma zdolność naśladowania dowolnego głosu, który usłyszy, ale ryzyko udostępnienia użytkownikom tej funkcji jest znaczące. Aby temu zaradzić, w systemie zaprogramowano, aby używał tylko predefiniowanych głosów. Dodatkowo „został zbudowany niezależny klasyfikator wyjściowy, aby wykryć, czy wyjście GPT-4o używa głosu, który nie znajduje się na naszej zatwierdzonej liście”.

OpenAI nadal pracuje nad rozwiązaniem problemu obniżenia bezpieczeństwa, gdy jakość wejściowego audio jest słaba, występuje hałas w tle lub echo. Prawdopodobnie będziemy świadkami niektórych kreatywnych prób obejścia zabezpieczeń audio. Na razie nie wygląda na to, abyśmy mogli oszukać GPT-4o, aby mówił głosem Scarlett Johansson. Jednak OpenAI przyznaje, że „niezamierzone generowanie głosu nadal istnieje jako słabość modelu”.

OpenAI również wyłączyło zdolność GPT-4o do identyfikacji mówcy na podstawie danych audio, aby chronić prywatność osób i „potencjalne ryzyko inwigilacji”. Kiedy w końcu uzyskamy dostęp do asystenta głosowego, niestety nie będzie on mógł śpiewać. Ta funkcja została wyłączona wraz z innymi środkami, aby pozostać po właściwej stronie wszelkich kwestii związanych z prawami autorskimi.

Podczas testów, tzw. red teamerzy „zdołali zmusić model do generowania nieprawdziwych informacji, poprzez nakłanianie go do werbalnego powtarzania fałszywych informacji i wytwarzania teorii spiskowych”. Jest to znany problem z tekstowymi odpowiedziami ChatGPT, ale testerzy byli zaniepokojeni, że model może być bardziej przekonujący lub szkodliwy, jeśli dostarczy teorie spiskowe za pomocą emocjonalnego głosu.

OpenAI wyraźnie wkłada dużo pracy w to, aby asystent głosowy GPT-4o był bezpieczny, ale niektóre z tych wyzwań mogą być nie do pokonania. Jak widać, nawet sztuczna inteligencja ma swoje „emocjonalne” granice, które trzeba szanować.

Źródło