Najnowsze dziecko w świecie sztucznej inteligencji – Operator – to agent zaprojektowany do wykonywania zadań w sieci za użytkownika. Za jego działanie odpowiada model Computer-Using Agent (CUA), który łączy zdolności wizualne GPT-4o z zaawansowanym rozumowaniem opartym na uczeniu ze wzmocnieniem. CUA nie tylko rozumie, co dzieje się na ekranie, ale też potrafi obsługiwać interfejsy graficzne (GUI) w sposób przypominający ludzkie działanie, bez konieczności stosowania specjalistycznych API systemowych czy internetowych.
Co to oznacza w praktyce?
CUA może przetwarzać dane w postaci surowych pikseli z ekranu, dzięki czemu „widzi” to, co widzi użytkownik. Następnie, używając wirtualnej myszy i klawiatury, wykonuje zadania takie jak wypełnianie formularzy, klikanie przycisków czy poruszanie się po stronach internetowych. Dzięki swojej elastyczności i umiejętności dzielenia skomplikowanych problemów na kroki, CUA otwiera nowe możliwości dla sztucznej inteligencji w rozwiązywaniu codziennych cyfrowych wyzwań.
Wyniki? Nowy poziom benchmarków
CUA pokazał swoją klasę, ustanawiając nowe standardy w testach oceniających wykorzystanie przeglądarek internetowych i systemów operacyjnych. W testach WebArena osiągnął 58,1% skuteczności, a w WebVoyager – 87%. Chociaż w prostszych zadaniach model radzi sobie świetnie, nadal wymaga usprawnień, by dorównać ludziom w bardziej złożonych scenariuszach, takich jak te testowane w OSWorld, gdzie uzyskał 38,1% sukcesu (dla porównania: człowiek osiąga tu 72,4%).
Czy jest bezpieczny?
Każda nowa technologia rodzi pytania o bezpieczeństwo, a Operator nie jest wyjątkiem. Twórcy postawili na wielowarstwowe zabezpieczenia, by zminimalizować ryzyko wynikające z potencjalnych nadużyć czy błędów modelu. System odmawia wykonania działań szkodliwych, prosi użytkownika o potwierdzenie wrażliwych operacji, a także unika interakcji z niebezpiecznymi stronami. Dodatkowo, wprowadzono nadzór zarówno w czasie rzeczywistym, jak i w formie automatycznej analizy.
Dla kogo?
Operator jest dostępny w ramach wersji testowej dla użytkowników Pro w Stanach Zjednoczonych na stronie operator.chatgpt.com. Twórcy liczą na zebranie opinii użytkowników, które pomogą w dalszym rozwoju technologii i dopracowywaniu zabezpieczeń.
Przyszłość na horyzoncie
Operator i CUA to krok milowy w rozwijaniu modeli AI zdolnych do działania w środowiskach stworzonych dla ludzi. W przyszłości twórcy planują udostępnić API, które pozwoli programistom na budowanie własnych agentów komputerowych, wykorzystując technologię CUA. To rozwiązanie ma potencjał, by zrewolucjonizować sposób, w jaki korzystamy z technologii, czyniąc ją jeszcze bardziej dostępną i wszechstronną.
Czy Operator jest idealny? Jeszcze nie. Ale bez wątpienia to narzędzie, które przybliża nas do ery AI, gdzie granice między ludźmi a maszynami stają się coraz mniej wyraźne. To jak szachy z komputerem – tylko że teraz gramy w cyfrowym świecie.