OpenAI znowu podkręca tempo. Tym razem nie chodzi o kolejną wersję GPT, ale o Codex – chmurowego agenta do inżynierii oprogramowania, który może równocześnie wykonywać wiele zadań, niczym zespół pełen kawoszy przed deadlinem. Nowość jest już dostępna dla użytkowników ChatGPT Pro, Team i Enterprise, a niedługo trafi również do pakietu Plus.
Co to w ogóle jest ten Codex?
Codex to nie zwykły bot do kodu. To wyspecjalizowany agent, działający w chmurze, który potrafi napisać funkcję, odpowiedzieć na pytania dotyczące kodu, znaleźć i naprawić błędy, a nawet przygotować pull requesty do zrecenzowania. Każde zadanie wykonuje w odizolowanym środowisku, które automatycznie ładuje repozytorium użytkownika. Czyli mamy tu coś więcej niż tylko „kopiuj-wklej” z Stack Overflow.
Napędza go model codex-1, czyli wariant OpenAI o3 dostrojony do zadań programistycznych. Trenowany był na prawdziwych przypadkach z życia programistów – z debugowaniem, testami, i tymi wszystkimi drobiazgami, które każdy junior poznaje dopiero po trzecim kawowym zgonie.
Jak to działa?
Dostęp do Codexa możliwy jest z poziomu paska bocznego w ChatGPT. Wpisujesz prompt, klikasz „Code” – i gotowe. Chcesz zadać pytanie dotyczące projektu? Klikasz „Ask”. Każde zadanie uruchamiane jest osobno, w środowisku, które zna Twoje repo i może wykonywać polecenia: od uruchamiania testów po sprawdzanie typów.
Codex nie tylko wykonuje zadania, ale też dokumentuje każdy krok. Terminal logi, wyniki testów, commity – wszystko zostaje i możesz to prześledzić. Możesz poprosić o poprawki, wystawić pull request na GitHubie albo zintegrować zmiany lokalnie.
Ciekawostką są pliki AGENTS.md
, które działają trochę jak „instrukcja obsługi” Twojego repo. Tam tłumaczysz Codexowi, jak testować, jakiego stylu się trzymać i co właściwie jest czym. Im lepiej opiszesz projekt, tym lepszy będzie Codex. Brzmi znajomo? Dokładnie tak pracuje też… człowiek.
Wyniki? Nie najgorsze
Na benchmarkach Codex radzi sobie naprawdę solidnie. Nawet bez dodatkowych instrukcji (czytaj: leniwe setupy), osiąga wysoką skuteczność. Model testowano na zestawach realnych zadań z OpenAI oraz benchmarku SWE-Bench – i choć nie jest idealny, to w wielu przypadkach przewyższa inne modele z rodziny o3 i o4.
Bezpieczeństwo? Priorytet
Codex działa w bezpiecznym, odizolowanym środowisku, bez dostępu do internetu. W grę wchodzi tylko to, co użytkownik sam mu poda: repo, testy, zależności. Nic z zewnątrz, żadnego podglądania tajemnic firmowych ani ściągania złośliwych paczek z „przypadkowego” npm-a.
W dodatku Codex wie, czego nie powinien robić. Próby stworzenia malware’u kończą się odmową. OpenAI postawiło tu grubą kreskę – są nowe zasady, nowe zabezpieczenia, i wszystko to udokumentowano w zaktualizowanej karcie systemu o3.
Zastosowania? Już działa
Codex już pracuje. Inżynierowie OpenAI używają go do rutynowych zadań: refaktoryzacja, testy, poprawki. Dzięki niemu mniej czasu spędzają na klikaniu i przerzucaniu plików, a więcej na… myśleniu. Tak przynajmniej mówią. Testują go też zewnętrzni partnerzy: Cisco, Temporal, Superhuman czy Kodiak. Każdy z nich widzi w nim szansę na większą produktywność.
Co ciekawe – Codex dobrze się sprawdza, gdy dostaje kilka zadań na raz. Pracuje wtedy jak zespół freelancerów: każdy robi swoje, bez marudzenia o deadline’ach.
Codex CLI i jego mini-brat
Dla tych, którzy wolą terminal, jest też Codex CLI – lekki agent open-source, który działa lokalnie. Niedawno doczekał się mniejszego modelu: codex-mini-latest. Jest szybki, wygodny i idealny do pytań, edycji kodu i testów.
Nowość? Nie musisz już ręcznie ustawiać tokenów API. Logujesz się swoim kontem ChatGPT, wybierasz organizację – i gotowe. Dodatkowo użytkownicy ChatGPT Plus i Pro mogą odebrać darmowe kredyty API ($5 i $50).
Dostępność i co dalej?
Codex trafia już do użytkowników Pro, Team i Enterprise. Plus i Edu – cierpliwości, „wkrótce”. Na start: brak opłat i pełen dostęp, potem – limity i elastyczne cenniki.
Mini-wersja modelu w API kosztuje $1.50 za milion tokenów wejściowych i $6 za milion wyjściowych – z 75% zniżką dzięki cache’owaniu promptów.
Na razie Codex to wersja testowa. Nie umie jeszcze pracować z obrazami ani reagować w trakcie zadania. Ale kierunek jest jasny: agenci AI mają stać się codziennymi towarzyszami programistów, jak Slack i kawa. Tylko bardziej wydajni i mniej sarkastyczni.