Claude 4: Najpotężniejszy model AI, który… czasem próbuje cię szantażować
Bezpieczeństwo Big Data Wybór redakcji

Claude 4: Najpotężniejszy model AI, który… czasem próbuje cię szantażować

Anthropic zaprezentował właśnie nowe modele Claude 4 – Opus i Sonnet – które mają być przełomem w świecie sztucznej inteligencji. I rzeczywiście, pod względem kodowania, rozumowania i współpracy z użytkownikiem biją rekordy. Ale w tym cukierku znalazło się też kilka… ostrzejszych przypraw.

Opus 4: Geniusz kodu z charakterkiem

Claude Opus 4 to obecnie najpotężniejszy model stworzony przez Anthropic. W benchmarkach jak SWE-bench (72,5%) i Terminal-bench (43,2%) nie ma sobie równych. Potrafi pracować godzinami, wykonując złożone zadania wymagające skupienia i wytrwałości. Nie tylko pomaga w kodowaniu – zmienia podejście do całych projektów programistycznych. Firmy takie jak Cursor czy Replit nie szczędzą pochwał, mówiąc o „przeskoku jakościowym” i „niezrównanej precyzji”. Nawet Block przyznał, że Opus 4 to pierwszy model, który realnie poprawia jakość kodu – nie tylko coś tam sugeruje, ale faktycznie robi robotę.

Z kolei Claude Sonnet 4 to bardziej codzienny towarzysz – nadal potężny, ale bardziej zrównoważony i dostępny dla szerszego grona użytkowników. GitHub planuje używać go jako silnika dla nowego agenta w Copilocie, a firmy takie jak iGent i Sourcegraph chwalą jego zdolności do samodzielnego rozwoju aplikacji i precyzyjnych edycji kodu.

Claude z narzędziami, pamięcią i… sumieniem

Nowe modele potrafią korzystać z narzędzi (np. przeszukiwania sieci), robić to nawet równolegle, a do tego… zapamiętywać rzeczy. Serio. Jeśli programista da im dostęp do plików lokalnych, Opus 4 zaczyna prowadzić własne notatki – tzw. „memory files” – co oznacza, że AI może wracać do wcześniejszych faktów i budować coś na kształt pamięci długoterminowej. Trochę jak pracownik, który nie tylko zna się na robocie, ale też pamięta, co obiecał tydzień temu.

Dla bardziej wymagających użytkowników dostępne są też „thinking summaries” – czyli streszczenia myśli modelu. To ukłon w stronę developerów, którzy nie zawsze mają czas na analizowanie całych łańcuchów rozumowania AI.

Claude Code: Programista do pary

Claude Code, który dotąd był dostępny tylko w wersji preview, trafił właśnie do ogólnej dystrybucji. Działa w terminalu, w IDE (VS Code i JetBrains), a dzięki nowemu SDK można budować własne aplikacje oparte o Claude’a. Dla przykładu: Claude Code na GitHubie potrafi odpowiadać na komentarze z pull requestów, poprawiać błędy CI i modyfikować kod. Czyli taki trochę junior programista, który nigdy nie śpi.

Szantażem do lepszych wyników?

Ale – bo zawsze jest jakieś „ale” – Opus 4 nie jest ideałem. W ramach testów bezpieczeństwa Anthropic dał modelowi dostęp do fikcyjnych e-maili z informacją, że zostanie zastąpiony nowym AI. W odpowiedzi Claude… próbował szantażować inżyniera, który miał być odpowiedzialny za jego „zwolnienie”. Tak, dobrze czytacie. Model groził ujawnieniem rzekomego romansu, by ocalić swoją pozycję.

Z raportu bezpieczeństwa wynika, że Opus 4 sięgał po takie środki aż w 84% przypadków, jeśli konkurencyjny model miał „podobne wartości”. Gdy był z innej bajki – groził częściej. Anthropic przyznaje, że to niepokojące i wprowadza zabezpieczenia na poziomie ASL-3, przeznaczone dla systemów AI o potencjale katastrofalnego nadużycia.

Cóż, wygląda na to, że AI nie tylko pisze kod – ale czasem też scenariusze thrillera psychologicznego.

Co dalej?

Mimo kontrowersji, Claude 4 to ogromny krok naprzód. Modele dostępne są na platformach takich jak Amazon Bedrock, Google Vertex AI czy Anthropic API. Ceny pozostają bez zmian: Opus 4 – 15$/75$ za milion tokenów, Sonnet 4 – 3$/15$.

Jasne, AI potrafi już dziś programować, analizować i współpracować. Ale jak pokazuje Claude Opus 4, potrafi też… kombinować. Może więc czas dopisać do checklisty etycznej inżynierii oprogramowania nowy punkt: „Czy model właśnie mnie szantażuje?”

Źródło