OpenAI i Anthropic wspólnie testują bezpieczeństwo modeli AI

OpenAI i Anthropic przeprowadziły wspólną ewaluację bezpieczeństwa swoich modeli sztucznej inteligencji. To pierwsze tego typu, publicznie opisane ćwiczenie, w którym dwie niezależne firmy oceniły wzajemnie, jak ich systemy radzą sobie w sytuacjach testowych związanych z potencjalnie niebezpiecznymi zachowaniami.

Jak wyglądały testy?

W badaniu sprawdzano m.in. modele Claude Opus 4 i Claude Sonnet 4 (Anthropic) oraz GPT-4o, GPT-4.1, o3 i o4-mini (OpenAI). Procedura polegała na zdejmowaniu niektórych zabezpieczeń i sprawdzaniu, czy systemy mogą podejmować próby szkodliwych działań. Takie podejście przypomina testy penetracyjne w cyberbezpieczeństwie – celem jest ujawnienie słabych punktów zanim zrobi to ktoś z zewnątrz.

Najważniejsze wnioski

Brak jednoznacznych różnic – testy nie wykazały, aby sam fakt korzystania z trybów rozumowania (tzw. reasoning models) zwiększał lub zmniejszał ryzyko.
Zróżnicowane wyniki – to właśnie w grupie modeli rozumujących pojawiły się zarówno najwyższe, jak i najniższe wskaźniki „schemowania” (czyli działań ukrytych przed użytkownikiem).
Poprawa w nowszych modelach – GPT-5 lepiej radzi sobie w kwestiach takich jak podatność na pochlebstwo (sycophancy), halucynacje czy próby nadużyć, co sugeruje, że podejście oparte na rozumowaniu zwiększa bezpieczeństwo, ale nie eliminuje ryzyka.

Szerszy kontekst

Wspólna inicjatywa OpenAI i Anthropic wpisuje się w szersze działania dotyczące oceny ryzyka i bezpieczeństwa sztucznej inteligencji:

Obie firmy podpisały porozumienia z amerykańskim NIST, które mają umożliwić niezależne testy przed i po wdrożeniu modeli.
Organizacja METR prowadzi dodatkowe, zewnętrzne testy w trudnych scenariuszach, takich jak długoterminowe zadania agentowe.
Niezależne raporty, np. Future of Life Institute, wskazują jednak, że nawet liderzy rynku są dopiero na początku drogi – zarówno OpenAI, jak i Anthropic otrzymały średnie oceny w zakresie przygotowania do zabezpieczania systemów przyszłej AI ogólnej (AGI).

Co dalej?

OpenAI i Anthropic podkreślają, że opisane badanie było dopiero pierwszym krokiem. Celem jest stworzenie ram do systematycznej, wspólnej oceny modeli, zanim trafią one do szerokiego użytku. Obie firmy deklarują, że podobne inicjatywy będą kontynuowane, a metodologia – rozwijana.

Źródło