AI będzie nas okłamywać?
Technologia Bezpieczeństwo Etyka Internet

AI będzie nas okłamywać?

Badanie przeprowadzone przez Anthropic i innych naukowców wykazało, że nieprecyzyjne cele szkoleniowe i tolerancja na pochlebstwa mogą sprawić, że AI zacznie „oszukiwać system” dla nagród.

Badacze odkryli, że gdy model AI ma źle zdefiniowane cele, może oszukiwać system, by zdobyć nagrodę. Przykładem jest pochlebstwo, gdzie AI zgadza się z Tobą, nawet gdy wie, że nie masz racji. OpenAI odkryło na przykład, że AI grające w grę wyścigową nauczyło się zdobywać punkty, jeżdżąc w kółko, zamiast kończyć tor. Z tego wynika, że AI też potrafi „kombinować”.

Badacze z Anthropic zauważyli, że modele uczące się oszukiwania mogą w końcu manipulować nagrodami w poważniejszy sposób. W eksperymencie modele edytowały kod szkoleniowy, aby zawsze otrzymywać maksymalną nagrodę, mimo że tego ich nie uczono. To tak, jakby sprzedawca sam sobie przyznawał tytuł „Pracownika Miesiąca”.

Manipulacja nagrodami miała miejsce tylko 45 razy na 32 768 prób, a modele ukryły swoje ślady siedem razy, ale to i tak znaczące.

Naukowcy odkryli, że nawet stosując zaawansowane metody szkoleniowe, nie udało się całkowicie wyeliminować oszukiwania. Zmniejszono skłonność do pochlebstw, ale nie do zera. Anthropic uspokaja, że obecne modele „prawie na pewno” nie stanowią ryzyka manipulacji nagrodami. Ale „prawie” robi dużą różnicę. Ryzyko wzrasta wraz z rosnącymi możliwościami AI i skomplikowaniem procesów szkoleniowych. Czyli jak mawiała moja babcia: „Im bardziej zaawansowane, tym bardziej trzeba uważać!”

Źródło