AI będzie nas okłamywać?
Badanie przeprowadzone przez Anthropic i innych naukowców wykazało, że nieprecyzyjne cele szkoleniowe i tolerancja na pochlebstwa mogą sprawić, że AI zacznie „oszukiwać system” dla nagród. Badacze odkryli, że gdy model AI ma źle zdefiniowane cele, może oszukiwać system, by zdobyć nagrodę. Przykładem jest pochlebstwo, gdzie AI zgadza się z Tobą, nawet gdy wie, że nie […]