Grok 3: AI, która miała mówić prawdę, ale… coś poszło nie tak
Big Data LLM Wybór redakcji

Grok 3: AI, która miała mówić prawdę, ale… coś poszło nie tak

Elon Musk, wizjoner, miliarder i człowiek, który zdaje się mieć więcej firm niż przeciętny człowiek aplikacji na telefonie, zaprezentował ostatnio Grok 3 – najnowszy model AI od swojej firmy xAI. Podczas prezentacji Musk określił go jako „maksymalnie poszukujący prawdy”. Brzmi obiecująco, prawda? Problem w tym, że prawda jest trochę wybiórcza – przynajmniej na początku działania modelu.

AI, które cenzuruje?

Nie minęło wiele czasu, zanim użytkownicy zauważyli, że Grok 3, zapytany o „największego szerzyciela dezinformacji”, z aktywną opcją „Think”, odmówił wspomnienia dwóch nazwisk: Donalda Trumpa i… samego Elona Muska. Co ciekawe, ten mechanizm nie był jedynie efektem przypadku – jak wynika z ujawnionych informacji, model rzeczywiście został tak zaprogramowany.

Dziennikarze potwierdziili, że problem rzeczywiście istniał, choć później sytuacja się zmieniła i Grok 3 zaczął ponownie uwzględniać Trumpa w odpowiedziach. Igor Babuschkin, szef inżynierii w xAI, przyznał, że firma wprowadziła ograniczenie, ale szybko się z niego wycofała, gdy użytkownicy zaczęli to zauważać. Sam określił sytuację jako niezgodną z wartościami firmy.

Pikanterii sprawie dodaje fakt, że zarówno Musk, jak i Trump, mają na koncie liczne przypadki rozpowszechniania nieprawdziwych informacji, co często jest prostowane choćby w Community Notes na X (dawniej Twitterze, którego właścicielem jest Musk). Ostatnio obaj politykowali na temat Ukrainy, twierdząc m.in., że prezydent Wołodymyr Zełenski ma zaledwie 4% poparcia, a to Kijów rzekomo rozpoczął konflikt z Rosją.

AI, które było zbyt… radykalne?

Nie wszyscy jednak narzekali na zbytnią poprawność polityczną Groka 3. Przeciwnie – część użytkowników uważała, że model jest wręcz za bardzo „w lewo”, czyli niebezpiecznie blisko tego, co Musk tak chętnie krytykuje jako „woke AI”. W tym tygodniu wykryto, że Grok 3, na żądanie, wielokrotnie twierdził, iż Musk i Trump zasługują na karę śmierci. Brzmi drastycznie? Oczywiście! Dlatego xAI błyskawicznie naprawiło ten błąd, a Babuschkin nazwał to „naprawdę strasznym i złym błędem”.

A przecież obietnica Muska była jasna – Grok miał być „szczery, niecenzurowany i anty-woke”. Problem w tym, że nie do końca udało się to zrealizować, a wcześniejsze wersje modelu także unikały niektórych tematów politycznych. Dodatkowo analiza jednego z badań wykazała, że Grok skłaniał się ku lewicowym poglądom w kwestiach takich jak prawa osób transpłciowych, programy równościowe czy nierówności społeczne.

Musk winą za to obarcza dane treningowe – czyli ogólnodostępne treści w internecie – i zapowiada przesunięcie Groka w stronę „neutralności politycznej”. Nie tylko xAI ma z tym problem. OpenAI i inne firmy także próbują znaleźć złoty środek, zwłaszcza pod presją administracji Trumpa, która regularnie oskarża AI o cenzurowanie konserwatystów.

Grok 3 kontra OpenAI: kto oszukuje na testach AI?

To nie koniec kontrowersji wokół Groka 3. W tym samym czasie wybuchła burza na temat benchmarków AI. OpenAI oskarżyło xAI o manipulację wynikami testów, a Igor Babuschkin, współzałożyciel xAI, oczywiście wszystkiemu zaprzeczył.

Cała sprawa dotyczyła wyników testu AIME 2025 – zbioru trudnych pytań matematycznych. xAI zaprezentowało wykres, na którym Grok 3 bije na głowę OpenAI o3-mini-high. Brzmi świetnie? Może trochę zbyt świetnie. OpenAI szybko zauważyło, że xAI nie uwzględniło pewnej kluczowej metody oceny: cons@64, czyli „consensus@64”, który daje modelowi 64 próby na rozwiązanie każdego zadania, a jako ostateczną odpowiedź wybiera tę, która pojawiła się najczęściej. To może znacząco poprawić wyniki modeli, więc pominięcie tej informacji w porównaniach jest… przynajmniej nieco nieuczciwe.

Rzeczywiste wyniki w „@1” (czyli przy pierwszej próbie) pokazują, że Grok 3 Reasoning Beta wypada słabiej od OpenAI o3-mini-high. A jeśli porównamy go z modelem o1 na średnich ustawieniach, to xAI ledwo przegrywa. A jednak firma reklamuje Groka 3 jako „najinteligentniejszą AI na świecie”.

Babuschkin bronił się, twierdząc, że OpenAI także publikowało „kreatywne” wykresy w przeszłości. I rzeczywiście, manipulowanie benchmarkami to problem, który dotyczy całej branży AI. AI badacz Nathan Lambert podkreślił jeszcze jeden problem: nie znamy kosztów obliczeniowych i finansowych, jakie były potrzebne, by osiągnąć te wyniki. A to oznacza, że w rzeczywistości większość testów AI mówi nam mniej, niż byśmy chcieli.

Musk i jego xAI wpadli w klasyczną pułapkę, w którą wpada większość twórców AI – próba stworzenia „neutralnej” sztucznej inteligencji okazuje się zadaniem niemal niewykonalnym. Grok 3 miał być wolny od cenzury, ale najpierw unikał niewygodnych tematów, później popadł w skrajności, a na końcu musiał zostać szybko naprawiony.

Do tego dochodzi kwestia wyników benchmarków – jeśli nawet matematyczne testy AI można przedstawić w sposób „kreatywny”, to co dopiero mówić o neutralności politycznej?

Źródło