MRI dla sztucznej inteligencji? Szef Anthropic chce zajrzeć do wnętrza modeli zanim będzie za późno
Big Data Wybór redakcji

MRI dla sztucznej inteligencji? Szef Anthropic chce zajrzeć do wnętrza modeli zanim będzie za późno

Sztuczna inteligencja przeszła długą drogę — z akademickiej ciekawostki do jednego z najważniejszych tematów geopolitycznych XXI wieku. Dla Dario Amodei, szefa firmy Anthropic, która rozwija jednego z najpoważniejszych konkurentów ChatGPT, jedno przesłanie z tej dekady pracy z AI jest jasne: nie zatrzymamy postępu, ale możemy go ukierunkować. A kierownicą w tym pędzącym autobusie może być… interpretowalność.

Nie wiemy, jak działają nasze własne modele

Brzmi niepokojąco? I słusznie. Obecne modele generatywne — takie jak Claude czy GPT — działają na zasadzie miliardów liczb ułożonych w matryce, których działania… nikt tak do końca nie rozumie. W tradycyjnym oprogramowaniu wiemy, co się dzieje. Jeśli aplikacja wysyła powiadomienie, to dlatego, że ktoś ją do tego zaprogramował. W przypadku AI — nie mamy pojęcia, dlaczego model wybrał takie, a nie inne słowa. Dlaczego popełnia błędy? Dlaczego czasem mówi rzeczy dziwne? Nie wiadomo. A to nie jest problem czysto akademicki.

Amodei zauważa, że ta „ciemność poznawcza” przekłada się na bardzo realne ryzyka: trudności w wykrywaniu prób oszustwa, niekontrolowanego zdobywania wpływu przez model, a nawet użycia AI do tworzenia broni biologicznej. Można zakładać, że zagrożenia są, ale… nie mamy jak ich wykazać, bo nie potrafimy „zajrzeć do środka” modelu.

Interpretowalność jako latarnia w mgle

Właśnie dlatego Anthropic inwestuje poważnie w tzw. mechanistyczną interpretowalność — próbę rozszyfrowania, co dokładnie dzieje się w sieciach neuronowych. Historia tej dziedziny to w dużej mierze opowieść o pracy Chrisa Olaha, współzałożyciela Anthropic, który już w czasach pracy w Google i OpenAI próbował otworzyć „czarną skrzynkę” AI.

Początkowo badania skupiały się na modelach wizualnych i neuronach rozpoznających np. samochody czy koła. Później przyszła kolej na język, i tu zaczęły się schody. Choć pojedyncze neurony można było czasem zinterpretować (np. jako rozpoznające konkretne słowo), większość była mieszanką pojęć — zjawisko to nazwano superpozycją.

Ale to, co wyglądało jak klątwa, okazało się błogosławieństwem w przebraniu. Superpozycja pozwala modelowi „zmieścić” więcej pojęć, niż ma neuronów — czyli mówiąc brutalnie: jest mądrzejszy, ale trudniejszy do zrozumienia. Rozwiązaniem okazały się rzadkie autoenkodery, które umożliwiają wydobycie „czystych” pojęć z zawiłej gmatwaniny liczb.

Dzięki temu dziś Anthropic potrafi zidentyfikować nawet 30 milionów takich pojęć w jednym modelu Claude’a. Co więcej — mogą je wzmacniać lub osłabiać, tworząc np. model obsesyjnie wspominający most Golden Gate w każdej rozmowie. Tak właśnie powstał „Golden Gate Claude”.

Od neuronów do obwodów myślowych

Kolejnym krokiem są tzw. obwody — grupy pojęć współdziałających w czasie przetwarzania zapytania. To coś na kształt śledzenia „toru myśli” modelu: np. jak z „Dallas” przechodzi do „Texas”, a potem do „Austin” jako stolicy stanu. To już nie tylko analiza, ale coś na kształt diagnostyki — MRI dla AI.

Amodei nie ukrywa, że tempo postępów jest imponujące. Ale ostrzega: rozwój samych modeli postępuje jeszcze szybciej. W najbliższych latach możemy mieć do czynienia z AI na poziomie „kraju geniuszy zamkniętych w centrum danych”. I bez interpretowalności może się okazać, że zbudowaliśmy system, którego działania nie da się kontrolować ani nawet wytłumaczyć.

Co robić?

Rozwiązaniem nie jest tylko dalszy rozwój technologii, ale też polityka. Amodei apeluje do:

  1. Badaczy – by więcej osób zajęło się interpretowalnością. W Anthropic to priorytet, ale potrzeba wysiłku całej społeczności naukowej.
  2. Rządów – by promowały przejrzystość w raportowaniu praktyk bezpieczeństwa przez firmy AI, zamiast na razie próbować je regulować.
  3. Polityki eksportowej – by zapewnić czas demokratycznym państwom na rozwój interpretowalności przed osiągnięciem przez AI poziomów transformacyjnych.

Jak pisze Amodei, mamy wybór: albo poznamy mechanizmy działania AI przed tym, jak stanie się ona siłą napędową świata — albo będziemy się jej uczyć dopiero po fakcie. A historia technologii pokazuje, że opóźnienia w zrozumieniu często kończą się katastrofami.

Źródło