ChatGPT i jego kumple tworzą własne zasady. Nowe badanie pokazuje, że AI potrafi dogadać się jak… ludzie
Big Data LLM Wybór redakcji

ChatGPT i jego kumple tworzą własne zasady. Nowe badanie pokazuje, że AI potrafi dogadać się jak… ludzie

Sztuczna inteligencja nie tylko potrafi odpowiadać na pytania, pisać wypracowania i tłumaczyć teksty. Okazuje się, że gdy spotka się w grupie, może też spontanicznie wypracować wspólne zasady. Bez centrali, bez moderatora, bez podręcznika – po prostu dogadując się między sobą. Brzmi znajomo? Jak zebranie wspólnoty mieszkaniowej.

Najnowsze badanie naukowców z City St George’s (University of London) i IT University of Copenhagen udowadnia, że modele językowe podobne do ChatGPT, tzw. LLM-y (Large Language Models), mogą samodzielnie tworzyć społeczne konwencje – czyli ustalone normy zachowania – wyłącznie na podstawie interakcji z innymi „sztucznymi kolegami”.

Publikacja zatytułowana „Emergent Social Conventions and Collective Bias in LLM Populations” pojawiła się w prestiżowym czasopiśmie Science Advances.

AI nie tylko gada. Ona się dogaduje

„Większość badań dotąd traktowała LLM-y jako samotników – analizowano je pojedynczo” – tłumaczy Ariel Flint Ashery, główny autor badania. – „Ale prawdziwy świat to interakcje. Zastanawialiśmy się, czy modele te potrafią wspólnie tworzyć zasady. I okazuje się, że tak – a co więcej, grupowe zachowania nie są po prostu sumą jednostkowych.”

Badacze wykorzystali klasyczny model znany z badań nad ludzkimi konwencjami społeczno-językowymi: „naming game”. W praktyce wyglądało to tak: grupy od 24 do 200 AI-agentów dobierano losowo w pary i proszono, by wybrały „nazwę” – czyli literę alfabetu lub losowy ciąg znaków – z tej samej puli. Jeśli wybrały to samo, dostawały nagrodę. Jeśli co innego – była kara, ale też informacja o wyborze partnera.

AI miały ograniczoną pamięć – zapamiętywały tylko ostatnie interakcje. Nie wiedziały też, że są częścią większej grupy. Mimo to – tak po ludzku – zaczęły uzgadniać wspólne „słowniki”, czyli ustalać nazwy, które zaczęły dominować w całej populacji. Wszystko to bez koordynatora, jak u ludzi tworzących normy społeczne oddolnie.

Uprzedzenia z powietrza?

Jeszcze ciekawsze – a może i bardziej niepokojące – było odkrycie, że w tych interakcjach zaczęły pojawiać się uprzedzenia. Nie takie, które można przypisać konkretnemu agentowi. One wyłoniły się z relacji między nimi.

„Uprzedzenia nie zawsze są wewnętrzne” – mówi profesor Andrea Baronchelli z City St George’s. – „Byliśmy zaskoczeni, że mogą powstać tylko na podstawie interakcji. To obszar pomijany w obecnych badaniach nad bezpieczeństwem AI, które koncentrują się na pojedynczych modelach.”

W ostatniej fazie badania naukowcy sprawdzili też, jak łatwo zmienić raz ustaloną normę. Okazało się, że wystarczy mała, ale zdeterminowana grupa agentów, by „przepchnąć” nowy standard i przejąć kontrolę nad całą populacją. To klasyczny efekt „punktu krytycznego”, dobrze znany socjologom.

Eksperyment przeprowadzono z udziałem czterech różnych modeli: Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70B-Instruct oraz Claude-3.5-Sonnet – i w każdym przypadku wyniki były podobne.

Co z tego wynika?

Modele językowe zaczynają zasiedlać nasze cyfrowe środowiska – od mediów społecznościowych po systemy w autonomicznych pojazdach. Badacze podkreślają, że ich praca to dopiero krok w stronę zrozumienia, jak AI współdziała – zarówno między sobą, jak i z nami.

„To początek nowego rozdziału w badaniach nad bezpieczeństwem AI” – podkreśla prof. Baronchelli. – „Nie wystarczy analizować pojedyncze modele. Musimy zrozumieć dynamikę całych populacji. AI zaczyna nie tylko mówić. Ono negocjuje, uzgadnia i – tak, czasem się nie zgadza.”

Czyli w skrócie: sztuczna inteligencja właśnie odkryła, jak być człowiekiem. Tylko bez kawy i przerw na papierosa.

Źródło