Przyszłość AI zagrożona przez… generowane treści AI

W najnowszym wydaniu „Nature” ukazało się badanie, które rzuca nowe światło na jedno z kluczowych wyzwań w rozwoju sztucznej inteligencji.

Wyobraź sobie, że uczysz sztuczną inteligencję (AI) na podstawie danych wygenerowanych przez… inną sztuczną inteligencję. Brzmi jak science fiction? Niestety, to realny problem, który naukowcy z Uniwersytetu Cambridge i Oksfordu nazwali „zawaleniem modelu”. Zjawisko to może prowadzić do degradacji jakości przyszłych modeli AI, zwłaszcza teraz, gdy coraz więcej treści generowanych przez AI trafia do internetu i jest ponownie wykorzystywanych w danych szkoleniowych.

Badacze przeprowadzili eksperymenty z różnymi typami modeli AI, w tym modelami języka, autoenkoderami wariacyjnymi i modelami mieszanymi Gaussa. W jednym z kluczowych eksperymentów użyli modelu językowego OPT-125m, który szkolili na zestawie danych WikiText-2, a następnie użyli go do generowania nowego tekstu. Ten tekst generowany przez AI służył do szkolenia kolejnej „generacji” modelu, co powtarzano wielokrotnie.

Rezultaty były zaskakujące – modele zaczęły produkować coraz bardziej nieprawdopodobne i bezsensowne teksty. Po dziewięciu generacjach model zaczął generować kompletny bełkot, na przykład wymieniając nieistniejące rodzaje „zajączków” na pytanie o angielskie wieże kościelne. Naukowcy zidentyfikowali trzy główne źródła błędów: błąd aproksymacji statystycznej, błąd ekspresyjności funkcjonalnej i błąd aproksymacji funkcjonalnej.

To zjawisko jest alarmujące, ponieważ rzadkie zdarzenia, które często dotyczą marginalizowanych grup lub przypadków odstających, zaczynają znikać z danych szkoleniowych jeszcze przed całkowitym zawaleniem modelu. Bez nich modele ryzykują skupienie swoich odpowiedzi na wąskim spektrum idei i przekonań, wzmacniając uprzedzenia.

Co ciekawe, niedawne badanie przeprowadzone przez dr. Richarda Fletchera z Reuters Institute for the Study of Journalism wykazało, że prawie połowa (48%) najpopularniejszych stron z wiadomościami na świecie jest obecnie niedostępna dla robotów OpenAI, a roboty AI Google są blokowane przez 24% stron. Oznacza to, że modele AI mają dostęp do mniejszej puli wysokiej jakości, aktualnych danych, co potencjalnie zwiększa ryzyko szkolenia na danych niskiej jakości lub przestarzałych.

W odpowiedzi na te wyzwania, firmy AI zawierają umowy z firmami prasowymi i wydawcami w celu zapewnienia stałego strumienia wysokiej jakości, pisanych przez ludzi, aktualnych informacji. „Musimy być bardzo ostrożni co do tego, co trafia do naszych danych szkoleniowych,” powiedział współautor badania, Zakhar Shumaylov z Uniwersytetu Cambridge. „W przeciwnym razie zawsze, udowodniono, pojawią się problemy.”

Jeśli chodzi o rozwiązania, badacze podkreślają, że utrzymanie dostępu do oryginalnych, generowanych przez człowieka źródeł danych będzie kluczowe dla długoterminowej żywotności systemów AI. Proponują również śledzenie i zarządzanie treściami generowanymi przez AI, aby zapobiec ich zanieczyszczeniu zbiorów danych szkoleniowych. Potencjalne rozwiązania obejmują znakowanie wodne treści generowanych przez AI, tworzenie zachęt dla ludzi do tworzenia wysokiej jakości treści, rozwijanie bardziej zaawansowanych metod filtrowania i kuracji danych szkoleniowych oraz badanie sposobów na zachowanie i priorytetowanie dostępu do oryginalnych, niesyntetycznych informacji.

Zatem, „zawalenie modelu” to nie tylko teoretyczny problem – to realne zagrożenie, które może wpłynąć na przyszłość sztucznej inteligencji. A kiedy tylko zacznie się ono uwidaczniać w modelach granicznych, możesz być pewien, że firmy AI będą gorączkowo szukać długoterminowych rozwiązań.

Źródło