Sztuczna inteligencja osiągnęła granice ludzkiej wiedzy – co dalej?
Elon Musk, jeden z najbardziej rozpoznawalnych przedsiębiorców na świecie, ogłosił, że firmy zajmujące się sztuczną inteligencją wyczerpały już dostępne dane potrzebne do trenowania swoich modeli. Twierdzi, że „suma ludzkiej wiedzy została wykorzystana” i jedyną drogą do dalszego rozwoju technologii jest stworzenie danych syntetycznych – czyli treści generowanych przez same modele AI.
Według Muska, przełomowe wydarzenie miało miejsce w 2022 roku. Od tego czasu modele takie jak GPT-4, które napędzają chatboty w rodzaju ChatGPT, nie mogą już korzystać z wystarczających źródeł danych dostępnych w internecie. Modele te uczą się rozpoznawać wzorce w danych, by przewidywać kolejne słowa, zdania lub rozwiązania problemów. Problem w tym, że ilość publicznie dostępnych informacji przestała wystarczać.
„Jedynym sposobem na poradzenie sobie z tym brakiem jest przejście na dane syntetyczne, gdzie model sam tworzy eseje, hipotezy czy odpowiedzi, a następnie ocenia siebie w procesie samo-uczenia się” – powiedział Musk podczas rozmowy transmitowanej na platformie X (dawny Twitter).
Firmy takie jak Meta, Microsoft czy Google już zaczęły eksperymentować z danymi syntetycznymi. Na przykład Meta wykorzystała je do dopracowania swojego modelu Llama, a Microsoft używa takich danych w ramach modelu Phi-4. Co ciekawe, OpenAI – firma stojąca za ChatGPT – również włącza syntetyczne treści do procesu trenowania.
Choć rozwiązanie to brzmi jak remedium, ma swoje ciemne strony. Musk ostrzegł przed problemem „halucynacji” – sytuacji, w której AI generuje błędne lub nonsensowne odpowiedzi. Jak zauważył, trudność polega na tym, że trudno odróżnić faktyczne informacje od tych wymyślonych przez model. W efekcie proces ten staje się wyzwaniem dla badaczy i inżynierów.
Ryzyko „załamania modeli”
Andrew Duncan z Alan Turing Institute dodał, że zbyt duża zależność od danych syntetycznych może prowadzić do tzw. „model collapse” – czyli pogorszenia jakości wyników generowanych przez AI. Modele mogą stać się stronnicze, mało kreatywne i, co gorsza, zacząć uczyć się na podstawie treści, które same wygenerowały.
„Kiedy model zaczyna karmić się syntetycznymi danymi, efektywnie spada jego efektywność. Ryzyko polega na tym, że zaczynamy dostawać coraz bardziej zniekształcone wyniki” – ostrzegł Duncan.
W tle tych technologicznych wyzwań toczy się walka o kontrolę nad wysokiej jakości danymi. OpenAI przyznało, że tworzenie zaawansowanych narzędzi, takich jak ChatGPT, nie byłoby możliwe bez korzystania z materiałów chronionych prawami autorskimi. Tymczasem twórcy i wydawcy coraz głośniej domagają się rekompensaty za wykorzystywanie ich treści w procesie uczenia modeli.
Jeśli przewidywania Muska i innych ekspertów się sprawdzą, czeka nas nowa era rozwoju sztucznej inteligencji, w której coraz większą rolę będą odgrywały dane generowane przez same modele. Ale czy ten kierunek okaże się skuteczny i bezpieczny? Na to pytanie odpowiedź może dać dopiero czas – i, być może, kolejne „halucynacje” AI.