Europa coraz mocniej stawia na cyfrową suwerenność. Ostatnim tego przykładem jest uruchomienie projektu OpenEuroLLM, którego celem jest stworzenie otwartoźródłowych modeli językowych obejmujących wszystkie języki Unii Europejskiej. I to nie tylko te obecnie urzędowe (czyli 24), ale także języki państw, które aspirują do członkostwa, jak np. albański.
Za projektem stoi konsorcjum 20 organizacji, a przewodzą mu czeski lingwista komputerowy Jan Hajič z Uniwersytetu Karola w Pradze oraz Peter Sarlin, CEO i współzałożyciel fińskiego laboratorium SI Silo AI (przejętego przez AMD za 665 mln dolarów w 2023 roku.
To nie jest odosobniona inicjatywa. Unia Europejska od lat dąży do większej niezależności technologicznej. Stawia na lokalne centra danych, aby unikać transferu wrażliwych danych poza kontynent, a nawet zainwestowała 11 miliardów dolarów w budowę suwerennej konstelacji satelitów, która ma stanowić konkurencję dla Starlinka Elona Muska.
OpenEuroLLM świetnie wpisuje się w ten trend – ale czy ma szanse rywalizować z gigantami?
Na budowę modeli przewidziano 37,4 mln euro, z czego 20 mln pochodzi z unijnego programu Cyfrowa Europa. To jednak niewielka suma w porównaniu z miliardami, jakie inwestują OpenAI czy Google.
Największym kosztem w projektach SI jest moc obliczeniowa, dlatego OpenEuroLLM korzysta ze wsparcia superkomputerów EuroHPC zlokalizowanych w Hiszpanii, Włoszech, Finlandii i Holandii. Cały budżet EuroHPC to ok. 7 miliardów euro, więc potencjalnie OpenEuroLLM może zyskać potężne zaplecze technologiczne.
Czy to się uda?
Nie brakuje sceptyków. Anastasia Stasenko, współzałożycielka firmy Pleias, podkreśla, że w AI liczy się skupienie i szybkie działanie, co łatwiej osiągnąć w małych, prywatnych firmach niż w rozbudowanych konsorcjach. Przykłady? Mistral AI czy LightOn – europejskie startupy, które z powodzeniem rywalizują z amerykańskimi gigantami.
Hajič odpiera te zarzuty, przypominając, że projekt bazuje na wcześniejszych pracach High Performance Language Technologies (HPLT), który od 2022 roku rozwijał zasoby językowe i infrastrukturalne dla AI. OpenEuroLLM ma więc przewagę startową, a pierwsze wersje modelu powinny być gotowe już w połowie 2026 roku.
W świecie AI coraz częściej pojawia się pytanie, co właściwie znaczy „open source”. Dla jednych oznacza to pełną dostępność kodu, wag modelu i danych treningowych. Dla innych – ograniczenia wynikające z praw autorskich.
OpenEuroLLM zapowiada pełną otwartość, ale… z zastrzeżeniami. Nie wszystkie dane treningowe będą udostępnione, bo prawo unijne ogranicza swobodne wykorzystanie niektórych zasobów. Ostatecznie model ma być zgodny z regulacjami AI Act, który wymaga przejrzystości w przypadku systemów wysokiego ryzyka.
Ciekawostką jest fakt, że kilka miesięcy wcześniej wystartował projekt EuroLLM, który ma niemal identyczny cel – stworzenie otwartoźródłowego modelu dla 24 języków UE. Czy OpenEuroLLM to przypadkiem nie „powtórka z rozrywki”?
Hajič przyznaje, że sytuacja jest „niefortunna”, ale liczy na współpracę obu projektów. Problemem mogą być jednak regulacje – OpenEuroLLM nie może współpracować z organizacjami spoza UE, a EuroLLM korzysta m.in. z brytyjskich partnerów.
Wielki krok dla Europy?
Czy OpenEuroLLM będzie europejskim odpowiednikiem ChatGPT? Nie. Nie chodzi o budowę bota konwersacyjnego, a o stworzenie bazy – infrastruktury dla europejskich firm. Jak mówi Sarlin, „nie trzeba miliardów, by stworzyć model – miliardy są potrzebne na budowanie produktu”.
Hajič nie ma złudzeń – OpenEuroLLM raczej nie pobije najlepszych światowych modeli. Ale nawet jeśli nie będzie „numerem jeden”, to Europa zyska własne, niezależne modele AI. A to samo w sobie jest wartością.
Czy Europa nadrobi stracony dystans? Na odpowiedź przyjdzie nam poczekać do 2028 roku.