Polski Bielik wzlatuje: konkurencja dla ChataGPT?
Wybór redakcji Big Data Business Technologia

Polski Bielik wzlatuje: konkurencja dla ChataGPT?

Dużo dzieje się za wielką wodą, ale Polska też ma od niedawna swojego LLMa.

Polski zespół entuzjastów z projektu SpeakLeash, znany także jako Spichlerz, opublikował niedawno swój pierwszy duży model językowy o nazwie Bielik-7B-v0.1. Czy jest to krok ku świetlanej przyszłości?

SpeakLeash to inicjatywa open-science, która działa już od półtora roku. Ich celem jest stworzenie największego polskiego zbioru danych tekstowych oraz opracowanie otwartego dużego modelu językowego (LLM). W zespole projektowym znajdują się pracownicy polskich przedsiębiorstw, badacze oraz studenci, którzy angażują się w projekt pro bono, poświęcając swój prywatny czas i umiejętności. Dzięki ich wysiłkom, powstaje społeczność oraz ekosystem wspierający rozwój zaawansowanych modeli językowych.

Rok 2024 zaczął się spektakularnie dla SpeakLeash. W styczniu ogłosili zebranie 1 TB danych, co oznacza osiągnięcie głównego celu projektu. Co ważne, dane te są przygotowane zgodnie z nową dyrektywą unijną AI ACT, regulującą sprawy związane z uczeniem maszynowym i sztuczną inteligencją. Dzięki temu SpeakLeash stał się największym, najlepiej opisanym zbiorem danych w języku polskim.

Równocześnie pojawił się model APT3-1B-Base oraz APT3-1B-Instruct, wytrenowany głównie na danych z zasobów Spichlerza. Pomimo relatywnie niewielkiego rozmiaru modelu (1 miliard parametrów), potrafi on odpowiadać w języku polskim. Trening modelu, przeprowadzony na konsumenckiej karcie graficznej, trwał prawie półtora miesiąca. Mimo to, członkowie projektu mieli większe ambicje.

SpeakLeash zyskał już wcześniej uznanie w środowisku, współpracując z takimi ośrodkami jak Clarin, PAN IPI czy NASK PIB. Jednak to zebranie tak dużej liczby danych oraz wytrenowanie modelu APT3-1B pokazało ich determinację i ambicje w kontekście dużych modeli językowych.

Bielika możesz przetestować tutaj

Przełomowym momentem była współpraca z Akademickim Centrum Komputerowym Cyfronet AGH. Cyfronet, jako pierwsze centrum superkomputerowe na świecie z najnowszymi akceleratorami graficznymi NVidii GH200, dostarczył niespotykaną na polskiej ziemi moc obliczeniową, szacowaną na 35 petaflopów. Superkomputery Athena oraz Helios od ponad miesiąca wspierają Spichlerz w tworzeniu i testowaniu LLM-ów.

Czy Bielik zdobędzie szczyty cyfrowych wyżyn? Czas pokaże, ale jedno jest pewne: zespół SpeakLeash ma chęć na więcej i nie zamierza spocząć na laurach.

Źródło