Dużo dzieje się za wielką wodą, ale Polska też ma od niedawna swojego LLMa.
Polski zespół entuzjastów z projektu SpeakLeash, znany także jako Spichlerz, opublikował niedawno swój pierwszy duży model językowy o nazwie Bielik-7B-v0.1. Czy jest to krok ku świetlanej przyszłości?
SpeakLeash to inicjatywa open-science, która działa już od półtora roku. Ich celem jest stworzenie największego polskiego zbioru danych tekstowych oraz opracowanie otwartego dużego modelu językowego (LLM). W zespole projektowym znajdują się pracownicy polskich przedsiębiorstw, badacze oraz studenci, którzy angażują się w projekt pro bono, poświęcając swój prywatny czas i umiejętności. Dzięki ich wysiłkom, powstaje społeczność oraz ekosystem wspierający rozwój zaawansowanych modeli językowych.
Rok 2024 zaczął się spektakularnie dla SpeakLeash. W styczniu ogłosili zebranie 1 TB danych, co oznacza osiągnięcie głównego celu projektu. Co ważne, dane te są przygotowane zgodnie z nową dyrektywą unijną AI ACT, regulującą sprawy związane z uczeniem maszynowym i sztuczną inteligencją. Dzięki temu SpeakLeash stał się największym, najlepiej opisanym zbiorem danych w języku polskim.
Równocześnie pojawił się model APT3-1B-Base oraz APT3-1B-Instruct, wytrenowany głównie na danych z zasobów Spichlerza. Pomimo relatywnie niewielkiego rozmiaru modelu (1 miliard parametrów), potrafi on odpowiadać w języku polskim. Trening modelu, przeprowadzony na konsumenckiej karcie graficznej, trwał prawie półtora miesiąca. Mimo to, członkowie projektu mieli większe ambicje.
SpeakLeash zyskał już wcześniej uznanie w środowisku, współpracując z takimi ośrodkami jak Clarin, PAN IPI czy NASK PIB. Jednak to zebranie tak dużej liczby danych oraz wytrenowanie modelu APT3-1B pokazało ich determinację i ambicje w kontekście dużych modeli językowych.
Bielika możesz przetestować tutaj
Przełomowym momentem była współpraca z Akademickim Centrum Komputerowym Cyfronet AGH. Cyfronet, jako pierwsze centrum superkomputerowe na świecie z najnowszymi akceleratorami graficznymi NVidii GH200, dostarczył niespotykaną na polskiej ziemi moc obliczeniową, szacowaną na 35 petaflopów. Superkomputery Athena oraz Helios od ponad miesiąca wspierają Spichlerz w tworzeniu i testowaniu LLM-ów.
Czy Bielik zdobędzie szczyty cyfrowych wyżyn? Czas pokaże, ale jedno jest pewne: zespół SpeakLeash ma chęć na więcej i nie zamierza spocząć na laurach.