Modele „rozumujące” stają się coraz tańsze i prostsze w opracowywaniu
W miniony piątek zespół badawczy NovaSky z laboratorium Sky Computing na Uniwersytecie Kalifornijskim w Berkeley zaprezentował Sky-T1-32B-Preview – model rozumowania, który może konkurować z wcześniejszą wersją modelu o1 od OpenAI w wielu kluczowych testach. Co czyni go wyjątkowym? To prawdopodobnie pierwszy model rozumowania rzeczywiście open-source – jego twórcy udostępnili zarówno dane treningowe, jak i kod potrzebny do powtórzenia procesu szkolenia od zera.
„Niesamowite, że Sky-T1-32B-Preview został wytrenowany za mniej niż 450 dolarów” – napisali badacze na swoim blogu. „To pokazuje, że wysokopoziomowe możliwości rozumowania można osiągnąć w sposób przystępny i efektywny”.
Choć dla przeciętnego użytkownika 450 dolarów to wciąż spora kwota, to trzeba przyznać, że jest to drobny ułamek tego, co kiedyś kosztowało szkolenie porównywalnych modeli – mówimy tu o milionach dolarów. Kluczową rolę w obniżeniu kosztów odegrały syntetyczne dane treningowe, czyli dane generowane przez inne modele. Przykładem jest model Palmyra X 004 od firmy Writer, który prawie w całości opierał swoje szkolenie na danych syntetycznych i którego koszt opracowania wyniósł „zaledwie” 700 tysięcy dolarów.
Co wyróżnia modele rozumowania?
W przeciwieństwie do większości modeli AI, modele rozumujące potrafią skutecznie weryfikować swoje odpowiedzi, dzięki czemu są bardziej niezawodne w dziedzinach takich jak fizyka, nauki ścisłe czy matematyka. Fakt – są nieco wolniejsze; ich przetwarzanie trwa od kilku sekund do nawet minut. Jednak w zamian otrzymujemy większą precyzję.
Zespół NovaSky wyjaśnia, że dane treningowe dla Sky-T1 wygenerował inny model rozumowania – QwQ-32B-Preview od Alibaby. Następnie dane te zostały odpowiednio „przygotowane” i przeformatowane za pomocą GPT-4o-mini od OpenAI, aby stały się bardziej użyteczne. Sam proces trenowania Sky-T1 (liczącego 32 miliardy parametrów) trwał około 19 godzin na zestawie ośmiu kart Nvidia H100 GPU. Parametry? W prostych słowach – to coś w rodzaju zdolności problemowych modelu.
Konkurencja na wyciągnięcie ręki?
Sky-T1 osiąga lepsze wyniki niż wczesna wersja o1 w wyzwaniach matematycznych MATH500, a także w trudnych zadaniach programistycznych z LiveCodeBench. Jednak na pytania z GPQA-Diamond, obejmujące zagadnienia z fizyki, biologii i chemii na poziomie doktoratu, model NovaSky wypada gorzej niż o1.
Warto jednak podkreślić, że model o1 w pełnej wersji (GA) jest silniejszy od swojej wersji testowej, a OpenAI szykuje się do wypuszczenia kolejnego modelu rozumowania – o3, który ma być jeszcze lepszy.
Plany na przyszłość
Twórcy Sky-T1 podkreślają, że to dopiero początek ich pracy nad otwartymi modelami o zaawansowanych zdolnościach rozumowania. „W przyszłości zamierzamy rozwijać bardziej wydajne modele, które zachowają silne możliwości rozumowania, oraz eksplorować zaawansowane techniki zwiększające ich skuteczność i precyzję w czasie testów” – zapowiadają badacze.
Cóż, pozostaje tylko „czekać na więcej”. Ale jeśli rozwój takich modeli będzie postępował w obecnym tempie, to być może wkrótce okaże się, że rewolucja w sztucznej inteligencji jest na wyciągnięcie ręki – i to za cenę, która kiedyś wydawała się niemożliwa do osiągnięcia.