Sztuczna inteligencja generuje dźwięk na smartfonie? Stability AI i Arm właśnie to zrobili

Mały model, wielkie możliwości. Stability AI wraz z firmą Arm ogłosili premierę modelu Stable Audio Open Small – kompaktowej wersji popularnego modelu tekst-na-dźwięk, która może działać całkowicie na procesorach Arm. I co najważniejsze – nie potrzebuje do tego farmy serwerów w Arizonie, tylko… Twojego telefonu.

Sztuka generowania dźwięku schodzi na ziemię

Nowy model został zoptymalizowany tak, by generować do 11 sekund dźwięku w mniej niż 8 sekund, działając wyłącznie na CPU – bez GPU, bez chmur i bez kabli. Tak, dobrze przeczytałeś. To wszystko zrobisz lokalnie, np. na smartfonie z procesorem Arm. A że takie procesory napędzają 99% smartfonów na świecie – to mówimy tu o prawdziwym „masowym zasięgu”.

Wydanie Stable Audio Open Small to kontynuacja współpracy Stability AI i Arm, zapoczątkowanej jeszcze podczas tegorocznego Mobile World Congress. Wtedy model działał jako pokaz możliwości. Teraz – trafia do rąk (i kieszeni) deweloperów na całym świecie.

Co potrafi Stable Audio Open Small?

Zgodnie z informacjami od Stability AI, model to obecnie najszybszy dostępny model stereo typu tekst-na-dźwięk. Kluczowe cechy?

Lekkość: 341 milionów parametrów (dla porównania jego starszy brat – Stable Audio Open – ma ich 1,1 miliarda),
Szybkość: poniżej 8 sekund na wygenerowanie krótkiego klipu,
Wydajność: zoptymalizowany przy użyciu bibliotek Arm KleidiAI – co oznacza nie tylko szybkie działanie, ale też niższe zużycie energii i kosztów obliczeniowych.

Model sprawdzi się w tworzeniu efektów dźwiękowych, krótkich pętli perkusyjnych, ambientów, a nawet drobnych riffów gitarowych. Ot, coś w sam raz dla producentów audio, twórców aplikacji czy nawet… twórców gier mobilnych.

Przyszłość jest lokalna

W miarę jak praca kreatywna napędzana AI przesuwa się z chmury na urządzenia końcowe (czytaj: nasze telefony), coraz większego znaczenia nabierają modele „na miarę” – lekkie, szybkie i wystarczająco dobre. Dzięki różnym rozmiarom modeli, deweloperzy mogą dopasowywać moc obliczeniową do potrzeb – nie zawsze trzeba generować całą symfonię, czasem wystarczy porządne „bum” przy kliknięciu przycisku.

Wszystko za darmo

Model Stable Audio Open Small jest dostępny za darmo – zarówno do użytku komercyjnego, jak i niekomercyjnego – na licencji Stability AI Community License. Pliki modelu znajdziesz na Hugging Face, kod źródłowy na GitHubie, a publikacja naukowa dostępna jest na arXiv. Deweloperzy mogą też skorzystać z nowej ścieżki edukacyjnej Arm Learning Path – by krok po kroku dowiedzieć się, jak uruchomić model na sprzęcie Arm.

Źródło