NVIDIA uczy swoje papugi nowych języków. Chorwacki i maltański w pakiecie
Big Data Wybór redakcji

NVIDIA uczy swoje papugi nowych języków. Chorwacki i maltański w pakiecie

Na świecie mówi się dziś około 7 tysięcy języków, ale sztuczna inteligencja rozumie tylko garstkę z nich. NVIDIA postanowiła zmienić ten obrazek i właśnie wypuściła zestaw narzędzi, który pozwoli AI szybciej i dokładniej słuchać oraz tłumaczyć w aż 25 językach europejskich. Co ważne – wśród nich znalazły się też te z mniejszą bazą danych, jak estoński, chorwacki czy maltański.

To dobra wiadomość nie tylko dla lingwistów, ale i dla każdego, kto w pracy lub w podróży korzysta z chatbotów, tłumaczy w czasie rzeczywistym czy głosowych agentów obsługi klienta. A oto gwiazdy tego przedstawienia:

  • Granary – gigantyczny, otwarty zbiór danych z milionem godzin nagrań audio. 650 tys. godzin przeznaczono na rozpoznawanie mowy, a 350 tys. na tłumaczenia.
  • Canary-1b-v2 – model z miliardem parametrów, który potrafi transkrybować i tłumaczyć z angielskiego na 24 języki i odwrotnie. W rankingu Hugging Face znalazł się na szczycie pod względem dokładności.
  • Parakeet-tdt-0.6b-v3 – lżejszy, ale piekielnie szybki model zoptymalizowany do dużych wolumenów i zadań w czasie rzeczywistym. Na tej samej platformie przewodzi w kategorii przepustowości.

Jeśli nazwy Granary, Canary i Parakeet brzmią jak zestaw ptaszarni – to nie przypadek. NVIDIA konsekwentnie chrzci swoje modele „skrzydlatymi” pseudonimami. A skoro ptaki kojarzą się z powtarzaniem i komunikacją – to trudno o lepszą metaforę dla systemów rozumiejących mowę.

Jak powstało Granary

Żeby stworzyć Granary, inżynierowie NVIDII we współpracy z Carnegie Mellon University i Fondazione Bruno Kessler przepuścili nieopisane wcześniej nagrania przez własny pipeline oparty na narzędziach NeMo. Dzięki temu zwykły, chaotyczny zbiór audio stał się uporządkowaną bazą do treningu modeli – bez konieczności kosztownej pracy tysięcy „słuchaczy” i ręcznych transkrypcji.

Efekt? Dane dostępne w open source na GitHubie, które pozwalają budować systemy rozpoznawania i tłumaczenia mowy dla prawie wszystkich oficjalnych języków Unii Europejskiej, a także dla rosyjskiego i ukraińskiego. Co ciekawe – według badaczy potrzeba tylko połowy materiału treningowego z Granary, żeby osiągnąć ten sam poziom dokładności, co w innych popularnych datasetach.

Kanarek czy papuga – który lepszy?

Nowe modele świetnie pokazują, do czego Granary można użyć. Canary-1b-v2 stawia na maksymalną dokładność i radzi sobie nawet z trudnymi zadaniami, a Parakeet-tdt-0.6b-v3 jest jak sprinter – transkrybuje 24-minutowy plik audio w jednym podejściu, bez dodatkowych podpowiedzi od użytkownika.

Oba systemy poprawnie stawiają przecinki, dodają wielkie litery i oznaczają czas na poziomie słów. Dzięki temu transkrypcje wyglądają jakby napisał je człowiek, a nie komputer po trzech kawach.

I co dalej?

Granary i modele Canary oraz Parakeet są już dostępne na Hugging Face, a szczegóły techniczne NVIDIA pokaże na konferencji Interspeech w Holandii (17–21 sierpnia).

W skrócie – mamy do czynienia z technologią, która może uczynić europejską różnorodność językową mniej problematyczną dla AI. Wreszcie ktoś pomyślał nie tylko o angielskim i niemieckim, ale też o maltańskim czy estońskim. A kto wie – może za parę lat AI będzie w stanie zrozumieć nawet śląską godkę?

Źródło