Microsoft pokazuje swoje nowe AI: głos, który brzmi jak człowiek i model, który ma się uczyć wszystkiego
Big Data Wybór redakcji

Microsoft pokazuje swoje nowe AI: głos, który brzmi jak człowiek i model, który ma się uczyć wszystkiego

Microsoft AI (MAI) ma wielki plan – stworzyć sztuczną inteligencję, która będzie nie tylko narzędziem, ale wręcz towarzyszem w codziennym życiu. Firma mówi wprost: AI ma być dla wszystkich, wspierać ludzi w pracy i poza nią, a przy okazji rozumieć nasze unikalne potrzeby. Brzmi trochę jak reklama idealnego współlokatora – zawsze pomocny, nigdy nie marudzi.

Od zeszłego roku MAI buduje fundamenty tej wizji, zbierając zespół i infrastrukturę. Teraz przyszedł czas, żeby pochwalić się pierwszymi efektami. I faktycznie – jest czym.

MAI-Voice-1: głos, który opowiada jak narrator z audiobooka

Pierwszą nowością jest MAI-Voice-1, czyli model generowania mowy. Trafił już do Copilot Daily i Podcasts, a dodatkowo można go przetestować w Copilot Labs. Microsoft zapowiada, że „głos to przyszłość interfejsów AI”, a MAI-Voice-1 dostarcza dźwięk wysokiej jakości, naturalny i pełen ekspresji – zarówno w dialogach, jak i w narracji.

W praktyce oznacza to, że możemy w kilka sekund wygenerować minutę nagrania, i to na jednym GPU. To jedno z najszybszych rozwiązań tego typu na rynku. Microsoft podsuwa przykłady: od prostych podcastów po… interaktywne opowieści w stylu „choose your own adventure” albo własne medytacje na sen. Kto wie, może za chwilę AI zacznie czytać dzieciom bajki na dobranoc?

MAI-1-preview: model, który testuje swoją moc

Drugim filarem nowości jest MAI-1-preview, czyli pierwszy duży model stworzony całkowicie wewnątrz Microsoftu. Wykorzystano przy nim mieszankę ekspertów (Mixture-of-Experts), a całość trenowano na – uwaga – około 15 tysiącach GPU NVIDIA H100. To jakby postawić całą flotę superkomputerów do pracy nad jednym mózgiem.

Model można już testować publicznie na LMArena, popularnej platformie do oceny AI, a wkrótce pojawi się też w wybranych funkcjach Copilota. MAI-1-preview ma wyróżniać się tym, że dobrze rozumie instrukcje i potrafi odpowiadać w codziennych kontekstach. Microsoft otworzył też nabór dla testerów API – pierwsze opinie mają pomóc w dalszym rozwoju.

Co dalej?

Microsoft nie kryje ambicji – oprócz rozwijania Voice i dużych modeli, planuje budowę całego ekosystemu wyspecjalizowanych AI, które będą obsługiwały różne intencje użytkowników. W praktyce oznacza to, że nie dostaniemy jednego wszechwiedzącego giganta, ale raczej orkiestrę modeli, z których każdy będzie mistrzem w innej dziedzinie.

To trochę przypomina dawną wizję „komputera osobistego”, który miał służyć każdemu. Tylko że teraz nie chodzi o klawiaturę i myszkę, a o rozmowę, głos i naturalną interakcję.

Czy MAI faktycznie będzie „AI dla wszystkich”? Czas pokaże. Na razie Microsoft udowadnia, że potrafi połączyć szybkość, innowację i wielkie ambicje. A użytkownicy – jak zawsze – sprawdzą, czy to wszystko działa nie tylko na prezentacjach, ale też w codziennym życiu.

Źródło