Microsoft i NVIDIA budują potwora AI. Nowe maszyny Azure mają moc, o jakiej dotąd tylko mówiono szeptem

Microsoft Azure właśnie zaprezentował coś, co brzmi jak początek nowej ery w historii sztucznej inteligencji — serię maszyn wirtualnych NDv6 GB300, czyli pierwszą na świecie produkcyjną infrastrukturę zbudowaną na bazie superkomputerowych systemów NVIDIA GB300 NVL72. A wszystko to po to, by sprostać najbardziej wymagającym zadaniom AI.

4 600 GPU, które mówią jednym głosem

W nowym klastrze Microsoftu pracuje ponad 4 600 procesorów graficznych NVIDIA Blackwell Ultra, połączonych siecią NVIDIA Quantum-X800 InfiniBand. To nie jest zwykła farma serwerów — to coś, co można by porównać do orkiestry, w której każdy instrument (czytaj: GPU) gra w idealnym rytmie. Microsoft przyznaje, że osiągnięcie tej harmonii wymagało „radykalnej inżynierii” w obszarach pamięci i sieci, by uzyskać przepustowość niezbędną dla modeli rozumowania i agentów AI.

Jak podkreśla Nidhi Chappell, wiceprezes ds. infrastruktury AI w Azure:

„To nie tylko kwestia potężnych układów scalonych. To dowód, że Microsoft i NVIDIA razem potrafią zoptymalizować każdy element nowoczesnego centrum danych.”

Wnętrze giganta: GB300 NVL72

Sercem nowych maszyn NDv6 jest NVIDIA GB300 NVL72 – system chłodzony cieczą, w którym 72 GPU Blackwell Ultra i 36 procesorów Grace działają jak jeden organizm. Każda taka jednostka oferuje aż 37 terabajtów pamięci i 1,44 eksaflopa mocy obliczeniowej FP4 Tensor Core. Dla porównania – to mniej więcej tyle, ile cały superkomputer Frontier z 2022 roku… w jednym wirtualnym środowisku.

Dzięki nowemu formatowi NVFP4 i technologiom kompilacyjnym NVIDIA Dynamo, platforma Blackwell Ultra notuje nawet pięciokrotnie wyższą wydajność w testach MLPerf Inference v5.1, szczególnie przy modelach takich jak DeepSeek-R1 (671 mld parametrów) czy Llama 3.1 405B.

Sieć jak żyła złota

Każdy z 72 GPU w jednym racku łączy się z pozostałymi z prędkością 130 TB/s dzięki piątej generacji NVLink Switch. A to dopiero początek – między całymi szafami serwerowymi komunikację zapewnia Quantum-X800 InfiniBand, oferujący 800 Gb/s na GPU. Dla kontekstu: to około 80 razy szybciej niż przeciętne łącze światłowodowe w domu. Sieć wspiera też najnowsze technologie, jak SHARP v4, które przyspieszają operacje agregacji w dużych modelach AI.

Nowy fundament dla przyszłości AI

Żeby uruchomić takiego potwora, Microsoft musiał przeprojektować wszystko – od systemów chłodzenia cieczą po zarządzanie energią i oprogramowanie do orkiestracji zadań. Ale efekty są warte zachodu: to właśnie na takich maszynach OpenAI będzie trenować i uruchamiać kolejne generacje swoich modeli.

Dla amerykańskiej branży technologicznej to symboliczny moment. Microsoft i NVIDIA nie tylko podnoszą poprzeczkę w wyścigu AI, ale też zapewniają, że centrum innowacji pozostaje w USA.

Źródło