Microsoft revela supercomputador com 4.600 GPUs NVIDIA para IA

A Microsoft apresentou hoje (9) o primeiro supercomputador do mundo equipado com sistemas NVIDIA GB300 NVL72, um avanço que redefine a escala de processamento em inteligência artificial.

A nova série de máquinas virtuais NDv6 GB300 da Azure abriga mais de 4.600 GPUs NVIDIA Blackwell Ultra, interconectadas por meio da rede Quantum-X800 InfiniBand, projetada para suportar modelos com centenas de trilhões de parâmetros.

O projeto foi desenvolvido para atender aos workloads mais exigentes da OpenAI, incluindo raciocínio multimodal e inferência de grande escala.

A arquitetura introduzida pela Microsoft promete reduzir o tempo de treinamento de modelos de IA de meses para poucas semanas, ampliando de forma significativa o desempenho e a eficiência de uso energético nos Data Centers.

Divulgação/NVIDIA

O que há por trás do supercluster Azure

No coração da nova infraestrutura está o sistema NVIDIA GB300 NVL72, um conjunto líquido-resfriado em escala de rack que combina 72 GPUs Blackwell Ultra e 36 CPUs NVIDIA Grace em uma única unidade coesa.

Cada rack atinge 1,44 exaflops de desempenho FP4 Tensor Core e 37 terabytes de memória ultrarrápida, criando um espaço de memória unificado voltado a modelos de raciocínio e IA generativa.

A integração de hardware é complementada pelo ecossistema completo da NVIDIA AI Platform, que inclui bibliotecas de comunicação coletiva otimizadas, o formato NVFP4 para desempenho de treinamento e o compilador NVIDIA Dynamo, projetado para maximizar a performance de inferência em sistemas de IA baseados em raciocínio.

Nos testes mais recentes do MLPerf Inference v5.1, a nova arquitetura apresentou até cinco vezes mais throughput por GPU no modelo DeepSeek-R1 de 671 bilhões de parâmetros quando comparada à geração anterior Hopper, além de desempenho superior em benchmarks como o Llama 3.1 405B.

Ofertas do dia:

Conectividade em escala de supercomputador

Para integrar milhares de GPUs em um único ambiente de computação coeso, a Microsoft implementou uma arquitetura de rede de dois níveis baseada em tecnologias da NVIDIA.

Dentro de cada rack, o NVLink Switch de quinta geração oferece 130 TeraBytes por segundo de largura de banda direta entre as 72 GPUs, o que transforma o conjunto inteiro em um único acelerador lógico, eliminando gargalos de comunicação e maximizando a eficiência de memória.

Já o NVIDIA Quantum-X800 InfiniBand conecta todos os racks, garantindo 800 gigabits por segundo por GPU e comunicação fluida entre as 4.608 unidades de processamento gráfico.

A plataforma utiliza ainda recursos de roteamento adaptativo, controle de congestionamento baseado em telemetria e o protocolo SHARP v4, que realiza cálculos diretamente nos switches, duplicando a largura de banda efetiva e acelerando tarefas de treinamento e inferência de larga escala.

Redesenhando o Data Center para a era da IA

Para sustentar tamanha densidade de hardware, a Microsoft precisou repensar toda a infraestrutura física e lógica de seus datacenters. As novas instalações contam com sistemas de resfriamento líquido independentes, modelos avançados de distribuição de energia e uma pilha de software reestruturada para orquestração e armazenamento em escala exaflópica.

As máquinas virtuais ND GB300 v6 foram projetadas com uma abordagem sistêmica que integra hardware, rede e software em uma única pilha de alto desempenho. A estrutura full fat-tree, não bloqueante, emprega protocolos e bibliotecas coletivas customizadas para garantir utilização máxima das GPUs e reduzir drasticamente o tempo de sincronização durante o treinamento.

“Entregar o primeiro cluster de produção em larga escala com o NVIDIA GB300 NVL72 é um feito que ultrapassa a potência dos chips”, explicou Nidhi Chappell, vice-presidente corporativa de infraestrutura de IA da Microsoft Azure.

Essa conquista reflete o esforço conjunto entre Microsoft e NVIDIA para otimizar cada camada do data center moderno e permitir que parceiros como a OpenAI avancem mais rápido
Nidhi Chappell, vice-presidente corporativa de infraestrutura de IA da Microsoft Azure

Da arquitetura GB200 à GB300: o novo salto da Azure

O lançamento sucede a introdução das máquinas virtuais ND GB200 v6, apresentadas no início de 2025. Baseadas na arquitetura Blackwell original, elas já alimentavam os principais clusters da OpenAI e da própria Microsoft.

Agora, a transição para os chips GB300 representa um salto substancial, com aumento de desempenho, memória unificada ampliada e maior eficiência térmica.

Cada rack da nova geração comporta 18 máquinas virtuais e 72 GPUs, enquanto o design em larga escala da rede InfiniBand permite escalar o treinamento para dezenas de milhares de GPUs com mínimo overhead de comunicação.

A empresa afirma que a otimização das bibliotecas de rede e o uso de cálculo em rede reduzem custos e aceleram iterações de pesquisa — uma necessidade crítica em modelos de IA com janelas de contexto cada vez maiores.

Ficha técnica do NVIDIA GB300 NVL72

Categoria	Especificação
Configuração base	72 GPUs NVIDIA Blackwell Ultra + 36 CPUs NVIDIA Grace
Arquitetura de interconexão	5ª geração NVLink Switch
Largura de banda NVLink (intra-rack)	130 TB/s (all-to-all)
Memória total (rápida)	Até 40 TB unificada
Memória da GPU	Até 21 TB
Largura de banda da GPU	Até 576 TB/s
Memória da CPU	Até 18 TB (SOCAMM com LPDDR5X)
Largura de banda da CPU	Até 14,3 TB/s
Arquitetura da CPU	36 processadores NVIDIA Grace, totalizando 2.592 núcleos Arm Neoverse V2
Desempenho de Tensor Cores (FP4)	1.400–1.100 PFLOPS
Desempenho Tensor FP8 / FP6	720 PFLOPS
Desempenho Tensor INT8	23 PFLOPS
Desempenho Tensor FP16 / BF16	360 PFLOPS
Desempenho Tensor TF32	180 PFLOPS
Desempenho FP32	6 PFLOPS
Desempenho FP64 / FP64 Tensor	100 TFLOPS
Interconexão entre racks	NVIDIA Quantum-X800 InfiniBand, 800 Gb/s por GPU
Protocolo de rede	SHARP v4 (operações em rede otimizadas e agregação hierárquica)
Resfriamento	Sistema líquido de alta densidade, com trocadores de calor independentes
Uso típico	Treinamento e inferência de modelos de IA de trilhões de parâmetros, raciocínio multimodal e agentes autônomos
Integração de software	NVIDIA AI Platform, incluindo NVFP4, Dynamo e bibliotecas de comunicação coletiva
Desempenho por rack (ND GB300 v6 VM)	1,44 exaflops FP4 Tensor Core
Memória por rack (ND GB300 v6 VM)	37 TB de memória rápida integrada

Impacto no avanço da inteligência artificial

A Microsoft considera o supercluster GB300 NVL72 um passo fundamental para o futuro da IA generativa e dos sistemas de raciocínio. A infraestrutura oferece a base necessária para modelos cada vez mais complexos, autônomos e multimodais, permitindo que a OpenAI e outros parceiros treinem e implantem redes neurais em escala inédita.

Além do impacto técnico, o anúncio reforça o papel dos Estados Unidos no desenvolvimento de infraestrutura estratégica para IA de fronteira, em um momento de competição global por poder computacional.

Construir para a era da IA exige repensar todos os níveis da pilha. Do Silício ao software. Esse projeto representa o início de uma nova fase de supercomputação em nuvem
Rani Borkar, presidente de hardware e infraestrutura da Azure

Leia também:

O começo de uma nova corrida por escala

Com a implantação inicial concluída e planos para expandir o número de GPUs Blackwell Ultra para centenas de milhares em seus datacenters, a Microsoft dá o primeiro passo rumo a uma nova era de supercomputação para IA.

A expectativa é que a infraestrutura NDv6 GB300 se torne o novo padrão de referência para cargas de trabalho de IA avançada, especialmente no treinamento de modelos de trilhões de parâmetros.

À medida que a Azure amplia a produção global do sistema GB300 NVL72, os próximos meses devem revelar novos recordes de desempenho e uma aceleração significativa no desenvolvimento de modelos de próxima geração.

Fonte: Microsoft e NVIDIA

Conteúdo Relacionado

Solidigm Unveils AI Central Lab supercluster

💾 Tecnologia Avançada

Este supercluster com 23,6 PB é tão poderoso que pode engolir data centers inteiros