NVIDIA revela segredos da Blackwell Ultra: suporte ao PCIe 6.0 e novo NVFP4 boost

A NVIDIA e seus parceiros começaram a distribuir e implementar sistemas baseados na arquitetura Blackwell Ultra da empresa há pouco tempo. Especificamente, fala-se dos GB300 (com CPUs Grace) e dos B300 (com CPUs x86).

Como já noticiado, durante a conferência Hot Chips 2025, a empresa já revelou informações adicionais sobre os Blackwell Ultra (rodando 4 instâncias de Cyberpunk 2077) e Renderização Neural.

As GPUs B100/B200 e B300 da NVIDIA baseadas em Blackwell Ultra são muito semelhantes. No entanto, a série Blackwell Ultra B300 oferece novos núcleos Tensor otimizados para o formato de dados NVFP4, que oferece até 50% mais desempenho em PetaFLOPS (denso) NVFP4, em detrimento de desempenho em INT8 e FP64.

Ela também possui 288 GB de memória HBM3E (em vez de 186 GB) e suporta oficialmente a interconexão PCIe 6.x para CPUs host (em comparação com PCIe 5.0). Todas essas diferenças têm o custo de um TDP 200 W maior: 1.400 W contra 1.200 W.

Notícias Relacionadas:

A primeira GPU com suporte a PCIe Gen6

Créditos: NVIDIA.

As GPUS Blackwell Ultra da NVIDIA são oficialmente as primeiras GPUs para data center a suportarem interconexão PCIe 6.x com uma CPU host. Porém, o processador Grace é, atualmente, o único com essa capacidade.

O PCIe 6.0 aumenta a largura de banda para 128 GB/s bidirecional por slot x16, graças à sinalização PAM4 e à codificação baseada em FLIT, importantes para servidores e clusters de IA. Ao dobrar a velocidade com que a GPU obtém dados da CPU, SSD ou NIC, o PCIe 6.0 acelera o desempenho de todo o cluster, o que é difícil de superestimar.

A NVIDIA não divulgou outras melhorias de desempenho relacionadas ao PCIe 6.x, mas elas devem ser bastante substanciais, ainda mais considerando os sistemas como um todo, onde pequenos ganhos em componentes podem fazer grandes diferenças.

Formato de dados proprietário

A NVIDIA apresentou seus processadores Blackwell pela primeira vez no início de 2024, revelando que todos suportam o formato de dados FP4. E essa característica é útil tanto para inferência de IA quanto para pré-treinamento de IA.

Um FP4 é o “menor” formato possível que mantém a compatibilidade com o padrão IEEE 754 (sinal de 1 bit, expoente de 2 bits e mantissa de 1 bit). Ele oferece mais flexibilidade que o INT4 (apenas quatro bits brutos), mas exige menos capacidade computacional do que os formatos FP8 ou FP16.

Porém, no caso da arquitetura Blackwell, não se trata de um FP4 padrão, mas sim do formato NVFP4, que é proprietário da NVIDIA.

O NVFP4 é um formato de ponto flutuante de 4 bits personalizado, desenvolvido pela NVIDIA para seus processadores Blackwell. Ele visa aumentar a eficiência energética de cargas de trabalho de treinamento e inferência.

O esquema de formato combina codificação compacta com escalonamento multinível, o que permite resultados próximos à precisão do BF16. Ao mesmo tempo, ele proporciona ganhos de desempenho e uso de memória, o que o torna particularmente viável tanto para treinamento quanto para inferência.

Características

Assim como o FP4 padrão, o NVFP4 da NVIDIA utiliza um layout E2M1 compacto. Ou seja, ele usa um sinal de 1 bit, expoente de 2 bits e mantissa de 1 bit para fornecer um intervalo numérico entre aproximadamente -6 e +6.

No entanto, para lidar com a faixa dinâmica limitada de um formato tão pequeno, a NVIDIA adicionou uma abordagem de escalonamento duplo: cada grupo de 16 valores FP4 recebe um fator de escala armazenado no FP8 (E4M3), enquanto um fator global baseado no FP32 é aplicado a todo o tensor.

Conforme o time verde, esse sistema de duas camadas mantém o ruído numérico baixo sem perder a eficiência de desempenho que os quatro bits oferecem.

Os resultados internos também mostram que os desvios em relação ao FP8 são inferiores a 1% e, em muitas cargas de trabalho, o desempenho pode melhorar porque blocos menores se adaptam melhor às distribuições de valor.

Além disso, há redução dos requisitos de memória para cerca de 1,8 vez menor que o FP8 e até 3,5 vezes menor que o FP16. Isso reduz a sobrecarga de armazenamento e movimentação de dados nas malhas NVLink e NVSwitch.

Para desenvolvedores que criam grandes clusters, isso significa que é possível executar lotes maiores e sequências mais longas sem exceder os limites de hardware.

Cargas de trabalho de inferência e treinamento

Outras informações apresentadas pela NVIDIA referem-se à capacidade de inferência dos processadores B200 e B300 em comparação com seus antecessores. Nos testes com o modelo OpenAI GPT-OSS 120B em GPUs Blackwell B200, a interatividade foi até quatro vezes mais rápida, sem comprometer a taxa de transferência.

Com o modelo DeepSeek-R1 671B implantado em um rack GB200 NVL72, a taxa de transferência por processador supostamente aumentou 2,5 vezes, sem aumento do custo de inferência.

E o aumento da demanda por modelos mais rápidos, onde a latência do token importa tanto quanto a capacidade geral, deve favorecer a arquitetura Blackwell, que parece pronta para atender às expectativas.

No entanto, a tecnologia NVFP4 não se limita à inferência. A empresa a apresentou como o primeiro formato de ponto flutuante de 4 bits viável para pré-treinamento em uma escala de trilhões de tokens.

Nos primeiros experimentos, com um modelo de 7 bilhões de parâmetros treinado em 200 bilhões de tokens, os resultados são comparáveis ao BF16. Isso é possível pela aplicação de arredondamento estocástico nas etapas de retropropagação e atualização, enquanto se utiliza o arredondamento para o mais próximo na passagem para frente.

Assim, o NVFP4 não é apenas um ótimo aprimoramento de implantação para inferência, mas também um formato potencialmente viável para todo o ciclo de vida da IA. Isso pode significar economias significativas de custo e energia para data centers de IA em hiperescala.

Integração com frameworks de código aberto

Embora o NVFP4 seja proprietário, a NVIDIA o está incorporando em bibliotecas abertas e lançando modelos pré-quantizados. Frameworks como Cutclass (modelos de kernel de GPU), NCCL (comunicação multi-GPU) e o TensorRT Model Optimizer já suportam NVFP4.

Enquanto isso, frameworks de nível superior, como NeMo, PhysicsNeMo e BioNeMo, estendem esses recursos para modelos de linguagem de grande porte, com base em física e ciências da vida.

O NVFP4 também é suportado no Nemotron Reasoning LLM, no modelo de IA física Cosmos e no modelo de ação de linguagem com capacidade de visão Isaac GR00T para robótica.

E, embora ofereça inúmeros benefícios para inferência e treinamento e esteja sendo integrado a frameworks de código aberto, o formato NVFP4 atualmente é suportado apenas pela NVIDIA. E é improvável que o NVFP4 seja suportado por outros fornecedores independentes de hardware.

Opções Domésticas

Para muitos usuários, alguns dos benefícios da arquitetura Blackwell não serão experimentados diretamente, a menos que utilizem alguns dos vários serviços de IA disponíveis. Porém, mesmo nesses casos, é difícil ter a percepção de que a IA está operando com GPUs Blackwell.

O mais provável é que percebam o impacto através das GPUs domésticas que utilizam a arquitetura. Na série RTX 50, onde a NVIDIA implementou a arquitetura Blackwell, a empresa trouxe placas procurando atender diversas necessidades.

Para os que desejam desempenho máximo, modelos da RTX 5090 estão disponíveis por R$ 17.199,99 (INNO3D) a R$ 21.599,99 (MSI Vanguard). Para quem tem um orçamento menor, é possível adquirir modelos RTX 5080 por R$ 7.999,99 (Palit) e R$ 7.799,99 (PNY).

Há modelos ainda mais acessíveis, das RTX 5050, que saem por valores como R$ 2.359,99 (ASUS PRIME OC) e R$ 1.989,99 (Gigabyte Windforce). Para quem estiver disposto a gastar um pouco mais, ainda é possível adquirir placas RTX 5060 por R$ 2.379,99 (Galax Click OC) e R$ 2.499,99 (Gigabyte Eagle).

Fonte: Tom’s Hardware.

Conteúdo Relacionado

Sonho virando realidade

Framework lança o primeiro notebook gamer do mundo com GPU intercambiável