RTX 5090 e PRO 6000 sofrem bug em virtualização e exigem reboot do sistema

As GPUs RTX 5090 e PRO 6000 enfrentam um bug grave em ambientes de virtualização que deixa as placas completamente inoperantes, obrigando usuários e empresas a reiniciar todo o sistema. O problema, já reproduzido em testes, ameaça aplicações críticas de inteligência artificial e levanta dúvidas sobre a confiabilidade da nova geração Blackwell da NVIDIA.

O problema foi revelado pela CloudRift, provedora de GPU em nuvem, após observar falhas em múltiplos sistemas equipados com a arquitetura Blackwell. Segundo os registros da empresa, o bug ocorre quando as placas são passadas a máquinas virtuais por meio dos drivers KVM e VFIO. Ao encerrar a sessão ou reatribuir a GPU, o sistema emite um Function Level Reset (FLR), processo padrão para reinicializar o dispositivo.

No entanto, em vez de retornar a um estado funcional, a GPU simplesmente não responde. O kernel passa a reportar mensagens como “not ready 65535ms after FLR; giving up”, enquanto ferramentas como o lspci deixam de reconhecer o dispositivo, exibindo erros “unknown header type 7f”.

Reprodução/CloudRift

Nesse estágio, a única saída encontrada é reiniciar completamente a máquina, situação que lembra outros problemas recentes em que falhas no Windows 11 chegaram a sugerir a ejeção da GPU, levantando questionamentos sobre a confiabilidade dos sistemas.

Leia mais:

Impacto em ambientes de produção

O impacto é significativo. A CloudRift afirma que, em seus ambientes de produção, o problema se manifesta após alguns dias de uso em VMs ou de maneira aleatória durante inicializações e desligamentos. Isso torna impossível reatribuir as placas sem recorrer ao reboot completo do nó, algo que atrasa fluxos de trabalho e compromete operações em larga escala.

Se você procura desempenho de ponta em jogos e aplicações pesadas, a MSI RTX 5070 12G Shadow 2X OC é uma ótima escolha 🚀. Com 12GB GDDR7, suporte a G-Sync e arquitetura moderna da NVIDIA, essa placa garante gráficos fluidos e qualidade impressionante 🎮✨. Confira na Kabum.

Relatos da comunidade

A situação gerou repercussão também em comunidades de entusiastas e desenvolvedores. No fórum do Proxmox e na comunidade Level1Techs, usuários relataram sintomas semelhantes.

Em um caso, o desligamento de uma máquina virtual com Windows resultou no travamento total do host, mesmo após reinicialização em nível de sistema operacional. Em outro, foi identificado um “soft lock” do processador após falha de timeout, comportamento inexistente em GPUs mais antigas como a RTX 4080.

Exclusividade da geração Blackwell

Esse detalhe levanta suspeitas de que o bug seja exclusivo da nova geração Blackwell. Modelos anteriores, como a RTX 4090, além dos aceleradores Hopper H100 e Blackwell B200, não apresentaram problemas. Isso indica uma limitação específica do design das placas recém-lançadas.

NVIDIA alcança 94% do mercado de GPUs dedicadas

Para tentar mitigar o problema, alguns usuários ajustaram parâmetros do PCIe, como ASPM e ACS, mas sem sucesso. A falha permanece, mostrando que se trata de um erro estrutural, e não apenas de configuração. Como o FLR é essencial para operações seguras em ambientes de multiusuário, a confiabilidade dos equipamentos fica comprometida, colocando em risco workloads de IA e setups de laboratórios virtuais.

Já quem busca um ótimo custo-benefício, a ASRock RX 6600 CLD 8G entrega performance consistente para jogos em 1080p 🖥️🔥. Com 8GB GDDR6 e suporte às tecnologias mais recentes da AMD, é a escolha perfeita para quem quer equilíbrio entre preço e qualidade 🎯💡. Veja na Kabum.

Bug bounty e busca por solução

Diante da gravidade, a CloudRift lançou uma iniciativa inusitada: um bug bounty de US$ 1.000 para quem conseguir identificar a causa ou apresentar uma solução eficaz. A empresa ainda afirmou que recompensará contribuições relevantes, como métodos de reprodução detalhados ou sugestões técnicas que auxiliem na investigação.

A situação foi notada até pela Tiny Corp, startup de IA responsável pelo projeto tinygrad, que compartilhou a descoberta no X.com, questionando se os modelos RTX 5090 e PRO 6000 não sofreriam de um defeito de hardware.

Fonte: Toms Hardware

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima