NVIDIA RTX 5090 supera AMD e Apple rodando modelos locais de linguagem da OpenAI

O Llama.cpp publicou seus próprios testes do gpt-oss-20b, mostrando que a GeForce RTX 5090 liderou com impressionantes 282 tok/s. Isso em comparação com o Mac M3 Ultra (116 tok/s) e o AMD 7900 XTX (102 tok/s).

Isso acontece porque a GeForce RTX 5090 inclui Tensor Cores integrados, projetados para acelerar tarefas de IA, maximizando o desempenho ao executar gpt-oss-20b localmente.

A medida “tok/s”, ou tokens por segundo, mede tokens, um pedaço de texto que o modelo lê ou gera em uma única etapa, e a rapidez com que eles podem ser processados.

Créditos: Github.

O Llama.cpp é um framework de código aberto que permite executar LLMs (Large Language Models) com ótimo desempenho. E a execução é especialmente boa em GPUs RTX graças às otimizações feitas em colaboração com a NVIDIA.

Para entusiastas de IA que desejam apenas usar LLMs locais com essas otimizações da NVIDIA, pode-se considerar o uso do aplicativo LM Studio, desenvolvido sobre o Llama.cpp. O programa adiciona suporte para RAG (geração aumentada por recuperação) e foi projetado para facilitar a execução e a experimentação com LLMs.

A principal vantagem é que ele retira a necessidade de lidar com ferramentas de linha de comando ou configurações técnicas complexas.

Notícias Relacionadas:

IAs Locais

Créditos: LM Studio.

Desenvolvedores e criadores que buscam maior controle e privacidade no uso de IA estão recorrendo a modelos executados localmente, como a nova família de modelos gpt-oss da OpenAI. Eles são leves e incrivelmente funcionais em hardware de usuário doméstico.

Isso significa que é possível executá-los em GPUs com apenas 16 GB de memória. Ou seja, é possível usar ampla gama de hardware, com as GPUs NVIDIA emergindo como a melhor maneira de executar esses tipos de modelos.

Créditos: NVIDIA.

Enquanto países e empresas se apressam para desenvolver suas próprias soluções de IA sob medida para uma variedade de tarefas grandes e complexas, modelos de código aberto, como o novo gpt-oss-20b da OpenAI, estão encontrando muito mais adoção.

E este lançamento mais recente é praticamente comparável ao modelo GPT-4o mini.

O modelo também apresenta o raciocínio por cadeia de pensamento para analisar problemas profundamente, níveis de raciocínio ajustáveis para ajustar as capacidades de raciocínio em tempo real, comprimento de contexto expandido e ajustes de eficiência para ajudá-lo a rodar em hardware local.

Outras opções

Créditos: AnythingLLM.

Outro framework de código aberto popular para testes e experimentação de IA é o Ollama. Ele é ótimo para testar diferentes modelos de IA, incluindo os modelos OpenAI gpt-oss. E a NVIDIA trabalhou em estreita colaboração para otimizar o desempenho.

O Ollama gerencia downloads de modelos, configuração de ambiente e aceleração de GPU automaticamente. Ele também faz gerenciamento de modelos integrados para suportar múltiplos modelos simultaneamente, integrando-se facilmente com aplicativos e fluxos de trabalho locais.

De forma semelhante ao llama.cpp, outros aplicativos também utilizam o Ollama para executar LLMs. Um exemplo é o AnythingLLM, com sua interface local e direta, sendo excelente para quem está começando a fazer benchmarking de LLM.

Custo

Independentemente do aplicativo que usado para testar o gpt-oss-20b, as GPUs NVIDIA Blackwell mais recentes parecem oferecer o melhor desempenho. O problema principal é o custo, pois uma RTX 5090 sai por até R$ 26.773,51 na Kabum.

Modelos RTX 5080 também podem ser salgados, com a Gaming Trio OC da MSI saindo por R$ 24.499,00, mas havendo opções mais acessíveis como a ASUS ROG Astral por R$ 14.999,99.

Modelos da RTX 5070 saem pela metade desse valor, com a GAMING OC da Gigabyte saindo por R$ 7.099,99. Optando por um modelo RTX 5070 Ti, os preços são mais altos, chegando a R$ 10.101,66 (Solid OC da Zotac).

As coisas ficam mais acessíveis nos modelos RTX 5060 Ti, que sai por até R$ 3.499,99 (ASUS DUAL). No caso das RTX 5050, é possível adquirir pela metade desse valor, R$ 1.759,99 (Palit), mas o desempenho justifica um investimento maior.

Fonte: Github.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima