Claude Code ficou 67% mais burro, analisa diretora da AMD

A diretora do grupo de Inteligência Artificial da AMD, Stella Laurenzo, analisou 6.852 sessões do Claude Code e 234.760 chamadas de ferramentas do fluxo de trabalho de sua equipe. Sua conclusão: a profundidade do raciocínio caiu 67% e o padrão do modelo de ler os arquivos antes de editá-los diminuiu em mais de 70%.

Esses problemas, conforme Laurenzo, indicam que o Claude Code não está pensando tão profundamente e coincidem com a implementação, no início de março, da redação de conteúdo de raciocínio na versão 2.1.69 do Claude Code. Essa função atua como um cabeçalho que remove o conteúdo de raciocínio das respostas da API.

A perda de desempenho fez Laurenzo e seu time mudarem para outro fornecer. Desse modo, fica o alerta à Anthropic de que ainda é cedo no jogo da programação de IA e a empresa pode perder a liderança.

Notícias Relacionadas:

Análise em profundidade

Créditos: Wallpaper.com

Laurenzo e sua equipe analisaram 6.852 sessões do Claude Code, incorporando 234.760 chamadas de ferramentas e 17.871 blocos de raciocínio. As sessões foram do próprio trabalho do time dela, que usava a ferramenta e começou a perceber os problemas no desempenho.

Os dados indicam que o número de violações de stop-hook, usadas para detectar evasão de responsabilidade, interrupção prematura do processo de raciocínio e comportamentos de busca de permissão que indicam “preguiça”, disparou, passando de zero antes de 8 de março para uma média de 10 por dia até o final do mês passado.

Além disso, o número de vezes que o Claude lia um trecho de código antes de fazer alterações também caiu drasticamente, de uma média de 6,6 leituras para apenas 2 no final de março. E a IA começou a reescrever arquivos inteiros em vez de fazer edições com muito mais frequência.

Créditos: Freepik.

De acordo com Lorenzo, as evidências apontam para uma redução geral no raciocínio desde a implementação da versão 2.1.69. Trata-se de um problema diferente do que os usuários do Claude Code reclamaram em fevereiro, quando a versão 2.1.20 do bot passou a truncar a explicação do que estava lendo como parte do seu processo de raciocínio.

Na sua publicação, ela explica que “quando o raciocínio é superficial, o modelo opta pela ação mais barata disponível: editar sem ler, parar sem terminar, esquivar-se da responsabilidade por falhas, adotar a solução mais simples em vez da correta”.

Polêmica de tokens

A Anthropic também foi criticada por aumentos inexplicáveis no uso de tokens, que levaram alguns usuários a ultrapassar seus limites, impossibilitando o uso do produto. Some-se a isso a recente exposição de todo o código-fonte do Claude Code, e a situação não parece nada boa para a empresa de IA.

Laurenzo quer que a Anthropic seja transparente sobre se está reduzindo ou limitando os tokens de raciocínio e causando o problema no Claude Code. No mínimo, ela quer que o Claude exponha o número de tokens de raciocínio usados por solicitação.

Isso deve permitir que os usuários monitorem as solicitações e a profundidade de raciocínio.

Laurenzo também solicitou a adição de um limite máximo de tokens de raciocínio às ofertas da Anthropic para engenheiros que executam fluxos de trabalho complexos. Conforme ela, o modelo atual “não distingue entre usuários que precisam de 200 tokens de raciocínio por resposta e usuários que precisam de 20.000″.

Fonte: GitHub.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima