O agente não ficou mais inteligente

Seis meses atrás, uma tarefa de programação consumia uma sessão inteira de explicação. Na semana passada, o mesmo tipo de tarefa levou uma frase. O modelo não mudou entre essas duas sessões. Claude Opus 4.6 atendeu as duas. Mesmos pesos, mesma arquitetura, mesma janela de contexto, mesmas capacidades.

O agente de IA não ficou mais inteligente entre a sessão 1 e a sessão 500; a infraestrutura do projeto mudou. Essa é a afirmação central do território de engenharia de IA: o modelo é uma constante, e a variável é tudo o que você constrói ao redor dele. Em projetos de longa duração, o modelo contribui com cerca de 30% da qualidade da sessão, enquanto o contexto acumulado fornece os outros 70%: documentos de convenção, memórias de decisões, artefatos de handoff, hooks, skills e cobertura de testes. Um modelo pior em um projeto rico frequentemente supera um modelo melhor em um projeto vazio.

O projeto mudou.

A conversa errada

A conversa sobre produtividade com IA é quase inteiramente sobre capacidades do modelo. Qual modelo é mais rápido. Qual modelo escreve o melhor código. Qual modelo lida com o contexto mais longo. A suposição implícita é que o modelo é a variável: atualize o modelo, melhore o resultado.

Essa suposição está errada para projetos de longa duração. Em um projeto no qual venho trabalhando há seis meses, com mais de 500 sessões de agente, o modelo contribui com talvez 30% da qualidade da sessão. Os outros 70% vêm da infraestrutura acumulada do projeto: documentos de convenção, memórias de decisões, artefatos de handoff, hooks comportamentais, skills codificadas e cobertura de testes.

Um modelo melhor em um projeto vazio produz resultados melhores do que um modelo pior em um projeto vazio. Um modelo pior em um projeto com 500 sessões de contexto acumulado frequentemente produz resultados melhores do que um modelo melhor em um projeto vazio. A infraestrutura domina o modelo. É por isso que o contexto é arquitetura — o conhecimento acumulado do projeto não é informação suplementar, mas estrutura de sustentação.

Evidência

A correção de performance da página de mercado ilustra o ponto. Uma frase: “conserte a performance da página de mercado.” O agente:

Leu um documento de handoff de uma sessão anterior que diagnosticava o gargalo
Identificou o caminho de código correto (market_hub(), não _fetch_market_data())
Implementou uma consulta de banco de dados paginada com uma RPC agregada
Escreveu testes
Fez o deploy

Austin saiu de 14 segundos para 108 milissegundos. Uma melhoria de 132x a partir de um único prompt.¹

Isso não aconteceu porque o modelo é inteligente. Aconteceu porque o documento de handoff existia. O handoff capturou um diagnóstico que sobreviveu a três correções de revisão de código e duas reordenações de prioridade ao longo de quatro dias. Sem o handoff, o agente teria começado do zero. Teria investigado o caminho de código errado (como fez o primeiro rascunho do handoff). Teria proposto parciais HTMX desnecessários (como fazia o plano original). O handoff continha os erros já cometidos e corrigidos. O agente herdou o entendimento corrigido.

A contribuição do modelo foi ler o handoff e implementar a correção. A contribuição da infraestrutura foi ter o handoff certo para ser lido.

O que muda e o que não muda

Entre a sessão 1 e a sessão 500 no mesmo projeto, exatamente uma coisa permanece constante: o modelo. Todo o resto muda.

O que muda:

O CLAUDE.md cresce de vazio a completo. Perguntas sobre convenções desaparecem. O post padrões AGENTS.md descreve os padrões específicos que tornam esses arquivos eficazes.
Arquivos de memória se acumulam. Decisões são armazenadas em cache. Trade-offs são registrados. O projeto para de relitigar questões já resolvidas.
Hooks se acumulam. Cada um previne uma classe de falha que ocorreu em uma sessão anterior. 84 hooks interceptando 15 dos 26 tipos de eventos de ciclo de vida que o Claude Code expõe, cada um uma cicatriz de um incidente passado.
Skills se acumulam. Fluxos de trabalho repetitivos se tornam operações de um único comando. O nightcheck que levou uma sessão inteira para ser projetado agora roda em 2 minutos.
Testes se acumulam. O agente faz mudanças mais ousadas porque pode verificá-las imediatamente.
Documentos de handoff se acumulam. Investigações complexas persistem através das fronteiras de sessão.

O que permanece o mesmo:

O modelo. Mesmos pesos. Mesmas capacidades. Mesma tendência de se desviar da tarefa, verificar resultados de teste de forma fantasma (veja o evidence gate) e propor abstrações desnecessárias.

Os modos de falha do modelo são constantes. A capacidade da infraestrutura de capturar esses modos de falha cresce a cada sessão. A sessão 500 é melhor que a sessão 1 não porque o modelo melhorou, mas porque a infraestrutura aprendeu a compensar as fraquezas constantes do modelo.

O enquadramento do investimento

Se o modelo não é a variável, então a seleção do modelo não é a principal decisão de investimento. O investimento principal é em infraestrutura de contexto.

Uma equipe que gasta US$ 200/mês no Claude Max (que roda Opus 4.7 por padrão) e investe pesadamente em arquivos CLAUDE.md, sistemas de memória, hooks, skills e cobertura de testes vai superar uma equipe que gasta US$ 200/mês no mesmo plano sem investimento em infraestrutura. O custo do modelo é idêntico. A qualidade do resultado diverge porque a infraestrutura diverge.

Isso reformula a questão da produtividade. A pergunta não é “qual modelo devemos usar?” A pergunta é “o que construímos ao redor do modelo que faz cada sessão ser melhor que a anterior?”

As organizações que vejo tendo dificuldade com produtividade de IA não estão usando o modelo errado. Elas estão começando cada sessão do zero. Sem documento de convenção. Sem sistema de memória. Sem hooks. Sem skills. Sem contexto acumulado. Cada sessão é a sessão 1, independentemente de quantas sessões vieram antes.

O modelo vai melhorar

Os modelos continuarão melhorando. O Claude Opus 4.7 foi melhor que o Claude Opus 4.6; o Opus 5 será melhor ainda. A melhoria é real e valiosa. Porém, a melhoria é aditiva, não multiplicativa.

Um modelo 20% melhor em geração de código produz um resultado 20% melhor em um projeto vazio. O mesmo modelo com 500 sessões de contexto acumulado produz um resultado qualitativamente diferente, não apenas quantitativamente melhor. A infraestrutura de contexto não adiciona 20% à capacidade do modelo. Ela fornece o diagnóstico, as restrições, os critérios de verificação e o histórico operacional que o modelo não consegue produzir sozinho, independentemente de quão capaz ele seja.

Nenhum modelo, por mais capaz que seja, pode saber que market_hub() carrega todas as linhas de company_markets e pagina em Python a menos que algo lhe diga. O documento de handoff diz. O modelo lê e age. A inteligência é distribuída entre o modelo (ler, raciocinar, implementar) e a infraestrutura (saber, restringir, verificar).

Sessão 500

A sessão 500 se parece com isto: eu declaro o que quero em uma frase. A arquitetura de agente Ralph é o sistema que torna isso possível. O agente lê o CLAUDE.md e conhece as convenções. Lê os arquivos de memória e conhece as decisões. Lê o handoff e conhece o diagnóstico. Encontra um hook que previne o mesmo erro que outro agente cometeu há três meses. Verifica seu trabalho contra o conjunto de testes. Reporta a conclusão com evidências para cada afirmação.

A sessão 1 se parece com isto: eu explico o schema do banco de dados, as convenções de roteamento, a herança de templates, a camada de cache, o pipeline de deploy e os padrões de teste. O agente faz perguntas esclarecedoras. Propõe uma abordagem que viola três convenções. Eu corrijo. Ele implementa a correção. Reporta que “os testes passaram” sem rodar o pytest.

O modelo é o mesmo em ambas as sessões. O projeto não é.

FAQ

A qualidade do modelo ainda importa?

Sim. Um modelo mais forte lê o contexto com mais eficácia, raciocina sobre trade-offs com mais precisão e implementa soluções de forma mais limpa. A qualidade do modelo define o piso. A infraestrutura eleva o teto. Em um projeto maduro, o teto importa mais que o piso.

Isso é específico para agentes de programação?

Não. Qualquer fluxo de trabalho com IA no qual o mesmo domínio de tarefa se repete ao longo de sessões se beneficia do contexto acumulado. Escrita, pesquisa, análise, atendimento ao cliente. A infraestrutura específica difere (guias de estilo em vez de CLAUDE.md, bases de conhecimento em vez de hooks), mas a dinâmica é a mesma: o projeto melhora porque o contexto ao redor do modelo se acumula.

E quanto a modelos multimodais ou modelos de raciocínio?

Mesmo princípio. Um modelo de raciocínio que pode pensar por 10 minutos sobre um problema ainda precisa saber sobre qual problema pensar. O documento de handoff, o arquivo de convenção e o sistema de memória fornecem a definição do problema. O modelo fornece o raciocínio. Um raciocínio melhor sobre um problema bem definido produz resultados melhores do que um raciocínio inferior, mas um raciocínio melhor sobre um problema indefinido produz uma confusão que soa melhor.

Como começo se não tenho nenhuma infraestrutura de contexto?

Escreva um arquivo CLAUDE.md que descreva as convenções do seu projeto. Esse único arquivo é o investimento de maior impacto. Tudo o mais se compõe a partir daí.²

Fontes

Blake Crosley, “Compound Context: Why AI Projects Get Better the Longer You Stay With Them,” blakecrosley.com, março de 2026. ↩
Anthropic, “Manage Claude’s memory,” Anthropic Documentation, 2026. ↩

O agente não ficou mais inteligente — o projeto ficou