Contexto composto: por que projetos de IA melhoram com o tempo

Há seis meses, uma tarefa de código no meu projeto resumegeni exigia uma sessão inteira de explicações. O agente precisava entender o schema do banco de dados, as convenções de roteamento, a herança de templates, a camada de cache, o pipeline de deploy e os padrões de teste antes de tocar em uma única linha de código. Toda sessão começava do zero.

Contexto composto é o fenômeno em que projetos assistidos por IA melhoram mais rapidamente quanto mais tempo você trabalha neles, porque cada problema resolvido deposita contexto reutilizável que reduz o custo do próximo problema. O modelo não melhora entre sessões. A infraestrutura do projeto sim: documentos de convenções, memórias de decisões, artefatos de handoff, hooks, skills e suítes de testes se acumulam em um ativo de capital que torna cada sessão subsequente mais barata e mais eficaz.

Na semana passada, eu disse “conserte a performance da página de mercado” e o agente leu um documento de handoff de uma sessão anterior, identificou o gargalo em market_hub(), implementou uma consulta paginada ao banco de dados com um RPC agregado, escreveu testes e fez deploy. Austin saiu de 14 segundos para 108 milissegundos. O agente não ficou mais inteligente. O projeto ficou mais rico.

A diferença não está no modelo. A diferença está no contexto acumulado em torno do projeto: o CLAUDE.md que descreve convenções, os arquivos de memória que capturam decisões, os documentos de handoff que preservam diagnósticos entre sessões, os hooks que impõem restrições, as skills que codificam workflows, as suítes de testes que verificam a correção, os captain’s logs que registram o que foi lançado e por quê. Cada artefato foi criado para resolver um problema específico. Juntos, tornam cada problema subsequente mais barato de resolver.

Isso é contexto composto.

TL;DR

Contexto composto é o fenômeno em que projetos assistidos por IA melhoram mais rapidamente com o tempo, porque problemas resolvidos depositam contexto reutilizável que reduz o custo de resolver o próximo problema.
O modelo não melhora entre sessões. A infraestrutura do projeto sim: arquivos CLAUDE.md, sistemas de memória, hooks, skills, documentos de handoff, cobertura de testes, convenções de nomenclatura e logs operacionais.
O contexto composto explica por que iniciar um novo projeto com um agente de IA parece lento, mas a 500ª sessão no mesmo projeto parece rápida. A primeira sessão constrói contexto. A 500ª sessão o gasta.
O efeito não é automático. Requer investimento intencional em artefatos de contexto: documentos que capturam decisões, hooks que codificam restrições, testes que verificam suposições e logs que preservam histórico operacional.
Organizações que entendem o contexto composto vão parar de rodar engenheiros entre projetos a cada trimestre e começar a tratar o contexto acumulado do projeto como um ativo de capital.

O que compõe

O contexto composto opera por meio de seis categorias de conhecimento acumulado do projeto. Cada categoria deposita um tipo diferente de retorno.

Documentos de convenção (CLAUDE.md). Um arquivo CLAUDE.md informa a cada sessão do agente como o projeto funciona: estrutura de arquivos, convenções de nomenclatura, padrões de import, abordagem de testes, processo de deploy. A primeira sessão sem um CLAUDE.md gasta grande parte do esforço descobrindo convenções. A centésima sessão com um CLAUDE.md maduro gasta zero. O documento compõe porque cada convenção capturada uma vez nunca é reexplicada.

Memória de decisões. Arquivos de memória capturam por que as decisões foram tomadas, não apenas o que foi decidido. Quando uma sessão futura encontra o mesmo trade-off, ela lê a memória em vez de re-deduzir a resposta. Meu sistema de memória armazena decisões do projeto, preferências do usuário, correções de feedback e ponteiros de referência. Cada memória é pequena. A coleção é um cache de decisões que impede o projeto de re-litigar questões já resolvidas.

Documentos de handoff. Um documento de handoff preserva um diagnóstico através dos limites entre sessões. O handoff de performance da página de mercado sobreviveu a três correções de code review, duas reordenações de prioridade e, por fim, guiou a implementação quatro dias depois. Sem o handoff, a próxima sessão teria começado a investigação do zero, provavelmente mirando o caminho de código errado (como fez o primeiro rascunho). O handoff compôs ao converter tempo de diagnóstico em um artefato reutilizável.

Hooks e restrições. Cada hook codifica uma lição de uma falha passada. Meu destructive API guard existe porque um agente apagou todo o cache da Cloudflare. Meu hook de sandbox existe porque um agente tentou escrever em ~/.ssh/. Meu detector de drift existe porque agentes perderam o rumo de sua tarefa doze vezes em sessenta dias. Cada hook impede que a mesma classe de falha se repita em todas as sessões futuras. Hooks compõem porque convertem resposta a incidentes em prevenção permanente.

Skills e workflows. Uma skill é um workflow codificado que um agente pode executar sem reinventar o processo. Minha skill /nightcheck executa mais de 50 verificações de página com benchmarks de TTFB, verificação de cache e crawls completos de sitemap. Minha skill /scan-intel pesquisa seis fontes acadêmicas em oito tópicos de pesquisa com deduplicação e pontuação. Minha skill /blog-translator traduz posts para nove locales com preservação de formato. Cada skill foi cara de construir uma vez e é gratuita para rodar para sempre. Skills compõem porque convertem conhecimento de processo em automação executável.

Suítes de testes. Testes verificam que o projeto continua funcionando após mudanças. Uma suíte de testes madura permite que um agente faça mudanças agressivas com confiança, porque falhas são detectadas imediatamente. Um projeto sem testes força mudanças conservadoras e incrementais porque o agente não consegue verificar seu trabalho. A cobertura de testes compõe porque cada teste torna mudanças futuras mais baratas e mais seguras.

A curva de composição

O contexto composto segue uma curva característica.

Sessões 1-10: fase de investimento. A maior parte do esforço vai para construir contexto em vez de entregar funcionalidades. Você escreve o CLAUDE.md, estabelece convenções, cria os primeiros hooks, configura o framework de testes. A produção parece lenta porque você está construindo infraestrutura, não produto.

Sessões 10-50: fase de aceleração. O contexto começa a gerar valor. O agente para de perguntar sobre convenções e começa a segui-las. Hooks pegam erros antes que sejam implantados. Skills automatizam workflows repetitivos. Cada sessão produz mais output do que a anterior porque a base de contexto está crescendo.

Sessões 50-200: fase de composição. O projeto tem contexto acumulado suficiente para que problemas difíceis se tornem fáceis. Um agente lendo um CLAUDE.md maduro, um conjunto de arquivos de memória e um documento de handoff pode executar implementações complexas de múltiplas etapas sem orientação adicional. A correção da página de mercado aconteceu nessa fase. Uma frase (“conserte a performance da página de mercado”) disparou um processo de quatro dias que terminou com uma melhoria de 132x porque a infraestrutura de contexto carregava o diagnóstico, as restrições e os critérios de verificação.

Sessões 200+: fase de manutenção. A taxa de criação de novo contexto diminui porque a maioria das convenções, restrições e workflows já está capturada. O foco muda para atualizar contexto existente (corrigir memórias desatualizadas, estender skills, adicionar testes para novos edge cases) em vez de criá-lo do zero. O efeito de composição estabiliza, mas permanece alto.

Por que isso não é óbvio

Três fatores obscurecem o efeito de composição.

Melhorias do modelo mascaram melhorias de contexto. Quando suas sessões de IA melhoram ao longo do tempo, você atribui a melhoria a modelos melhores. Claude Opus 4.6 é melhor que Claude 3.5 Sonnet. Mas a melhoria que você experimenta em um projeto de longa duração excede a melhoria do modelo porque o contexto composto se empilha sobre a melhoria do modelo. Mudar para um novo projeto no mesmo modelo revela a diferença: o novo projeto parece lento porque não tem contexto composto.

O contexto é invisível. Um arquivo CLAUDE.md é um documento de texto. Arquivos de memória são notas em markdown. Hooks são shell scripts. Nenhum desses artefatos parece impressionante individualmente. O efeito de composição não é visível em nenhum artefato único. Ele é visível apenas no comportamento agregado de sessões que operam contra a pilha completa de contexto. Você não consegue apontar para um único arquivo e dizer “é por isso que o projeto é rápido.” Você só pode comparar a 500ª sessão com a 1ª e notar a diferença.

Começar novos projetos parece empolgante. Um novo projeto tem energia fresca e nenhuma dívida acumulada. Mas também não tem contexto acumulado. A primeira sessão em um novo projeto parece produtiva porque toma decisões de alto nível que parecem impactantes. A 20ª sessão em um projeto existente parece rotineira porque executa dentro de convenções estabelecidas. A sensação de rotina é o efeito de composição em ação. A sensação empolgante é a ausência dele.

O que impede a composição

Quatro modos de falha quebram a curva de composição.

Apodrecimento de contexto. Memórias desatualizadas, seções obsoletas do CLAUDE.md e hooks depreciados criam confusão em vez de clareza. Um agente seguindo convenções desatualizadas produz output pior do que um agente sem convenções. Contexto exige manutenção. Meu sistema de memória inclui timestamps de última atualização e verificações explícitas de obsolescência. Contexto morto é pior que nenhum contexto.

Dispersão de contexto. Arquivos demais, hooks demais, skills demais criam um problema de descoberta. Se o agente não consegue encontrar o contexto relevante, o contexto não compõe. Organização importa: meus arquivos de memória usam frontmatter com descrições para que sessões futuras possam avaliar a relevância sem ler o conteúdo completo. Meus hooks estão registrados em um dispatcher que os carrega por tipo de evento. Contexto descobrível compõe. Contexto enterrado apodrece.

Isolamento de sessão. Se as sessões não leem ou escrevem contexto persistente, cada sessão começa do zero. O efeito de composição requer pontes intencionais: documentos de handoff que carregam diagnóstico entre sessões, escritas de memória que capturam decisões, captain’s logs que registram histórico operacional. Sem essas pontes, um projeto com 500 sessões tem o mesmo contexto efetivo que um projeto com uma.

Troca de plataforma. Alternar entre ferramentas de IA reseta a pilha de contexto. Um CLAUDE.md escrito para uma plataforma não ajuda automaticamente outra. Hooks escritos para o modelo de eventos de uma plataforma não disparam em outra. O contexto composto é específico de plataforma, o que cria lock-in que também é um fosso. Quanto mais profunda sua pilha de contexto em uma plataforma, maior o custo de troca e mais rápido seu projeto melhora em relação a competidores que continuam trocando.

Contexto composto como capital

Em finanças, os juros compostos transformam pequenos depósitos em grandes somas com tempo suficiente. O insight fundamental é que os próprios retornos geram mais retornos. O contexto composto funciona da mesma forma.

Uma convenção capturada no CLAUDE.md reduz a reexplicação em toda sessão futura. Esse tempo economizado é gasto resolvendo novos problemas, que geram novas convenções, que reduzem ainda mais a reexplicação futura. Um hook que impede uma classe de falha elimina a reinvestigação dessa falha em toda sessão futura. Esse tempo economizado é gasto construindo novos hooks para novas classes de falha. Cada investimento gera retornos que permitem mais investimento.

A implicação para organizações: o contexto do projeto é um ativo de capital. Rodar engenheiros entre projetos a cada trimestre destrói contexto acumulado da mesma forma que fechar uma conta de poupança destrói juros acumulados. Uma equipe que permanece no mesmo projeto por dois anos com assistência de IA vai superar uma equipe que faz rodízio trimestralmente, não porque os indivíduos sejam melhores, mas porque o contexto se compôs.

A implicação para engenheiros individuais: sua infraestrutura de IA é um portfólio de investimentos. Cada seção do CLAUDE.md, cada arquivo de memória, cada hook, cada skill, cada documento de handoff é um depósito. O portfólio cresce lentamente no início. Após centenas de sessões, gera retornos que fazem problemas difíceis parecerem fáceis para observadores que não enxergam a pilha de contexto por baixo. O post AGENTS.md patterns documenta os formatos de arquivo específicos que carregam contexto composto entre sessões, e compound interest of the mind estende o mesmo princípio além da engenharia, para a acumulação de conhecimento em geral. O AI engineering hub reúne o arco completo dessa investigação.

A página de mercado saiu de 14 segundos para 108 milissegundos. Um observador vê uma correção de performance. Eu vejo um documento de handoff que sobreviveu a três revisões, um sistema de nightcheck que mediu a regressão, um guard destrutivo que impediu uma repetição do cache purge, uma skill de code review que pegou o alvo inicial errado e quinhentas sessões de contexto acumulado que tornaram tudo isso possível.

Isso é contexto composto.

FAQ

O que é contexto composto?

Contexto composto é o fenômeno em que projetos assistidos por IA melhoram mais rapidamente ao longo do tempo porque problemas resolvidos depositam contexto reutilizável (documentos, hooks, skills, testes, memórias) que reduz o custo de resolver problemas subsequentes. O termo é análogo a juros compostos: os próprios retornos geram mais retornos.

Isso funciona com qualquer ferramenta de IA?

O princípio se aplica amplamente, mas a implementação depende do suporte da ferramenta a contexto persistente. Claude Code suporta arquivos CLAUDE.md, hooks, skills e sistemas de memória nativamente. Outras ferramentas podem exigir scaffolding externo para alcançar o mesmo efeito. A curva de composição é mais íngreme em plataformas que fornecem mais mecanismos de persistência de contexto.

Como começo a construir contexto composto?

Comece com um CLAUDE.md que descreva as convenções do seu projeto. Adicione arquivos de memória para decisões-chave. Escreva hooks para padrões de falha que você já experimentou. Crie skills para workflows que você repete entre sessões. O investimento parece lento no início. Os retornos aparecem depois de 10-20 sessões.

Isso é só documentação?

Não. A documentação é um componente, mas o contexto composto também inclui artefatos executáveis: hooks que impõem restrições em tempo de execução, skills que automatizam workflows, suítes de testes que verificam a correção e sistemas de memória que informam a tomada de decisão. Documentação estática explica. Contexto composto age.

E quanto aos limites de janela de contexto?

O contexto composto não exige carregar todo o contexto em cada sessão. Exige que o contexto certo esteja disponível quando necessário. Um CLAUDE.md é carregado automaticamente. Arquivos de memória são consultados por relevância. Documentos de handoff são lidos ao continuar uma tarefa específica. A pilha de contexto é maior que qualquer janela de contexto individual. O agente acessa a fatia relevante por sessão.

Como sei se meu projeto tem contexto composto?

Compare o esforço necessário para tarefas similares no início versus no final da história do projeto. Se uma tarefa que levou uma sessão inteira no primeiro mês leva um único prompt no sexto mês, o contexto composto está funcionando. Se o esforço é o mesmo, o contexto não está acumulando ou não está sendo persistido entre sessões.

Fontes

Este artigo baseia-se em experiência de produção de mais de 500 sessões de codificação autônoma em seis projetos desde maio de 2025. Exemplos específicos referenciados:

Performance da página de mercado: documento de handoff, verificação de nightcheck e deploy descritos em captain’s logs de 21 a 25 de março de 2026
Guards API destrutivos: construídos depois que um agente apagou todo o cache da Cloudflare, descrito no post deploy-and-defend
Infraestrutura de hooks e skills: 84 hooks interceptando 15 tipos de eventos, descrito no NIST comment
Detecção de drift: rastreamento de similaridade cosseno em mais de 60 sessões, descrito em The Invisible Agent
Loops de autoresearch: experimentos com orçamento fixo em Apple Silicon, validados pelo Claudini paper
Documentação da Anthropic sobre memória do Claude Code e instruções de projeto: Manage Claude’s memory
Repositório de autoresearch do Andrej Karpathy: autoresearch