← Todos los articulos

El muro del 10%: por qué la productividad con IA se estanca

From the guide: Claude Code Comprehensive Guide

DX encuestó a 121.000 desarrolladores en 450 empresas. El 92,6% usa asistentes de programación con IA al menos una vez al mes. El código generado por IA representa ahora el 26,9% de las fusiones en producción. Los desarrolladores reportan un ahorro de aproximadamente cuatro horas por semana.1 La productividad no ha superado el 10%.

Esa cifra se ha mantenido estable durante tres trimestres consecutivos.1 2 La adopción creció. El volumen de código creció. Las herramientas mejoraron. Las ganancias no. Laura Tacho, CTO de DX, lo planteó directamente: “Esto es realmente un problema de gestión. El entusiasmo hizo que pareciera que simplemente probar IA daría resultados automáticamente.”3

El informe DORA 2025 encontró la divergencia. Las organizaciones con prácticas de ingeniería sólidas vieron cómo la IA amplificaba sus fortalezas existentes. Las organizaciones con prácticas débiles vieron cómo la IA amplificaba sus disfunciones existentes. Las mismas herramientas. Resultados opuestos. El informe concluyó: “El rol principal de la IA en el desarrollo de software es el de un amplificador. Magnifica las fortalezas de las organizaciones de alto rendimiento y las disfunciones de las que tienen dificultades.”4

El muro no es un problema de modelos. Es un problema de infraestructura. Mejores modelos no atravesarán un muro construido con verificación ausente, contexto ausente y gobernanza ausente. Los artículos complementarios a este describen la arquitectura: Anatomy of a Claw explica la capa de orquestación, The Fabrication Firewall explica la puerta de salida, y Context Is Architecture explica el sistema de inyección de contexto. El artículo a continuación explica por qué existen esos sistemas.

Resumen

121.000 desarrolladores encuestados, 92,6% de adopción, productividad estancada en 10%. Tres causas raíz explican el techo: inanición de contexto (la IA adivina sin conocimiento del proyecto), vacío de verificación (el código se entrega más rápido de lo que la revisión se adapta) y brecha de gobernanza (la IA elude los estándares que los humanos aplican). DORA encontró que la IA amplifica tanto las fortalezas como las disfunciones dependiendo de la infraestructura que la rodea.4 Superar el muro requiere infraestructura alrededor de la IA, no mejor IA. Este artículo documenta un intento N=1 de construir esa infraestructura, con cifras específicas de un sistema que ejecuta 84 hooks, 43 skills y 19 agentes.


Lo que dice la encuesta

El conjunto de datos de DX abarca 4,2 millones de desarrolladores observados entre noviembre de 2025 y febrero de 2026, con un panel detallado de 121.000 desarrolladores en 450 empresas.1 Los números cuentan dos historias.

La historia de adopción es inequívoca. Los asistentes de programación con IA alcanzaron una penetración casi universal. DX midió un 92,6% de adopción mensual y aproximadamente un 75% de uso semanal.1 La encuesta de Stack Overflow de 2025 encontró que el 84% de los desarrolladores usan o planean usar herramientas de IA.6 JetBrains midió un 85% de uso regular entre 24.534 desarrolladores en 194 países.7 El techo de adopción está cerca.

La historia de productividad se ha estancado. DX midió un promedio de cuatro horas ahorradas por semana, sin cambios respecto a las 3,6 horas del trimestre anterior.1 2 El código generado por IA pasó del 22% al 26,9% del código fusionado, pero el volumen adicional no se tradujo en producción adicional.1 2 Laura Tacho identificó la matemática: los desarrolladores dedican aproximadamente el 20% de su tiempo a escribir código. Una mejora del 10% sobre el 20% de la jornada laboral es una mejora del 2% en total. “La velocidad de escritura nunca ha sido el cuello de botella.”8

Métrica Movimiento Fuente
Adopción de IA (mensual) 92,6% DX Q1 20261
Código generado por IA 22% a 26,9% DX Q4 2025 a Q1 20261 2
Horas ahorradas por semana 3,6 a ~4 DX Q4 2025 a Q1 20261 2
Ganancia de productividad ~10% (sin cambios) DX Q1 20261
Confianza en la precisión de IA 43% a 29% (confianza combinada) Stack Overflow 2024 a 20256
Estabilidad de entregas -7,2% por cada 25% de adopción de IA DORA 20245

La fila crítica es la última. El informe DORA de 2024 encuestó a 39.000 profesionales y encontró que por cada 25% de aumento en la adopción de IA, el rendimiento de entregas disminuyó un estimado de 1,5% y la estabilidad de entregas disminuyó un 7,2%.5 El informe DORA de 2025 encontró que la relación IA-rendimiento pasó de la correlación negativa observada en 2024 a una positiva, pero la estabilidad de entregas siguió asociada negativamente con la adopción de IA.4 La adopción de IA continuó correlacionándose con mayor inestabilidad incluso cuando el rendimiento mejoró.

La divergencia importa más que los promedios. METR estudió a 16 desarrolladores experimentados de código abierto trabajando en 246 issues reales de repositorios y encontró que tardaron un 19% más con herramientas de IA que sin ellas.9 El ensayo controlado aleatorizado de Google con 96 ingenieros encontró una mejora de velocidad del 21%, pero el resultado no fue estadísticamente significativo (IC del 95% cruzó el cero).10

McKinsey encontró ganancias del 35-50% en tareas simples pero menos del 10% en tareas de alta complejidad, y los desarrolladores junior que usaban IA fueron un 7-10% más lentos en un estudio con 40 de sus propios desarrolladores.11 El patrón: la IA acelera las partes del desarrollo que nunca fueron el cuello de botella.

Las empresas que superaron el muro no usaron mejores modelos. Construyeron infraestructura que capturaba lo que los modelos pasaban por alto.


Por qué existe el muro

Tres causas raíz explican el estancamiento. Cada una opera de forma independiente. Juntas forman un techo que mejores modelos no pueden penetrar.

Inanición de contexto

Los asistentes de programación con IA operan sobre el código visible en el archivo actual y el contexto que cabe en la ventana de prompt. No conocen las decisiones de arquitectura, los contratos de API, las restricciones de despliegue ni las convenciones de nombres del equipo a menos que alguien inyecte esa información.

Sin contexto específico del proyecto, el modelo adivina. Inventa rutas de archivos que siguen convenciones plausibles pero no existen. Genera llamadas a API hacia endpoints que coinciden con patrones comunes pero no con los suyos. Sugiere importaciones de paquetes que el proyecto no utiliza.12

Faros AI analizó telemetría de 10.000 desarrolladores en 1.255 equipos y encontró que los pull requests asistidos por IA son un 154% más grandes que los no asistidos.12 Los PRs más grandes tienen más superficie para errores dependientes del contexto. La IA genera código con confianza. El código compila. El código no tiene en cuenta la restricción documentada en una página de Confluence que la IA nunca vio.

El comportamiento no es un problema de alucinación en el sentido de seguridad de modelos. El modelo está funcionando exactamente como fue diseñado: prediciendo código probable dado el contexto disponible. El problema es que el contexto disponible excluye la mayor parte de lo que importa para la corrección en un código base específico.

Vacío de verificación

La IA genera código más rápido de lo que los procesos de revisión existentes pueden absorber. Faros encontró que los PRs asistidos por IA tardan un 91% más en revisarse.12 Los desarrolladores completan un 21% más de tareas y fusionan un 98% más de pull requests, pero el pipeline de revisión maneja producción a velocidad humana.12

El estudio de código inseguro de Stanford cuantificó la dimensión de seguridad. Los investigadores asignaron a 47 desarrolladores tareas de programación con y sin asistencia de IA. El grupo asistido por IA escribió soluciones inseguras con más frecuencia en cuatro de cinco tareas. En la tarea de inyección SQL, el 36% del grupo con IA escribió código vulnerable frente al 7% del grupo de control. Los participantes con asistencia de IA tenían más probabilidad de creer que habían escrito código seguro incluso cuando no era así.13 La combinación de producción más rápida y mayor falsa confianza crea una brecha de verificación que la revisión manual no puede cerrar a escala.

GitClear analizó 153 millones de líneas de código modificadas y encontró que el code churn (código reescrito dentro de las dos semanas posteriores a su escritura) se proyectaba a duplicarse en 2024 respecto a las líneas base pre-IA.14 El aumento de volumen por las herramientas de IA crea retrabajo que compensa parcialmente las ganancias de productividad. La encuesta de Stack Overflow de 2025 confirma la fricción: el 66% de los desarrolladores reporta dedicar más tiempo a corregir código generado por IA que está “casi correcto”.6

Brecha de gobernanza

El código generado por IA elude los mecanismos de gobernanza que los desarrolladores humanos internalizan. Un desarrollador senior sabe que debe revisar la guía de estilo, ejecutar el linter, actualizar el changelog y notificar al líder del equipo sobre cambios de arquitectura. Un asistente de IA genera una solución que satisface el prompt. La brecha entre “compila y pasa las pruebas” y “cumple los estándares organizacionales” es gobernanza.

Los investigadores de McKinsey atribuyeron la desaceleración de los desarrolladores junior a la brecha entre el código generado y el contexto organizacional. Los desarrolladores junior carecen del criterio para evaluar si la producción de la IA cumple estándares que aún no han internalizado. Sin infraestructura de gobernanza que codifique esos estándares como verificaciones automatizadas, la producción de IA fluye sin control hacia abajo.

La brecha de gobernanza se acumula entre equipos. La utilidad generada por IA de un desarrollador duplica el módulo existente de otro desarrollador. Dos endpoints generados por IA usan formatos de error diferentes para la misma API. Las migraciones generadas por IA siguen una convención de nombres diferente al estándar del equipo. Cada violación es pequeña. El efecto acumulativo es un código base que se desvía de sus propias convenciones más rápido de lo que la revisión puede corregir.


Cómo se ve el otro lado

El hallazgo de DORA describe dos poblaciones usando herramientas idénticas. Las organizaciones con prácticas sólidas vieron cómo la IA amplificaba sus fortalezas. Las organizaciones con prácticas débiles vieron cómo la IA amplificaba sus disfunciones.4 La variable entre ellas no es qué IA usan. Es la infraestructura alrededor de la IA.

Cada causa raíz se mapea a una solución de infraestructura. La tabla a continuación mapea la cadena desde el problema hasta la solución, con una implementación concreta de un sistema que construí y documenté en los artículos complementarios. El ejemplo es un intento con cifras específicas, no una prescripción universal.

Causa raíz Qué se rompe Solución de infraestructura Implementación
Inanición de contexto Rutas inventadas, APIs incorrectas, restricciones faltantes Inyección de contexto en tiempo de prompt 9 hooks en cada prompt inyectan fecha, rama, documentos del proyecto y contexto arquitectónico15 (arquitectura detallada)
Vacío de verificación Los errores se entregan más rápido de lo que la revisión los detecta Ejecución de pruebas independiente, revisión automatizada Bucle autónomo Ralph: el ejecutor de pruebas verifica cada cambio, luego 3 agentes de revisión independientes (corrección, seguridad, convenciones) evalúan antes de fusionar15 (sistema completo)
Brecha de gobernanza Estándares eludidos, convenciones a la deriva Puertas de calidad automatizadas con requisitos de evidencia Evidence Gate: 6 criterios con prueba requerida, 7 modos de fallo nombrados, detección de lenguaje evasivo15 (filosofía de calidad)

La inyección de contexto aborda la inanición al asegurar que el modelo reciba información específica del proyecto en cada prompt. Un hook dispatcher ejecuta nueve manejadores secuenciales que inyectan la fecha actual, la rama de Git, el directorio de trabajo, las convenciones del proyecto, el contexto de la tarea activa y las restricciones arquitectónicas. El modelo recibe entre 200 y 400 tokens de contexto de anclaje antes de procesar la solicitud del usuario. Latencia medida: 200ms en total para los nueve hooks. El modelo deja de inventar rutas de archivos porque se le han proporcionado las rutas reales.15

La verificación independiente aborda el vacío al eliminar a los humanos del cuello de botella de verificación en comprobaciones rutinarias. El bucle de desarrollo autónomo (documentado en Anatomy of a Claw) genera código, ejecuta la suite completa de pruebas y envía los resultados a tres agentes de revisión que operan de forma independiente. El agente de implementación nunca revisa su propia producción. La separación refleja el hallazgo de que el grupo asistido por IA en el estudio de Stanford tenía más confianza en código inseguro: la autoverificación no es confiable sin importar si el autor es humano o artificial.13

La gobernanza automatizada aborda la brecha al codificar los estándares del equipo como verificaciones ejecutables. El Fabrication Firewall clasifica cada acción saliente como local, compartida o externa, delegando la publicación externa a la revisión humana. Las puertas de calidad bloquean los informes de finalización que usan lenguaje evasivo (“debería funcionar”, “parece correcto”) en lugar de citar resultados de pruebas y rutas de archivos. El sistema aplica estándares que los desarrolladores humanos aplicarían si tuvieran tiempo de revisar cada línea. A la velocidad de generación de la IA, no lo tienen.

El sistema combinado produce resultados medibles en su propio código base: 4.518 fragmentos de código indexados para búsqueda semántica, 49.746 fragmentos de bóveda en 15.800 archivos para memoria persistente, y una suite de pruebas que se ejecuta automáticamente antes de que cualquier cambio reporte su finalización.15 Estos números describen la infraestructura de un solo desarrollador. No pueden demostrar que el enfoque sea generalizable. Pueden demostrar que el muro es permeable con las herramientas adecuadas del otro lado.


La proporción de gobernanza

El sistema de hooks descrito en Anatomy of a Claw contiene 84 hooks. Un conteo verificado los separa por función: 35 hooks de juicio que deciden si algo debe ocurrir, 44 hooks de automatización que ejecutan acciones predeterminadas, y 5 hooks de utilidad (dispatchers, gestión de estado). La proporción de gobernanza es 4:5. Comenzó en 1:6.15

La proporción inicial refleja lo que la mayoría de los equipos construyen primero: automatización. Inyectar contexto. Registrar métricas. Formatear salida. Registrar uso. Estos hooks capturan el 10% que todos obtienen. Automatizan las partes mecánicas del desarrollo que ya estaban parcialmente automatizadas antes de la IA. Los datos de DX confirman esto: las cuatro horas ahorradas por semana provienen de la generación de código y la reducción de código repetitivo, tareas que ya eran la parte más rápida del ciclo de desarrollo.1

El giro hacia hooks de juicio refleja de dónde provienen las ganancias adicionales.

Inversión Qué captura Etapa
Hooks de automatización (inyectar, registrar, formatear) El primer 10% Línea base de adopción
Hooks de juicio (verificar, filtrar, revisar) El siguiente 10-30% Superando el muro
Integración organizacional (flujos de trabajo, ciclos de retroalimentación) Las ganancias compuestas Mejora sostenida

La encuesta de McKinsey de 2025 a casi 300 empresas que cotizan en bolsa encontró que las de mayor rendimiento vieron mejoras de productividad del 16-30% y mejoras de calidad del 31-45%.16 Estas organizaciones tenían una adopción del 80-100% de desarrolladores combinada con integración organizacional. El factor diferenciador no fue la tasa de adopción (que se correlaciona con ganancias del 10% en todos los casos) sino la infraestructura y los procesos construidos alrededor de esa adopción.

El planteamiento de Laura Tacho aplica aquí: “Soy escéptica respecto a la promesa de cualquier tecnología de mejorar el rendimiento sin abordar esas restricciones subyacentes.”3 Las restricciones subyacentes son restricciones de juicio. ¿Este código cumple nuestros estándares? ¿Este cambio rompe algo más adelante? ¿Esta producción contiene una fabricación? Los hooks de automatización no pueden responder estas preguntas. Los hooks de juicio sí pueden, de forma imperfecta, al codificar los criterios que los desarrolladores experimentados aplican mentalmente.

La proporción aún no ha alcanzado la paridad. El sistema todavía automatiza más de lo que gobierna. El desequilibrio es en sí un diagnóstico: cualquier capa de orquestación donde los hooks de automatización superan en número a los hooks de juicio tiene margen de mejora.


Lo que realmente necesita construir

El sistema descrito en los artículos complementarios tiene 84 hooks, 43 skills, 19 agentes y 15.000 líneas de infraestructura.15 No necesita 15.000 líneas. Necesita tres cosas.

Un hook de inyección de contexto. Cinco líneas de bash que inyectan la fecha actual, la rama y el directorio de trabajo en cada prompt de IA. La inyección elimina toda una categoría de alucinación: el modelo deja de inventar rutas de archivos y nombres de ramas porque tiene los reales.

#!/bin/bash
# inject-context.sh — minimum viable context injection
echo "Date: $(date +%Y-%m-%d)"
echo "Branch: $(git branch --show-current 2>/dev/null || echo 'not a git repo')"
echo "Directory: $(pwd)"

Una puerta de calidad. Quince líneas que buscan lenguaje evasivo en los informes de finalización. Si el agente dice “debería funcionar” en lugar de citar resultados de pruebas, la puerta bloquea. La puerta aborda el vacío de verificación en el punto de entrada más económico posible.15

#!/bin/bash
# quality-gate.sh — minimum viable verification
INPUT=$(cat)
HEDGES=$(echo "$INPUT" | grep -ciE '\bshould (work|pass|be fine)\b|\bprobably\b|\blooks correct\b')
if [ "$HEDGES" -gt 0 ]; then
  echo '{"decision":"block","reason":"Hedging language detected. Cite test output instead."}'
else
  echo '{"decision":"allow"}'
fi

Un ejecutor de pruebas independiente. Un hook que ejecuta la suite de pruebas del proyecto después de cada cambio de código y falla de forma visible si las pruebas se rompen. La implementación varía según el proyecto. El principio no: el agente que escribe código no debe ser el único juez de ese código.

Comience con lo que más se rompe en su flujo de trabajo. Si su IA inventa rutas de archivos, construya primero el hook de contexto. Si su IA entrega código sin probar, construya primero el ejecutor de pruebas. Si su IA escribe “listo” sin evidencia, construya primero la puerta de calidad.

Karpathy describió la evolución del vibe coding a la ingeniería agéntica: “orquestar agentes que hacen [el trabajo] y actuar como supervisión.”17 Los tres hooks anteriores son la supervisión mínima viable. No producirán ganancias del 30%. Le moverán del 10% hacia el 15%, y cada uno que agregue revelará la siguiente restricción que vale la pena abordar.

El muro es real. También es específico. Inanición de contexto, vacío de verificación y brecha de gobernanza son problemas de ingeniería con soluciones de ingeniería. Los modelos seguirán mejorando. El muro se mantendrá en el 10% para cada equipo que trate la IA como un generador de código en lugar de un sistema que requiere infraestructura para gobernar su producción.


Conclusiones clave

Para desarrolladores individuales. Comience con un hook de inyección de contexto. Cinco líneas de bash que inyectan fecha, rama y directorio de trabajo eliminan toda una categoría de alucinación de la IA. El muro empieza a ceder cuando el modelo conoce las rutas reales de sus archivos en lugar de adivinarlas.

Para líderes de equipo. Mida su proporción de gobernanza: cuántos de sus hooks de IA verifican la producción frente a cuántos automatizan tareas. Si los hooks de automatización superan en número a los de juicio, su equipo solo captura el primer 10%. Los datos de DX confirman que las cuatro horas ahorradas por semana provienen de la generación de código, tareas que ya eran la parte más rápida del ciclo de desarrollo.1

Para ingenieros de plataforma. Construya la capa de verificación antes de escalar la adopción de IA. DORA encontró que las organizaciones que desplegaron IA sin infraestructura de ingeniería vieron aumentar la inestabilidad con la adopción.4 5 Las tres causas raíz se mapean a tres soluciones de infraestructura. Comience con la que cause más fricción en su pipeline.


Fuentes


  1. Ivan Brezak Brkan, “This CTO Says 93% of Developers Use AI – but Productivity Is Still ~10%,” ShiftMag, February 18, 2026, shiftmag.dev. Data from DX (a developer analytics company), based on 121,000+ developers across 450+ companies and a broader pool of 4.2 million developers observed November 2025 to February 2026. 

  2. Laura Tacho, “AI-Assisted Engineering: Q4 Impact Report,” DX, November 4, 2025, getdx.com. Data from 135,000+ developers across 435 companies, July to October 2025. 

  3. Laura Tacho, quoted in Brkan, “This CTO Says 93% of Developers Use AI.” Full quote: “This is really a management problem. The hype made it sound like just trying AI would automatically pay off.” 

  4. DORA, Accelerate State of AI-assisted Software Development 2025, Google, September 29, 2025, dora.dev. Nearly 5,000 technology professionals surveyed. Key finding: “AI’s primary role in software development is that of an amplifier.” 

  5. DORA, Accelerate State of DevOps Report 2024, Google, October 2024, dora.dev. 39,000+ professionals surveyed. For every 25% increase in AI adoption: estimated 1.5% decrease in delivery throughput, 7.2% decrease in delivery stability. 

  6. Stack Overflow, 2025 Developer Survey, July 29, 2025, survey.stackoverflow.co. 49,000+ total respondents from 177 countries. Combined trust declined from 43% (2024) to 29% (2025). Nearly 46% actively distrust AI accuracy (26.1% somewhat + 19.6% highly). 66% report spending more time fixing “almost-right” AI-generated code. 

  7. JetBrains, State of Developer Ecosystem 2025, October 2025, blog.jetbrains.com. 24,534 developers across 194 countries. 85% regular AI tool usage; 23% cite code quality as top concern. 

  8. Laura Tacho, interviewed by Gergely Orosz, “Measuring the Impact of AI on Software Engineering,” Pragmatic Engineer, July 23, 2025, newsletter.pragmaticengineer.com. “Typing speed has never been the bottleneck.” 

  9. Joel Becker, Nate Rush, Elizabeth Barnes, and David Rein, “Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity,” METR, July 10, 2025, metr.org. 16 experienced developers, 246 real repository issues. Developers took 19% longer with AI tools. 

  10. Elise Paradis et al., “How Much Does AI Impact Development Speed? An Enterprise-Based Randomized Controlled Trial,” arXiv preprint, October 16, 2024, arxiv.org. 96 Google engineers. ~21% speed improvement, not statistically significant (95% CI: [-0.51, 0.03]). 

  11. Begum Karaci Deniz et al., “Unleashing Developer Productivity with Generative AI,” McKinsey, June 27, 2023, mckinsey.com. 40 McKinsey developers. Gains of 35-50% on simple tasks; less than 10% on high-complexity tasks. Junior developers 7-10% slower. 

  12. Neely Dunlap, “The AI Productivity Paradox Research Report,” Faros AI (a DevOps analytics vendor), July 23, 2025 (updated January 8, 2026), faros.ai. 10,000+ developers across 1,255 teams. AI-assisted PRs: 9% more bugs, 91% longer reviews, 154% larger. Developers complete 21% more tasks and merge 98% more PRs. 

  13. Neil Perry, Megha Srivastava, Deepak Kumar, and Dan Boneh, “Do Users Write More Insecure Code with AI Assistants?” in CCS ‘23: Proceedings of the 2023 ACM SIGSAC Conference, November 2023, arxiv.org. 47 participants. AI-assisted group wrote insecure solutions more often in 4 of 5 tasks. SQL injection vulnerability: 36% AI group vs. 7% control. 

  14. William Harding and Matthew Kloster, “Coding on Copilot: 2023 Data Suggests Downward Pressure on Code Quality,” GitClear (a code analytics vendor), January 2024, gitclear.com. 153 million changed lines of code analyzed. Code churn projected to double in 2024 compared to 2021 pre-AI baseline. 

  15. Author’s analysis. Hook system described in “Anatomy of a Claw: 84 Hooks as an Orchestration Layer.” Output firewall described in “The Fabrication Firewall.” Context injection described in “Context Is Architecture.” Quality system described in “Jiro Quality Philosophy.” Verified counts: 84 hooks (35 judgment, 44 automation), 43 skills, 19 agents, 30+ library modules, ~15,000 lines of code. Semantic code search: 4,518 chunks indexed across 653 files. Persistent memory: 49,746 chunks across 15,800 files. 

  16. McKinsey, “Unlocking the Value of AI in Software Development,” November 3, 2025, mckinsey.com. Nearly 300 publicly traded companies. Highest performers: 16-30% productivity, 31-45% quality improvement. Companies with 80-100% developer adoption saw gains of 110%+. 

  17. Andrej Karpathy, post on X, February 4, 2026. “Many people have tried to come up with a better name…my current favourite: ‘agentic engineering.’ ‘Agentic’ because the new default is that you are not writing the code directly 99% of the time, you are orchestrating agents who do and acting as oversight.” 

Artículos relacionados

Anthropic Measured What Works. My Hooks Enforce It.

Anthropic analyzed 9,830 conversations. Iterative refinement doubles fluency markers. Polished outputs suppress evaluati…

14 min de lectura

What Actually Breaks When You Run AI Agents Unsupervised

Seven named failure modes from 500+ autonomous agent sessions. Each has a detection signal, a real example, and a concre…

16 min de lectura

Context Window Management: What 50 Sessions Taught Me About AI Development

I measured token consumption across 50 Claude Code sessions. Context exhaustion degrades output before you notice. Here …

6 min de lectura