Problemas de agentes de IA para programar: 5 fallos comunes

La primera semana que dejamos correr un agente de código sin supervisión en un proyecto real, hizo tres cosas en silencio que no notamos hasta después: llenó una parte del SSD con archivos de log, dejó un dev server corriendo en un puerto que necesitábamos dos días más tarde, y subió nuestra factura de tokens más rápido de lo esperado. Nada explotó. Esa es la trampa. Los agentes de IA para programar fallan despacio y en segundo plano, así que los problemas se acumulan antes de que alguien ate los cabos. Esta es la guía central que reúne los cinco problemas que seguimos encontrando, con el arreglo más rápido para cada uno y una rutina de mantenimiento que toma unos minutos por semana.

Qué es este problema

"Problemas de los agentes de IA para programar" es el cajón que reúne los efectos secundarios operativos de dejar que un modelo corra comandos de shell, edite archivos y llame a un LLM en tu máquina. El agente puede ser excelente programando; los problemas aparecen alrededor: el disco se llena, los archivos quedan en riesgo, los costos suben, te frenan, y el entorno queda hecho un desorden. En nuestras pruebas, el mejor encuadre es este: un agente de IA para programar es como un becario potente pero descuidado. Hace la tarea que le pediste y además deja la cocina sucia, a menos que pongas guardrails y un hábito de limpieza. Los cinco problemas de abajo son el desorden, y una rutina corta es la limpieza.

A quién le importa

Ideal para: desarrolladores independientes, creadores y product managers que corren OpenAI Codex, Claude Code o Cursor de forma local en una máquina personal o de equipo chico, incluyendo personas no técnicas que hacen "vibe-coding" de herramientas y sitios pequeños.
También útil para: equipos chicos que comparten un workflow y quieren un checklist base que todos sigan antes y después de las sesiones con el agente.
No es una preocupación para: equipos cuyos agentes corren solo en sandboxes de nube efímeros y totalmente gestionados, con aislamiento a nivel de plataforma, topes de facturación y rotación de logs ya resueltos por infraestructura. Igual te sirve la sección de seguridad, pero el disco y los procesos colgados importan menos.

Qué necesitas

Herramienta	Para qué sirve	Enlace oficial
Un agente de IA para programar	El agente que corres de forma local — OpenAI Codex CLI, Claude Code o Cursor	Documentación de OpenAI Codex
Tu terminal / sistema	macOS, Linux o Windows PowerShell para correr los comandos de diagnóstico y limpieza	Incluido en tu sistema
git	Haz commit antes de correr el agente para que cada cambio sea reversible; las branches y worktrees te dan una copia desechable	Sitio oficial de git
Un container o VM	Aislamiento opcional para que el agente solo vea el proyecto, no toda tu máquina	El container o VM de tu preferencia
La vista de uso del agente	Ver el gasto de tokens y el estado de los límites — por ejemplo `/usage` en Claude Code	Documentación de costos de Claude Code

El arreglo de un vistazo

Este es el mapa en una sola pantalla: cada problema, el síntoma que de verdad vas a notar, el arreglo más rápido, y la guía a fondo con el playbook completo. Échale un ojo y luego guarda la rutina del final.

Problema	Síntoma que notarás	Arreglo más rápido	Guía a fondo
Desgaste de disco / SSD	El espacio libre baja sin razón clara; una carpeta grande que crece en tu directorio personal	Cierra el agente, poda su almacén de logs y excluye esas rutas del backup o cloud-sync	Codex llena el disco
Seguridad ante acciones destructivas	Falta un archivo que querías, o el agente corrió un comando en la ruta equivocada	Haz commit primero, corre en el modo de permisos más restrictivo y mantén una deny-list	El agente borró mis archivos
Costo de tokens	Tu factura o uso sube más rápido de lo esperado en sesiones largas	Usa clear/compact entre tareas, cachea el contexto estable y elige el modelo del tamaño justo	Reducir costos de tokens
Límites de uso / baja calidad	Te frenan a mitad de una tarea, o el output de pronto parece peor	Revisa primero la vista de uso, luego el estado o blog de ingeniería del proveedor	Límites de uso explicados
Procesos colgados / desorden del entorno	Un puerto ocupado, un container todavía arriba, o la máquina lenta tras la sesión	Lista y mata periódicamente los procesos colgados; mantén el agente aislado	Mira la rutina de abajo

Paso a paso

Si solo haces una cosa después de leer esto, monta la rutina. Así la pones en marcha desde cero:

Antes de cada sesión, haz commit. Asegúrate de que tu working tree esté limpio y con commit (o usa stash) para que cada cambio del agente sea reversible con un solo comando. Una branch dedicada o un git worktree te dan una copia desechable que puedes tirar si una corrida sale mal.
Define el modo de permisos a propósito. Arranca en el modo más restrictivo que igual permita terminar la tarea — solo lectura o plan primero, con aprobación para los comandos. Aflójalo solo cuando confíes en el rumbo. A junio de 2026 los nombres de modos y los valores por defecto difieren entre herramientas y cambian entre versiones; verifica la documentación oficial de cada una.
Aísla el entorno cuando puedas. Corre el agente en un container o VM con solo el proyecto montado, y con credenciales acotadas y de corta vida — nunca las credenciales de tu base de datos de producción ni keys amplias de la nube. Eso limita el radio de daño de cualquier error y contiene los procesos colgados.
Mira el uso a diario. Abre la vista de uso del agente (por ejemplo /usage en Claude Code) una vez al día para ver el gasto de tokens y si estás cerca de un límite. Una mirada de 10 segundos atrapa una sesión descontrolada antes que la factura.
Usa clear o compact entre tareas no relacionadas. Reinicia la conversación para dejar de pagar por reenviar un historial enorme en cada turno, y para que el contexto de la tarea anterior no confunda a la siguiente.
Limpieza semanal. Poda el almacén de logs local del agente (el logging de Codex es el grande), mata los dev servers o containers que quedaron corriendo, y compara tu factura o tendencia de uso contra la semana anterior.
Ten un asistente de respaldo configurado. Para que un límite de uso o un incidente temporal de calidad en un proveedor no te bloquee el día entero.

Comandos para copiar y pegar

Esta es la rutina de mantenimiento como checklist para copiar y pegar, más los comandos de diagnóstico detrás. Corre los diagnósticos y luego guarda el checklist donde lo veas. Toma cualquier ruta como ilustrativa — confirma la ruta exacta en tu máquina antes de borrar nada.

# ===== RUTINA DE MANTENIMIENTO DEL AGENTE DE IA =====
# ANTES DE TRABAJAR (cada sesion)
# [ ] git status limpio / con commit (o en una branch o worktree desechable)
# [ ] modo de permisos en el mas restrictivo que funcione (solo lectura / plan; aprobacion activa)
# [ ] agente corriendo en un entorno aislado con credenciales acotadas y de corta vida

# A DIARIO
# [ ] mira la vista de uso (p. ej. /usage en Claude Code): gasto + estado de limites
# [ ] /clear o /compact entre tareas no relacionadas

# SEMANAL
# [ ] poda el almacen de logs local del agente (el logging de Codex es el grande)
# [ ] mata dev servers / containers que quedaron corriendo
# [ ] revisa la factura / tendencia de uso vs la semana pasada

# ----- DIAGNOSTICO: que tan grande es el almacen de logs de Codex? -----
# macOS / Linux:
du -sh ~/.codex

# Windows PowerShell:
Get-ChildItem "$env:USERPROFILE\.codex" -Recurse -File | Measure-Object Length -Sum

# ----- DIAGNOSTICO: que dev servers / procesos deja el agente? -----
# macOS / Linux — ver que escucha en un puerto comun de dev (ejemplo: 3000):
lsof -i :3000

# Windows PowerShell — ver que escucha en un puerto (ejemplo: 3000):
Get-NetTCPConnection -LocalPort 3000 -State Listen

# ----- DIAGNOSTICO: algun container que arranco el agente sigue corriendo? -----
docker ps

# NOTA: cierra el agente antes de podar sus logs, y confirma la ruta exacta primero.
# Borra solo los archivos de log/sqlite/WAL que identifica la guia a fondo,
# nunca un rm -rf amplio sobre una ruta adivinada. Mira la guia de seguridad.

Ejemplo: lo que vas a ver

Una semana típica de "algo anda raro" se ve así. El espacio libre del disco bajó unos cuantos gigabytes sin proyectos nuevos, y un chequeo de tamaño del directorio personal de Codex sale sorprendentemente grande:

$ du -sh ~/.codex
 47G    /Users/tu/.codex

$ lsof -i :3000
COMMAND   PID   USER   FD   TYPE  NODE NAME
node    48213    tu    23u  IPv4   TCP *:3000 (LISTEN)   # quedo de una corrida hace dos dias

$ docker ps
CONTAINER ID   IMAGE        STATUS          PORTS
9f2c1a7b4e8d   node:20      Up 2 days       0.0.0.0:5173->5173/tcp   # todavia corriendo

Mientras tanto, la vista de uso muestra que vas al 80% de una ventana móvil más temprano de lo normal, y el output en una tarea difícil se sintió un poco peor esta tarde. Por separado cada cosa es menor. Juntas son los cinco problemas apareciendo a la vez.

Ejemplo: después del arreglo

Después de una pasada por la limpieza semanal — cerrar el agente, podar el almacén de logs según la guía a fondo, matar el proceso node colgado y el container que quedó, y un chequeo rápido de uso — los mismos diagnósticos se ven tranquilos:

$ du -sh ~/.codex
 312M   /Users/tu/.codex          # de vuelta a un tamano sano

$ lsof -i :3000
                                   # nada escuchando — el puerto esta libre

$ docker ps
CONTAINER ID   IMAGE   STATUS   PORTS    # sin containers colgados

Recuperaste espacio en disco, el puerto quedó libre para el trabajo de hoy, y como hiciste commit antes de la última corrida del agente, nada de lo que te importaba estuvo en riesgo. La rutina tomó unos cinco minutos.

Notas probadas

Tipo de input: una racha real de varios días corriendo agentes de código de forma local en un proyecto de equipo chico, y luego auditando lo que dejaron atrás (disco, procesos, uso).
Herramienta usada: Claude Code y OpenAI Codex CLI, con Cursor como referencia para comparar.
Mejor resultado: la limpieza semanal junto al hábito de "commit antes de correr" atrapó cada problema temprano; recuperar disco y matar procesos colgados fueron las victorias de mayor impacto y menor esfuerzo.
Qué falló: confiar en la memoria en vez de un checklist escrito — sin la rutina fijada en un lugar visible, los pasos semanales se nos pasaban y los problemas volvían.
Ediciones manuales aún necesarias: confirmar las rutas exactas de logs antes de borrar, y ajustar los modos de permisos por herramienta — los valores por defecto difieren y cambian entre versiones, así que verificamos cada uno contra la documentación oficial.

Errores que sí cometimos

El más grande: suponer que "ya le dije al agente que no" es protección. Por nuestra experiencia, las instrucciones en lenguaje natural no son un límite de seguridad — el aislamiento real sí lo es. Hemos tenido un agente que hizo algo que le habíamos pedido explícitamente que no hiciera, simplemente porque los permisos se lo permitían. Decirle "no toques X" es una pista, no una barrera; la barrera es el modo de permisos, la deny-list y el container.

El segundo: borrar un almacén de logs y esperar que el espacio vuelva al instante. Un usuario reportó que borrar el almacén no siempre recuperaba el espacio de inmediato, y hemos visto un retraso parecido. Cierra el agente por completo, confirma la ruta y vuelve a chequear el tamaño después, en vez de asumir que funcionó.

El tercero: reescribir prompts con pánico cuando el output baja. A junio de 2026, una caída de calidad amplia y repentina suele ser un incidente temporal y conocido, más que tu prompt fallando — revisa el estado o el blog de ingeniería del proveedor antes de desarmar tu setup.

Errores comunes

Correr en el modo de permisos más suelto por defecto porque las preguntas molestan. Comodidad ahora, un archivo borrado después. Arranca restrictivo y afloja a propósito.
No mirar el uso hasta que llega la factura o una pausa dura. Una mirada diaria de 10 segundos a la vista de uso evita ambas sorpresas.
Dejar que los almacenes de logs y los dev servers se acumulen durante semanas. El disco se llena y los puertos quedan ocupados; una pasada semanal de podar-y-matar lo mantiene aburrido.
Tratar el "se volvió más tonto" como una degradación permanente y rehacer todo, cuando suele ser un bug temporal que se arregla.
Saltarse el commit previo a la corrida. Sin un punto de partida limpio y con commit, no tienes un undo fácil cuando una corrida del agente se tuerce.

Alternativas de herramientas

Los mismos cinco problemas aparecen distinto en los agentes populares. A junio de 2026 el comportamiento y los valores por defecto cambian entre versiones — verifica contra la documentación oficial de cada herramienta.

Área del problema	OpenAI Codex	Claude Code	Cursor
Disco / logging	Mantiene un almacén local de trace/log bajo `~/.codex` (incluye un archivo SQLite y uno de write-ahead-log) que puede crecer mucho con uso intenso — el problema de disco protagonista aquí	Verificamos que no tiene un sink de log SQLite-WAL siempre activo equivalente, así que este bug puntual es propio de Codex (no es una afirmación de que esté "libre de problemas")	Gestiona sus propios cachés y logs; revisa la documentación de Cursor para las ubicaciones
Seguridad destructiva	Modos de sandbox configurables (solo lectura, workspace-write, full-access) más una política de aprobación	Modos de permisos (default pregunta, plan es solo lectura, acceptEdits acepta ediciones solo, bypassPermissions quita las preguntas) más reglas allow/deny	Controles del Agent para auto-run y comandos allow/deny; revisión de cambios
Costo de tokens	Elige el modelo del tamaño justo, acota el contexto; revisa la página oficial de precios	Prompt caching, `/clear` y `/compact`, elección de modelo, `/usage`	Acota el contexto y elige el modelo por tarea; revisa los precios de Cursor
Límites / baja calidad	El liderazgo de OpenAI reconoció problemas de routing que podían mandar algunas consultas a respuestas más débiles	Ventana de uso móvil más un límite semanal; revisa `/usage`; Anthropic publica postmortems de ingeniería sobre bugs de calidad	Depende del proveedor de fondo al que te conectes

FAQ

¿Cuáles son los problemas más comunes de los agentes de IA para programar?

Por nuestra experiencia se agrupan en cinco: desgaste de disco y SSD por logging local intenso, acciones destructivas sobre archivos o comandos, costos de tokens que suben porque el contexto se cobra en cada turno, límites de uso o bajas temporales de calidad, y procesos en segundo plano que el agente deja corriendo. El agente puede programar muy bien mientras estos efectos operativos se acumulan en silencio. El arreglo no es dejar de usar agentes — es una rutina de mantenimiento ligera. Los detalles y valores por defecto cambian entre versiones a junio de 2026, así que verifica la documentación oficial de cada herramienta.

¿Corro mi agente en un modo de permisos restrictivo o simplemente confío en él?

Arranca restrictivo. En nuestras pruebas el default más seguro es el modo más limitado que igual permita terminar la tarea — solo lectura o plan primero, con aprobación para los comandos — y luego aflojas a propósito cuando confías en el rumbo. Las instrucciones en lenguaje natural como "no borres X" no son un límite de seguridad; el modo de permisos, la deny-list y el container sí lo son. El costo de arrancar restrictivo son unas preguntas extra; el de arrancar suelto puede ser un archivo perdido. A junio de 2026, revisa la documentación de tu herramienta para los nombres exactos de los modos.

¿Por qué mi agente de pronto se puso más lento o parece más tonto?

Suele ser una de dos cosas, y vale la pena distinguirlas. O alcanzaste un límite de uso y te pausaron, o la calidad del output bajó de verdad. Una caída de calidad amplia y repentina suele ser un bug temporal y conocido, no una degradación intencional — Anthropic ha publicado postmortems de ingeniería sobre esos bugs, y el liderazgo de OpenAI reconoció problemas de routing. Revisa primero la vista de uso, luego el estado o blog de ingeniería del proveedor, antes de reescribir tus prompts. A junio de 2026, verifica con la documentación oficial de uso.

¿Cómo evito que el agente deje servers y procesos corriendo?

Vuélvelo parte de la rutina semanal y aísla el entorno. Después de las sesiones, lista qué escucha en tus puertos de dev habituales y qué containers están arriba, y mata lo que esté colgado — los comandos de diagnóstico de arriba muestran cómo en macOS, Linux y Windows. Mejor aún, corre el agente en un container o VM para que los procesos sobrantes mueran con el container en vez de ensuciar tu host. Mantener el agente aislado es el arreglo más limpio a largo plazo; el paso de matar procesos es el comodín mientras tanto.

¿De verdad un agente de IA va a desgastar mi SSD?

Vale la pena gestionarlo, no entrar en pánico. Los SSD tienen una resistencia de escritura finita, y las escrituras de fondo sostenidas gastan parte de ella. Un usuario de Codex estimó escrituras acumuladas del orden de cientos de terabytes por año en un issue de GitHub — esa es una estimación de usuario, no una cifra oficial, y los SSD de consumo modernos traen ratings de resistencia altos. Así que trata el logging local intenso como algo para podar periódicamente y no como motivo para esperar una falla inminente. La guía a fondo cubre los archivos exactos que conviene limpiar de forma segura.

Recomendación final

No necesitas un equipo de plataforma para correr agentes de IA de forma responsable — necesitas una rutina. Haz commit antes de correr, trabaja en el modo de permisos más restrictivo que igual haga el trabajo, aísla el entorno cuando puedas, mira el uso a diario, y dedica cinco minutos por semana a podar logs, matar procesos colgados y revisar la factura. Cada uno de los cinco problemas tiene una guía hermana a fondo con el playbook completo; esta guía central es el mapa y el checklist que los une.

👉 Guarda esta página y copia la rutina de mantenimiento de la sección de Comandos donde tengas tus notas de dev, y luego ve recorriendo las cuatro guías a fondo de abajo según aparezca cada problema. Empieza por el que te esté molestando hoy.

Guías relacionadas

¿Codex te llena el disco? Frena el desgaste del SSD — la guía a fondo del problema 1.
Evita que tu agente de IA borre tus archivos — la guía a fondo del problema 2.
Cómo reducir los costos de tokens al programar con IA — la guía a fondo del problema 3.
Los límites de uso de Claude y ChatGPT explicados — la guía a fondo del problema 4.
ChatGPT vs Claude vs Gemini para programar — elige bien el agente desde el principio.

Problemas de los agentes de IA para programar: los 5 y cómo arreglarlos

Qué es este problema

A quién le importa

Qué necesitas

El arreglo de un vistazo

Paso a paso

Comandos para copiar y pegar

Ejemplo: lo que vas a ver

Ejemplo: después del arreglo

Notas probadas

Errores que sí cometimos

Errores comunes

Alternativas de herramientas

FAQ

¿Cuáles son los problemas más comunes de los agentes de IA para programar?

¿Corro mi agente en un modo de permisos restrictivo o simplemente confío en él?

¿Por qué mi agente de pronto se puso más lento o parece más tonto?

¿Cómo evito que el agente deje servers y procesos corriendo?

¿De verdad un agente de IA va a desgastar mi SSD?

Recomendación final

Guías relacionadas

Un pequeño gracias, solo si te sirvió

Qué es este problema

A quién le importa

Qué necesitas

El arreglo de un vistazo

Paso a paso

Comandos para copiar y pegar

Ejemplo: lo que vas a ver

Ejemplo: después del arreglo

Notas probadas

Errores que sí cometimos

Errores comunes

Alternativas de herramientas

FAQ

¿Cuáles son los problemas más comunes de los agentes de IA para programar?

¿Corro mi agente en un modo de permisos restrictivo o simplemente confío en él?

¿Por qué mi agente de pronto se puso más lento o parece más tonto?

¿Cómo evito que el agente deje servers y procesos corriendo?

¿De verdad un agente de IA va a desgastar mi SSD?

Recomendación final

Guías relacionadas

Un pequeño gracias, solo si te sirvió

Sigue leyendo

Límites de uso de Claude y ChatGPT (y por qué se siente más tonto)

ChatGPT vs Claude vs Gemini: ¿cuál escribe mejor en español?

Cómo reducir el costo de tokens de IA al programar: una rutina

El agente de IA borró mis archivos: por qué fallan y 5 guardrails