El primer mes, el agente de IA para programar se sentía barato. Para el tercero, la cuenta subía más rápido de lo esperado y nadie en el equipo sabía explicar exactamente por qué. Nos ha pasado: abres Claude Code o Codex, haces unas cuantas preguntas "rápidas" sobre un repo grande, y el contador sigue corriendo mucho después de terminar el trabajo. Lo incómodo es que el costo casi nunca coincide con la cantidad de código que realmente cambiaste. Coincide con cuánto contexto sigues enviando al modelo, turno tras turno, lo necesites todo o no.
Qué es realmente este problema
El costo de tokens de IA al programar es el cargo continuo por el contexto que un agente envía al modelo en cada turno. Y aquí está el detalle clave: a diferencia de un mensaje de chat normal, un agente de programación no manda solo tu última instrucción. Para ser útil, envía una foto de tu proyecto — los archivos relevantes, los pasos previos, la conversación hasta ese punto — y lo vuelve a hacer en el siguiente turno, y en el siguiente. Pagas por ese paquete completo cada vez. Así que lo que dispara el costo no es el largo de la respuesta; es el tamaño del contexto multiplicado por el número de turnos. Las sesiones largas sobre repos grandes son donde esto se acumula más rápido, y por eso varios equipos reportan cuentas de herramientas de IA que suben más rápido de lo esperado aunque su producción de código se mantenga modesta.
A quién le importa esto
- Ideal para: desarrolladores independientes y equipos pequeños que corren sesiones de agente largas, todos los días, sobre bases de código medianas o grandes, donde el reenvío de contexto se acumula durante el mes.
- También útil para: product managers y personas no técnicas que hacen "vibe-coding" de herramientas pequeñas y miran una cuenta de API compartida, y para cualquiera que pase de una suscripción fija a uso de API medido y de pronto vea el costo por token.
- No es problema para: quienes hacen ediciones ocasionales de un solo archivo en un proyecto chico, o quienes están en un plan de tarifa fija cuyo uso cabe cómodamente dentro de los límites incluidos — ahí el costo extra ya es pequeño y apretarlo más no vale la pena.
Qué necesitas
| Herramienta | Para qué sirve en control de costos | Enlace oficial |
|---|---|---|
| Claude Code | /usage, /clear, /compact, cambio de modelo y prompt caching automático integrados | Documentación de costos de Claude Code (en inglés) |
| OpenAI Codex CLI | Otro agente con sus propios controles de sesión y modelo; el costo igual escala con el contexto por turno | Documentación de OpenAI Codex (en inglés) |
| Páginas de precios | Las tarifas por token autoritativas y cualquier descuento por caché — siempre la fuente de verdad | Precios de Anthropic/Claude, Precios de la API de OpenAI |
| Panel de uso del proveedor | La cuenta real y el historial de uso, aparte de la estimación local dentro de la herramienta | La página de uso de tu cuenta del proveedor |
La solución de un vistazo
| Qué está disparando el costo | Arreglo más rápido |
|---|---|
| No sabes a dónde se va el dinero | Corre /usage y abre el panel del proveedor antes de cambiar nada |
| Reenvías el mismo contexto estable en cada turno | Apóyate en prompt caching — las lecturas de caché cuestan mucho menos que tokens de entrada nuevos |
| Un historial de conversación enorme viaja en cada turno | Usa /clear para empezar limpio o /compact para comprimir antes de seguir |
| Usas tu modelo más capaz para ediciones simples | Ajusta el tamaño: un modelo más barato para lo rutinario, el potente para razonamiento difícil |
| Vuelcas todo el repo al contexto | Limita a los archivos que toca la tarea; divide trabajos grandes en sesiones de subagentes enfocadas |
Paso a paso
- Mide primero. En Claude Code, corre
/usagepara ver el uso de tokens de la sesión actual y luego abre el panel de uso de tu proveedor para ver la foto real, la que se factura. El número dentro de la herramienta es una estimación local; el panel es la fuente de verdad. No optimices a ciegas. - Cachea el contexto estable. Identifica las partes del contexto que casi no cambian — convenciones del proyecto, un conjunto fijo de archivos de referencia, instrucciones largas — y deja que prompt caching las sirva. Las lecturas de caché cuestan mucho menos que reenviar los mismos tokens, así que la ganancia viene de mantener ese bloque estable consistente entre turnos.
- Limpia o compacta entre tareas. Cuando cambies a un trabajo no relacionado, corre
/clearpara dejar de pagar por arrastrar la conversación vieja. Cuando quieras seguir pero el historial está inflado, corre/compactpara comprimirlo en un resumen en vez de reenviar cada mensaje. - Ajusta el tamaño del modelo. Empareja el modelo con la tarea. Reserva tu modelo más capaz y más caro para razonamiento de verdad difícil, y manda ediciones rutinarias, renombrados y boilerplate a un modelo más barato y pequeño. Cambiar de modelo según la tarea es una de las palancas más grandes sobre la cuenta.
- Limita los archivos. Dile al agente qué archivos necesita la tarea en vez de dejar que cargue todo el repositorio. Contexto más angosto es contexto más barato. Para trabajos de varias partes, entrega subtareas enfocadas a subagentes o a sesiones separadas para que cada una corra con un paquete pequeño.
- Vuelve a medir. Corre
/usagey revisa el panel otra vez después de una sesión representativa. Compara contra tu base para saber qué cambio movió de verdad el número, y haz de la rutina un hábito en lugar de una limpieza única.
Comandos para copiar y pegar
Esta es la rutina de control de costos que corremos dentro de Claude Code. Son comandos de barra dentro de la herramienta, no comandos de shell, así que son iguales en macOS, Linux y Windows PowerShell. Córrelos en orden al inicio y durante una sesión de trabajo.
# 1. MEDIR — ve a dónde van los tokens antes de cambiar nada
/usage
# (luego abre el panel de uso de tu proveedor en el navegador para el total facturado)
# 2. CAMBIAS A UN TRABAJO NO RELACIONADO — suelta el historial viejo para dejar de reenviarlo
/clear
# 3. SIGUES UNA TAREA LARGA — comprime el historial en vez de reenviarlo todo
/compact
# 4. AJUSTA EL MODELO — modelo barato para lo rutinario, modelo potente para razonamiento difícil
/model
# 5. LIMITA EL CONTEXTO — nombra solo los archivos que la tarea necesita, p. ej.:
# "Edita solo src/auth/login.ts — no cargues el resto del repo."
# (instrucción ilustrativa, no un comando)
# 6. VOLVER A MEDIR — confirma que el cambio sí movió el número
/usage
Los comandos de modelo y de uso son ilustrativos de la interfaz actual de Claude Code; a junio de 2026, las herramientas cambian entre versiones — confirma los nombres exactos de los comandos en la documentación oficial de costos (en inglés).
Ejemplo: lo que vas a ver
El síntoma suele ser una vista de uso que sube de forma sostenida durante una sesión larga aunque sientas que solo estás haciendo preguntas chicas. Correr /usage a mitad de la sesión podría mostrar algo así — totales de tokens que siguen creciendo porque cada turno reenvía el contexto acumulado:
$ /usage
Uso de la sesion
Tokens totales: suben de forma sostenida turno a turno
Mayor contribuyente: conversacion acumulada + contexto amplio de archivos
Nota: las cifras son una estimacion local; revisa el panel del proveedor
La señal es que el número se mueve en proporción a cuánto ha durado la sesión y cuánto contexto está cargado, no en proporción a cuánto código realmente cambiaste.
Ejemplo: después del arreglo
Después de limpiar entre tareas no relacionadas, compactar las sesiones largas, limitar los archivos y mandar el trabajo simple a un modelo más barato, el mismo tipo de trabajo muestra una curva de uso más plana. Ya no pagas por reenviar un historial enorme en cada turno, y las ediciones rutinarias ya no corren en tu modelo más caro:
$ /usage
Uso de la sesion
Tokens totales: mas bajos y mas planos para el mismo trabajo
Contexto por turno: mas chico — solo archivos relevantes a la tarea
Modelo: trabajo rutinario en modelo barato, modelo potente reservado
El punto no es una caída dramática de una vez; es que la curva deja de acumularse como antes, y el panel de tu proveedor lo refleja a lo largo del mes.
Notas de prueba
- Tipo de entrada: sesiones diarias de programación con agente sobre un repositorio mediano o grande, mezclando ediciones simples con razonamiento difícil ocasional.
- Herramienta usada: Claude Code (con OpenAI Codex CLI probado como comparación de cómo se comporta el contexto por turno).
- Mejor resultado: combinar
/clearentre tareas no relacionadas con limitar archivos y ajustar el modelo — juntas cortan el mayor desperdicio, más que cualquier cambio por separado. - Qué falló: intentar "ahorrar tokens" escribiendo prompts cortos mientras arrastrabas un historial de conversación enorme — el historial dominaba el costo, así que los prompts cortos casi no lo movían.
- Ediciones manuales aún necesarias: decidir qué contexto es de verdad lo bastante estable para cachear, y juzgar cuándo una tarea es lo bastante difícil para merecer el modelo caro — ninguna de las dos es automática; tú haces la decisión.
Tropiezos que de verdad tuvimos
Algunos los aprendimos por las malas. El más grande: optimizar prompts ignorando el historial. Puedes recortar tu redacción todo el día, pero si una conversación larga viaja en cada turno, ese historial es lo que estás pagando. /clear y /compact mueven la aguja mucho más que una frase ingeniosa.
Otro: confiar en la estimación dentro de la herramienta como si fuera la cuenta. En nuestras pruebas, la cifra local de /usage es una señal útil, pero se calcula localmente y puede diferir de lo que el proveedor realmente cobra. Tratamos el panel como la verdad y el número local como un proxy rápido.
Y uno más: cachear contexto que no es realmente estable. Prompt caching solo ayuda cuando el bloque cacheado se mantiene consistente. Si sigues cambiando la parte "estable", pierdes el descuento y agregas ruido. Elige contexto que de verdad se repita.
Errores comunes
- Nunca limpiar. Correr una sola sesión interminable para tareas no relacionadas, así cada pregunta nueva paga por reenviar todo el contexto acumulado.
- Usar el modelo top para todo. Mandar renombrados triviales y boilerplate por tu modelo más capaz y más caro en vez de uno más barato.
- Volcar todo el repo. Dejar que el agente cargue toda la base de código cuando la tarea toca tres archivos, inflando el contexto en cada turno.
- Optimizar a ciegas. Cambiar configuraciones sin revisar primero
/usagey el panel, así no sabes qué cambio ayudó. - Tratar el precio como fijo. Suponer que la tarifa por token que recuerdas sigue vigente — a junio de 2026, verifica la página oficial de precios, porque las tarifas y los descuentos por caché cambian.
Alternativas de herramientas
| Herramienta | Cómo maneja el costo por turno | Palancas de control de costo |
|---|---|---|
| Claude Code | Envía contexto de trabajo en cada turno; aplica prompt caching automático para contenido repetido | /usage, /clear, /compact, cambio de modelo, subagentes, limitar contexto |
| OpenAI Codex CLI | También es contexto por turno; el costo escala con cuánto contexto del proyecto carga cada paso | Gestión de sesión y selección de modelo — revisa la documentación de Codex (en inglés) para los controles actuales |
| Cursor | Ediciones tipo agente que jalan contexto de archivos y conversación; aplica el mismo principio de cobro por turno | Limita lo que ve el agente y elige el modelo; confirma los controles exactos en la propia documentación de Cursor |
A junio de 2026, las funciones y los valores por defecto difieren y cambian entre versiones — revisa la documentación oficial de cada herramienta antes de depender de un control específico.
FAQ
¿Por qué mi agente de IA es tan caro incluso para cambios pequeños?
Porque te cobran por el contexto, no solo por el cambio. Las herramientas tipo agente reenvían tus archivos e historial de conversación al modelo en cada turno, así que una edición pequeña dentro de una sesión larga sobre un repo grande igual manda un paquete enorme cada vez. El costo sigue al tamaño del contexto por el número de turnos, no a las líneas cambiadas. El arreglo es achicar lo que viaja: limpia o compacta el historial y limita los archivos que la tarea necesita. A junio de 2026, verifica la página oficial de precios.
¿Debo usar /clear o /compact entre tareas?
Usa /clear cuando cambies a un trabajo realmente no relacionado — suelta el historial viejo para que dejes de pagar por reenviarlo. Usa /compact cuando quieras seguir en el mismo hilo pero la conversación creció demasiado; comprime el historial en un resumen en vez de cargar cada mensaje. En nuestras pruebas, /clear entre tareas no relacionadas ahorra más, pero ambos le ganan a arrastrar una sesión gigante de forma indefinida.
¿Prompt caching de verdad ahorra dinero o es puro ruido?
Ayuda de verdad cuando tu contexto tiene un bloque estable y repetido, porque las lecturas de caché tienen un descuento fuerte frente a reenviar los mismos tokens nuevos. El detalle es que solo rinde si el contenido cacheado se mantiene consistente entre turnos. Si sigues cambiando la parte "estable", pierdes el descuento. Úsalo para cosas que de verdad se repiten — convenciones del proyecto, archivos de referencia fijos, instrucciones de siempre — y confirma el comportamiento actual en la documentación oficial.
¿Qué modelo elijo para mantener bajos los costos?
Ajusta el tamaño por tarea en vez de elegir un solo modelo para todo. Manda ediciones rutinarias, renombrados y boilerplate a un modelo más barato y pequeño, y reserva tu modelo más capaz para razonamiento de verdad difícil donde se gana su costo. Cambiar de modelo según la tarea es una de las palancas más grandes sobre la cuenta. A junio de 2026, los modelos disponibles y sus tarifas cambian, así que verifica la página oficial de precios antes de fijar un valor por defecto.
¿Cómo sé si mis cambios de verdad funcionan?
Mide antes y después. Corre /usage para ver el uso de tokens de la sesión y abre el panel de uso de tu proveedor para el total facturado, luego haz un cambio a la vez y vuelve a revisar. El número dentro de la herramienta es una estimación local y puede diferir de la cuenta real, así que trata el panel como la fuente de verdad. Si optimizas sin medir, no puedes saber qué cambio ayudó — y podrías "arreglar" lo que no era.
Recomendación final
Trata el costo de tokens como una rutina, no como una limpieza única. El orden es lo que la hace funcionar: mide, cachea el contexto estable, limpia o compacta entre tareas, ajusta el modelo, limita los archivos y vuelve a medir. La mayor parte del ahorro viene de dos hábitos poco vistosos — limpiar el historial entre trabajos no relacionados y no correr cada edición chica en tu modelo más caro. Incorpóralos y la cuenta deja de sorprenderte.
👉 Haz que esto sea parte de un hábito de gasto más amplio: guarda esta rutina, corre la lista de seis pasos al inicio de cada sesión y combínala con nuestro comparativo de ChatGPT, Claude y Gemini para elegir bien la herramienta antes de pagar de más.
Guías relacionadas
- Evitar que un agente de IA borre tus archivos — las protecciones de seguridad que acompañan al control de costos.
- Los 5 problemas de correr agentes de IA para programar en local — la guía central con una rutina de mantenimiento completa.
- ChatGPT vs Claude vs Gemini para programar — cuál elegir antes de preocuparte por el costo por token.
- Más guías de AI Automation — el resto de nuestros playbooks de operación de agentes.

Lingye