Reducir costos de tokens de IA al programar: rutina 2026

Q: ¿Debo usar /clear o /compact entre tareas?

Usa /clear cuando cambies a un trabajo realmente no relacionado — suelta el historial viejo para que dejes de pagar por reenviarlo. Usa /compact cuando quieras seguir en el mismo hilo pero la conversación creció demasiado; comprime el historial en un resumen en vez de cargar cada mensaje. En nuestras pruebas, /clear entre tareas no relacionadas ahorra más, pero ambos le ganan a arrastrar una sesión gigante de forma indefinida.

Q: ¿Cómo sé si mis cambios de verdad funcionan?

Mide antes y después. Corre /usage para ver el uso de tokens de la sesión y abre el panel de uso de tu proveedor para el total facturado, luego haz un cambio a la vez y vuelve a revisar. El número dentro de la herramienta es una estimación local y puede diferir de la cuenta real, así que trata el panel como la fuente de verdad. Si optimizas sin medir, no puedes saber qué cambio ayudó — y podrías "arreglar" lo que no era.

El primer mes, el agente de IA para programar se sentía barato. Para el tercero, la cuenta subía más rápido de lo esperado y nadie en el equipo sabía explicar exactamente por qué. Nos ha pasado: abres Claude Code o Codex, haces unas cuantas preguntas "rápidas" sobre un repo grande, y el contador sigue corriendo mucho después de terminar el trabajo. Lo incómodo es que el costo casi nunca coincide con la cantidad de código que realmente cambiaste. Coincide con cuánto contexto sigues enviando al modelo, turno tras turno, lo necesites todo o no.

Qué es realmente este problema

El costo de tokens de IA al programar es el cargo continuo por el contexto que un agente envía al modelo en cada turno. Y aquí está el detalle clave: a diferencia de un mensaje de chat normal, un agente de programación no manda solo tu última instrucción. Para ser útil, envía una foto de tu proyecto — los archivos relevantes, los pasos previos, la conversación hasta ese punto — y lo vuelve a hacer en el siguiente turno, y en el siguiente. Pagas por ese paquete completo cada vez. Así que lo que dispara el costo no es el largo de la respuesta; es el tamaño del contexto multiplicado por el número de turnos. Las sesiones largas sobre repos grandes son donde esto se acumula más rápido, y por eso varios equipos reportan cuentas de herramientas de IA que suben más rápido de lo esperado aunque su producción de código se mantenga modesta.

A quién le importa esto

Ideal para: desarrolladores independientes y equipos pequeños que corren sesiones de agente largas, todos los días, sobre bases de código medianas o grandes, donde el reenvío de contexto se acumula durante el mes.
También útil para: product managers y personas no técnicas que hacen "vibe-coding" de herramientas pequeñas y miran una cuenta de API compartida, y para cualquiera que pase de una suscripción fija a uso de API medido y de pronto vea el costo por token.
No es problema para: quienes hacen ediciones ocasionales de un solo archivo en un proyecto chico, o quienes están en un plan de tarifa fija cuyo uso cabe cómodamente dentro de los límites incluidos — ahí el costo extra ya es pequeño y apretarlo más no vale la pena.

Qué necesitas

Herramienta	Para qué sirve en control de costos	Enlace oficial
Claude Code	`/usage`, `/clear`, `/compact`, cambio de modelo y prompt caching automático integrados	Documentación de costos de Claude Code (en inglés)
OpenAI Codex CLI	Otro agente con sus propios controles de sesión y modelo; el costo igual escala con el contexto por turno	Documentación de OpenAI Codex (en inglés)
Páginas de precios	Las tarifas por token autoritativas y cualquier descuento por caché — siempre la fuente de verdad	Precios de Anthropic/Claude, Precios de la API de OpenAI
Panel de uso del proveedor	La cuenta real y el historial de uso, aparte de la estimación local dentro de la herramienta	La página de uso de tu cuenta del proveedor

La solución de un vistazo

Qué está disparando el costo	Arreglo más rápido
No sabes a dónde se va el dinero	Corre `/usage` y abre el panel del proveedor antes de cambiar nada
Reenvías el mismo contexto estable en cada turno	Apóyate en prompt caching — las lecturas de caché cuestan mucho menos que tokens de entrada nuevos
Un historial de conversación enorme viaja en cada turno	Usa `/clear` para empezar limpio o `/compact` para comprimir antes de seguir
Usas tu modelo más capaz para ediciones simples	Ajusta el tamaño: un modelo más barato para lo rutinario, el potente para razonamiento difícil
Vuelcas todo el repo al contexto	Limita a los archivos que toca la tarea; divide trabajos grandes en sesiones de subagentes enfocadas

Paso a paso

Mide primero. En Claude Code, corre /usage para ver el uso de tokens de la sesión actual y luego abre el panel de uso de tu proveedor para ver la foto real, la que se factura. El número dentro de la herramienta es una estimación local; el panel es la fuente de verdad. No optimices a ciegas.
Cachea el contexto estable. Identifica las partes del contexto que casi no cambian — convenciones del proyecto, un conjunto fijo de archivos de referencia, instrucciones largas — y deja que prompt caching las sirva. Las lecturas de caché cuestan mucho menos que reenviar los mismos tokens, así que la ganancia viene de mantener ese bloque estable consistente entre turnos.
Limpia o compacta entre tareas. Cuando cambies a un trabajo no relacionado, corre /clear para dejar de pagar por arrastrar la conversación vieja. Cuando quieras seguir pero el historial está inflado, corre /compact para comprimirlo en un resumen en vez de reenviar cada mensaje.
Ajusta el tamaño del modelo. Empareja el modelo con la tarea. Reserva tu modelo más capaz y más caro para razonamiento de verdad difícil, y manda ediciones rutinarias, renombrados y boilerplate a un modelo más barato y pequeño. Cambiar de modelo según la tarea es una de las palancas más grandes sobre la cuenta.
Limita los archivos. Dile al agente qué archivos necesita la tarea en vez de dejar que cargue todo el repositorio. Contexto más angosto es contexto más barato. Para trabajos de varias partes, entrega subtareas enfocadas a subagentes o a sesiones separadas para que cada una corra con un paquete pequeño.
Vuelve a medir. Corre /usage y revisa el panel otra vez después de una sesión representativa. Compara contra tu base para saber qué cambio movió de verdad el número, y haz de la rutina un hábito en lugar de una limpieza única.

Comandos para copiar y pegar

Esta es la rutina de control de costos que corremos dentro de Claude Code. Son comandos de barra dentro de la herramienta, no comandos de shell, así que son iguales en macOS, Linux y Windows PowerShell. Córrelos en orden al inicio y durante una sesión de trabajo.

# 1. MEDIR — ve a dónde van los tokens antes de cambiar nada
/usage
# (luego abre el panel de uso de tu proveedor en el navegador para el total facturado)

# 2. CAMBIAS A UN TRABAJO NO RELACIONADO — suelta el historial viejo para dejar de reenviarlo
/clear

# 3. SIGUES UNA TAREA LARGA — comprime el historial en vez de reenviarlo todo
/compact

# 4. AJUSTA EL MODELO — modelo barato para lo rutinario, modelo potente para razonamiento difícil
/model

# 5. LIMITA EL CONTEXTO — nombra solo los archivos que la tarea necesita, p. ej.:
#    "Edita solo src/auth/login.ts — no cargues el resto del repo."
#    (instrucción ilustrativa, no un comando)

# 6. VOLVER A MEDIR — confirma que el cambio sí movió el número
/usage

Los comandos de modelo y de uso son ilustrativos de la interfaz actual de Claude Code; a junio de 2026, las herramientas cambian entre versiones — confirma los nombres exactos de los comandos en la documentación oficial de costos (en inglés).

Ejemplo: lo que vas a ver

El síntoma suele ser una vista de uso que sube de forma sostenida durante una sesión larga aunque sientas que solo estás haciendo preguntas chicas. Correr /usage a mitad de la sesión podría mostrar algo así — totales de tokens que siguen creciendo porque cada turno reenvía el contexto acumulado:

$ /usage
Uso de la sesion
  Tokens totales:       suben de forma sostenida turno a turno
  Mayor contribuyente:  conversacion acumulada + contexto amplio de archivos
  Nota: las cifras son una estimacion local; revisa el panel del proveedor

La señal es que el número se mueve en proporción a cuánto ha durado la sesión y cuánto contexto está cargado, no en proporción a cuánto código realmente cambiaste.

Ejemplo: después del arreglo

Después de limpiar entre tareas no relacionadas, compactar las sesiones largas, limitar los archivos y mandar el trabajo simple a un modelo más barato, el mismo tipo de trabajo muestra una curva de uso más plana. Ya no pagas por reenviar un historial enorme en cada turno, y las ediciones rutinarias ya no corren en tu modelo más caro:

$ /usage
Uso de la sesion
  Tokens totales:       mas bajos y mas planos para el mismo trabajo
  Contexto por turno:   mas chico — solo archivos relevantes a la tarea
  Modelo:               trabajo rutinario en modelo barato, modelo potente reservado

El punto no es una caída dramática de una vez; es que la curva deja de acumularse como antes, y el panel de tu proveedor lo refleja a lo largo del mes.

Notas de prueba

Tipo de entrada: sesiones diarias de programación con agente sobre un repositorio mediano o grande, mezclando ediciones simples con razonamiento difícil ocasional.
Herramienta usada: Claude Code (con OpenAI Codex CLI probado como comparación de cómo se comporta el contexto por turno).
Mejor resultado: combinar /clear entre tareas no relacionadas con limitar archivos y ajustar el modelo — juntas cortan el mayor desperdicio, más que cualquier cambio por separado.
Qué falló: intentar "ahorrar tokens" escribiendo prompts cortos mientras arrastrabas un historial de conversación enorme — el historial dominaba el costo, así que los prompts cortos casi no lo movían.
Ediciones manuales aún necesarias: decidir qué contexto es de verdad lo bastante estable para cachear, y juzgar cuándo una tarea es lo bastante difícil para merecer el modelo caro — ninguna de las dos es automática; tú haces la decisión.

Tropiezos que de verdad tuvimos

Algunos los aprendimos por las malas. El más grande: optimizar prompts ignorando el historial. Puedes recortar tu redacción todo el día, pero si una conversación larga viaja en cada turno, ese historial es lo que estás pagando. /clear y /compact mueven la aguja mucho más que una frase ingeniosa.

Otro: confiar en la estimación dentro de la herramienta como si fuera la cuenta. En nuestras pruebas, la cifra local de /usage es una señal útil, pero se calcula localmente y puede diferir de lo que el proveedor realmente cobra. Tratamos el panel como la verdad y el número local como un proxy rápido.

Y uno más: cachear contexto que no es realmente estable. Prompt caching solo ayuda cuando el bloque cacheado se mantiene consistente. Si sigues cambiando la parte "estable", pierdes el descuento y agregas ruido. Elige contexto que de verdad se repita.

Errores comunes

Nunca limpiar. Correr una sola sesión interminable para tareas no relacionadas, así cada pregunta nueva paga por reenviar todo el contexto acumulado.
Usar el modelo top para todo. Mandar renombrados triviales y boilerplate por tu modelo más capaz y más caro en vez de uno más barato.
Volcar todo el repo. Dejar que el agente cargue toda la base de código cuando la tarea toca tres archivos, inflando el contexto en cada turno.
Optimizar a ciegas. Cambiar configuraciones sin revisar primero /usage y el panel, así no sabes qué cambio ayudó.
Tratar el precio como fijo. Suponer que la tarifa por token que recuerdas sigue vigente — a junio de 2026, verifica la página oficial de precios, porque las tarifas y los descuentos por caché cambian.

Alternativas de herramientas

Herramienta	Cómo maneja el costo por turno	Palancas de control de costo
Claude Code	Envía contexto de trabajo en cada turno; aplica prompt caching automático para contenido repetido	`/usage`, `/clear`, `/compact`, cambio de modelo, subagentes, limitar contexto
OpenAI Codex CLI	También es contexto por turno; el costo escala con cuánto contexto del proyecto carga cada paso	Gestión de sesión y selección de modelo — revisa la documentación de Codex (en inglés) para los controles actuales
Cursor	Ediciones tipo agente que jalan contexto de archivos y conversación; aplica el mismo principio de cobro por turno	Limita lo que ve el agente y elige el modelo; confirma los controles exactos en la propia documentación de Cursor

A junio de 2026, las funciones y los valores por defecto difieren y cambian entre versiones — revisa la documentación oficial de cada herramienta antes de depender de un control específico.

FAQ

¿Por qué mi agente de IA es tan caro incluso para cambios pequeños?

Porque te cobran por el contexto, no solo por el cambio. Las herramientas tipo agente reenvían tus archivos e historial de conversación al modelo en cada turno, así que una edición pequeña dentro de una sesión larga sobre un repo grande igual manda un paquete enorme cada vez. El costo sigue al tamaño del contexto por el número de turnos, no a las líneas cambiadas. El arreglo es achicar lo que viaja: limpia o compacta el historial y limita los archivos que la tarea necesita. A junio de 2026, verifica la página oficial de precios.

¿Debo usar /clear o /compact entre tareas?

Usa /clear cuando cambies a un trabajo realmente no relacionado — suelta el historial viejo para que dejes de pagar por reenviarlo. Usa /compact cuando quieras seguir en el mismo hilo pero la conversación creció demasiado; comprime el historial en un resumen en vez de cargar cada mensaje. En nuestras pruebas, /clear entre tareas no relacionadas ahorra más, pero ambos le ganan a arrastrar una sesión gigante de forma indefinida.

¿Prompt caching de verdad ahorra dinero o es puro ruido?

Ayuda de verdad cuando tu contexto tiene un bloque estable y repetido, porque las lecturas de caché tienen un descuento fuerte frente a reenviar los mismos tokens nuevos. El detalle es que solo rinde si el contenido cacheado se mantiene consistente entre turnos. Si sigues cambiando la parte "estable", pierdes el descuento. Úsalo para cosas que de verdad se repiten — convenciones del proyecto, archivos de referencia fijos, instrucciones de siempre — y confirma el comportamiento actual en la documentación oficial.

¿Qué modelo elijo para mantener bajos los costos?

Ajusta el tamaño por tarea en vez de elegir un solo modelo para todo. Manda ediciones rutinarias, renombrados y boilerplate a un modelo más barato y pequeño, y reserva tu modelo más capaz para razonamiento de verdad difícil donde se gana su costo. Cambiar de modelo según la tarea es una de las palancas más grandes sobre la cuenta. A junio de 2026, los modelos disponibles y sus tarifas cambian, así que verifica la página oficial de precios antes de fijar un valor por defecto.

¿Cómo sé si mis cambios de verdad funcionan?

Mide antes y después. Corre /usage para ver el uso de tokens de la sesión y abre el panel de uso de tu proveedor para el total facturado, luego haz un cambio a la vez y vuelve a revisar. El número dentro de la herramienta es una estimación local y puede diferir de la cuenta real, así que trata el panel como la fuente de verdad. Si optimizas sin medir, no puedes saber qué cambio ayudó — y podrías "arreglar" lo que no era.

Recomendación final

Trata el costo de tokens como una rutina, no como una limpieza única. El orden es lo que la hace funcionar: mide, cachea el contexto estable, limpia o compacta entre tareas, ajusta el modelo, limita los archivos y vuelve a medir. La mayor parte del ahorro viene de dos hábitos poco vistosos — limpiar el historial entre trabajos no relacionados y no correr cada edición chica en tu modelo más caro. Incorpóralos y la cuenta deja de sorprenderte.

👉 Haz que esto sea parte de un hábito de gasto más amplio: guarda esta rutina, corre la lista de seis pasos al inicio de cada sesión y combínala con nuestro comparativo de ChatGPT, Claude y Gemini para elegir bien la herramienta antes de pagar de más.

Guías relacionadas

Evitar que un agente de IA borre tus archivos — las protecciones de seguridad que acompañan al control de costos.
Los 5 problemas de correr agentes de IA para programar en local — la guía central con una rutina de mantenimiento completa.
ChatGPT vs Claude vs Gemini para programar — cuál elegir antes de preocuparte por el costo por token.
Más guías de AI Automation — el resto de nuestros playbooks de operación de agentes.

Cómo reducir el costo de tokens de IA al programar: una rutina

Qué es realmente este problema

A quién le importa esto

Qué necesitas

La solución de un vistazo

Paso a paso

Comandos para copiar y pegar

Ejemplo: lo que vas a ver

Ejemplo: después del arreglo

Notas de prueba

Tropiezos que de verdad tuvimos

Errores comunes

Alternativas de herramientas

FAQ

¿Por qué mi agente de IA es tan caro incluso para cambios pequeños?

¿Debo usar /clear o /compact entre tareas?

¿Prompt caching de verdad ahorra dinero o es puro ruido?

¿Qué modelo elijo para mantener bajos los costos?

¿Cómo sé si mis cambios de verdad funcionan?

Recomendación final

Guías relacionadas

Un pequeño gracias, solo si te sirvió

Qué es realmente este problema

A quién le importa esto

Qué necesitas

La solución de un vistazo

Paso a paso

Comandos para copiar y pegar

Ejemplo: lo que vas a ver

Ejemplo: después del arreglo

Notas de prueba

Tropiezos que de verdad tuvimos

Errores comunes

Alternativas de herramientas

FAQ

¿Por qué mi agente de IA es tan caro incluso para cambios pequeños?

¿Debo usar /clear o /compact entre tareas?

¿Prompt caching de verdad ahorra dinero o es puro ruido?

¿Qué modelo elijo para mantener bajos los costos?

¿Cómo sé si mis cambios de verdad funcionan?

Recomendación final

Guías relacionadas

Un pequeño gracias, solo si te sirvió

Sigue leyendo

El agente de IA borró mis archivos: por qué fallan y 5 guardrails

Codex llena el disco y desgasta el SSD: limpieza segura paso a paso

Problemas de los agentes de IA para programar: los 5 y cómo arreglarlos

Límites de uso de Claude y ChatGPT (y por qué se siente más tonto)