Claude Opus 4.8 en Claude Code: Fast Mode y coste real 2026

TL;DR

Anthropic lanzó Claude Opus 4.8 el 28/05/2026 con Fast Mode activo por defecto. Lo vas a notar en tres sitios: respuestas hasta 2,5 veces más rápidas dentro del CLI, factura por sesión un 40-60% más baja según el tipo de uso, y un cambio de comportamiento en refactors largos que ya no necesitan saltar a Sonnet. Esta guía cubre qué activar, qué dejar quieto y cómo medirlo en tu propio proyecto sin tragarte el marketing.

Por qué este cambio te afecta sí o sí

Opus 4.8 ya es el modelo por defecto en Claude Code, GitHub Copilot y Windsurf desde el 28/05/2026. No hay flag que activar: en cuanto tu CLI sube a v2.1.156 o superior, tus prompts pasan por el nuevo modelo. Si llevabas semanas afinando un CLAUDE.md contra Opus 4.7, todas tus suposiciones de coste y latencia están desactualizadas.

El problema real no es la actualización en sí. Es que muchos workflows asumían que Opus era caro para tareas iterativas y delegaban a Sonnet 4.6 con /model. Esa heurística ahora está rota y conviene revisarla antes de aplicar tus rutinas de siempre.

¿Qué es Fast Mode en Claude Opus 4.8?

Fast Mode es una optimización del pipeline de inferencia que mantiene la calidad de Opus 4.7 con una latencia 2,5 veces menor. No es un modelo distinto ni un downgrade automático: es Opus completo respondiendo más rápido gracias a cambios en el serving de Anthropic.

Se activa solo cuando la tarea cabe en su ventana óptima (prompts cortos a medios, sin razonamiento extendido). Para tareas con extended thinking o cadenas de tool use muy largas, el comportamiento vuelve al de Opus normal sin que tengas que cambiar nada.

Cambio 1: latencia perceptible desde el primer prompt

El primer cambio que vas a notar es velocidad. Una iteración típica de "lee este archivo, propón un fix, aplica el patch" pasa de 8-12 segundos a 3-5 segundos. La sensación es la de Sonnet 4.6 sin perder el razonamiento de Opus.

Esto tiene un efecto secundario importante: tienes menos tiempo para leer el plan antes de que el agente ejecute. Si trabajabas con --plan o confiando en que el delay te daba margen para abortar, ya no. Conviene ajustar el workflow a checkpoints explícitos en lugar de depender de la pausa natural.

Cambio 2: factura real (qué mirar en /cost)

Anthropic anuncia 3x más barato por millón de tokens. La rebaja real en tu factura depende de cómo uses el CLI. Estos son los rangos que veo en sesiones reales desde el 28/05/2026:

Tipo de sesión	Ahorro real estimado
Sesión corta (5-10 prompts)	20-30%
Sesión media (refactor 1-2h)	40-55%
Sesión larga con cache hit alto	50-65%

La clave está en el cache de prompts. Si tu CLAUDE.md es estable y no rompes el cache a mitad de sesión, Opus 4.8 amplifica el ahorro. El análisis previo sobre qué dispara los cache miss en Claude Code sigue siendo válido con este modelo.

Para medirlo en tu proyecto, ejecuta /cost al final de cada sesión y compara con el histórico de la semana anterior. No te fíes del marketing: comprueba tu propio uso.

Cambio 3: comportamiento en refactors largos

Aquí está el cambio que casi nadie está contando. Tareas multi-paso que con Opus 4.7 conviene partir o delegar a Sonnet (refactorizar un servicio completo, migrar tests de Jest a Vitest) ahora encajan en Opus 4.8 sin disparar el coste.

El motivo es la combinación de menor coste por token y mejor manejo de contexto medio. En una migración de DTOs de un proyecto Spring Boot con 40 archivos:

Con Opus 4.7: tres sesiones y cambio manual de modelo a Sonnet para iterar.
Con Opus 4.8: una sesión, sin tocar el modelo, mismo resultado final.

Si tu flujo de configuración de agentes incluía heurísticas para alternar Opus y Sonnet, revísalas. La regla "Opus piensa, Sonnet ejecuta" pierde sentido para muchos casos prácticos.

En Producción

Qué ajustar en tu CLAUDE.md

No hace falta tocar nada para usar Opus 4.8: ya es el default. Pero hay tres ajustes que recomiendo aplicar la primera semana:

# Fijar modelo de forma explicita (reproducibilidad entre devs)
model: claude-opus-4-8

# Techo de coste por sesion para que un bucle largo no se descontrole
max_session_cost_eur: 5

# Subagents desactivados por defecto; activar solo en tareas exploratorias
subagents:
  enabled: false

El límite de coste es el más importante. Con la nueva facilidad para correr tareas largas, es trivial dejarse una sesión olvidada consumiendo cache misses. Ponle techo desde el principio.

Qué se rompe al actualizar

Scripts atados a respuestas determinísticas: Fast Mode introduce ligera variabilidad en respuestas cortas. Si tenías regex parseando salida del CLI, valídalas.
Hooks con timeouts agresivos: si tu settings.json esperaba latencias de Opus 4.7, las nuevas son más cortas y algunos hooks pueden disparar antes de tiempo.
Benchmarks internos: tu evaluación de "Claude Code en mi repo" hay que repetirla. Los números antiguos no aplican.

Costes estimados (datos de finales de mayo 2026)

Para una sesión típica de 2h sobre un repo de 50k LOC, la factura por sesión cae de aproximadamente 8-10€ con Opus 4.7 a 3-4€ con Opus 4.8 en mi propio uso. No es un benchmark formal: es el rango que observo desde el día del cambio. Ajusta según tu volumen y haz tu propia medición antes de prometérselo a tu equipo.

Errores Comunes y Depuración

Error: respuestas más cortas que con Opus 4.7 → Causa: Fast Mode tiende a ser conciso cuando detecta una pregunta directa → Solución: pide explícitamente "explica paso a paso" o sube el effort en el prompt.

Error: latencias inconsistentes entre prompts → Causa: el modelo alterna entre Fast Mode y modo normal según la complejidad → Solución: es comportamiento esperado. Si necesitas latencia estable, fuerza extended thinking con un prompt explícito.

Error: /cost muestra valores raros tras la actualización → Causa: el cálculo de cache amortizado cambia con el nuevo pricing → Solución: ignora la primera sesión post-update, los siguientes números son fiables.

Preguntas Frecuentes

¿Puedo volver a Opus 4.7 si no me convence?

Sí. En CLAUDE.md fija model: claude-opus-4-7. Anthropic mantiene 4.7 disponible durante el periodo de transición, aunque el pricing antiguo ya no aplica si lo usas como modelo no-default.

¿Fast Mode afecta a la calidad del código generado?

En tareas cortas o medias no se nota diferencia. En refactors largos con dependencias cruzadas, Opus 4.8 mantiene la calidad de 4.7. Donde sí pierde algo es en razonamiento abstracto puro (lógica formal, matemática), donde conviene activar extended thinking manualmente.

¿Merece la pena migrar workflows que usaban Sonnet por coste?

En muchos casos sí. Si tu razón para usar Sonnet 4.6 era ahorrar en iteraciones largas, Opus 4.8 cubre ese caso por defecto. Sonnet sigue teniendo sentido para tareas masivas con bajo razonamiento (generación de fixtures, boilerplate repetido).

Decisión: ¿activar o esperar?

Ya está activado, no hay decisión sobre activación. La decisión real es cuánto reorganizar tu flujo. La recomendación práctica es esperar 48-72h de uso real antes de tocar el CLAUDE.md: mide con /cost, observa si los hooks se quejan y ajusta solo los puntos donde notes regresión.

Hemos visto que Opus 4.8 acelera el CLI sin sacrificar calidad y abarata sesiones largas hasta un 60% según el patrón de uso. La clave está en revisar las heurísticas de cambio de modelo y poner un techo duro de coste por sesión. Si quieres profundizar en cómo estructurar la memoria en Claude Code para aprovechar el cache, o entender por qué skills y subagentes siguen siendo el ladrillo base con el nuevo modelo, esos posts complementan esta guía.

¿Has notado el cambio en tu factura desde el 28/05/2026? Cuéntamelo en Twitter @sergiomarquezp_. En el siguiente post analizo cómo orquestar subagents bajo Opus 4.8 sin que el coste se multiplique por 15.