Claude Opus 4.7: qué hay de nuevo y por qué importa Mythos

Ayer, 16 de abril, Anthropic actualizó su modelo estrella. Claude Opus 4.7 llega con mejoras reales en código, visión e instrucción. Y, de paso, con una confesión incómoda: hay un modelo más potente que ellos mismos no se atreven a publicar.

Lo que cambia de verdad en Opus 4.7

Vamos a ser directos. Este no es un lanzamiento de marketing. Los números respaldan la actualización. Opus 4.7 mejora un 13% en el benchmark de referencia de codificación respecto a su predecesor, comete un 21% menos de errores en tareas de razonamiento sobre documentos, y añade dos características que, en mi opinión, van a cambiar cómo los desarrolladores trabajan con modelos grandes a diario.

La primera es el nuevo nivel de esfuerzo xhigh. Hasta ahora, Claude operaba con niveles high y max. Ahora existe un punto intermedio que da más control fino sobre el equilibrio entre profundidad de razonamiento y velocidad de respuesta. Para quien trabaja con tareas largas y complejas, esto no es un detalle menor. Es la diferencia entre pagar por potencia que no necesitas o quedarte corto cuando la necesitas.

La segunda novedad son los task budgets, actualmente en beta pública. Permiten a los desarrolladores definir un límite máximo de tokens para toda la ejecución de una tarea agéntica. Antes, una cadena de agente podía disparar el consumo sin avisar. Ahora se puede acotar. Y dado que el coste de inferencia sigue siendo el principal freno a la adopción de agentes en empresas medianas, esta funcionalidad llega justo a tiempo.

El número que me dejó sin palabras

Hay una cifra en las notas del lanzamiento que tuve que leer dos veces. La acuidad visual de Opus 4.7 para tareas de uso de ordenador es del 98,5%. El modelo anterior, Opus 4.6, alcanzaba el 54,5%. Eso no es una mejora incremental. Es casi doblar la capacidad de ver e interpretar lo que hay en una pantalla.

Y esto importa mucho más de lo que parece. Los agentes que operan sobre interfaces gráficas, los que navegan por webs, rellenan formularios o extraen datos de PDFs escaneados, dependen de esta capacidad visual. Con Opus 4.6, la mitad de las veces el modelo fallaba en identificar correctamente los elementos visuales. Con Opus 4.7, casi siempre los ve bien. Eso transforma lo que se puede automatizar de forma fiable.

El soporte de imágenes también ha crecido: ahora acepta fotos de hasta 3,75 megapíxeles, el triple que antes. Diagramas técnicos densos, capturas de pantalla con mucho texto, planos de ingeniería. Por fin un modelo que puede leerlos sin degradar la imagen antes de procesarla.

Mythos: el modelo que Anthropic no quiere (o no puede) liberar

Pero lo más revelador del lanzamiento no está en los benchmarks. Está en lo que Anthropic reconoció sin tapujos: Opus 4.7 no es su modelo más potente. Existe otro, llamado Mythos, que supera a Opus 4.7 en capacidades generales. Y no está disponible para el público. Solo lo pueden usar un grupo selecto de empresas tecnológicas y de ciberseguridad que participan en pruebas controladas.

¿Por qué no lo publican? Por seguridad. Anthropic no ha dado detalles técnicos, pero la implicación es clara: hay un umbral de capacidad a partir del cual consideran que el modelo representa un riesgo que todavía no saben gestionar bien con las herramientas actuales de alineamiento. Es una postura valiente de comunicar. Pocas empresas reconocen públicamente que tienen tecnología que prefieren no distribuir porque aún no confían en poder controlarla.

Pero también genera una pregunta que nadie está respondiendo: si Anthropic ya tiene algo más capaz y no lo saca, ¿cuánto tiempo falta para que la industria llegue a ese punto de forma colectiva? ¿Y quién decidirá entonces qué se publica y qué no?

No es un salto generacional

Opus 4.7 no es un salto generacional. Es una mejora sólida, honesta, con características que resuelven problemas reales de quienes ya usan Claude para trabajo agéntico. El precio se mantiene igual —5 dólares por millón de tokens de entrada, 25 de salida— y el modelo ya está disponible en la API, Amazon Bedrock, Google Vertex AI y Microsoft Foundry.

Lo que me quedo del día de ayer no es el nuevo modelo. Es la imagen de una empresa que admite, delante de todo el mundo, que tiene algo más poderoso guardado en un cajón porque no está segura de cómo manejarlo. Hay algo extrañamente tranquilizador en eso. Y al mismo tiempo, algo que invita a hacerse preguntas que conviene no ignorar.

Fuentes: