Claude Mythos: la IA que Anthropic ocultó y se filtró en 24 h

Anthropic construyó una IA capaz de encontrar vulnerabilidades en cualquier sistema operativo del planeta. La consideró tan peligrosa que decidió no publicarla. La llamaron Claude Mythos. La anunciaron el lunes 21 de abril. Para el martes por la mañana, un grupo de usuarios no autorizados ya la estaba usando.

Eso es lo que pasó esta semana. Y merece un momento de pausa, porque resume bastante bien en qué punto estamos con la inteligencia artificial: construimos herramientas que nos superan, intentamos controlarlas, y fallamos antes de terminar el comunicado de prensa.

Un modelo que puede hackear cualquier cosa. Literalmente.

Antes de hablar de la filtración, hay que entender qué es Claude Mythos y por qué Anthropic tomó la decisión, bastante inusual, de no lanzarlo al público.

Mythos Preview es un modelo de propósito general, pero con una capacidad que lo separa de todo lo que hemos visto hasta ahora: puede encontrar vulnerabilidades de software —errores de código desconocidos por los propios desarrolladores— en cualquier sistema operativo y en cualquier navegador web importante. No estamos hablando de buscar fallos conocidos. Estamos hablando de descubrir los que nadie había encontrado antes, incluidos bugs de 27 años de antigüedad en OpenBSD y fallos en proyectos auditados intensivamente como FFmpeg o el propio kernel de Linux.

Los números son difíciles de ignorar. Cuando se le pidió que atacara Firefox, Mythos generó 181 exploits funcionales. Claude Opus 4.6, el modelo más avanzado disponible al público en este momento, generó 2. Pero hay más: encontrar y explotar una vulnerabilidad crítica en FreeBSD costó menos de 50 dólares en créditos de computación. En pruebas de benchmarking estándar, el modelo identificó 595 fallos graves, incluyendo 10 casos de control total del flujo de ejecución de un sistema. Y un 89% de sus evaluaciones de severidad coincidieron exactamente con la revisión humana posterior.

La propia Anthropic lo describe como una IA que «supera a todos los humanos excepto los más habilidosos» en encontrar y explotar vulnerabilidades de software. Es una frase que se lee rápido pero tarda un rato en aterrizar.

Project Glasswing: la alianza de los que sí pueden usarla

¿Qué haces si tienes una herramienta así y no puedes soltarla al mundo? Anthropic optó por una estrategia interesante: crear un círculo cerrado de acceso controlado al que llamaron Project Glasswing.

El proyecto reúne a 11 organizaciones fundadoras, entre ellas Amazon, Apple, Google, Microsoft, Nvidia, JPMorganChase, CrowdStrike y Palo Alto Networks. Más de 40 organizaciones adicionales con infraestructura crítica también recibieron acceso. El objetivo declarado es que estos actores usen Mythos de forma defensiva: encontrar los agujeros antes de que los encuentren los malos.

Anthropic puso sobre la mesa 100 millones de dólares en créditos de uso del modelo y otros 4 millones en donaciones a proyectos de seguridad de código abierto. El plazo es de 90 días para presentar un informe público con hallazgos, vulnerabilidades corregidas y lecciones aprendidas. Y —esto es lo que más me parece interesante— la empresa reconoce abiertamente que existe una «ventana peligrosa» entre el momento en que la IA puede atacar y el momento en que los defensores están listos para responder. Glasswing es el intento de cerrar esa ventana.

Pero vale la pena mencionar que más del 99% de las vulnerabilidades que Mythos ya descubrió siguen sin parchear, en proceso de divulgación responsable. Piénsalo un momento.

La filtración que nadie quería anunciar

Y sin embargo, todo eso resultó no ser suficiente para mantener el modelo fuera de manos no autorizadas. Pocas horas después de que Anthropic comunicara al mundo que Mythos existía pero que nadie más podía usarlo, Bloomberg informó de que un grupo de usuarios no autorizados ya estaba accediendo al modelo.

¿Cómo lo consiguieron? No fue un ataque sofisticado de un actor estatal. No fue un jailbreak técnico elaborado durante semanas en un laboratorio clandestino. Fue algo bastante más humano, y bastante más mundano: las credenciales comprometidas de un trabajador de una empresa contratista externa de Anthropic. Ese acceso, combinado con técnicas conocidas de investigación de seguridad, fue suficiente.

Pero lo que resulta especialmente llamativo es quiénes estaban al otro lado. Los usuarios no autorizados formaban parte de un canal de Discord dedicado a buscar información sobre modelos de IA no publicados. No son estados-nación con capacidad cibernética avanzada. Son comunidades de entusiastas con tiempo libre, curiosidad y la motivación suficiente para buscar la puerta trasera correcta.

Para cerrar: ¿estamos listos para esto?

Me resulta difícil no tener una opinión personal sobre todo esto, así que la voy a compartir.

Anthropic actuó con una responsabilidad que no siempre vemos en la industria. Detectaron que habían construido algo potencialmente peligroso, limitaron su acceso y montaron una infraestructura de uso controlado antes de anunciar nada. Eso merece reconocimiento real. Y la lógica de Glasswing —dar a los defensores ventaja sobre los atacantes— tiene sentido sobre el papel.

Pero el hecho de que el modelo se filtrara en menos de 24 horas por unas credenciales comprometidas de un contratista dice algo importante sobre la brecha entre la velocidad a la que avanza la IA y la madurez de los sistemas que deben contenerla. Podemos tener los mejores modelos del mundo. Podemos montar los consorcios más impresionantes. Y la cadena sigue siendo tan frágil como su eslabón más débil.

La pregunta que me quedo dando vueltas no es si la IA puede hackear el mundo. Esta semana quedó claro que puede. La pregunta es si somos capaces de organizarnos lo suficientemente bien, y lo suficientemente rápido, como para que eso no sea un problema. Y esta semana no fue un buen augurio.

Fuentes: