Claude Mythos: el modelo que Anthropic no quiso publicar

“Claude Mythos Preview is a general-purpose, unreleased frontier model.”
— Anthropic, Project Glasswing

Anthropic acaba de tomar una decisión que, hasta hace muy poco, parecía impensable en la carrera por los modelos frontier: presentar públicamente un modelo de nueva generación y, al mismo tiempo, decidir no ponerlo a disposición general del mercado.

No hablamos de un retraso de producto. Tampoco de un acceso beta convencional. Lo que Anthropic ha hecho con Claude Mythos Preview es otra cosa: publicar parte de la documentación técnica, describir capacidades extraordinarias —especialmente en ciberseguridad ofensiva— y restringir el acceso a un círculo muy limitado de actores defensivos bajo una iniciativa específica: Project Glasswing.

La pregunta importante no es solo qué es Mythos. La pregunta importante es qué significa que Anthropic haya decidido no lanzarlo como un modelo normal.

Lo inaudito no es el modelo. Es la decisión.
#

En la industria de la IA se había consolidado una lógica bastante clara: si un laboratorio entrena un modelo mejor, tarde o temprano lo convierte en producto. Puede hacerlo gradualmente, con APIs, con listas de espera, con acuerdos enterprise o con restricciones de uso. Pero la dirección general del movimiento era inequívoca: más capacidad acaba significando más disponibilidad.

Con Mythos, Anthropic introduce una ruptura.

Por un lado, presenta el modelo como una nueva frontera de capacidad. Por otro, admite implícitamente que esa capacidad cruza un umbral que hace irresponsable un despliegue generalizado.

“We formed Project Glasswing because of capabilities we’ve observed in a new frontier model trained by Anthropic that we believe could reshape cybersecurity.”
— Anthropic, Project Glasswing

Esa frase no es marketing rutinario. Es una señal de gobernanza. Anthropic está diciendo que, a su juicio, el modelo no solo es mejor: es peligrosamente mejor en una dimensión concreta.

Qué afirma Anthropic sobre Claude Mythos Preview
#

La documentación publicada por Anthropic dibuja un panorama muy difícil de ignorar.

En su post técnico del Frontier Red Team, la compañía sostiene que Mythos Preview:

identifica y explota zero-days en software real,
lo hace en todos los grandes sistemas operativos y todos los grandes navegadores,
produce exploits complejos, incluyendo cadenas multi-vulnerabilidad,
y muestra un salto radical respecto a generaciones anteriores del propio Claude.

“During our testing, we found that Mythos Preview is capable of identifying and then exploiting zero-day vulnerabilities in every major operating system and every major web browser when directed by a user to do so.”
— Anthropic, Claude Mythos Preview

Si esto es correcto, no estamos ante una mejora incremental. Estamos ante un cambio de régimen.

Anthropic va todavía más lejos. Asegura que ingenieros internos sin formación formal en seguridad han podido pedirle al modelo que encontrara una vulnerabilidad remota durante la noche y despertarse al día siguiente con un exploit funcional.

“Engineers at Anthropic with no formal security training have asked Mythos Preview to find remote code execution vulnerabilities overnight, and woken up the following morning to a complete, working exploit.”
— Anthropic, Claude Mythos Preview

Ese detalle importa mucho. No solo sugiere que el modelo aumenta la capacidad de los expertos. Sugiere que también reduce de forma drástica la barrera de entrada para capacidades ofensivas avanzadas.

El salto respecto a Opus 4.6
#

Uno de los elementos más llamativos del documento técnico es la comparación con generaciones anteriores.

Anthropic recuerda que, apenas un mes antes, su lectura sobre Opus 4.6 era que el modelo era bastante mejor encontrando y corrigiendo vulnerabilidades que explotándolas. En otras palabras, seguía siendo muy fuerte en ciberseguridad defensiva, pero no tan eficaz en ofensiva autónoma.

Con Mythos, eso cambia.

“Opus 4.6 generally had a near-0% success rate at autonomous exploit development. But Mythos Preview is in a different league.”
— Anthropic, Claude Mythos Preview

La compañía cita un benchmark ligado a vulnerabilidades en Firefox donde Opus 4.6 solo consiguió transformar hallazgos en exploits funcionales un puñado de veces, mientras que Mythos Preview lo hizo 181 veces, con control de registros en 29 casos adicionales.

Si esos números se sostienen, no estamos ante “un Claude más potente”. Estamos ante otro orden de capacidad.

No fue entrenado “para hackear”
#

Este punto es crucial.

Anthropic afirma que no entrenó explícitamente Mythos Preview para desarrollar estas capacidades ofensivas. Según la compañía, lo que vemos es una consecuencia emergente de mejoras más generales en:

razonamiento,
autonomía,
trabajo sobre código,
y capacidad de planificación multi-paso.

“We did not explicitly train Mythos Preview to have these capabilities. Rather, they emerged as a downstream consequence of general improvements in code, reasoning, and autonomy.”
— Anthropic, Claude Mythos Preview

Esta frase merece una lectura pausada, porque apunta a algo más amplio que Mythos. Sugiere que a medida que los modelos generalistas mejoran en trabajo útil sobre código y agentes, las capacidades ofensivas dejan de ser una especialización separada. Aparecen como efecto colateral natural del progreso general.

Eso complica enormemente la gobernanza. Ya no basta con evitar entrenar un “modelo para ciberataque”. El problema es que un modelo general suficientemente bueno puede convertirse en una herramienta ofensiva de primer nivel aunque ese no fuera el objetivo del entrenamiento.

Entonces, ¿por qué no lo publican?
#

Anthropic articula la respuesta en términos de una ventana de transición peligrosa.

Su tesis es que, a largo plazo, herramientas de este tipo podrían beneficiar más a los defensores que a los atacantes. Pero en el corto plazo existe un riesgo evidente: que la capacidad ofensiva se difunda más rápido que la capacidad defensiva de absorberla.

“In the short term, this could be attackers, if frontier labs aren’t careful about how they release these models.”
— Anthropic, Claude Mythos Preview

Por eso no hacen un release amplio. En su lugar crean Project Glasswing, una iniciativa con socios como AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks, además de decenas de organizaciones adicionales.

“By releasing this model initially to a limited group of critical industry partners and open source developers with Project Glasswing, we aim to enable defenders to begin securing the most important systems before models with similar capabilities become broadly available.”
— Anthropic, Claude Mythos Preview

En otras palabras: Anthropic está intentando convertir una ventaja de capacidad en una ventaja defensiva temporal, antes de que el resto del ecosistema llegue al mismo punto.

Lo que realmente está cambiando: publicar ya no equivale a desplegar
#

Lo más interesante de Mythos no es solo el argumento de seguridad. Es el precedente que establece.

Durante años, hemos tendido a asumir que el modelo más avanzado de un laboratorio era también, tarde o temprano, el que terminaría en manos de clientes, desarrolladores o usuarios. Con Mythos, esa equivalencia se rompe.

A partir de ahora, puede que el modelo más avanzado:

no sea el producto principal,
no se ofrezca abiertamente en API,
no llegue al mercado general,
y exista durante un tiempo en una especie de cuarentena estratégica.

Eso cambia muchas cosas.

Cambia la conversación sobre competencia entre labs. Cambia la lectura de los anuncios públicos. Y cambia también el marco regulatorio y geopolítico: si los modelos más potentes dejan de ser necesariamente públicos, entonces la frontera real de capacidad podría quedar oculta tras programas de acceso restringido, acuerdos privados y despliegues asimétricos.

Pero también conviene mantener una mirada crítica
#

Dicho esto, hay que evitar tragarse la narrativa sin filtro.

Anthropic está haciendo afirmaciones muy extraordinarias:

miles de vulnerabilidades de alta severidad,
zero-days en software crítico,
cobertura sobre todos los grandes OS y navegadores,
exploits sofisticados desarrollados de forma autónoma,
y una razón de seguridad suficientemente fuerte como para no publicar el modelo.

El problema es que la evidencia pública está necesariamente limitada.

La propia Anthropic dice que más del 99% de las vulnerabilidades encontradas no están parcheadas todavía y, por tanto, no pueden divulgarse. Además, el documento de riesgo se presenta de forma redacted.

“Over 99% of the vulnerabilities we’ve found have not yet been patched, so it would be irresponsible for us to disclose details about them.”
— Anthropic, Claude Mythos Preview

Eso es razonable desde el punto de vista de divulgación responsable. Pero también implica que buena parte de la historia depende de confiar en la interpretación y en el framing del propio laboratorio.

Es decir: la decisión de Anthropic puede ser perfectamente sensata, incluso admirable, y a la vez estar envuelta en una narrativa corporativa que conviene leer con cierto escepticismo metodológico.

Mi lectura: Mythos puede marcar un antes y un después
#

Mi impresión es que este episodio puede acabar siendo recordado menos por el nombre del modelo y más por la señal estratégica que emite.

Anthropic no solo está diciendo “hemos entrenado algo muy potente”. Está diciendo algo más incómodo:

hemos cruzado una frontera de capacidad en la que el comportamiento responsable ya no consiste automáticamente en publicar.

Si esa tesis se consolida, Mythos será un hito por tres razones.

1. Porque normaliza la retención parcial de frontier models
#

No como excepción anecdótica, sino como herramienta legítima de gobernanza.

2. Porque desplaza el debate desde “qué puede hacer el modelo” hacia “quién debería poder usarlo y cuándo”
#

Eso es un cambio fundamental.

3. Porque sugiere que la frontera real de capacidad ya puede estar varios pasos por delante de lo que vemos en producto
#

Y eso tiene implicaciones enormes para estrategia, política tecnológica y seguridad.

La conclusión incómoda
#

Durante años, la narrativa dominante de la IA fue que el progreso técnico acabaría democratizando el acceso a capacidades cada vez más potentes.

Claude Mythos introduce una posibilidad distinta: que algunas capacidades sean tan sensibles que el avance técnico no desemboque en apertura, sino en contención.

No porque el modelo haya fallado. Precisamente porque ha funcionado demasiado bien.

“Claude Mythos Preview reveals a stark fact: AI models have reached a level of coding capability where they can surpass all but the most skilled humans at finding and exploiting software vulnerabilities.”
— Anthropic, Project Glasswing

Si Anthropic tiene razón, no estamos simplemente ante otro lanzamiento de modelo. Estamos ante el momento en que un laboratorio frontier ha decidido, de forma explícita, que su sistema más avanzado no debía comportarse como un producto normal.

Y eso, en esta industria, es una noticia mucho más grande que cualquier benchmark.

Fuentes principales
#

Anthropic — Project Glasswing
https://www.anthropic.com/glasswing
Anthropic Frontier Red Team — Claude Mythos Preview
https://red.anthropic.com/2026/mythos-preview/
Anthropic — Alignment Risk Update: Claude Mythos Preview (Redacted)
https://www.anthropic.com/claude-mythos-preview-risk-report

Lo inaudito no es el modelo. Es la decisión.#

Qué afirma Anthropic sobre Claude Mythos Preview#

El salto respecto a Opus 4.6#

No fue entrenado “para hackear”#

Entonces, ¿por qué no lo publican?#

Lo que realmente está cambiando: publicar ya no equivale a desplegar#

Pero también conviene mantener una mirada crítica#

Mi lectura: Mythos puede marcar un antes y un después#

1. Porque normaliza la retención parcial de frontier models#

2. Porque desplaza el debate desde “qué puede hacer el modelo” hacia “quién debería poder usarlo y cuándo”#

3. Porque sugiere que la frontera real de capacidad ya puede estar varios pasos por delante de lo que vemos en producto#

La conclusión incómoda#

Fuentes principales#