<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>Claude on Carles Abarca</title><link>https://carlesabarca.com/es/tags/claude/</link><description>Recent content in Claude on Carles Abarca</description><generator>Hugo -- gohugo.io</generator><language>es</language><copyright>© 2026 Carles Abarca</copyright><lastBuildDate>Thu, 09 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://carlesabarca.com/es/tags/claude/index.xml" rel="self" type="application/rss+xml"/><item><title>Claude Mythos: el modelo que Anthropic no quiso publicar</title><link>https://carlesabarca.com/es/posts/claude-mythos-unreleased-frontier-model/</link><pubDate>Thu, 09 Apr 2026 00:00:00 +0000</pubDate><guid>https://carlesabarca.com/es/posts/claude-mythos-unreleased-frontier-model/</guid><description>Anthropic acaba de hacer algo extraordinario: presentar documentación técnica sobre su modelo más avanzado y, al mismo tiempo, negarse a desplegarlo de forma general. Claude Mythos Preview puede marcar un antes y un después en la relación entre capacidad, seguridad y publicación de modelos frontier.</description><content:encoded>&lt;blockquote&gt;&lt;p&gt;“Claude Mythos Preview is a general-purpose, unreleased frontier model.”&lt;br&gt;
— Anthropic, &lt;em&gt;Project Glasswing&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;Anthropic acaba de tomar una decisión que, hasta hace muy poco, parecía impensable en la carrera por los modelos frontier: &lt;strong&gt;presentar públicamente un modelo de nueva generación y, al mismo tiempo, decidir no ponerlo a disposición general del mercado&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;No hablamos de un retraso de producto. Tampoco de un acceso beta convencional. Lo que Anthropic ha hecho con &lt;strong&gt;Claude Mythos Preview&lt;/strong&gt; es otra cosa: publicar parte de la documentación técnica, describir capacidades extraordinarias —especialmente en ciberseguridad ofensiva— y restringir el acceso a un círculo muy limitado de actores defensivos bajo una iniciativa específica: &lt;strong&gt;Project Glasswing&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;La pregunta importante no es solo qué es Mythos. La pregunta importante es &lt;strong&gt;qué significa que Anthropic haya decidido no lanzarlo como un modelo normal&lt;/strong&gt;.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;Lo inaudito no es el modelo. Es la decisión.
 &lt;div id="lo-inaudito-no-es-el-modelo-es-la-decisión" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#lo-inaudito-no-es-el-modelo-es-la-decisi%c3%b3n" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;En la industria de la IA se había consolidado una lógica bastante clara: si un laboratorio entrena un modelo mejor, tarde o temprano lo convierte en producto. Puede hacerlo gradualmente, con APIs, con listas de espera, con acuerdos enterprise o con restricciones de uso. Pero la dirección general del movimiento era inequívoca: &lt;strong&gt;más capacidad acaba significando más disponibilidad&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Con Mythos, Anthropic introduce una ruptura.&lt;/p&gt;
&lt;p&gt;Por un lado, presenta el modelo como una nueva frontera de capacidad. Por otro, admite implícitamente que &lt;strong&gt;esa capacidad cruza un umbral que hace irresponsable un despliegue generalizado&lt;/strong&gt;.&lt;/p&gt;
&lt;blockquote&gt;&lt;p&gt;“We formed Project Glasswing because of capabilities we’ve observed in a new frontier model trained by Anthropic that we believe could reshape cybersecurity.”&lt;br&gt;
— Anthropic, &lt;em&gt;Project Glasswing&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;Esa frase no es marketing rutinario. Es una señal de gobernanza. Anthropic está diciendo que, a su juicio, el modelo no solo es mejor: &lt;strong&gt;es peligrosamente mejor en una dimensión concreta&lt;/strong&gt;.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;Qué afirma Anthropic sobre Claude Mythos Preview
 &lt;div id="qué-afirma-anthropic-sobre-claude-mythos-preview" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#qu%c3%a9-afirma-anthropic-sobre-claude-mythos-preview" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;La documentación publicada por Anthropic dibuja un panorama muy difícil de ignorar.&lt;/p&gt;
&lt;p&gt;En su post técnico del Frontier Red Team, la compañía sostiene que Mythos Preview:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;identifica y explota &lt;strong&gt;zero-days&lt;/strong&gt; en software real,&lt;/li&gt;
&lt;li&gt;lo hace en &lt;strong&gt;todos los grandes sistemas operativos&lt;/strong&gt; y &lt;strong&gt;todos los grandes navegadores&lt;/strong&gt;,&lt;/li&gt;
&lt;li&gt;produce exploits complejos, incluyendo cadenas multi-vulnerabilidad,&lt;/li&gt;
&lt;li&gt;y muestra un salto radical respecto a generaciones anteriores del propio Claude.&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;&lt;p&gt;“During our testing, we found that Mythos Preview is capable of identifying and then exploiting zero-day vulnerabilities in every major operating system and every major web browser when directed by a user to do so.”&lt;br&gt;
— Anthropic, &lt;em&gt;Claude Mythos Preview&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;Si esto es correcto, no estamos ante una mejora incremental. Estamos ante un &lt;strong&gt;cambio de régimen&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Anthropic va todavía más lejos. Asegura que ingenieros internos sin formación formal en seguridad han podido pedirle al modelo que encontrara una vulnerabilidad remota durante la noche y despertarse al día siguiente con un exploit funcional.&lt;/p&gt;
&lt;blockquote&gt;&lt;p&gt;“Engineers at Anthropic with no formal security training have asked Mythos Preview to find remote code execution vulnerabilities overnight, and woken up the following morning to a complete, working exploit.”&lt;br&gt;
— Anthropic, &lt;em&gt;Claude Mythos Preview&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;Ese detalle importa mucho. No solo sugiere que el modelo aumenta la capacidad de los expertos. Sugiere que también &lt;strong&gt;reduce de forma drástica la barrera de entrada&lt;/strong&gt; para capacidades ofensivas avanzadas.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;El salto respecto a Opus 4.6
 &lt;div id="el-salto-respecto-a-opus-46" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#el-salto-respecto-a-opus-46" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Uno de los elementos más llamativos del documento técnico es la comparación con generaciones anteriores.&lt;/p&gt;
&lt;p&gt;Anthropic recuerda que, apenas un mes antes, su lectura sobre &lt;strong&gt;Opus 4.6&lt;/strong&gt; era que el modelo era bastante mejor encontrando y corrigiendo vulnerabilidades que explotándolas. En otras palabras, seguía siendo muy fuerte en ciberseguridad defensiva, pero no tan eficaz en ofensiva autónoma.&lt;/p&gt;
&lt;p&gt;Con Mythos, eso cambia.&lt;/p&gt;
&lt;blockquote&gt;&lt;p&gt;“Opus 4.6 generally had a near-0% success rate at autonomous exploit development. But Mythos Preview is in a different league.”&lt;br&gt;
— Anthropic, &lt;em&gt;Claude Mythos Preview&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;La compañía cita un benchmark ligado a vulnerabilidades en Firefox donde Opus 4.6 solo consiguió transformar hallazgos en exploits funcionales un puñado de veces, mientras que Mythos Preview lo hizo &lt;strong&gt;181 veces&lt;/strong&gt;, con control de registros en &lt;strong&gt;29 casos adicionales&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Si esos números se sostienen, no estamos ante “un Claude más potente”. Estamos ante &lt;strong&gt;otro orden de capacidad&lt;/strong&gt;.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;No fue entrenado “para hackear”
 &lt;div id="no-fue-entrenado-para-hackear" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#no-fue-entrenado-para-hackear" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Este punto es crucial.&lt;/p&gt;
&lt;p&gt;Anthropic afirma que &lt;strong&gt;no entrenó explícitamente Mythos Preview para desarrollar estas capacidades ofensivas&lt;/strong&gt;. Según la compañía, lo que vemos es una consecuencia emergente de mejoras más generales en:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;razonamiento,&lt;/li&gt;
&lt;li&gt;autonomía,&lt;/li&gt;
&lt;li&gt;trabajo sobre código,&lt;/li&gt;
&lt;li&gt;y capacidad de planificación multi-paso.&lt;/li&gt;
&lt;/ul&gt;
&lt;blockquote&gt;&lt;p&gt;“We did not explicitly train Mythos Preview to have these capabilities. Rather, they emerged as a downstream consequence of general improvements in code, reasoning, and autonomy.”&lt;br&gt;
— Anthropic, &lt;em&gt;Claude Mythos Preview&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;Esta frase merece una lectura pausada, porque apunta a algo más amplio que Mythos. Sugiere que &lt;strong&gt;a medida que los modelos generalistas mejoran en trabajo útil sobre código y agentes, las capacidades ofensivas dejan de ser una especialización separada&lt;/strong&gt;. Aparecen como efecto colateral natural del progreso general.&lt;/p&gt;
&lt;p&gt;Eso complica enormemente la gobernanza. Ya no basta con evitar entrenar un “modelo para ciberataque”. El problema es que &lt;strong&gt;un modelo general suficientemente bueno puede convertirse en una herramienta ofensiva de primer nivel aunque ese no fuera el objetivo del entrenamiento&lt;/strong&gt;.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;Entonces, ¿por qué no lo publican?
 &lt;div id="entonces-por-qué-no-lo-publican" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#entonces-por-qu%c3%a9-no-lo-publican" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Anthropic articula la respuesta en términos de una &lt;strong&gt;ventana de transición peligrosa&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Su tesis es que, a largo plazo, herramientas de este tipo podrían beneficiar más a los defensores que a los atacantes. Pero en el corto plazo existe un riesgo evidente: que la capacidad ofensiva se difunda más rápido que la capacidad defensiva de absorberla.&lt;/p&gt;
&lt;blockquote&gt;&lt;p&gt;“In the short term, this could be attackers, if frontier labs aren’t careful about how they release these models.”&lt;br&gt;
— Anthropic, &lt;em&gt;Claude Mythos Preview&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;Por eso no hacen un release amplio. En su lugar crean &lt;strong&gt;Project Glasswing&lt;/strong&gt;, una iniciativa con socios como AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks, además de decenas de organizaciones adicionales.&lt;/p&gt;
&lt;blockquote&gt;&lt;p&gt;“By releasing this model initially to a limited group of critical industry partners and open source developers with Project Glasswing, we aim to enable defenders to begin securing the most important systems before models with similar capabilities become broadly available.”&lt;br&gt;
— Anthropic, &lt;em&gt;Claude Mythos Preview&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;En otras palabras: &lt;strong&gt;Anthropic está intentando convertir una ventaja de capacidad en una ventaja defensiva temporal, antes de que el resto del ecosistema llegue al mismo punto&lt;/strong&gt;.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;Lo que realmente está cambiando: publicar ya no equivale a desplegar
 &lt;div id="lo-que-realmente-está-cambiando-publicar-ya-no-equivale-a-desplegar" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#lo-que-realmente-est%c3%a1-cambiando-publicar-ya-no-equivale-a-desplegar" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Lo más interesante de Mythos no es solo el argumento de seguridad. Es el precedente que establece.&lt;/p&gt;
&lt;p&gt;Durante años, hemos tendido a asumir que el modelo más avanzado de un laboratorio era también, tarde o temprano, el que terminaría en manos de clientes, desarrolladores o usuarios. Con Mythos, esa equivalencia se rompe.&lt;/p&gt;
&lt;p&gt;A partir de ahora, puede que el modelo más avanzado:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;no sea el producto principal,&lt;/li&gt;
&lt;li&gt;no se ofrezca abiertamente en API,&lt;/li&gt;
&lt;li&gt;no llegue al mercado general,&lt;/li&gt;
&lt;li&gt;y exista durante un tiempo en una especie de &lt;strong&gt;cuarentena estratégica&lt;/strong&gt;.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Eso cambia muchas cosas.&lt;/p&gt;
&lt;p&gt;Cambia la conversación sobre competencia entre labs. Cambia la lectura de los anuncios públicos. Y cambia también el marco regulatorio y geopolítico: &lt;strong&gt;si los modelos más potentes dejan de ser necesariamente públicos, entonces la frontera real de capacidad podría quedar oculta tras programas de acceso restringido, acuerdos privados y despliegues asimétricos&lt;/strong&gt;.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;Pero también conviene mantener una mirada crítica
 &lt;div id="pero-también-conviene-mantener-una-mirada-crítica" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#pero-tambi%c3%a9n-conviene-mantener-una-mirada-cr%c3%adtica" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Dicho esto, hay que evitar tragarse la narrativa sin filtro.&lt;/p&gt;
&lt;p&gt;Anthropic está haciendo afirmaciones muy extraordinarias:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;miles de vulnerabilidades de alta severidad,&lt;/li&gt;
&lt;li&gt;zero-days en software crítico,&lt;/li&gt;
&lt;li&gt;cobertura sobre todos los grandes OS y navegadores,&lt;/li&gt;
&lt;li&gt;exploits sofisticados desarrollados de forma autónoma,&lt;/li&gt;
&lt;li&gt;y una razón de seguridad suficientemente fuerte como para no publicar el modelo.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El problema es que &lt;strong&gt;la evidencia pública está necesariamente limitada&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;La propia Anthropic dice que más del 99% de las vulnerabilidades encontradas no están parcheadas todavía y, por tanto, no pueden divulgarse. Además, el documento de riesgo se presenta de forma &lt;strong&gt;redacted&lt;/strong&gt;.&lt;/p&gt;
&lt;blockquote&gt;&lt;p&gt;“Over 99% of the vulnerabilities we’ve found have not yet been patched, so it would be irresponsible for us to disclose details about them.”&lt;br&gt;
— Anthropic, &lt;em&gt;Claude Mythos Preview&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;Eso es razonable desde el punto de vista de divulgación responsable. Pero también implica que buena parte de la historia depende de &lt;strong&gt;confiar en la interpretación y en el framing del propio laboratorio&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Es decir: la decisión de Anthropic puede ser perfectamente sensata, incluso admirable, y a la vez estar envuelta en una narrativa corporativa que conviene leer con cierto escepticismo metodológico.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;Mi lectura: Mythos puede marcar un antes y un después
 &lt;div id="mi-lectura-mythos-puede-marcar-un-antes-y-un-después" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#mi-lectura-mythos-puede-marcar-un-antes-y-un-despu%c3%a9s" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Mi impresión es que este episodio puede acabar siendo recordado menos por el nombre del modelo y más por la señal estratégica que emite.&lt;/p&gt;
&lt;p&gt;Anthropic no solo está diciendo “hemos entrenado algo muy potente”. Está diciendo algo más incómodo:&lt;/p&gt;
&lt;blockquote&gt;&lt;p&gt;&lt;strong&gt;hemos cruzado una frontera de capacidad en la que el comportamiento responsable ya no consiste automáticamente en publicar&lt;/strong&gt;.&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;Si esa tesis se consolida, Mythos será un hito por tres razones.&lt;/p&gt;

&lt;h3 class="relative group"&gt;1. Porque normaliza la retención parcial de frontier models
 &lt;div id="1-porque-normaliza-la-retención-parcial-de-frontier-models" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#1-porque-normaliza-la-retenci%c3%b3n-parcial-de-frontier-models" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;No como excepción anecdótica, sino como herramienta legítima de gobernanza.&lt;/p&gt;

&lt;h3 class="relative group"&gt;2. Porque desplaza el debate desde “qué puede hacer el modelo” hacia “quién debería poder usarlo y cuándo”
 &lt;div id="2-porque-desplaza-el-debate-desde-qué-puede-hacer-el-modelo-hacia-quién-debería-poder-usarlo-y-cuándo" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#2-porque-desplaza-el-debate-desde-qu%c3%a9-puede-hacer-el-modelo-hacia-qui%c3%a9n-deber%c3%ada-poder-usarlo-y-cu%c3%a1ndo" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;Eso es un cambio fundamental.&lt;/p&gt;

&lt;h3 class="relative group"&gt;3. Porque sugiere que la frontera real de capacidad ya puede estar varios pasos por delante de lo que vemos en producto
 &lt;div id="3-porque-sugiere-que-la-frontera-real-de-capacidad-ya-puede-estar-varios-pasos-por-delante-de-lo-que-vemos-en-producto" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#3-porque-sugiere-que-la-frontera-real-de-capacidad-ya-puede-estar-varios-pasos-por-delante-de-lo-que-vemos-en-producto" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;Y eso tiene implicaciones enormes para estrategia, política tecnológica y seguridad.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;La conclusión incómoda
 &lt;div id="la-conclusión-incómoda" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#la-conclusi%c3%b3n-inc%c3%b3moda" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Durante años, la narrativa dominante de la IA fue que el progreso técnico acabaría democratizando el acceso a capacidades cada vez más potentes.&lt;/p&gt;
&lt;p&gt;Claude Mythos introduce una posibilidad distinta: que algunas capacidades sean tan sensibles que el avance técnico no desemboque en apertura, sino en &lt;strong&gt;contención&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;No porque el modelo haya fallado. Precisamente porque ha funcionado demasiado bien.&lt;/p&gt;
&lt;blockquote&gt;&lt;p&gt;“Claude Mythos Preview reveals a stark fact: AI models have reached a level of coding capability where they can surpass all but the most skilled humans at finding and exploiting software vulnerabilities.”&lt;br&gt;
— Anthropic, &lt;em&gt;Project Glasswing&lt;/em&gt;&lt;/p&gt;
&lt;/blockquote&gt;&lt;p&gt;Si Anthropic tiene razón, no estamos simplemente ante otro lanzamiento de modelo. Estamos ante el momento en que un laboratorio frontier ha decidido, de forma explícita, que &lt;strong&gt;su sistema más avanzado no debía comportarse como un producto normal&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Y eso, en esta industria, es una noticia mucho más grande que cualquier benchmark.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;Fuentes principales
 &lt;div id="fuentes-principales" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#fuentes-principales" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;Anthropic — &lt;em&gt;Project Glasswing&lt;/em&gt;&lt;br&gt;
&lt;a href="https://www.anthropic.com/glasswing" target="_blank" rel="noreferrer"&gt;https://www.anthropic.com/glasswing&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Anthropic Frontier Red Team — &lt;em&gt;Claude Mythos Preview&lt;/em&gt;&lt;br&gt;
&lt;a href="https://red.anthropic.com/2026/mythos-preview/" target="_blank" rel="noreferrer"&gt;https://red.anthropic.com/2026/mythos-preview/&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Anthropic — &lt;em&gt;Alignment Risk Update: Claude Mythos Preview (Redacted)&lt;/em&gt;&lt;br&gt;
&lt;a href="https://www.anthropic.com/claude-mythos-preview-risk-report" target="_blank" rel="noreferrer"&gt;https://www.anthropic.com/claude-mythos-preview-risk-report&lt;/a&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;/ul&gt;</content:encoded><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://carlesabarca.com/posts/claude-mythos-unreleased-frontier-model/featured.svg"/></item><item><title>Claude Mythos: El modelo que hizo caer las acciones de ciberseguridad — y lo que nos dice sobre hacia dónde va la IA</title><link>https://carlesabarca.com/es/posts/claude-mythos-cybersecurity/</link><pubDate>Sun, 29 Mar 2026 00:00:00 +0000</pubDate><guid>https://carlesabarca.com/es/posts/claude-mythos-cybersecurity/</guid><description>El modelo filtrado de nueva generación de Anthropic no es solo más potente — puede encontrar y explotar vulnerabilidades de software más rápido que los defensores humanos. Las implicaciones van mucho más allá de la ciberseguridad.</description><content:encoded>&lt;p&gt;Hace tres días, un CMS mal configurado en Anthropic dejó expuestos públicamente unos 3.000 activos internos. Entre ellos: un borrador de blog anunciando su modelo de IA de nueva generación. El nombre varía entre los dos borradores filtrados — &amp;ldquo;Mythos&amp;rdquo; y &amp;ldquo;Capybara&amp;rdquo; — pero lo que importa no es el nombre. Lo que importa es lo que puede hacer.&lt;/p&gt;
&lt;p&gt;Y lo que puede hacer debería hacer que cualquiera en liderazgo tecnológico se detenga a pensar con mucho cuidado.&lt;/p&gt;

&lt;h2 class="relative group"&gt;Qué se filtró
 &lt;div id="qué-se-filtró" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#qu%c3%a9-se-filtr%c3%b3" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;El 26 de marzo, los investigadores de seguridad Roy Paz (LayerX Security) y Alexandre Pauwels (Universidad de Cambridge) descubrieron los documentos expuestos. Anthropic reconoció la filtración como &amp;ldquo;error humano&amp;rdquo; y confirmó que el modelo es real.&lt;/p&gt;
&lt;p&gt;Esto es lo que sabemos:&lt;/p&gt;
&lt;p&gt;Claude Mythos no es Claude Opus 4.7. No es una actualización incremental. Es un &lt;strong&gt;nuevo nivel por encima de Opus&lt;/strong&gt; — en palabras de Anthropic: &amp;ldquo;un nombre nuevo para un nuevo nivel de modelo: más grande y más inteligente que nuestros modelos Opus, que eran, hasta ahora, los más potentes.&amp;rdquo; Los reportes sugieren aproximadamente 10 billones de parámetros, un salto de 5 a 10 veces respecto a los modelos frontera anteriores.&lt;/p&gt;
&lt;p&gt;El entrenamiento está completo. Clientes selectos ya lo están probando.&lt;/p&gt;

&lt;h2 class="relative group"&gt;Por qué cayeron las acciones de ciberseguridad
 &lt;div id="por-qué-cayeron-las-acciones-de-ciberseguridad" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#por-qu%c3%a9-cayeron-las-acciones-de-ciberseguridad" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;La mañana después de la filtración, la reacción del mercado fue rápida y brutal:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ETF iShares Cybersecurity: &lt;strong&gt;-4,5%&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;CrowdStrike, Palo Alto Networks, Zscaler, SentinelOne: &lt;strong&gt;-6% cada uno&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;Tenable: &lt;strong&gt;-9%&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;Bitcoin cayó a $66.000&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;¿Por qué? Porque el borrador filtrado describe a Mythos como &amp;ldquo;actualmente muy por delante de cualquier otro modelo de IA en capacidades ciber.&amp;rdquo; Puede descubrir y explotar vulnerabilidades de software a velocidades que — según la propia evaluación de Anthropic — &amp;ldquo;superan con creces a los defensores humanos.&amp;rdquo;&lt;/p&gt;
&lt;p&gt;Léanlo de nuevo. La empresa que lo construyó les está diciendo que los equipos humanos de ciberseguridad no pueden seguirle el ritmo.&lt;/p&gt;
&lt;p&gt;Esto no es hipotético. Anthropic ya detectó a un grupo patrocinado por el estado chino usando Claude Code para infiltrar aproximadamente 30 organizaciones — empresas tecnológicas, instituciones financieras, agencias gubernamentales — antes de ser detectados. Mythos, según los reportes, hace que eso parezca un juego de niños.&lt;/p&gt;
&lt;p&gt;El analista de Stifel, Adam Borg, lo resumió claramente: &amp;ldquo;Mythos es un orden de magnitud más potente, y más intensivo en cómputo, que cualquier otro modelo frontera del mercado.&amp;rdquo;&lt;/p&gt;

&lt;h2 class="relative group"&gt;La estrategia de despliegue lo dice todo
 &lt;div id="la-estrategia-de-despliegue-lo-dice-todo" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#la-estrategia-de-despliegue-lo-dice-todo" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;El enfoque de Anthropic para el despliegue es quizás la señal más reveladora:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Primer acceso:&lt;/strong&gt; No para desarrolladores. No para empresas. Para &lt;strong&gt;organizaciones de ciberseguridad&lt;/strong&gt; — &amp;ldquo;dándoles una ventaja para mejorar la robustez de sus bases de código ante la inminente oleada de exploits impulsados por IA.&amp;rdquo;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Sin fecha de lanzamiento público.&lt;/strong&gt; Están retrasando explícitamente la disponibilidad general.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Problema de costo reconocido.&lt;/strong&gt; Anthropic dice que es &amp;ldquo;muy caro de servir&amp;rdquo; y necesitan hacerlo &amp;ldquo;mucho más eficiente antes de cualquier lanzamiento general.&amp;rdquo;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Cuando una empresa construye el modelo de IA más potente del mundo y su primer instinto es entregarlo a los defensores antes de que los atacantes puedan acceder — eso no es un lanzamiento de producto. Es una divulgación controlada.&lt;/p&gt;

&lt;h2 class="relative group"&gt;Qué significa Mythos más allá de la ciberseguridad
 &lt;div id="qué-significa-mythos-más-allá-de-la-ciberseguridad" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#qu%c3%a9-significa-mythos-m%c3%a1s-all%c3%a1-de-la-ciberseguridad" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Voy a ser directo sobre lo que creo que esto representa.&lt;/p&gt;
&lt;p&gt;Mythos obtiene &amp;ldquo;puntuaciones dramáticamente superiores&amp;rdquo; a Opus 4.6 en benchmarks de programación y razonamiento académico. Opus 4.6 ya lideraba SWE-bench Verified con 80,8% y Terminal-Bench 2.0 con 65,4%. Lo que sea que signifique &amp;ldquo;dramáticamente superiores,&amp;rdquo; estamos hablando de un modelo que programa mejor que la mayoría de los desarrolladores profesionales y razona a través de problemas complejos a un nivel que era ciencia ficción hace cinco años.&lt;/p&gt;
&lt;p&gt;Pero la capacidad de ciberseguridad es la verdadera llamada de atención, porque el descubrimiento de vulnerabilidades requiere algo cualitativamente diferente de la generación de texto o la completación de código. Requiere:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Razonamiento profundo de múltiples pasos&lt;/strong&gt; — encadenar inferencias lógicas a través de sistemas complejos&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Creatividad adversarial&lt;/strong&gt; — encontrar vectores de ataque que no fueron diseñados ni anticipados&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ejecución autónoma&lt;/strong&gt; — no solo identificar una vulnerabilidad sino explotarla activamente&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Cuando un modelo puede hacer las tres cosas a velocidad sobrehumana en un dominio tan complejo como la ciberseguridad, las implicaciones se extienden a cada campo que involucre razonamiento complejo bajo incertidumbre. Derecho. Medicina. Investigación científica. Planificación estratégica. Finanzas.&lt;/p&gt;

&lt;h2 class="relative group"&gt;La pregunta sobre la AGI (que es la pregunta equivocada)
 &lt;div id="la-pregunta-sobre-la-agi-que-es-la-pregunta-equivocada" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#la-pregunta-sobre-la-agi-que-es-la-pregunta-equivocada" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;¿Es Mythos AGI? No. No aprende tareas nuevas a partir de ejemplos mínimos como los humanos. No tiene memoria persistente, ni bucle de auto-mejora, ni establecimiento autónomo de objetivos.&lt;/p&gt;
&lt;p&gt;Pero esto es lo que creo que importa más: &lt;strong&gt;puede que hayamos pasado el punto donde la etiqueta AGI importa en la práctica.&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Un modelo que puede encontrar y explotar de forma autónoma vulnerabilidades zero-day — algo que antes requería equipos de investigadores humanos de élite — cambia las reglas del juego independientemente de si lo llamamos inteligencia &amp;ldquo;general.&amp;rdquo; La superinteligencia estrecha en dominios de alto impacto es más inmediatamente consecuente que la AGI teórica.&lt;/p&gt;
&lt;p&gt;El hecho de que la propia Anthropic esté lo suficientemente alarmada como para retrasar el lanzamiento general y priorizar el despliegue defensivo dice mucho sobre dónde estamos en la curva de capacidades.&lt;/p&gt;

&lt;h2 class="relative group"&gt;El contexto competitivo lo empeora
 &lt;div id="el-contexto-competitivo-lo-empeora" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#el-contexto-competitivo-lo-empeora" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Mythos no existe en aislamiento:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;OpenAI&lt;/strong&gt; ha terminado el pre-entrenamiento de un nuevo modelo con nombre en clave &amp;ldquo;Spud&amp;rdquo; — se espera en semanas.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Google DeepMind&lt;/strong&gt; acaba de lanzar Gemini 3.1 para procesamiento multimodal en tiempo real.&lt;/li&gt;
&lt;li&gt;Tanto Anthropic como OpenAI están programando lanzamientos importantes antes de sus &lt;strong&gt;OPIs planificadas para finales de 2026.&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Esto es una carrera armamentista con presión de OPI. Los incentivos para empujar los límites de capacidad son enormes y crecientes. Los incentivos para la cautela son&amp;hellip; bueno, acabamos de ver cómo fue la cautela de Anthropic. Una mala configuración del CMS, y todo el mundo se entera.&lt;/p&gt;

&lt;h2 class="relative group"&gt;Qué significa esto para las instituciones
 &lt;div id="qué-significa-esto-para-las-instituciones" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#qu%c3%a9-significa-esto-para-las-instituciones" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Para universidades, para gobiernos, para cualquier organización tomando decisiones sobre estrategia de IA:&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;El horizonte de planificación se acaba de comprimir.&lt;/strong&gt; Si estaban pensando en marcos de gobernanza de IA como una iniciativa para 2027-2028, piénsenlo de nuevo. Los modelos con capacidades sobrehumanas en dominios específicos están aquí ahora, no en un futuro cómodo.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;La ciberseguridad ya no es opcional.&lt;/strong&gt; Es existencial. Cada institución necesita asumir que los ataques impulsados por IA se convertirán en la norma, no en la excepción. Los defensores también necesitan IA — y la necesitan primero.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;La ecuación del talento está cambiando.&lt;/strong&gt; Cuando un modelo puede superar a los expertos humanos en ciberseguridad, el valor no está en la ejecución técnica — está en el juicio sobre cuándo y cómo desplegar estas capacidades. Necesitamos personas que entiendan tanto la tecnología como sus implicaciones.&lt;/p&gt;
&lt;p&gt;Sigo llegando a la misma conclusión que escribí en mi &lt;a href="../../../es/posts/from-seo-to-aeo/" &gt;artículo anterior sobre AEO&lt;/a&gt;: la transformación digital en 2026 significa preparar a nuestras instituciones para un mundo donde los sistemas de IA son colegas, no herramientas. Mythos acaba de hacer que esa afirmación se sienta incómodamente literal.&lt;/p&gt;
&lt;p&gt;Jensen Huang dijo que la AGI ha llegado. Se equivocó en la definición pero acertó en la urgencia. Ya sea que lo llamemos AGI o superinteligencia estrecha o simplemente &amp;ldquo;IA realmente potente&amp;rdquo; — los sistemas están aquí, son reales, y el momento de prepararse fue ayer.&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;em&gt;Carles Abarca es Vicepresidente de Transformación Digital en el Tecnológico de Monterrey.&lt;/em&gt;&lt;/p&gt;</content:encoded><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://carlesabarca.com/posts/claude-mythos-cybersecurity/featured.jpg"/></item><item><title>Comparando modelos populares de IA: mis resultados</title><link>https://carlesabarca.com/es/posts/comparing-ai-models/</link><pubDate>Mon, 27 Jan 2025 00:00:00 +0000</pubDate><guid>https://carlesabarca.com/es/posts/comparing-ai-models/</guid><description>Una comparacion personal de ChatGPT 4o, ChatGPT o1, Claude 3.5, Gemini, Perplexity Pro y DeepSeek en escritura creativa, razonamiento visual y matematicas.</description><content:encoded>&lt;p&gt;Recientemente probe varios modelos de IA lideres para ver como se comparan entre si. Los modelos que compare fueron: &lt;strong&gt;ChatGPT 4o&lt;/strong&gt;, &lt;strong&gt;ChatGPT o1&lt;/strong&gt;, &lt;strong&gt;Claude 3.5 Sonnet&lt;/strong&gt;, &lt;strong&gt;Gemini 2.0 Flash Experimental&lt;/strong&gt;, &lt;strong&gt;Perplexity Pro&lt;/strong&gt; y &lt;strong&gt;DeepSeek&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;Usando un conjunto consistente de estimulos, evalue su rendimiento en una variedad de tareas: escritura creativa, descripcion de imagenes y razonamiento, y resolucion de problemas matematicos de varios pasos.&lt;/p&gt;
&lt;p&gt;Los resultados no pretenden ser una comparacion cientifica y exhaustiva, sino mi propia opinion basada en mis preferencias al comparar las respuestas de los modelos ante el mismo estimulo.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;1. Tareas de escritura creativa
 &lt;div id="1-tareas-de-escritura-creativa" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#1-tareas-de-escritura-creativa" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;

&lt;h3 class="relative group"&gt;Letra de cancion: &amp;ldquo;Nostalgia por un lugar que nunca has visitado&amp;rdquo;
 &lt;div id="letra-de-cancion-nostalgia-por-un-lugar-que-nunca-has-visitado" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#letra-de-cancion-nostalgia-por-un-lugar-que-nunca-has-visitado" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;ChatGPT 4o&lt;/strong&gt; entrego letras evocadoras con calles polvorientas, brisas crepusculares y fotografias &amp;ndash; un fuerte arco emocional. &lt;strong&gt;ChatGPT o1&lt;/strong&gt; (&amp;ldquo;Faraway Memories&amp;rdquo;) eligio sal, costas distantes y caminos empedrados &amp;ndash; calido y melodico. &lt;strong&gt;Claude 3.5&lt;/strong&gt; fue minimalista con escenas pintadas en libros de viaje y flores de cerezo &amp;ndash; limpio y visual. &lt;strong&gt;Gemini&lt;/strong&gt; ofrecio postales decoloradas por el sol y arboles susurrantes &amp;ndash; atmosferico. &lt;strong&gt;Perplexity&lt;/strong&gt; (&amp;ldquo;Echoes of Elsewhere&amp;rdquo;) escribio calles empedradas y campanas antiguas &amp;ndash; efectivo. &lt;strong&gt;DeepSeek&lt;/strong&gt; (&amp;ldquo;Ghosts of Nowhere&amp;rdquo;) destaco con el resplandor ambar de un farol, una puerta nunca girada y susurros aferrados a los adoquines &amp;ndash; el mas poetico del grupo.&lt;/p&gt;

&lt;h3 class="relative group"&gt;Cuento corto: &amp;ldquo;Un recuerdo de la infancia&amp;rdquo;
 &lt;div id="cuento-corto-un-recuerdo-de-la-infancia" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#cuento-corto-un-recuerdo-de-la-infancia" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;ChatGPT 4o&lt;/strong&gt; nos situo descalzos bajo un arbol de mango con jugo de fruta pegajoso &amp;ndash; detalle sensorial vivido. &lt;strong&gt;ChatGPT o1&lt;/strong&gt; describio un porche de concreto agrietado con cojines verdes desteñidos &amp;ndash; intimo y arraigado. &lt;strong&gt;Claude 3.5&lt;/strong&gt; nos llevo al patio de la abuela con una higuera convertida en fortaleza &amp;ndash; profundamente nostalgico. &lt;strong&gt;Gemini&lt;/strong&gt; evoco tierra humeda y el jardin de la senora Gable &amp;ndash; narrativa vecinal calida. &lt;strong&gt;Perplexity&lt;/strong&gt; ofrecio un columpio de llanta y un viejo roble. &lt;strong&gt;DeepSeek&lt;/strong&gt; describio luz dorada, pies descalzos en el pasto, persiguiendo luciernagas &amp;ndash; romantico y calido.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;2. Descripcion de imagenes y razonamiento
 &lt;div id="2-descripcion-de-imagenes-y-razonamiento" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#2-descripcion-de-imagenes-y-razonamiento" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;Subi una imagen de un espresso en un vaso de papel blanco sobre una superficie de madera.&lt;/p&gt;

&lt;h3 class="relative group"&gt;Descripcion basica
 &lt;div id="descripcion-basica" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#descripcion-basica" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;Todos los modelos identificaron correctamente un vaso desechable de papel blanco con espresso sobre una superficie de madera pulida. Los modelos variaron en detalle: &lt;strong&gt;ChatGPT 4o&lt;/strong&gt; noto el acabado mate y las costuras verticales. &lt;strong&gt;Claude&lt;/strong&gt; identifico especificamente la forma conica tipica de los vasos de papel. &lt;strong&gt;Gemini&lt;/strong&gt; organizo su respuesta en materia y detalles visuales. &lt;strong&gt;Perplexity&lt;/strong&gt; noto la capa de crema dorada.&lt;/p&gt;

&lt;h3 class="relative group"&gt;Razonamiento deductivo
 &lt;div id="razonamiento-deductivo" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#razonamiento-deductivo" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;Al preguntar que se podia deducir sobre el entorno, la hora del dia o posibles eventos:&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;ChatGPT 4o&lt;/strong&gt; bosquejo un probable entorno de oficina interior con iluminacion artificial, sugiriendo una pausa para cafe por la manana &amp;ndash; completo e imaginativo. &lt;strong&gt;ChatGPT o1&lt;/strong&gt; fue mas cauteloso, admitiendo incertidumbre. &lt;strong&gt;Claude&lt;/strong&gt; indico un ambiente de cafeteria con luz natural media &amp;ndash; creativo pero algo especulativo. &lt;strong&gt;Gemini&lt;/strong&gt; apropiadamente destaco la dificultad de determinar la hora precisa. &lt;strong&gt;Perplexity&lt;/strong&gt; creativamente situo la escena un &amp;ldquo;martes a las 9 AM&amp;rdquo; &amp;ndash; inventivo pero sin soporte. &lt;strong&gt;DeepSeek&lt;/strong&gt; no soporto esta tarea.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;3. Resolucion de problemas matematicos
 &lt;div id="3-resolucion-de-problemas-matematicos" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#3-resolucion-de-problemas-matematicos" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;

&lt;h3 class="relative group"&gt;Primer problema
 &lt;div id="primer-problema" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#primer-problema" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;&lt;em&gt;&amp;ldquo;Un jardin rectangular mide 10 metros de largo y 5 de ancho. Calcula el area y el costo de cercarlo si el cercado cuesta $5 por metro.&amp;rdquo;&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;Respuesta correcta: area de 50 metros cuadrados, costo de cercado de $150. Todos los modelos respondieron correctamente con desgloses de 2-3 pasos.&lt;/p&gt;

&lt;h3 class="relative group"&gt;Segundo problema
 &lt;div id="segundo-problema" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#segundo-problema" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h3&gt;
&lt;p&gt;&lt;em&gt;&amp;ldquo;Si la mitad del area del jardin sera para vegetales y la otra mitad para flores, y necesitas plantar 4 flores por metro cuadrado, cuantas plantas de flores necesitaras? Ademas, si un aspersor cubre 2 metros cuadrados, cuantos aspersores se necesitan para todo el jardin?&amp;rdquo;&lt;/em&gt;&lt;/p&gt;
&lt;p&gt;Respuesta correcta: 100 plantas de flores y 25 aspersores. Todos los modelos respondieron correctamente.&lt;/p&gt;
&lt;hr&gt;

&lt;h2 class="relative group"&gt;Conclusiones
 &lt;div id="conclusiones" class="anchor"&gt;&lt;/div&gt;
 
 &lt;span
 class="absolute top-0 w-6 transition-opacity opacity-0 -start-6 not-prose group-hover:opacity-100 select-none"&gt;
 &lt;a class="text-primary-300 dark:text-neutral-700 !no-underline" href="#conclusiones" aria-label="Ancla"&gt;#&lt;/a&gt;
 &lt;/span&gt;
 
&lt;/h2&gt;
&lt;p&gt;No existe un unico &amp;ldquo;mejor&amp;rdquo; modelo &amp;ndash; depende de lo que necesites:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Para escritura creativa&lt;/strong&gt;, DeepSeek y Claude impresionaron con sus cualidades poeticas y literarias&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Para razonamiento visual&lt;/strong&gt;, ChatGPT 4o ofrecio el analisis mas completo e imaginativo&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Para resolucion matematica&lt;/strong&gt;, todos los modelos rindieron bien, con Perplexity destacando por su concision&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Para respuestas cautelosas y precisas&lt;/strong&gt;, ChatGPT o1 consistentemente evito sobreinterpretar&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;El panorama de la IA evoluciona tan rapidamente que estos resultados representan una foto instantanea en el tiempo. En seis meses, el ranking podria verse completamente diferente.&lt;/p&gt;</content:encoded><media:content xmlns:media="http://search.yahoo.com/mrss/" url="https://carlesabarca.com/posts/comparing-ai-models/featured.png"/></item></channel></rss>