Ir al contenido
  1. Blog/

Deja de Pagar de Más por Inteligencia

·11 mins· loading
Carles Abarca
Autor
Carles Abarca
Writing about AI, digital transformation, and the forces reshaping technology.

El comportamiento por defecto de la mayoría de productos con IA hoy es simple: ante la duda, llama al modelo frontier.

Cada mensaje de cliente clasificado por GPT-5. Cada tarea de extracción enrutada a través de Claude. Cada prompt, por trivial que sea, procesado por la misma máquina de varios billones de parámetros diseñada para razonar sobre estrategia legal, redactar patentes farmacéuticas y depurar sistemas distribuidos.

Funciona. Se integra rápido. Hace que el producto se sienta inteligente.

Y se está convirtiendo, silenciosamente, en uno de los hábitos más caros del stack moderno de IA.

El default que sobrepaga
#

Hace unas semanas escribí sobre el fin de la IA barata — el momento en el que los límites de suscripción, los caps de uso y los costes reales de inferencia empezaron por fin a reflejar la economía real de los modelos frontier. Esa es la historia macro.

Esta es la historia micro que está por debajo.

La razón por la que tantas empresas están a punto de sentir el aprieto no es solo que los precios frontier estén subiendo. Es que la arquitectura típica se construyó sobre una suposición silenciosa: que no había coste que mereciera preocupación, y que por lo tanto el mejor modelo debía encargarse de todo. Esa suposición se está rompiendo desde los dos lados a la vez.

Por un lado, la inferencia frontier es cada vez más cara, está cada vez más medida y cada vez menos subsidiada.

Por el otro — y esta es la parte que la mayoría de roadmaps aún no han puesto en el precio — los modelos locales y open-weight se han vuelto, silenciosamente, lo bastante buenos para una parte enorme de las tareas reales de empresa.

Esa combinación cambia la economía de la IA más que cualquier anuncio de producto de este año.

Lo que los modelos locales ya saben hacer
#

Hace unos años, “monta tu propio LLM” significaba un proyecto de ingeniería heroico, una clara bajada de calidad y un equipo de infraestructura que echaba de menos la nube en secreto.

Hoy, ya no.

La generación actual de modelos open-weight — Llama, Qwen, Mistral, DeepSeek, Gemma y sus derivados — ha cruzado umbrales de capacidad que en 2023 habrían sonado a ciencia ficción. Un modelo open-weight de 70B parámetros corriendo en una workstation de gama alta o una instancia GPU modesta rinde de forma competitiva en los benchmarks que más importaban a las empresas al inicio de este ciclo: razonamiento general, completado de código, resumen, extracción, traducción, output estructurado.

Y sigue mejorando. Rápido.

Esto no significa que frontier y open-weight sean intercambiables. No lo son. Los modelos frontier todavía sacan clara ventaja en coherencia de contexto largo, planificación agéntica multi-paso, síntesis novedosa de dominios y en los niveles más duros de generación de código.

Pero lo que importa en un roadmap de IA no es si los modelos locales han alcanzado a los frontier en todo. Es si son lo bastante buenos en las tareas específicas que tu sistema realmente ejecuta.

Y para la mayoría de los workloads enterprise en 2026, la respuesta es, cada vez más, sí.

El mapa que la mayoría de arquitecturas de IA no tienen
#

Si miras con atención lo que ocurre dentro de la mayoría de aplicaciones con IA, los workloads se dividen limpiamente en dos grupos.

Tareas que sí necesitan un modelo frontier:

  • Razonamiento de contexto largo a lo largo de decenas de documentos.
  • Planificación agéntica multi-paso sobre objetivos ambiguos.
  • Generación compleja de código desde cero en dominios poco familiares.
  • Síntesis creativa que mezcla múltiples voces expertas.
  • Manejo de inputs adversariales o casos borde que exigen juicio real.

Tareas que casi con toda seguridad no:

  • Clasificación de emails, tickets o documentos por tipo.
  • Extracción de entidades, fechas e importes en un texto.
  • Resumen de una o dos páginas de contenido.
  • Reescritura de un párrafo en un tono diferente.
  • Generación de output estructurado (JSON, SQL) a partir de texto plano.
  • Traducción entre idiomas mayoritarios.
  • Respuesta a FAQs desde una capa de retrieval.
  • Sub-pasos deterministas dentro de un agente mayor.

La mayoría de arquitecturas de IA tratan a ambos grupos de la misma manera. No deberían.

El trabajo de cualquier stack de IA adulto — y uso “adulto” en el sentido de fase madura, en oposición a la fase de subidón de azúcar de los últimos dos años — es enrutar cada tarea al tier correcto. Frontier cuando se lo gana. Open-weight cuando no.

La palabra que llevo usando internamente para esto es discriminación de tareas. No en el sentido social — en el arquitectónico. La capacidad de reconocer que distintas tareas merecen distintos presupuestos de inteligencia, y diseñar en consecuencia.

No es solo una cuestión de coste
#

El coste es la razón más visible para preocuparse por la discriminación de tareas. No es la única.

Hay otras cuatro razones que no dejan de componerse a medida que una organización usa IA más profundamente.

Latencia. Un modelo local de 8B o 13B corriendo al lado de tu aplicación puede devolver una clasificación en menos de 100 milisegundos. Un round-trip a una API cloud frontier rara vez es así de rápido. Para experiencias interactivas, agentes de cara al usuario o automatizaciones internas de alta frecuencia, esa diferencia importa.

Privacidad y residencia de datos. Enrutar cada email de cliente, cada historia clínica, cada expediente académico o cada memorando interno a través de un modelo de terceros es una postura de gobernanza que envejece mal. Los reguladores lo han notado. Los consejos lo han notado. Para un número creciente de casos de uso — salud, educación, legal, defensa, gobierno y cualquier dominio cubierto por regímenes locales de protección de datos — la inferencia local no es una optimización. Es un requisito.

Fiabilidad. Cuando tu arquitectura depende de un único proveedor frontier, también depende de sus rate limits, sus restricciones de suscripción, sus caídas y su roadmap comercial. Es un nivel de dependencia sistémica que levantaría cejas en cualquier otra parte del stack tecnológico.

Determinismo y control. Un modelo más pequeño que controlas por completo, fine-tuneado o prompt-tuneado para una tarea estrecha, suele comportarse de forma más predecible que un modelo frontier generalista optimizado para manejar el universo entero. La predictibilidad está infravalorada hasta que falta.

Ninguno de estos puntos, por sí solo, es razón para abandonar los modelos frontier. Todos juntos son razón suficiente para dejar de usar modelos frontier por defecto para todo.

Los números no son sutiles
#

Déjame ilustrarlo con un escenario simple.

Imagina una organización de tamaño medio corriendo un millón de llamadas ligeras de IA al mes: una mezcla de clasificación, extracción, resumen y output estructurado. Pongamos que la llamada media consume del orden de mil tokens de entrada y salida.

Enrutadas a través de un modelo frontier de primera línea, la factura de inferencia para esas llamadas se sitúa cómodamente en las decenas de miles de euros al mes. Multiplica por doce, añade crecimiento, y es el tipo de línea presupuestaria que empieza a aparecer en las revisiones del CFO.

El mismo workload, enrutado a través de un modelo open-weight bien desplegado — on-prem o en una instancia GPU dedicada en un proveedor especializado — sale un orden de magnitud más barato, a veces dos. Y la diferencia de calidad, en precisamente este tipo de tareas, suele ser invisible para el usuario final.

Eso no es un error de redondeo. Es la diferencia entre que la IA sea una capacidad operativa sostenible y que la IA sea una línea que tu CFO empieza a cuestionar en cada forecast.

Y las organizaciones que se den cuenta primero no van a usar el ahorro para reducir. Lo van a usar para escalar más.

Cómo lo corro yo en mi propio escritorio
#

La forma más honesta de escribir sobre discriminación de tareas es describir lo que yo mismo corro, no lo que creo que otros deberían correr.

En mi propio setup tengo un Mac Studio dedicado a publicar modelos locales para mis agentes. Está apoyado en una estantería, publica un endpoint de inferencia privado a través de LM Studio y aloja una pequeña biblioteca de modelos open-weight optimizados para MLX — el framework que permite a estos modelos aprovechar al máximo la GPU de Apple Silicon y la memoria unificada.

Nada de esa máquina está expuesto a internet público. El endpoint vive dentro de mi red, detrás de los límites que cualquier setup serio exige. Para el tipo de trabajo que enruto por ahí, eso no es opcional.

Elegí un Mac Studio frente a la alternativa obvia — un rig GPU dedicado — por razones que no son puramente técnicas. Tiene potencia suficiente para los tamaños de modelo que me importan de verdad. Es extraordinariamente fiable. Es casi perfectamente silencioso. Y su consumo en reposo es lo bastante bajo como para poder dejarlo encendido 24/7 sin pensármelo. Nada de eso importa cuando estás alquilando H100s por hora. Importa mucho cuando la máquina es una pieza permanente de tu stack operativo.

La arquitectura en sí es deliberadamente simple.

El orquestador principal — el LLM que da vida a mis agentes — es un modelo frontier. Ahí es donde ocurre el razonamiento duro, donde la ambigüedad tiene que resolverse, donde el plan completo tiene que sostenerse. Para ese papel, pagar por el mejor merece la pena.

Pero por debajo del orquestador, reglas de routing empujan las subtareas al endpoint local siempre que es posible o recomendable. Local hace el trabajo rutinario. Frontier hace el pensamiento.

El resultado es que mi factura de modelos frontier se ha colapsado sin ninguna pérdida perceptible de calidad en la experiencia de extremo a extremo. No porque local haya alcanzado a frontier en todo — no lo ha hecho — sino porque una parte enorme de lo que cualquier agente hace en realidad no es razonamiento en el sentido duro. Es clasificar. Extraer. Resumir. Reformatear. Traducir. Producir output estructurado.

Modelos como qwen3.6-35b-a3b-ud-mlx, gemma-4-31b-it-mlx o gpt-oss-20b-mlx resuelven esas tareas a la perfección. Corriendo en local. Con latencias que un round-trip a la nube no puede igualar. Y sin enviar un solo byte de contexto a un tercero.

Eso no es una arquitectura teórica. Es lo que está corriendo en mi escritorio, hoy.

Entonces, ¿qué debería cambiar?
#

No hace falta arrancar nada. Hace falta rearquitecturar.

Al menos en cinco frentes.

1. Construye una taxonomía de tareas
#

Cada llamada de IA en tu producto o en tus operaciones pertenece a un tier de complejidad. Mápealas. La mayoría de equipos descubre que más de la mitad de sus llamadas caen cómodamente en el cubo de “no necesita frontier” — y llevan años pagando precios frontier por ellas sin darse cuenta.

2. Empieza con un router, no con una migración
#

El primer paso con más apalancamiento no es cambiar de modelo. Es añadir una capa de routing inteligente — a veces tan simple como “clasifica la intención, luego despacha” — que envíe las tareas triviales a un tier más barato y solo escale cuando la confianza sea baja o la complejidad alta.

3. Mide coste y calidad por tarea, no por modelo
#

La pregunta “¿qué modelo es el mejor?” es la equivocada. La pregunta correcta es “¿qué modelo es el mejor para esta tarea específica a este coste específico?”. Construye la observabilidad que responda a eso.

4. Trata lo local como una capacidad, no como una rebaja
#

Los modelos open-weight ya no son un premio de consolación. En muchos workflows son la herramienta correcta — más rápidos, más baratos, más privados, más controlables. Los equipos que todavía hablan de ellos en tono defensivo están señalando cuánto tiempo hace que no los miran.

5. Diseña híbrido por defecto
#

Las arquitecturas de IA interesantes de 2026 no serán puramente frontier ni puramente locales. Serán sistemas orquestados que combinan un modelo frontier para las partes difíciles, modelos open-weight para las partes rutinarias y modelos pequeños fine-tuneados para lo estrecho y de alto volumen — cada uno llamado cuando, y solo cuando, se lo gana.

La verdadera palanca de coste de la IA en 2026
#

La narrativa dominante este año seguirá enfocándose en la frontera: modelos más grandes, benchmarks más altos, capacidades más afiladas. Esa narrativa es real, y importa.

Pero por debajo hay un desplazamiento más silencioso que va a determinar qué organizaciones construyen de verdad operaciones de IA sostenibles — y cuáles acabarán racionalizando recortes de coste agresivos en 2027.

El desplazamiento no va de elegir entre frontier y local. Va de aprender a usar los dos, deliberadamente, en los momentos correctos, en las combinaciones correctas.

La optimización de IA más barata disponible en 2026 no es conseguir un mejor precio de tu proveedor actual.

Es la decisión de dejar de usar un modelo frontier para trabajo que un modelo local hace igual de bien.

La inteligencia está empezando a ser abundante. El criterio para usarla bien se está convirtiendo en el recurso escaso.

Las empresas que ganen la próxima fase de este ciclo no son las que paguen más por llamada.

Son las que ya han descubierto qué llamadas no hacía falta pagar.