20 de junio de 2026
Si has seguido la evolución de la inteligencia artificial en los últimos años, sabrás que el ecosistema de modelos de lenguaje ha cambiado drásticamente. Hasta no hace mucho, los mejores modelos eran exclusivamente privativos (GPT-4, Claude), pero desde 2024 los modelos open source han acortado distancias y hoy, en 2026, el gap entre modelos abiertos y cerrados es de apenas unos pocos puntos porcentuales en la mayoría de benchmarks.
Pero antes de entrar en materia, hay que aclarar un concepto importante porque es fuente de confusión constante: cuando hablamos de modelos "open source" en IA, casi siempre nos referimos en realidad a modelos de pesos abiertos (open-weight). La diferencia es sutil pero clave:
Cuando una empresa dice que su modelo es "open source", normalmente significa que puedes descargar los pesos y ejecutar el modelo, usarlo comercialmente (con restricciones variables según la licencia), y hacer fine-tuning y adaptación. Pero lo que no incluye casi nunca son los datos de entrenamiento (sabemos la composición general, pero no los ejemplos concretos), el código de entrenamiento completo, los checkpoints intermedios, ni la metodología exacta de limpieza y filtrado de datos.
Esto tiene implicaciones prácticas: no puedes verificar de forma independiente si el modelo fue entrenado con datos sesgados o con contenido con copyright. Tienes que confiar en lo que dice la empresa. Es mejor que un modelo cerrado, desde luego, pero no es el ideal del software libre tradicional.
Así que, con matices, podemos decir que hoy tenemos una gran variedad de modelos "abiertos" que podemos usar, descargar y en muchos casos afinar, pero cuyo proceso de entrenamiento sigue siendo un secreto industrial.
Voy a agrupar los modelos más relevantes por la empresa que está detrás.
Meta ha sido el gran impulsor del ecosistema open-weight con su familia Llama. En 2026, Llama 4 es su apuesta más ambiciosa, con tres variantes principales:
| Modelo | Parámetros totales | Parámetros activos | Contexto |
|---|---|---|---|
| Llama 4 Scout | 109B | 17B | 10M tokens |
| Llama 4 Maverick | 400B+ | 17B | 1M tokens |
| Llama 4 Behemoth | 2T | 288B | 256K tokens |
Arquitectónicamente, Llama 4 adopta Mixture of Experts (MoE), lo que significa que aunque el modelo tenga cientos de miles de millones de parámetros totales, solo activa una fracción por inferencia. Scout y Maverick activan solo 17B parámetros, lo que los hace sorprendentemente eficientes.
La licencia de Llama es propia de Meta: permite uso comercial, pero si tu producto supera los 700 millones de usuarios activos mensuales, necesitas permiso especial. Es una cláusula pensada para que gigantes como Google o Microsoft no puedan usarlo libremente compitiendo con Meta.
La familia Qwen de Alibaba es probablemente la que más rápido ha evolucionado. En febrero de 2026 lanzaron Qwen 3.5, con versiones desde 27B hasta 397B parámetros, todas bajo Apache 2.0.
| Modelo | Parámetros | Arquitectura | Contexto |
|---|---|---|---|
| Qwen 3.5 397B-A17B | 397B total / 17B activos | MoE | 256K |
| Qwen 3.5 122B-A10B | 122B total / 10B activos | MoE | 256K |
| Qwen 3.5 27B | 27B denso | Dense | 256K |
Qwen 3.5 destaca especialmente en razonamiento y tareas multimodales (texto + imagen). En GPQA Diamond, Qwen 3.5 lidera los modelos open-weight con un 88.4%, superando a modelos cerrados de generaciones anteriores.
Apache 2.0 es una de las licencias más permisivas que existen: puedes usar, modificar, distribuir y vender sin restricciones. Alibaba ha apostado fuerte por esta estrategia para ganar adopción global.
DeepSeek, el laboratorio chino, ha sido uno de los grandes disruptores. Su modelo DeepSeek V4-Pro alcanza un 80.6% en SWE-bench Verified, a solo 0.2 puntos de Claude Opus 4.6, y lo hace con licencia MIT.
| Modelo | Parámetros | Arquitectura | Contexto |
|---|---|---|---|
| DeepSeek V4-Pro | 1.6T total / 49B activos | MoE | 1M tokens |
| DeepSeek V3.2 | 671B total / 37B activos | MoE | 128K tokens |
DeepSeek llamó la atención mundial en 2025 por sus afirmaciones de entrenamiento eficiente (con un coste declarado muy inferior al de modelos equivalentes), lo que generó tanto admiración como controversia. Lo cierto es que sus modelos son, hoy por hoy, referencia en codificación y razonamiento matemático.
MIT es incluso más permisiva que Apache 2.0: básicamente puedes hacer lo que quieras con el modelo, siempre que incluyas el aviso de copyright.
Mistral, la startup francesa, representa a Europa en la élite de los LLMs. Su Mistral Large 3 (675B total / 41B activos) compite en la frontera, con licencia Apache 2.0 para los modelos abiertos. También tienen modelos más pequeños como Mistral 7B (el original que los hizo famosos) y Mixtral 8x22B.
Mistral tiene una estrategia dual: ofrece modelos abiertos potentes bajo Apache 2.0 y una versión comercial (Mistral Large) con capacidades adicionales bajo licencia paga. Es un enfoque pragmático que les ha dado una base de desarrolladores muy leal en Europa.
Google tiene dos líneas: Gemini (cerrado) y Gemma (abierto). Gemma 4, lanzado en 2026, es posiblemente el movimiento más importante de Google en el espacio open-weight.
Gemma 4 viene en tamaños de 2B, 9B y 31B (versión medium), y lo relevante es que todo Gemma 4 está bajo Apache 2.0. La versión de 31B alcanza un 80% en LiveCodeBench con solo una décima parte de los parámetros activos de los MoE frontera. Es ideal para ejecución local y edge deployment.
Moonshot AI es una empresa china que ha destacado por su enfoque en contextos largos. Sus modelos Kimi fueron los primeros en soportar 2M tokens de contexto efectivo. Hoy, Kimi K2.5 y K2.6 son sus modelos estrella, con 1T parámetros totales (32B activos) y licencia open-weight.
Kimi K2.5 destaca especialmente en generación visual-a-código y agentes autónomos. K2.6 (lanzado a principios de 2026) mejora los benchmarks de razonamiento y codificación.
Zhipu AI es otro laboratorio chino que ha irrumpido con fuerza. Su GLM-5 (744B total / 40B activos) bajo licencia MIT es uno de los modelos más potentes en tareas de sistemas complejos y agentes de larga duración.
Microsoft ha apostado por modelos pequeños pero muy capaces. Phi-4 (14B) bajo licencia MIT demuestra que no todo es tamaño: supera a modelos de 70B+ en razonamiento matemático con una fracción de los recursos. Es perfecto para dispositivos con recursos limitados.
MiniMax, otra empresa china, ha lanzado MiniMax-M2.5 (229B total / 10B activos) y su versión mejorada M2.7, enfocados en flujos de trabajo de ingeniería de software. Son modelos ligeros y rápidos, con buena relación calidad-recurso.
Fundada por Kai-Fu Lee, 01.AI publicó la familia Yi bajo licencias Apache 2.0. Aunque no están en la frontera absoluta en 2026, siguen siendo modelos sólidos, especialmente en tareas en chino e inglés.
| Empresa | Modelo estrella | Licencia |
|---|---|---|
| Meta | Llama 4 Maverick | Licencia propia (restricción 700M MAU) |
| Alibaba | Qwen 3.5 397B | Apache 2.0 |
| DeepSeek | V4-Pro | MIT |
| Mistral AI | Mistral Large 3 | Apache 2.0 |
| Gemma 4 | Apache 2.0 | |
| Moonshot AI | Kimi K2.6 | Open-weight propia |
| Zhipu AI | GLM-5 | MIT |
| Microsoft | Phi-4 | MIT |
| MiniMax | M2.7 | Open-weight propia |
| 01.AI | Yi 1.5 | Apache 2.0 |
Todos estos modelos, al ser open-weight, se pueden descargar y ejecutar en local usando herramientas como Ollama, LM Studio o vLLM. De hecho, esa es una de las grandes ventajas del ecosistema abierto: no dependes de ningún proveedor y tus datos no salen de tu máquina. Sin embargo, ejecutar modelos grandes requiere hardware potente —una GPU con suficiente VRAM— y no todo el mundo tiene una RTX 4090 o un clúster en casa. Modelos como DeepSeek V4-Pro (1.6T parámetros) necesitan múltiples GPUs para funcionar a velocidad aceptable.
Aquí es donde entran los routers de modelos: servicios cloud que te permiten usar estos modelos sin necesidad de infraestructura propia. Unifican el acceso a decenas de modelos bajo una misma API, de modo que no tienes que gestionar 20 cuentas y 20 facturas diferentes.
OpenRouter es el router más conocido. Funciona como una pasarela unificada: te registras una vez, cargas crédito y accedes a 400+ modelos de 60+ proveedores.
Fortalezas: - Catálogo enorme: desde los modelos frontier (Claude, GPT) hasta los más nicho - Auto-fallback: si un proveedor falla, OpenRouter redirige automáticamente - Sin logging por defecto (tu código no se usa para entrenar) - API compatible con OpenAI (cambias la URL y ya funciona) - Modelos gratuitos disponibles (limitados)
Debilidades: - Añade latencia (es una capa intermedia) - Comisión del 5.5% en compras de crédito - El tier gratuito es muy limitado (50 requests/día sin crédito)
OpenRouter usa precios passthrough: pagas lo mismo que pagarías yendo directamente al proveedor. Su negocio está en la comisión de crédito, no en marcar precio.
Groq es un caso diferente. No es un router, es un proveedor de inferencia con hardware propio: sus LPUs (Language Processing Units) son chips diseñados específicamente para ejecutar LLMs. El resultado es una velocidad de inferencia que puede alcanzar 500-1000 tokens/segundo, muy por encima de lo que ofrecen las GPUs tradicionales.
Fortalezas: - Velocidad bestial: tiempo hasta el primer token por debajo de 200ms - Tier gratuito generoso: 250K+ tokens/minuto - API compatible con OpenAI - Modelos populares: Llama 4 Scout, Qwen3-32B, DeepSeek
Debilidades: - Catálogo limitado (solo modelos open-source que ellos optimizan para su hardware) - No es un router (solo un proveedor) - Sin posibilidad de auto-hospedar (el hardware LPU es suyo)
Groq es ideal cuando necesitas velocidad y trabajas con modelos open-source populares. No te sirve si necesitas un modelo específico que ellos no tengan.
OpenCode Go es la apuesta del equipo de OpenCode. Por $10/mes obtienes acceso a 14+ modelos open-source de última generación a través de una API única.
Fortalezas: - Precio planísimo: $10/mes sin preocuparte por tokens - Modelos frontier open-source: DeepSeek V4 Pro, Qwen 3.6 Plus, Kimi K2.6, GLM-5.1, MiniMax M2.7 - API compatible con OpenAI (funciona con cualquier herramienta que hable OpenAI API) - Política zero-retention: tu código no se usa para entrenar - Infraestructura en US, EU y Singapur
Debilidades: - Límites de consumo por ventanas de tiempo: tu suscripción de $10 te da un pool de $60/mes en compute, con sub-límites de $12/5h y $30/semana para evitar abusos. Con modelos baratos (DeepSeek V4 Flash a $0.14/M tokens) llegas a miles de requests; con modelos caros (Kimi K2.6) el límite se alcanza antes. Nunca pagas más de los $10 al mes. - Solo modelos open-source (no hay Claude, GPT ni Gemini) - Dependes de la disponibilidad del servicio
OpenCode Go es perfecto si tu flujo de trabajo se basa en modelos open-source y quieres un coste predecible sin sorpresas en la factura.
| Característica | OpenRouter | Groq | OpenCode Go |
|---|---|---|---|
| Modelos disponibles | 400+ (todos) | ~10-15 (open) | 14 (open) |
| Modelos cerrados | Sí (Claude, GPT) | No | No |
| Velocidad | Variable | Muy alta | Variable |
| Precio | Pay-per-use +5.5% | Pay-per-use + free tier | $10/mes fijo |
| Latencia añadida | Sí (capa proxy) | No (directo) | Sí |
| Auto-fallback | Sí | No | No |
| Ideal para | Experimentar con muchos modelos | Velocidad máxima | Coste predecible |
El ecosistema de modelos open source en 2026 es más rico que nunca. Hay modelos para cada necesidad, desde los gigantes multimodales como Qwen 3.5 o Llama 4 hasta pequeños pero matones como Phi-4 o Gemma 4 que funcionan en un portátil.
La principal recomendación que puedo dar es:
Y recuerda: aunque llamemos "open source" a estos modelos, lo que realmente tenemos son pesos abiertos con licencias variadas. Úsalos, aprovéchalos, pero sé consciente de lo que estás usando y de las limitaciones reales de cada "open" que ves en la etiqueta.
Si no te quieres perder ninguno de mis artículos, puedes agregar mi blog a tu lector de RSS preferido.
Suscribirse al RSS