MadoberIA
Tu Blog sobre IA y Automatizaciones
MadoberIA
Tu Blog sobre IA y Automatizaciones

Abril de 2026 ha dejado un mapa de poder en la inteligencia artificial que nadie hubiera dibujado hace doce meses. Claude Opus 4.6, de Anthropic, encabeza el ranking global de LMArena con 1.504 puntos Elo. Gemini 3.1 Pro de Google lo pisa los talones. Y GPT-5.4, el gran referente de OpenAI, ocupa una tercera plaza que duele más de lo que parece. Pero hay algo más llamativo todavía: los modelos nuevos de OpenAI rinden peor que los viejos. Y eso merece una conversación seria.
Según el ranking de Javadex para abril de 2026, Claude Opus 4.6 encabeza la clasificación general con 1.504 puntos Elo en LMArena, seguido de cerca por Gemini 3.1 Pro y GPT-5.4. El liderazgo es real, pero no es absoluto. En SWE-bench Verified —la evaluación de referencia para ingeniería de software real— Claude puntúa un 80,8%, marcando la primera vez que el modelo de Anthropic toma la delantera verificada en este benchmark. El 70% de los desarrolladores ya lo prefieren para tareas de código.
Y es que si hay un terreno donde Claude domina sin discusión, es el trabajo con bases de código grandes y complejas. En el ranking de LM Council, Opus 4.6 lidera con un 78,7% general y alcanza un 90,5% en razonamiento con 32.000 tokens de pensamiento activo. Claude Code, la herramienta de terminal de Anthropic, se ha convertido en un producto estrella: los desarrolladores reportan que soluciona errores un 20% más rápido que las herramientas competidoras en pruebas directas.
Aquí viene el dato que más me ha sorprendido de toda esta comparativa. Y hay que decirlo con claridad. De acuerdo con pruebas prácticas realizadas con 25 modelos, GPT-5.1 y GPT-5.2 ofrecen peores resultados que GPT-4.1 en calidad general —8,8 y 9,0 frente a 9,4 sobre 10—, con tiempos de respuesta casi el doble de lentos. Los modelos más nuevos de OpenAI van más despacio y funcionan peor que sus predecesores. Eso es un problema de credibilidad, no solo de rendimiento.
¿Qué ha pasado? La hipótesis más extendida apunta a que OpenAI ha priorizado la expansión de capacidades —uso de computadora, integración agéntica, contextos de un millón de tokens— a costa de la calidad base. Donde GPT-5.4 sí destaca con claridad es en Terminal-Bench 2.0, con un 75,1% frente al 65,4% de Opus, y en OSWorld, siendo el primer modelo en superar el rendimiento de expertos humanos en uso de escritorio, con un 75% frente al 72,4% de referencia humana. Así que no es un modelo peor. Es un modelo diferente, orientado a otro tipo de tarea.
Pero si hay una historia que se está contando poco esta semana, es la de Google. Gemini 3.1 Pro encabeza 13 de 16 benchmarks principales según evaluaciones independientes: 94,3% en GPQA Diamond —el más alto de cualquier modelo en preguntas de nivel experto en ciencias—, 77,1% en ARC-AGI-2, y un 80,6% en SWE-bench. Para investigadores, médicos, analistas financieros o cualquiera que trabaje con razonamiento complejo y datos científicos, Gemini es hoy la opción más sólida. Y encima, mantiene el mismo precio que su predecesor: Google ofreció una mejora generacional sin coste adicional.
Pero el contexto general también importa: la brecha entre modelos de código abierto y propietarios se ha cerrado de forma llamativa. MiniMax M2.5 alcanza un 80,2% en SWE-bench, prácticamente empatando con los mejores modelos cerrados, mientras DeepSeek V4 ofrece capacidades comparables a GPT-5.4 a un precio 27 veces inferior.
Para cerrar, lo más útil que puedo decirte es esto: la pregunta «¿cuál es el mejor modelo de IA?» ha dejado de tener sentido. Los equipos más avanzados ya trabajan con arquitecturas de enrutamiento que asignan cada consulta al modelo más adecuado según el tipo de tarea, la urgencia y el presupuesto. Según Gartner, para finales de 2026 el 40% de las aplicaciones empresariales integrarán agentes de IA especializados.
No se trata de elegir un ganador. Se trata de aprender a orquestar varios a la vez. Claude para código complejo y análisis extenso. Gemini para ciencia y razonamiento profundo. GPT-5.4 para automatización de escritorio y tareas agénticas rápidas. Y DeepSeek cuando el presupuesto manda. Ese es el nuevo juego. Y quien lo entienda antes, lleva ventaja.