Stanford 2026: Los agentes IA llegan al 66% en tareas

El Informe de IA de Stanford 2026 acaba de confirmar algo que muchos intuíamos pero pocos querían admitir en voz alta: los agentes de inteligencia artificial completan ya el 66% de las tareas reales frente a un ordenador. Hace apenas dos años, ese número era un 12%. No hablamos de demos pulidas ni de condiciones de laboratorio. Hablamos de abrir aplicaciones, navegar por menús, buscar archivos, gestionar ventanas. Todo lo que tú haces cada día, casi sin pensar, mientras el café se enfría. La brecha entre lo que hace una máquina y lo que haces tú se está cerrando a una velocidad que incomoda.

¿Qué es OSWorld y por qué debería importarte?

Para medir este salto, los investigadores de Stanford usan un benchmark llamado OSWorld: un entorno donde se evalúa a los agentes de IA en tareas cotidianas dentro de sistemas operativos reales. Rellenar formularios, organizar carpetas, buscar documentos, ejecutar comandos. Nada espectacular. El tipo de trabajo que ocupa fácilmente dos o tres horas del día de cualquier persona con una pantalla delante.

En 2024, los mejores modelos superaban ese test aproximadamente el 12% de las veces. Un fracaso considerable. Y este año, según el informe, ese número escaló hasta el 66,3%. Eso los sitúa a solo seis puntos porcentuales del rendimiento humano promedio en esas mismas pruebas. Y los benchmarks de codificación, por su parte, pasaron del 60% al casi 100% en un solo año.

¿Implica eso sustitución laboral inmediata? No necesariamente. Pero sí significa que cualquier empresa que no esté evaluando activamente qué tareas puede delegar a un agente está tomando una decisión estratégica, aunque sea por omisión. Y las consecuencias de esa inacción llegarán pronto.

La frontera irregular: campeón de matemáticas, torpe con un reloj

Aquí viene la parte que, personalmente, encuentro más fascinante de todo el informe. Y también la más reveladora.

La misma tecnología que este año obtuvo medalla de oro en la Olimpiada Internacional de Matemáticas, lee correctamente un reloj analógico el 50,1% de las veces. Literalmente a cara o cruz. Los investigadores de Stanford llaman a esto la «jagged frontier» —la frontera irregular— y es, quizá, el concepto más honesto que existe hoy para describir dónde estamos con la IA.

Pero los avances no son uniformes. Hay dominios donde la IA ha superado a los humanos de manera aplastante: razonamiento matemático formal, síntesis de textos largos, generación y revisión de código. Y hay tareas aparentemente triviales —leer la hora en un reloj de agujas, interpretar el contexto de una imagen cotidiana— donde sigue siendo mediocre o directamente torpe.

Eso tiene implicaciones prácticas y no menores. Un agente que automatiza tus informes semanales puede hacerlo brillantemente, y bloquearse de golpe ante algo que tú resolverías en dos segundos. Trabajar bien con IA hoy exige entender esa irregularidad, saber cuándo confiar y cuándo revisar.

La adopción es masiva. La regulación, todavía no

El informe también documenta algo que no debería sorprender a estas alturas, pero que vale la pena mencionar con números concretos: el 88% de las organizaciones ya usa IA de forma activa. Y la IA generativa alcanzó al 53% de la población global más rápido de lo que lo hicieron el PC o internet en su momento.

Y entonces llega el pero. Los incidentes documentados relacionados con IA —errores graves, sesgos sistémicos, filtraciones, usos indebidos— subieron de 233 a 362 solo en el último año. La capacidad técnica crece. Los mecanismos para gestionarla, no al mismo ritmo. Solo la mitad de los institutos de educación secundaria en Estados Unidos tienen alguna política sobre el uso de IA por parte de sus estudiantes. La mitad. En 2026.

¿Qué ocurre cuando una herramienta que afecta a millones de personas se despliega más rápido de lo que la sociedad puede asimilar? Eso es exactamente lo que estamos viendo.

Para cerrar: la velocidad es el problema real

Lo que el Informe Stanford 2026 nos dice, en el fondo, no es que la IA sea imparable. Es que la brecha entre lo que puede hacer la tecnología y lo que somos capaces de gobernar, enseñar y adaptar se está volviendo peligrosamente grande.

Un agente de IA que supera el 66% en tareas de ordenador es una herramienta genuinamente poderosa. Pero una herramienta en manos de personas que no saben cómo usarla, ni qué hacer cuando falla, ni a quién reclamar cuando algo sale mal, genera más fricción que valor.

¿Estamos listos para esta velocidad? Mi impresión honesta es que no del todo. Y creo que reconocerlo abiertamente —sin catastrofismo, pero también sin autocomplacencia— es el primer paso para estarlo.

Fuentes:
· The 2026 AI Index Report – Stanford HAI
· Inside the AI Index: 12 Takeaways – Stanford HAI
· Stanford’s 2026 AI Index: Where AI Actually Stands – Stark Insider
· Stanford AI Index 2026: AI Agents Jump from 12% – Arahi AI
· La IA entra en fase crítica – Revista Inteligencia Artificial