Google DeepMind compartido el jueves una vista previa de la investigación de SIMA 2, la próxima generación de su agente de IA generalista que integra el lenguaje y los poderes de razonamiento de Gemini, el gran modelo de lenguaje de Google, para ir más allá de simplemente seguir instrucciones para comprender e interactuar con su entorno.

Como muchos de los proyectos de DeepMind, incluido AlphaFold, la primera versión de SIMA se entrenó con cientos de horas de datos de videojuegos para aprender a jugar múltiples juegos 3D como un humano, incluso algunos juegos en los que no estaba entrenado. SIMA 1, presentado en marzo de 2024, podía seguir instrucciones básicas en una amplia gama de entornos virtuales, pero solo tenía una tasa de éxito del 31% para completar tareas complejas, en comparación con el 71% de los humanos.

“SIMA 2 es un cambio radical y una mejora en las capacidades con respecto a SIMA 1”, dijo Joe Marino, científico investigador senior de DeepMind, en una conferencia de prensa. “Es un agente más general. Puede completar tareas complejas en entornos nunca antes vistos. Y es un agente que se mejora a sí mismo. Por lo tanto, puede mejorarse a sí mismo basándose en su propia experiencia, lo que es un paso hacia robots de uso más general y sistemas AGI en general”.

DeepMind dice que SIMA 2 duplica el rendimiento de SIMA 1Créditos de imagen:Google DeepMind

SIMA 2 funciona con el modelo flash-lite Gemini 2.5, y AGI se refiere a la inteligencia artificial general, que DeepMind define como un sistema capaz de realizar una amplia gama de tareas intelectuales con la capacidad de aprender nuevas habilidades y generalizar conocimientos en diferentes áreas.

Trabajar con los llamados “agentes encarnados” es crucial para la inteligencia generalizada, dicen los investigadores de DeepMind. Marino explicó que un agente encarnado interactúa con un mundo físico o virtual a través de un cuerpo (observando entradas y tomando acciones como lo haría un robot o un humano), mientras que un agente no encarnado podría interactuar con su calendario, tomar notas o ejecutar código.

Jane Wang, científica investigadora de DeepMind con experiencia en neurociencia, dijo a TechCrunch que SIMA 2 va mucho más allá del juego.

“Le estamos pidiendo que comprenda realmente lo que está sucediendo, que comprenda lo que el usuario le pide que haga y que luego sea capaz de responder con sentido común, algo que en realidad es bastante difícil”, dijo Wang.

Evento tecnológico

san francisco
|
13-15 de octubre de 2026

Al integrar Gemini, SIMA 2 duplicó el rendimiento de su predecesor, uniendo el lenguaje avanzado y las habilidades de razonamiento de Gemini con las habilidades incorporadas desarrolladas a través del entrenamiento.

Créditos de imagen:Google DeepMind

Marino hizo una demostración de SIMA 2 en “No Man’s Sky”, donde el agente describió su entorno (la superficie de un planeta rocoso) y determinó sus próximos pasos reconociendo e interactuando con una baliza de socorro. SIMA 2 también utiliza Gemini para razonar internamente. En otro juego, cuando se le pidió que caminara hasta la casa que es del color de un tomate maduro, el agente mostró su pensamiento (los tomates maduros son rojos, por lo tanto debería ir a la casa roja), luego la encontró y se acercó.

Tener tecnología Gemini también significa que SIMA 2 sigue instrucciones basadas en emojis: “Dale instrucciones 🪓🌲 y talará un árbol”, dijo Marino.

Marino también demostró cómo SIMA 2 puede navegar por mundos fotorrealistas recién generados producidos por Genie, el modelo mundial de DeepMind, identificando e interactuando correctamente con objetos como bancos, árboles y mariposas.

DeepMind dice que SIMA 2 es un agente de mejora personalCréditos de imagen:Google DeepMind

Gemini también permite la superación personal sin muchos datos humanos, añadió Marino. Mientras que SIMA 1 se entrenó completamente en juegos humanos, SIMA 2 lo utiliza como base para proporcionar un modelo inicial sólido. Cuando el equipo coloca al agente en un nuevo entorno, le pide a otro modelo Gemini que cree nuevas tareas y un modelo de recompensa separado para calificar los intentos del agente. Al utilizar estas experiencias autogeneradas como datos de entrenamiento, el agente aprende de sus propios errores y gradualmente se desempeña mejor, esencialmente enseñándose a sí mismo nuevos comportamientos a través de prueba y error como lo haría un humano, guiado por retroalimentación basada en IA en lugar de humanos.

DeepMind ve SIMA 2 como un paso hacia el desbloqueo de más robots de uso general.

“Si pensamos en lo que debe hacer un sistema para realizar tareas en el mundo real, como un robot, creo que hay dos componentes”, dijo Frederic Besse, ingeniero de investigación senior de DeepMind, durante una conferencia de prensa. “En primer lugar, existe una comprensión de alto nivel del mundo real y de lo que hay que hacer, así como cierto razonamiento”.

Si le pides a un robot humanoide en tu casa que vaya a comprobar cuántas latas de frijoles tienes en el armario, el sistema necesita comprender todos los diferentes conceptos (qué son los frijoles, qué es un armario) y navegar hasta esa ubicación. Besse dice que SIMA 2 toca más ese comportamiento de alto nivel que las acciones de nivel inferior, a las que se refiere como controlar cosas como articulaciones físicas y ruedas.

El equipo se negó a compartir un cronograma específico para la implementación de SIMA 2 en sistemas de robótica física. Besse le dijo a TechCrunch que DeepMind recientemente desvelado Los modelos básicos de robótica, que también pueden razonar sobre el mundo físico y crear planes de varios pasos para completar una misión, se entrenaron de manera diferente y por separado de SIMA.

Si bien tampoco hay un cronograma para lanzar más que una vista previa de SIMA 2, Wang le dijo a TechCrunch que el objetivo es mostrar al mundo en qué ha estado trabajando DeepMind y ver qué tipos de colaboraciones y usos potenciales son posibles.

Fuente