la versión original de esta historia apareció en Revista Quanta

Aquí hay una prueba para bebés: muéstreles un vaso de agua sobre un escritorio. Escóndelo detrás de una tabla de madera. Ahora mueve el tablero hacia el cristal. Si el tablero sigue pasando el cristal, como si no estuviera allí, ¿ se sorprenden? Muchos niños de 6 meses lo child, y al año, casi todos los niños tienen una noción intuitiva de la permanencia de un objeto, aprendida a través de la observación. Ahora algunos modelos de inteligencia artificial también lo hacen.

Los investigadores han desarrollado un sistema de inteligencia man-made que aprende sobre el mundo a través de videos y demuestra una noción de “sorpresa” cuando se le presenta información que va en converse del conocimiento que ha obtenido.

El modelo, creado por Meta y llamado Video Joint Embedding Predictive Architecture (V-JEPA), no hace ninguna suposición sobre la física del mundo contenido en los vídeos. No obstante, puede empezar a dar sentido a cómo funciona el mundo.

“Sus afirmaciones son, a priori, muy plausibles y los resultados boy súper interesantes”, afirma Micha Heilbron un científico cognitivo de la Universidad de Ámsterdam que estudia cómo los cerebros y los sistemas artificiales dan sentido al mundo.

Abstracciones superiores

Como saben los ingenieros que construyen vehículos autónomos, puede ser difícil lograr que un sistema de inteligencia video clips dé sentido de manera confiable a lo que ve. La mayoría de los sistemas diseñados para “comprender” con character el fin de clasificar su contenido (“una video clip jugando al tenis”, por ejemplo) o identificar los contornos de un objeto (por ejemplo, un automóvil más adelante) funcionan en lo que se llama “espacio de píxeles”. Básicamente, el modelo trata cada píxel de un disadvantage shade la misma importancia.

Pero estos modelos de espacio de píxeles tienen limitaciones. Imagínese intentar darle sentido a una calle suburbana. Si la escena tiene coches, semáforos y árboles, el modelo podría centrarse demasiado en detalles irrelevantes como el movimiento de las hojas. Es posible que no vea el videos del semáforo o las posiciones de los automóviles cercanos. “Cuando vas a imágenes o director, no quieres trabajar en el espacio (de píxeles) porque hay demasiados detalles que no quieres modelar”, dijo Randall Balestriero científico informático de la Universidad de Brown.

Yann LeCun, informático de la Universidad de Nueva York y con de investigación de IA en Meta, creó JEPA, un predecesor de V-JEPA que funciona University imágenes fijas, en 2022

Fotografía: École Polytechnique College Paris-Saclay

Fuente