AVANZA UN IA CON INTUICIÓN FÍSICA E INTELIGENCIA ESPACIAL.

La Inteligencia Artificial (IA) está a punto de dar un salto evolutivo. Mientras que los modelos actuales han revolucionado la forma en que las máquinas procesan el lenguaje y las imágenes, una nueva categoría de sistemas, conocidos como Modelos de Mundo (World Models), está emergiendo con la promesa de dotar a la IA de algo fundamentalmente humano: la intuición física y la inteligencia espacial.

Compañías pioneras como World Labs (fundada por la experta en IA Fei-Fei Li), Google DeepMind, y Meta están acelerando la carrera para construir estos sistemas, que buscan enseñar a las máquinas a ver y construir en un entorno tridimensional.

En términos sencillos, los modelos de mundo son sistemas de IA diseñados para generar una representación interna de un entorno. Una vez que tienen esta representación mental del espacio, pueden usarla para predecir resultados y planificar acciones dentro de ese entorno.

El concepto se inspira en cómo los humanos adquirimos inteligencia física: observamos el mundo que nos rodea y desarrollamos un modelo interno que nos permite predecir los resultados de acciones hipotéticas.

Los modelos de mundo son considerados un hito clave en el camino hacia la Inteligencia Artificial General (AGI), ya que permiten entrenar agentes de IA en un “currículum ilimitado” de entornos de simulación ricos.

La distinción entre la IA actual y la IA de modelos de mundo es clara: mientras en la IA actual los grandes modelos de lenguaje han enseñado a las máquinas a leer y escribir, su comprensión del mundo físico es abstracta o basada en texto.

En tanto la IA de Modelos de Mundo los sistemas están enfocados en la inteligencia espacial. Su objetivo es enseñar a las máquinas a ver y construir, entendiendo cómo existen e interactúan las cosas en espacios tridimensionales.

Un ejemplo de intuición física: los humanos sabemos que si lanzamos una pelota, la gravedad la hará caer. Un modelo de mundo busca imitar esta inteligencia para que los agentes de IA puedan pensar antes de actuar.

Además, los modelos de mundo resuelven problemas de inconsistencia. Mientras que los generadores de video con IA a menudo sufren de inconsistencia o un control deficiente de la cámara, los modelos de mundo que generan activos 3D permiten a los artistas escenificar escenas y controlar los movimientos con precisión perfecta de cuadro.

Modelos como Marble de World Labs generan entornos 3D persistentes y descargables, a diferencia de los modelos que generan mundos sobre la marcha, lo que resulta en menor deformación o inconsistencia.

Los modelos de mundo tienen aplicaciones inmediatas y a largo plazo en múltiples industrias como la de los videojuegos y Efectos Visuales. Estos modelos están revolucionando la creación de contenido 3D y virtual ya que permite la creación de entornos donde loss desarrolladores de juegos pueden usar modelos como Marble para generar entornos de fondo y espacios ambientales. Estos activos se importan luego en motores de juego (como Unity o Unreal Engine) para añadir interactividad, lógica y código.

Para el trabajo de efectos visuales en cine, los activos 3D generados permiten a los artistas escenificar escenas y controlar los movimientos de la cámara con precisión, algo que los generadores de video con IA a menudo no pueden lograr.

Marble, el primer producto comercial de World Labs, permite a los usuarios convertir prompts de texto, fotos, videos o panoramas en entornos 3D editables y descargables. Incluso ofrece herramientas de edición nativas de IA y un editor 3D híbrido, como Chisel, que permite a los usuarios bloquear estructuras espaciales (como paredes o cajas) antes de que la IA rellene los detalles visuales, desacoplando la estructura del estilo.

Para las robótica y los sistemas autónomos es un campo donde la IA de modelos de mundo tiene un impacto crítico debido a la falta de grandes repositorios de datos de entrenamiento. Los generadores de mundos hacen que sea más fácil simular entornos de entrenamiento para la robótica.

Modelos como V-JEPA 2 de Meta, entrenados en video, permiten a los robots entender el mundo físico y predecir cómo responderá a sus acciones. Esto se traduce en la capacidad de realizar tareas como alcanzar, recoger un objeto y colocarlo en una nueva ubicación.

Genie 3 permite “eventos de mundo solicitables”, donde el usuario puede cambiar el mundo generado, como alterar el clima o introducir nuevos objetos. Esta capacidad es vital para crear escenarios contrafactuales (“qué pasaría si”), ayudando a los agentes a aprender de la experiencia para manejar situaciones inesperadas.

La visión de largo plazo es que la habilidad de comprender e interactuar en el espacio 3D no solo beneficiará a los juegos y la robótica, sino que eventualmente conducirá a avances en ciencia y medicina.

Sobre el Autor

Carlos Suarez
Periodista egresado del ISET N° 18 "20 de Junio" de Rosario, S.F. en 1990. Participó del Primer Congreso Internacional de la Comunicación y el Periodismo en 1998. Colaboró con el programa LA OREJA de Radio Rivadavia conducido por Quique Pesoa en 1992. A partir del 1 de octubre de 2018 condujo VIVA LA MAÑANA por Radio Viva 104.9 de Federación, E.R. En este 2019/2020 administra y redacta en esta página Federación al Día. A partir del 29 de junio de 2020 volvió a FM Stereo 99.3 con el clásico "Demasiado temprano para mentiras", desde las 7 de la mañana. En marzo de 2021 comenzó el nuevo ciclo "La Mañana de Uno" por la 106.1, de lunes a viernes y de 9 a 12 de la mañana.