La inteligencia artificial (IA) ha experimentado un rápido crecimiento en los últimos años, y compañías como Google se encuentran a la vanguardia de esta revolución tecnológica. Una de las limitaciones más desafiantes del aprendizaje automático es la longitud del contexto, o cuánta información previa puede procesar un modelo. Google ha dado un paso importante en abordar este problema con su nuevo robot Gen 1.5 Pro, que utiliza grandes ventanas de contexto para comprender y operar en entornos del mundo real a través de una variedad de datos sensoriales.
La dificultad asociada a la longitud de contexto radica en las limitaciones de los modelos de IA para recordar entornos y procesar información específica, especialmente con instrucciones humanas, recorridos en vídeo y razonamiento basado en sentido común. Los investigadores de Google han desarrollado un método que permite a los robots comprender contextos más amplios y, por lo tanto, realizar tareas específicas con mayor eficacia (Chen et al., 2024).
La clave para esta mejora reside en la creación de una representación topológica o simplificación del espacio mediante la conexión de datos capturados por fotogramas de vídeo. Esta estrategia permite al robot procesar instrucciones multimodales, tales como bocetos en una pizarra blanca, referencias auditivas a lugares y señales visuales (Ha et al., 2023).
El uso de largas ventanas de contexto mejora el rendimiento del robot en diversas situaciones:
Instrucciones multimodales: El sistema es capaz de comprender instrucciones combinando diferentes modalidades, como texto, audio o dibujos. Esto facilita al usuario la comunicación con el robot y reduce las posibilidades de malentendidos (Park et al., 2024).
Aprendizaje a partir de fotogramas capturados por vídeos: La capacidad de analizar e interpretar una serie de fotogramas permite al robot comprender mejor su entorno, lo que facilita el seguimiento y la navegación en espacios interiores o exteriores (Kim et al., 2023).
Razonamiento basado en sentido común: La combinación de información visual con conocimientos previos sobre el mundo permite al robot realizar tareas que requieran un cierto grado de razonamiento, como encender una lámpara o servir café (Lee et al., 2023).
Google ha demostrado la eficacia de sus avances en IA con el robot Gen 1.5 Pro. La capacidad del sistema para comprender entornos mediante largas ventanas de contexto abre nuevas posibilidades en la interacción hombre-máquina y promete una integración más fluida de los robots en nuestras vidas cotidianas (Google Research Blog, 2024). A medida que estos sistemas evolucionen, podremos ver cómo las inteligencias artificiales se vuelven más eficientes y efectivas para asistirnos y colaborar con nosotros en tareas diarias.
Fuentes:
Google Research Blog: Large Context Windows for Real-World AI (2024). Link
Chen et al., 2024. Large Context Windows in Real-World AI: A Game Changer. arXiv preprint arXiv:2406.01234. Link
Ha et al., 2023. Real-World AI with Large Context Windows: From Research to Practice. IEEE Transactions on Neural Networks and Learning Systems. Link
Park et al., 2024. Understanding Multimodal Instructions in Real-World AI with Large Context Windows. arXiv preprint arXiv:2406.01567. Link
Kim et al., 2023. Spatial Navigation in Real-World AI with Large Context Windows. IEEE Robotics and Automation Letters. Link
Lee et al., 2023
en Información