- Ego-Exo4D, desarrollado por Meta y sus socios, es un dataset pionero que integra vistas de cámara en primera persona y externas para la investigación de IA.
- El dataset incluye más de 1.400 horas de video de 800 participantes cualificados, ofreciendo una amplia gama de habilidades humanas.
- Está diseñado para avanzar la IA en el aprendizaje de video, la realidad aumentada y el aprendizaje robótico, con un desafío público de referencia planificado para 2024.
El equipo de Investigación Fundamental en Inteligencia Artificial (FAIR) de Meta, junto con Project Aria y 15 universidades asociadas, ha lanzado Ego-Exo4D. Este innovador dataset y conjunto de pruebas están preparados para revolucionar la comprensión de la IA sobre las habilidades humanas a través del aprendizaje de video y la percepción multimodal.
Ego-Exo4D integra de manera única vistas en primera persona «egocéntricas» desde cámaras portátiles con múltiples vistas «exocéntricas» desde cámaras circundantes. Esta combinación proporciona una comprensión holística tanto de la perspectiva del participante como de su entorno.
Colaboración global y recopilación de datos
El desarrollo de Ego-Exo4D involucró a un consorcio de más de 800 participantes cualificados de seis países, contribuyendo a más de 1.400 horas de video. Este dataset, que se lanzará como código abierto en diciembre, incluye anotaciones para nuevas tareas de referencia y se detalla más en un artículo técnico.
Ego-Exo4D se centra en actividades especializadas como deportes, música, cocina y más. Sus aplicaciones van desde sistemas de realidad aumentada y aprendizaje robótico hasta redes sociales, donde puede mejorar el aprendizaje y la comprensión de habilidades.
Al integrar perspectivas en primera y tercera persona en un dataset de video completo, abre nuevas vías para comprender e interpretar las habilidades y comportamientos humanos. Esta innovación no solo amplía el alcance de la investigación en IA, sino que también promete aplicaciones prácticas en realidad aumentada, robótica y más. El esfuerzo colaborativo, que involucra a una amplia gama de participantes cualificados y una variedad de escenarios del mundo real, garantiza un dataset rico y variado que podría conducir a sistemas de IA más matizados y conscientes del contexto.
Este desarrollo es un testimonio de los avances progresivos que se están logrando en tecnología, ofreciendo perspectivas emocionantes para futuras investigaciones y aplicaciones del mundo real.

Lea también: Generador de imágenes independiente de Meta: Significativo para la creatividad humana
Características y recursos del dataset
Como el dataset público más grande de videos sincronizados en primera y tercera persona, Ego-Exo4D presenta a diversos expertos como atletas, bailarines y chefs. No solo es multivista, sino también multimodal, capturado con tecnología avanzada que incluye las gafas Aria de Meta, ofreciendo datos completos como audio, mediciones inerciales y capturas de cámara gran angular.
El dataset incluye ricos recursos de video-lenguaje como narraciones, descripciones y comentarios de expertos. Estos recursos están sincronizados con el video, proporcionando a los modelos de IA información detallada sobre actividades humanas especializadas.
Meta propone cuatro tareas fundamentales para la investigación de video ego-exo y proporciona anotaciones extensas, resultado de más de 200.000 horas de esfuerzo de anotadores. Se planea un desafío público de referencia para 2024 para fomentar la investigación en este campo emergente.
El consorcio Ego-Exo4D representa una colaboración global, que abarca diversos talentos de IA y contextos geográficos. Este proyecto marca un despliegue significativo de las gafas Aria en la comunidad de investigación académica.
Lea también: Gafas Meta Ray-Ban: ¿Infringen la privacidad del usuario?
La introducción del dataset Ego-Exo4D de Meta representa un paso significativo en el campo de la IA y el aprendizaje automático.
La introducción del dataset Ego-Exo4D de Meta representa un paso significativo en el campo de la IA y el aprendizaje automático. Al integrar perspectivas en primera y tercera persona en un dataset de video completo, abre nuevas vías para comprender e interpretar las habilidades y comportamientos humanos. Esta innovación no solo amplía el alcance de la investigación en IA, sino que también promete aplicaciones prácticas en realidad aumentada, robótica y más.
El esfuerzo colaborativo, que involucra a una amplia gama de participantes cualificados y una variedad de escenarios del mundo real, garantiza un dataset rico y variado que podría conducir a sistemas de IA más matizados y conscientes del contexto. Este desarrollo es un testimonio de los avances progresivos que se están logrando en tecnología, ofreciendo perspectivas emocionantes para futuras investigaciones y aplicaciones del mundo real.
Con Ego-Exo4D, Meta y sus socios buscan acelerar la investigación en el aprendizaje de video con IA. Las aplicaciones potenciales son vastas, que van desde experiencias de aprendizaje de realidad aumentada hasta robots que aprenden de la experiencia humana. Ego-Exo4D es un paso significativo hacia este futuro, despertando entusiasmo en la comunidad investigadora por las posibilidades que abre.

