OpenAI presenta un nuevo y asombroso modelo generativo de video Sora, que se basa en investigaciones previas sobre los modelos DALL-E y GPT; Sora es capaz de generar hasta 60 segundos de video a partir de instrucciones de texto y ofrece escenas con múltiples personajes, tipos específicos de acciones y detalles de fondo detallados; Sora también puede crear múltiples tomas en un video generado. El líder mundial en modelos de inteligencia artificial, OpenAI, ha lanzado un modelo llamado Sora que puede generar instantáneamente videos cortos basados en instrucciones de texto.

A principios de 2023, durante la competencia altamente competitiva de modelos de IA multimodal, empresas como Google, Meta y startups como Runway y Pika Labs también habían lanzado modelos similares. Sin embargo, los videos demostrados por OpenAI siguen atrayendo atención debido a su alta calidad. Lea también: OpenAI cura la ‘pereza’ de GPT-4 con nuevas actualizaciones. Sora puede interactuar con el mundo real. Actualmente, hay información limitada sobre Sora en el sitio web oficial de OpenAI.

OpenAI ha documentado públicamente el contexto del material fuente para entrenar el modelo, solo afirmando: ‘Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieran interacción con el mundo real’. OpenAI afirma que Sora puede generar videos de hasta 60 segundos de duración a partir de descripciones textuales y puede proporcionar escenas con múltiples personajes, tipos específicos de acciones y detalles de fondo detallados.

Sora también puede crear múltiples tomas dentro de un video generado, mostrando personajes y estilos visuales. Además, Sora puede generar videos completos de una vez o extender videos generados para hacerlos más largos. OpenAI declara: ‘Al hacer que el modelo genere múltiples fotogramas a la vez, abordamos un problema desafiante: garantizar que el sujeto se mantenga consistente incluso cuando está temporalmente fuera de vista’. OpenAI también reconoce que el modelo actual de Sora tiene debilidades. Puede tener dificultades para simular con precisión fenómenos físicos en escenas complejas y puede no entender relaciones causales específicas.

Por ejemplo, una persona podría morder una galleta, pero después de la mordida, podría no haber marca en la galleta. El modelo también puede confundir detalles espaciales mencionados, como izquierda y derecha, y puede tener dificultades para describir eventos que ocurren a lo largo del tiempo, como seguir una trayectoria de cámara específica.

Sin preocupaciones sobre el tema de la seguridad En cuanto a los problemas de seguridad de la IA, que el CEO de OpenAI, Sam Altman, ha estado abordando constantemente, OpenAI afirma: ‘Actualmente, Sora se ha puesto a disposición de los ‘red teamers’ (aquellos que realizan ‘pruebas de equipo rojo’ sobre posibles resultados dañinos de los grandes modelos de IA) para evaluar daños o riesgos en áreas críticas. También permitimos el acceso a algunos artistas visuales, diseñadores y cineastas para recopilar comentarios sobre cómo mejorar el modelo, haciéndolo más útil para los profesionales creativos’.

OpenAI indica que Sora se basa en investigaciones anteriores sobre los modelos DALL-E y GPT. Adopta las técnicas de DALL·E 3, lo que le permite seguir más fielmente las instrucciones textuales de los usuarios en los videos generados. Además de generar videos desde cero, el modelo también puede generar videos basados en imágenes estáticas existentes y animar con precisión y detalle el contenido de las imágenes. El modelo también puede extraer videos existentes y extender o rellenar fotogramas faltantes.

Actualmente, el sitio web de OpenAI se ha actualizado con 48 videos de demostración generados por Sora, con colores vibrantes y efectos realistas.