- Sora es un modelo de generación de video lanzado por OpenAI, capaz de generar videos realistas basados en indicaciones de texto, lo que ha provocado una amplia atención y discusión.
- Si bien Sora representa un hito significativo en el campo de la inteligencia artificial, la idea de reemplazar completamente a los humanos o alterar la realidad sigue siendo prematura, y el desafío clave reside en construir modelos del mundo precisos y generalizables.
- La IA es una herramienta, una tecnología creada por los humanos para ayudar a resolver problemas. Tal como están las cosas, mientras la IA carezca de autoconciencia, no poseerá “originalidad”, sino que se limitará a organizar el conocimiento humano existente.
OpenAI lanzó el modelo de texto a videoSoraen las primeras horas del 16 de febrero, causando una serie de conmociones y exclamaciones en los círculos tecnológicos y mediáticos. De inmediato, los videos generados por Sora, publicados en el sitio web de OpenAI, se difundieron ampliamente en línea. Utilizando Sora, solo se necesita ingresar una indicación de texto para obtener un video de hasta 60 segundos de duración, con escenas detalladas, expresiones de personajes animadas y movimientos de cámara complejos, casi indistinguibles de la realidad. Los internautas exclamaron que la IA revolucionaría industrias como el cine, los videos cortos y los juegos, y algunos incluso exageraron diciendo que “¡el mundo real ya no existe!”. La perspectiva de que los humanos fueran reemplazados por la IA parecía más cercana.
Este evento nos hizo maravillarnos ante la nueva ola de revolución tecnológica provocada por Sora, que quizás pronto reducirá la barrera para que la gente común produzca videos, dejando de lado el complejo trabajo de filmación y edición, y convirtiendo la imaginación y la creatividad en las fuentes más esenciales de competitividad del contenido de video. En consecuencia, las “empresas unipersonales” y los equipos extremadamente pequeños también podrían completar películas y contenido de video que antes requerían una enorme cantidad de mano de obra y costos.
La ola tecnológica trae consigo tanto admiración y expectación, como preocupaciones sobre ser reemplazado y destruido.
Lea también:20 gigantes tecnológicos acuerdan combatir la interferencia electoral mediante IA
Sora no comprende el mundo físico y carece de un “modelo del mundo”
Sin embargo, en los últimos días, he observado que los científicos y muchos expertos de la industria que están a la vanguardia tecnológica siguen discutiendo principalmente el problema del “modelo del mundo” de Sora. Los videos generados por Sora tienen imágenes y coherencia extremadamente realistas, y algunos son casi indistinguibles de los creados por humanos. Esto no es sencillo; requiere que las máquinas comprendan la estructura, los detalles, las trayectorias de movimiento y los cambios de luz y sombra del mundo real, sin violar la cognición humana.
Algunos creen que Sora comprende el mundo físico y posee la forma embrionaria de un “modelo del mundo”. El modelo del mundo de la IA puede verse como su modelo mental, que refleja la comprensión y las expectativas del sistema de inteligencia artificial sobre sí mismo y el mundo exterior. Tomando como ejemplo el modelo del mundo humano, el término “modelo” implica que todo el conocimiento que entendemos no se almacena como un montón de hechos, sino que se organiza en una estructura que refleja el mundo y todo lo que contiene.
No recordamos una serie de hechos sobre cada elemento, sino que construimos innumerables modelos en nuestro cerebro, como modelos de “puertas de la ciudad” y “ejes de cadera”, cada uno con su propia forma, disposición y cómo se mueven y trabajan juntas las diferentes partes. Para reconocer algo, conocemos su apariencia y textura; para lograr un objetivo, entendemos el comportamiento típico de las cosas en el mundo cuando interactúan con nosotros, como qué tipo de marcas de mordedura tendría una manzana si se muerde. Sin embargo, muchos científicos creen que Sora no comprende el mundo físico y carece de un “modelo del mundo”.
El ganador del Premio Turing,Yann LeCun, cree que generar videos realistas basándose únicamente en indicaciones no indica necesariamente que un modelo comprenda el mundo físico; el proceso de generación de video es completamente diferente de las predicciones causales basadas en un modelo del mundo.
Francois Chollet, autor del marco de aprendizaje profundo “Keras” e investigador de IA de Google, sugiere que modelos como Sora pueden contener un “modelo físico”, pero la pregunta es: ¿Es preciso este modelo físico? ¿Puede generalizarse a nuevas situaciones más allá de simplemente interpolar los datos de entrenamiento?
Los videos generados por Sora presentan varias fallas, como la toma en primera persona de hormigas arrastrándose en un nido donde solo se ven cuatro patas al examinarla de cerca; el video de una persona corriendo en una cinta de correr está en dirección opuesta, y en el video de “un pato grande camina por las calles de Boston”, el pato pisa a una persona.
El científico investigador sénior de Nvidia,Jim Fan, sugiere dos posibles explicaciones para este problema: (1) El modelo puede carecer de comprensión de la física, limitándose a ensamblar píxeles de imagen al azar, o (2) El modelo intenta construir un motor de física interno, pero su rendimiento es deficiente.
Los expertos de la industria creen que Sora emplea un enfoque de “fuerza bruta”, aprovechando grandes cantidades de datos, modelos grandes y una considerable potencia computacional, con el uso subyacente de modelos del mundo validados en los campos de los juegos, la conducción autónoma y la robótica para construir el modelo de texto a video, lo que le permite simular el mundo.
Sin embargo, esto es similar a aprender las leyes del mundo mediante una extensa “lectura de imágenes”, lo cual, aunque razonable, no puede aprender leyes del mundo deducibles por la física, como las leyes de Newton.
En última instancia, los humanos no inventaron los aviones imitando a las aves, sino comprendiendo la aerodinámica. Sora marca otro hito en la IA, prometiendo simplificar enormemente el trabajo humano, reducir los atributos “instrumentales” humanos y ayudar o asumir parcialmente ciertas tareas. Sin embargo, el reemplazo real de los humanos o la alteración de la realidad parece prematuro.
Lea también:¿Puede un chatbot de IA hacer el trabajo de 700 personas?
Cuestionario
¿Cuánto pueden durar los videos generados por Sora?
A. 60 segundos
B. 2 minutos
C. 4 minutos
D. 10 minutos
La respuesta correcta se encuentra al final del artículo.
La AIGC podría ser una herramienta poderosa para los creadores de contenido altamente originales
El desarrollo ulterior de la AIGC (incluido, entre otros, Sora) impulsará el proceso de reestructuración hacia una dirección más favorable a la diversidad. Podríamos utilizar un modelo analítico altamente simplificado para dividir las capacidades de los creadores de contenido nativos de Internet en dos direcciones. Primero, la sensibilidad a los temas candentes, que se refiere a la capacidad de perseguir temas y tendencias populares. Sin duda, en cualquier momento dado, la mayor parte del tráfico de las redes sociales se concentra en muy pocos temas candentes.
La capacidad de captar estos temas candentes determina la explosividad a corto plazo del creador o, en términos más modernos, su “potencial viral”. Segundo, la tonalidad del contenido, que se refiere a la singularidad e irremplazabilidad del contenido. El contenido de algunos creadores es inolvidable y lleva huellas personales distintivas que ningún competidor puede imitar. El hecho de que posean suficiente tonalidad irremplazable determina la resistencia del creador, o lo que podríamos llamar “sostenibilidad” o “fidelidad de los fans”.
La AIGC beneficiará a los creadores de contenido de nicho que sobresalen en la tonalidad del contenido y ganan popularidad gradualmente, mientras que perjudicará a aquellos que prosperan captando temas candentes para tendencias efímeras. En la era de la AIGC, perseguir temas candentes ya no será una ventaja competitiva central para los creadores de contenido, ya que el umbral para hacerlo disminuirá. En consecuencia, la importancia de la tonalidad del contenido aumentará aún más, pudiendo convertirse en la única carta ganadora.
La cobertura oportuna de temas candentes será principalmente tarea de la IA, siendo la principal competencia la eficiencia de la AIGC, lo que dificultará que alguien se destaque. Sin embargo, para los creadores de contenido cuya competitividad principal reside en su tonalidad, la AIGC puede convertirse en una nueva arma poderosa. Los usuarios de Internet todavía tienen una tendencia natural a perseguir temas candentes, pero lo que demandarán cada vez más no es contenido oportuno, sino interpretaciones distintivas o análisis en profundidad.
Al igual que los aficionados al fútbol que han desplazado su atención de la cobertura de noticias rápida y exhaustiva al análisis en profundidad de los partidos y a programas interactivos y entretenidos. Los creadores de nicho de alta calidad pueden colaborar con la IA: los primeros centrándose en la tonalidad, los llamados “destellos de inspiración”, y la segunda encargándose de las tareas repetitivas, denominadas “trabajo pesado” en la industria del contenido.
A la IA todavía le queda un largo camino por recorrer
Sora cambia las reglas del juego. Conociendo cómo funciona Hollywood, sin duda intentarán usarlo para reemplazar puestos de trabajo. Pero es una herramienta, y algunas personas se aferrarán a ella y la aprovecharán, y otras no. Todavía no he visto ninguna IA llena de emoción humana; todo es bastante inquietante por el momento. No se convierte en una amenaza total hasta que pueda hacer sentir a los humanos.
Lee Romaire, productor creativo y ganador de un Emmy
La IA es una herramienta, un medio tecnológico creado por los humanos para resolver problemas. Tal como están las cosas, mientras la IA no desarrolle autoconciencia, no poseerá “originalidad”, sino que se limitará a recopilar y organizar el conocimiento humano existente. Incluso la IA generativa avanzada como ChatGPT no es una excepción.
El ganador del Emmy, Lee Romaire, compartió su opinión al respecto, diciendo: “Sora cambia las reglas del juego. Conociendo cómo funciona Hollywood, sin duda intentarán usarlo para reemplazar puestos de trabajo. Pero es una herramienta, y algunas personas se aferrarán a ella y la aprovecharán, y otras no. Todavía no he visto ninguna IA llena de emoción humana; todo es bastante inquietante por el momento. No se convierte en una amenaza total hasta que pueda hacer sentir a los humanos.”
OpenAI ya ha revelado los detalles técnicos de Sora, mostrando que su hoja de ruta tecnológica se hereda del modelo de texto a imagen publicado anteriormente. Si bien hay algunas innovaciones, no son revolucionarias. Al menos en el entorno actual, es poco probable que Sora produzca una verdadera “originalidad”, y su eficiencia y capacidad de persuasión para generar videos todavía dependen en gran medida del “entrenamiento” individual del usuario.
La respuesta correcta es A.

