- Tencent ha lanzado una nueva versión de su modelo de generación de video de código abierto, DynamiCrafter, en GitHub.
- Esta actualización se centra principalmente en animar escenas naturales con dinámicas estocásticas (como nubes y fluidos) o movimiento específico de dominio”.
- Después de generar texto e imágenes, se espera que la generación de video sea el próximo foco de la carrera de inteligencia artificial.
Algunas de las mayores empresas tecnológicas de China han estado intensificando discretamente sus esfuerzos para afianzarse en el espacio de texto e imagen a video. El 5 de febrero, el gigante chino de Internet Tencent, conocido por su imperio de videojuegos y la aplicación de chat wechat,lanzó una nueva versiónde su modelo de generación de video de código abierto DynamiCrafter en GitHub.
Cómo funciona
Como otras herramientas de generación de video en el mercado, DynamiCrafter utiliza un método de difusión para convertir subtítulos e imágenes estáticas en videos de unos segundos de duración. Inspirados en los fenómenos de difusión natural de la física, los modelos de difusión en el aprendizaje automático pueden transformar datos simples en datos más complejos y realistas, de manera similar a cómo las partículas se mueven de una región de alta concentración a otra de baja concentración.
Lea también: La búsqueda con inteligencia artificial de Google ahora genera imágenes
La segunda generación de DynamiCrafter produce video a una resolución de 640 x 1024 píxeles, una mejora con respecto al video de 320 x 512 que se lanzó por primera vez en octubre. Un artículo académico publicado por el equipo detrás de DynamiCrafter señala que su técnica difiere de la de sus competidores en que amplía la aplicabilidad de las técnicas de animación de imágenes a “contenido visual más general”.
“La idea clave es explotar los priors de movimiento de los modelos de difusión de texto a video incorporando imágenes en el proceso de generación como guía”, dice el artículo. En contraste, las técnicas “tradicionales” “se centran principalmente en animarescenas naturales con dinámicas aleatorias(por ejemplo, nubes y fluidos) o movimiento específico de dominio (por ejemplo, cabello humano o movimiento corporal).”
En una demostración que comparaba DynamiCrafter, Stable Video Diffusion (lanzado en noviembre) y el recientemente promocionado Pika Labs, los resultados del modelo de Tencent parecían más sólidos que los demás. Inevitablemente, la muestra elegida se inclinará hacia DynamiCrafter.”

Una nueva guerra sin armas entre empresas
Es innegable que después de generar texto e imágenes, se espera que la generación de video sea el próximo foco de la carrera de inteligencia artificial. Como resultado, se espera que las startups y las empresas tecnológicas inviertan importantes recursos en este espacio. China no es una excepción. Además de Tencent y la empresa matriz de TikTok, Bytedance, Baidu y Alibaba también han lanzado sus propios modelos de difusión de video.
Tanto MagicVideo de ByteDance como UniVG de Baidu han publicado demostraciones en GitHub, pero ninguna parece estar disponible para el público. Al igual que Tencent, Alibaba ha liberado su modelo de generación de video, VGen, como código abierto, una estrategia que se ha vuelto cada vez más popular entre las empresas tecnológicas chinas que buscan llegar a una comunidad global de desarrolladores.

