La empresa tecnológica china ByteDance ha desarrollado un innovador marco de inteligencia artificial generativa llamado OmniHuman-1, capaz de crear videos altamente realistas de humanos a partir de una sola imagen y una señal de movimiento. Esta tecnología representa un avance significativo en el campo de la animación digital, superando las limitaciones de los modelos actuales.
OmniHuman-1: una nueva era en la generación de videos
Los investigadores de ByteDance han demostrado las capacidades de OmniHuman-1 generando videos realistas de figuras como Albert Einstein y el CEO de Nvidia, Jensen Huang. En estos videos, los personajes aparecen hablando y cantando mientras realizan movimientos corporales complejos, como el uso de las manos, y en diferentes formatos, incluyendo retratos, medio cuerpo y cuerpo completo. Además, la tecnología es capaz de animar personajes de dibujos animados, ampliando sus aplicaciones en la industria del entretenimiento.
ByteDance asegura que su framework supera a las tecnologías actuales, que aún tienen dificultades para escalar más allá de la animación facial o de la parte superior del cuerpo, lo que limita su aplicabilidad en entornos reales. OmniHuman-1 destaca por su capacidad para generar videos humanos extremadamente realistas a partir de señales de entrada débiles, especialmente audio, según un artículo de investigación publicado por la compañía.
Innovación en el procesamiento multimodal
Uno de los avances clave de OmniHuman-1 es su estrategia de entrenamiento basada en condicionamiento multimodal mixto. Según los investigadores de ByteDance, esta metodología permite que el modelo aproveche mejor los datos y supere la escasez de información de alta calidad que ha limitado a enfoques previos.
“En OmniHuman, introducimos una estrategia de entrenamiento mixto de acondicionamiento multimodal, lo que permite que el modelo se beneficie de una ampliación escalable de datos con diferentes condicionamientos”, explican los investigadores. “Esto resuelve el problema que enfrentaban los enfoques anteriores debido a la escasez de datos de alta calidad”.
Para entrenar este sistema, los investigadores utilizaron más de 18,000 horas de datos relacionados con el comportamiento humano. Esto permitió a la IA aprender de diversas fuentes, como texto, audio y movimientos corporales, logrando generar videos más naturales y realistas.
Funcionamiento de OmniHuman-1
OmniHuman-1 procesa de manera independiente cada tipo de entrada antes de fusionar la información para generar videos. En una primera fase, el sistema condensa los detalles del movimiento a partir de descripciones textuales, imágenes de referencia, señales de audio y datos de movimiento. Luego, refina progresivamente esta información para producir un video realista, mejorando la generación de movimiento al comparar sus resultados con videos reales.
“Nuestra principal idea es que incorporar señales de condicionamiento múltiples, como texto, audio y postura, durante el entrenamiento, puede reducir significativamente el desperdicio de datos”, afirma el documento de investigación.
ByteDance y su apuesta por la IA en video
ByteDance ha estado invirtiendo fuertemente en la generación de videos con IA, compitiendo con grandes empresas tecnológicas como Meta, Microsoft y Google DeepMind. En enero, la compañía lanzó una actualización de su modelo de IA Doubao, asegurando que supera el test de referencia AIME de OpenAI.
Con el desarrollo de OmniHuman-1, ByteDance no solo demuestra su liderazgo en inteligencia artificial, sino que también abre nuevas posibilidades para la creación de contenido digital. Desde la industria del entretenimiento hasta la educación y el marketing, las aplicaciones de esta tecnología podrían transformar la forma en que interactuamos con los videos generados por IA en el futuro.