Meta demostrará su modelo Movie Gen AI, que combina vídeo con audio

Meta presentó Movie Gen, un modelo generativo de IA centrado en los medios diseñado para ayudar e inspirar a los cineastas independientemente de la escala del proyecto.

El mensaje de texto se convertirá en vídeo con sonido, pero los usuarios potenciales que estén interesados ​​tendrán que esperar un poco ya que no hay ningún lanzamiento público en el horizonte.

Sin embargo, meta reclamó el viernes (4 de octubre) “compartimos esta investigación porque creemos en el poder de esta tecnología para ayudar a las personas a expresarse de nuevas maneras y brindar oportunidades a personas que de otro modo no las tendrían”.

La compañía dijo que espera que algún día la gente pueda “dar vida a sus visiones artísticas” con el acceso de todos a la aplicación.

Movie Gen de Meta no es sólo un modelo avanzado, ya que combina una “versión” de modelos fundamentales con el elemento de texto a vídeo más potente. Al producir videos de IA, el sonido se genera para que coincida con la configuración o el tema del video.

Podría ser el sonido de un tren saliendo del andén de una estación o una fuerte lluvia durante una tormenta. Si procede, también se añade música.

¿Cómo se entrenó la película Gen Meta?

Se dice que Movie Gen y sus cuatro “capacidades” (generación de video, generación de video personalizado, edición de video de precisión y generación de audio) se derivan de “una colección de herramientas con licencia y disponibles públicamente” con contenido de video. desde Meta plataformas como Facebook e Instagram.

Un obstáculo anterior para los generadores de vídeo era la capacidad de editar. Esto lo ha solucionado en cierta medida la empresa de Mark Zuckerberg.

Movie Gen presenta un método de edición de texto que puede utilizar para la edición básica. Podría ser “cambiar el fondo del cielo nocturno del paisaje urbano”, pero sólo realiza cambios específicos.

El generador de IA puede generar hasta 16 segundos de contenido de video a 16 cuadros por segundo o, alternativamente, puede tener 10 segundos de video a 24 cuadros por segundo.

La salida de vídeo tiene 768 píxeles de ancho, lo que se remonta a los tiempos de 1024 × 768, pero es suficiente para combinarlo con otros formatos HD.

Algunos podrían haber esperado la generación de voz, pero hay buenas razones por las que Meta no dio ese paso. La generación de voz es muy difícil de dominar y también genera controversia con el aumento del contenido deepfake.

El factor de riesgo está aumentando en el período previo a las elecciones presidenciales de este año y el clima político actual.

Meta reveló sus intenciones al publicar su investigación sobre la generación de videos con IA y lo que es capaz de hacer actualmente.

Crédito de la imagen: Meta

La publicación Meta demuestra el modelo Movie Gen AI que combina video con sonido apareció por primera vez en ReadWrite.



Fuente