Google presenta la nueva era de la IA generativa de imágenes y vídeo: Imagen 3 y Veo

Yentre la vorágine de novedades que ha presentado Google en el marco de su famoso evento I/O 2024podemos destacar dos nuevos modelos de IA destinado a revolucionar la generación de imágenes y vídeo: Imagen 3 y veorespectivamente.

La imagen 3 supone un gran salto cualitativo respecto a sus modelos antecesores en términos de resolución, versatilidad y comprensión. Mientras Veo Este es el modelo de generación de vídeo más potente creado por Google hasta la fecha, siendo capaz de crear piezas de hasta un minuto duración manteniendo altos estándares de calidad.

Imagen 3: profesionalidad y sencillez

Su versión anterior, Imagen 2, fue presentada hace apenas un mes en el caso Nube siguiente 24. Esto elevó la calidad de las imágenes generadas y agregó la posibilidad de crear videos de 4 segundos a partir de indicaciones escritas. Aunque la resolución de este último era bastante baja, tan solo 360×640 píxeles.

Ahora, Google ha presentado Imagen 3 y lo ha definido como su modelo de conversión de texto a imagen de mayor calidad. Éste no sólo ha mejorado la resolución de las obras que genera, sino que le ha dotado de una mayor capacidad de comprensión y ha dado un gran salto cualitativo a la hora de incluir texto en las imágenes.

Imagen creada con Image3 AI de Google bajo el mensaje "Tres mujeres están juntas riendo, con una mujer ligeramente desenfocada en primer plano. El sol se pone detrás de las mujeres, creando un destello en la lente y un brillo cálido que resalta su cabello y crea un efecto bokeh en el fondo. El estilo de la fotografía es sincero y captura un momento genuino de conexión y felicidad entre amigos. La cálida luz de la hora dorada aporta un sentimiento nostálgico e íntimo a la imagen.". — Obra creada con IA Imagen 3 de Google bajo el lema (en inglés) «Tres mujeres ríen juntas, con una mujer ligeramente desenfocada en primer plano. El sol se pone detrás de las mujeres, creando un destello en la lente y un brillo cálido que resalta su cabello y crea un efecto bokeh en el fondo. El estilo de la fotografía es sincero y captura un momento genuino de conexión y felicidad entre amigos. “La cálida luz de la hora dorada aporta a la imagen un sentimiento nostálgico e íntimo”.

Además, bajo el objetivo de que esta IA se adapta a diferentes casos de uso y diferentes tareas (desde generar bocetos hasta crear obras en alta resolución), Google lo pondrá a disposición de los usuarios en múltiples versiones.

Por ahora, Imagen 3 Sólo está disponible para una serie de creadores privilegiados. que han sido seleccionados para probar su vista previa dentro de ImageFX. Pero Google ha publicado un Lista de espera en el que ya es posible registrarse para acceder al modelo. Asimismo, se ha anunciado que Imagen 3 pronto se integrará en Vértice AI.

Una mayor capacidad de comprensión que potencia la versatilidad

La imagen 3 es capaz de comprender instrucciones escritas en un lenguaje más natural y cotidianoeliminando barreras técnicas para que todos puedan realizar su pedido y obtener grandes obras.

«Para ayudar a la Imagen 3 a capturar matices como ángulos de cámara específicos o composiciones en mensajes largos y complejos, agregamos detalles más ricos al título de cada imagen en sus datos de entrenamiento. Con mejor información para aprender, La imagen 3 genera con mayor precisión una amplia gama de temas y estilos.», Explicar Google.

Imagen creada con Image3 AI de Google bajo el mensaje "Escena de plastilina. Un plano medio amplio de una mujer mayor. Lleva ropa fluida. Ella está parada en un exuberante jardín regando las plantas con una regadera naranja". — Obra creada con AI Imagen 3 de Google bajo el mensaje (en inglés) «Escena de plastilina. Un plano medio amplio de una mujer mayor. Lleva ropa fluida. “Ella está parada en un exuberante jardín regando las plantas con una regadera naranja”.

Como podemos ver en la imagen anterior, esta IA no sólo consigue recrear escenas precisas en lo que a descripción se refiere, sino que también Cumple perfectamente con las exigencias de estilo y técnica artística.. La calidad se refleja en la imagen a través de la resolución, la iluminación, los materiales y la composición. La imagen 3 es c.Capaz de representar con precisión pequeños detalles y texturas complejas..

Imagen creada con Image3 AI de Google bajo el mensaje "Elefante amigurumi caminando por la sabana, una fotografía profesional, fondo borroso". — Trabajo creado con IA Imagen 3 de Google bajo el lema (en inglés) “Amigurumi elefante caminando en la sabana, una fotografía profesional, fondo borroso”.

Más y mejor texto integrado en imágenes

La última versión de la IA de generación de imágenes de Google también ha perfeccionado la inclusión de texto en las imágenes. Además, su capacidad de crear letras o palabras con diferentes elementos ha aumentado, dando resultados de mayor calidad y legibilidad. Esto abre nuevas posibilidades creativas como la creación de carteles, presentaciones, invitaciones de cumpleaños, etc.

Imágenes creadas con Google Image3 AI. El de la izquierda debajo del mensaje (en inglés) "Palabra "Luz" hecho de plumas de varios colores, fondo negro". El de la derecha debajo del mensaje (en inglés) "Una fotografía de la majestuosa entrada de una biblioteca con las palabras "Biblioteca Central" grabado en la piedra". — Obras creadas con Google Image3 AI. El de la izquierda debajo del mensaje (en inglés) “Palabra “luz” hecha de varias plumas de colores, fondo negro”. El de la derecha debajo del mensaje (en inglés) “Una fotografía de la majestuosa entrada a una biblioteca con las palabras “Biblioteca Central” grabadas en la piedra”.

El foco en la seguridad

Consciente de que las imágenes generadas con IA pueden ser dañinas si se utilizan incorrectamente, Google ha trabajado para mejorar sus sistemas de seguridad y responsabilidad. «Utilizamos un filtrado y etiquetado de datos exhaustivos para minimizar el contenido dañino en los conjuntos de datos y reducir la probabilidad de resultados dañinos. También realizamos Evaluaciones sobre temas que incluyen equidad, prejuicios y seguridad del contenido.».

Además de esto, también han desarrollado un herramienta de marca de agua llamada SynthID que han aplicado a la Imagen 3. Esta incorpora una marca de agua digital en los píxeles de la imagen, permitiendo su identificación siendo imperceptible para el ojo humano.

Ya veo: vídeos cinematográficos de hasta un minuto.

tal como lo ha hecho explicado el gigante tecnológico, «Veo se basa en años de trabajo con modelos de generación de vídeo como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y LumièreCombinando arquitectura, leyes de escala y otras técnicas novedosas para mejorar la calidad y resolución de la salida.». Y todo este trabajo parece haber dado sus frutos, ya que esta IA es capaz de genera vídeos de hasta un minuto de duración en alta calidad con resolución 1080p.

Además, se han entrenado sus habilidades de comprensión para comprender con precisión el tono y los matices de las solicitudes de los usuarios, de modo que el control creativo sea mayor. Veo entiende el lenguaje natural y también la semántica visualpermitiendo al usuario dar instrucciones sobre todo tipo de efectos cinematográficos, desde time lapse hasta tipos de enfoque, encuadres o tomas aéreas.

Google ha anunciado que, en las próximas semanas, algunas de las funciones de Veo serán disponible en VideoFX para un número selecto de creadores. VideoFX es una nueva herramienta experimental integrada en labs.google. Asimismo, ya han abierto un Lista de espera para probar la herramienta.

La compañía también ha anunciado que su objetivo es implementar algunas de las capacidades de Veo en YouTube Shorts y otros productos.

Capacidades de edición

Una característica notable de Veo es su comando de edición. Gracias a esto puedes pedirle que agregue o edite elementos a un video creado previamente. De esta forma, la IA respetará la creación anterior, pero modificando las partes que el usuario haya indicado.

A la izquierda vemos una captura de pantalla de un vídeo creado con Veo bajo el mensaje "Disparo de drones a lo largo de la costa selvática de Hawaii, día soleado". Y a la derecha, la captura del resultado de editar ese vídeo con el mensaje "Drones disparados a lo largo de la costa selvática de Hawaii, día soleado. Kayaks en el agua". — Izquierda: captura de un vídeo creado con Veo bajo el mensaje (en inglés) “disparo con drones a lo largo de la costa selvática de Hawái, día soleado”. / Derecha: Captura del resultado de la edición de ese vídeo con el mensaje (en inglés) «disparo con drones a lo largo de la costa selvática de Hawaii, día soleado. Kayaks en el agua.

Creando videos a partir de imágenes

Esta IA también puede generar videos a partir de imágenes. Así podrás cargar una imagen desde tu dispositivo y animarla con Veo, dándole las instrucciones escritas pertinentes. La IA Respetará el estilo de la imagen y aplicará el movimiento según tus instrucciones..

Colaboración con cineastas para explorar las capacidades de Veo

Google ha colaborado con varios cineastas y creadores para poder descubre cómo tu IA podría ayudarles durante el proceso creativosi bien esto sirvió a la propia empresa para mejorar ya veo. Uno de los artistas con los que ha trabajado ha sido el cineasta Donald Glover y su estudio creativo, Gilga.

Seguridad y responsabilidad

Veo ha pasado por los pertinentes filtros y pruebas de seguridadde modo que se minimizaran los riesgos relacionados con los derechos de autor, la privacidad y los prejuicios.

Como la Imagen 3, una Veo también ha aplicado la tecnología SynthID para incluir marcas de agua digitales en los píxeles de sus fotogramas, permitiéndonos así identificar qué contenido ha sido creado o modificado con esta IA.

Foto: generada con la Imagen 3 bajo el mensaje (en inglés) “un par de botas de montaña muy gastadas, cubiertas de barro y descansando sobre un camino rocoso. De una de las botas asoma la cabeza de una ardilla que mira perezosamente a la cámara, un pequeño rey de su zapato. Los cordones de ambas botas caen flojos al suelo. Al fondo hay un paisaje montañoso. Fotografía cinematográfica, fotografía DSLR de alta calidad.