Yentre la vorágine de novedades que ha presentado Google en el marco de su famoso evento I/O 2024podemos destacar dos nuevos modelos de IA destinado a revolucionar la generación de imágenes y vídeo: Imagen 3 y veorespectivamente.
La imagen 3 supone un gran salto cualitativo respecto a sus modelos antecesores en términos de resolución, versatilidad y comprensión. Mientras Veo Este es el modelo de generación de vídeo más potente creado por Google hasta la fecha, siendo capaz de crear piezas de hasta un minuto duración manteniendo altos estándares de calidad.
Imagen 3: profesionalidad y sencillez
Su versión anterior, Imagen 2, fue presentada hace apenas un mes en el caso Nube siguiente 24. Esto elevó la calidad de las imágenes generadas y agregó la posibilidad de crear videos de 4 segundos a partir de indicaciones escritas. Aunque la resolución de este último era bastante baja, tan solo 360×640 píxeles.
Ahora, Google ha presentado Imagen 3 y lo ha definido como su modelo de conversión de texto a imagen de mayor calidad. Éste no sólo ha mejorado la resolución de las obras que genera, sino que le ha dotado de una mayor capacidad de comprensión y ha dado un gran salto cualitativo a la hora de incluir texto en las imágenes.
Además, bajo el objetivo de que esta IA se adapta a diferentes casos de uso y diferentes tareas (desde generar bocetos hasta crear obras en alta resolución), Google lo pondrá a disposición de los usuarios en múltiples versiones.
Por ahora, Imagen 3 Sólo está disponible para una serie de creadores privilegiados. que han sido seleccionados para probar su vista previa dentro de ImageFX. Pero Google ha publicado un Lista de espera en el que ya es posible registrarse para acceder al modelo. Asimismo, se ha anunciado que Imagen 3 pronto se integrará en Vértice AI.
Una mayor capacidad de comprensión que potencia la versatilidad
La imagen 3 es capaz de comprender instrucciones escritas en un lenguaje más natural y cotidianoeliminando barreras técnicas para que todos puedan realizar su pedido y obtener grandes obras.
«Para ayudar a la Imagen 3 a capturar matices como ángulos de cámara específicos o composiciones en mensajes largos y complejos, agregamos detalles más ricos al título de cada imagen en sus datos de entrenamiento. Con mejor información para aprender, La imagen 3 genera con mayor precisión una amplia gama de temas y estilos.», Explicar Google.
Como podemos ver en la imagen anterior, esta IA no sólo consigue recrear escenas precisas en lo que a descripción se refiere, sino que también Cumple perfectamente con las exigencias de estilo y técnica artística.. La calidad se refleja en la imagen a través de la resolución, la iluminación, los materiales y la composición. La imagen 3 es c.Capaz de representar con precisión pequeños detalles y texturas complejas..
Más y mejor texto integrado en imágenes
La última versión de la IA de generación de imágenes de Google también ha perfeccionado la inclusión de texto en las imágenes. Además, su capacidad de crear letras o palabras con diferentes elementos ha aumentado, dando resultados de mayor calidad y legibilidad. Esto abre nuevas posibilidades creativas como la creación de carteles, presentaciones, invitaciones de cumpleaños, etc.
El foco en la seguridad
Consciente de que las imágenes generadas con IA pueden ser dañinas si se utilizan incorrectamente, Google ha trabajado para mejorar sus sistemas de seguridad y responsabilidad. «Utilizamos un filtrado y etiquetado de datos exhaustivos para minimizar el contenido dañino en los conjuntos de datos y reducir la probabilidad de resultados dañinos. También realizamos Evaluaciones sobre temas que incluyen equidad, prejuicios y seguridad del contenido.».
Además de esto, también han desarrollado un herramienta de marca de agua llamada SynthID que han aplicado a la Imagen 3. Esta incorpora una marca de agua digital en los píxeles de la imagen, permitiendo su identificación siendo imperceptible para el ojo humano.
Ya veo: vídeos cinematográficos de hasta un minuto.
tal como lo ha hecho explicado el gigante tecnológico, «Veo se basa en años de trabajo con modelos de generación de vídeo como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y LumièreCombinando arquitectura, leyes de escala y otras técnicas novedosas para mejorar la calidad y resolución de la salida.». Y todo este trabajo parece haber dado sus frutos, ya que esta IA es capaz de genera vídeos de hasta un minuto de duración en alta calidad con resolución 1080p.
Además, se han entrenado sus habilidades de comprensión para comprender con precisión el tono y los matices de las solicitudes de los usuarios, de modo que el control creativo sea mayor. Veo entiende el lenguaje natural y también la semántica visualpermitiendo al usuario dar instrucciones sobre todo tipo de efectos cinematográficos, desde time lapse hasta tipos de enfoque, encuadres o tomas aéreas.
Google ha anunciado que, en las próximas semanas, algunas de las funciones de Veo serán disponible en VideoFX para un número selecto de creadores. VideoFX es una nueva herramienta experimental integrada en labs.google. Asimismo, ya han abierto un Lista de espera para probar la herramienta.
La compañía también ha anunciado que su objetivo es implementar algunas de las capacidades de Veo en YouTube Shorts y otros productos.
Capacidades de edición
Una característica notable de Veo es su comando de edición. Gracias a esto puedes pedirle que agregue o edite elementos a un video creado previamente. De esta forma, la IA respetará la creación anterior, pero modificando las partes que el usuario haya indicado.
Creando videos a partir de imágenes
Esta IA también puede generar videos a partir de imágenes. Así podrás cargar una imagen desde tu dispositivo y animarla con Veo, dándole las instrucciones escritas pertinentes. La IA Respetará el estilo de la imagen y aplicará el movimiento según tus instrucciones..
Colaboración con cineastas para explorar las capacidades de Veo
Google ha colaborado con varios cineastas y creadores para poder descubre cómo tu IA podría ayudarles durante el proceso creativosi bien esto sirvió a la propia empresa para mejorar ya veo. Uno de los artistas con los que ha trabajado ha sido el cineasta Donald Glover y su estudio creativo, Gilga.
Seguridad y responsabilidad
Veo ha pasado por los pertinentes filtros y pruebas de seguridadde modo que se minimizaran los riesgos relacionados con los derechos de autor, la privacidad y los prejuicios.
Como la Imagen 3, una Veo también ha aplicado la tecnología SynthID para incluir marcas de agua digitales en los píxeles de sus fotogramas, permitiéndonos así identificar qué contenido ha sido creado o modificado con esta IA.
Foto: generada con la Imagen 3 bajo el mensaje (en inglés) “un par de botas de montaña muy gastadas, cubiertas de barro y descansando sobre un camino rocoso. De una de las botas asoma la cabeza de una ardilla que mira perezosamente a la cámara, un pequeño rey de su zapato. Los cordones de ambas botas caen flojos al suelo. Al fondo hay un paisaje montañoso. Fotografía cinematográfica, fotografía DSLR de alta calidad.