Tecnologia

Imagen 2: o que é o gerador IA de vídeo do Google?

Assim como o Sora, da OpenAI, a ferramenta de inteligência artificial generativa cria imagens de vídeo ao vivo a partir de comandos de texto

Cido Coelho

11/04/2024 às 10h15 • Atualizado em 11/04/2024 às 10h24

Durante o evento da divisão de nuvem do Google, o Cloud Next, que acontece em Las Vegas, até esta quinta-feira (11), foi anunciada uma nova ferramenta para geração de imagens, o Imagen 2 (sim, com 'n' de nariz). Ela será integrada à plataforma de desenvolvedor Vertex AI, voltada para o público corporativo.

Confira as últimas notícias de Tecnologia

O Imagen 2 renderiza (converte símbolos em imagens) textos, emblemas e logotipos em vários idiomas e a IA generativa consegue sobrepor esses elementos em imagens existentes, como, por exemplo, a aplicação da sua foto em cartões de visita, camisas e outros produtos.

Para quem usa o Vertex AI, já terá acesso ao modo de edição de imagens do Imagen 2, que terá dois novos recursos: o impainting e outpainting.

Modo de edição de pintura externa | Divulgação/Google

Em bom português, a pintura interna e externa, recursos que já existem em outros geradores de IA criativos, como o DALL-E, da OpenAI.

Modo de edição de pintura interna | Divulgação/Google

Eles podem ser usados para remover partes de uma imagem, acrescentar novos componentes e expandir as bordas de uma imagem para criar um campo de visão mais amplo.

Google anuncia vários produtos integrados com inteligência artificial; saiba quais são

O Google ressalta que a principal finalidade do Imagen 2 é gerar “imagens de texto para live”.

A ferramenta pode criar vídeos curtos de até quatro segundos a partir de comandos (prompts) de texto, nos moldes de outras ferramentas de geração de clipes com tecnologia de inteligência artificial, como o Pika, Irreverent Labs e Runway.

Direcionado para o público corporativo, o Imagen 2 torna-se um aliado para profissionais de marketing, publicidade, além de outros criativos.

Funciona também como um gerador de GIF (imagem animada) para anúncios e também a ferramenta foi aprimorada para gerar imagens sobre natureza, comida e animais.

O Google afirma que as imagens ao vivo podem capturar “uma variedade de ângulos e movimentos de câmera”, ao mesmo tempo que “mantém consistência em toda a sequência [de imagens]”.

Todas as notícias sobre inteligência artificial

O que o Imagen 2 faz?

Usa comandos de texto (prompt) “em linguagem natural” para geração de imagens e vídeos realistas;
Renderização de textos em vários idiomas para gerar imagens mais precisas;
Desenvolve logo para produtos, empresas e sites em vários formatos que vão dos realistas, fotográficos, abstratos e até tipográficos;
Avalia fotos para criação de legendas, como, por exemplo, em anúncios, e extrai informações detalhadas da imagem;

Segundo Google, as imagens são geradas a partir de banco de dados públicos na web | Divulgação/Google

Marca d'água criptografada no Imagen 2

Em relação ao possível uso maléfico da IA para geração de deepfakes, o Google implantou a tecnologia SynthID, uma marca d'água criptografada invisível desenvolvida pela divisão de IA, Google DeepMind, para imagens ao vivo.

O Google garante que estas marcas são resistentes a edições, filtros e ajustes de tons de cores. A única forma de quebrar essa criptografia seria por outra ferramenta desenvolvida pela empresa, que não está disponível externamente.

A big tech garante que as imagens geradas ao vivo serão “filtradas por segurança” e não terão os problemas do Gemini.

Um porta-voz da empresa falou ao site TechCrunch que “o Imagen 2 no Vertex AI não apresentou os mesmos problemas que o aplicativo Gemini. Continuamos testando extensivamente e interagindo com nossos clientes.”

Sora, Pika, Runway e outros concorrentes

Sora passa por testes e deve ser lançada ainda neste ano | Reprodução/OpenAi/Sora

Apesar da geração de vídeos em baixa resolução, o Imagen 2 é promissor. Mas o Google precisa observar seus concorrentes, que já estão bem avançados no segmento de IA generativa em vídeo. Apenas para comparar a característica de alguns concorrentes:

Runway gera clipes de 18 segundos em resoluções muito mais altas;
Pika é gratuito e popular por ter simplicidade no processo de geração de vídeos de IA com qualidade;
Stability AI oferece mais personalização, com maior taxa de quadros, e assim, com uma imagem mais 'definida' e fluida;
Stable Video Diffusion consegue fornecer vídeos estáveis com opções personalizáveis de movimento de câmera e efeitos;
Sora, da OpenAI, mesmo ainda não disponível no mercado, aparentemente parece um modelo IA de geração de vídeos mais pronto em relação a todos os seus concorrentes, por produzir vídeos com melhor qualidade, fluência e realismo.

No momento, ou pelo que foi apresentado, o Google Imagen 2 gera ao vivo clipes de 4 segundos no tamanho 360 pixels por 640 pixels, ou seja, vídeos em baixa resolução.

OpenAI avalia uso de nudez em vídeos gerados pelo Sora

Gemini deixou usuários perplexos com imagens imprecisas

Ao pedir no prompt imagens de soldados da Segunda Guerra, Gemini entrega soldados e mulheres com uniforme semelhante aos da Alemanha nazista | Reprodução/X

Esta não é a primeira vez que o Google desenvolve uma ferramenta de inteligência artificial que desenvolve imagens. Em fevereiro, a empresa entrou em uma polêmica quando o seu chatbot de IA, Gemini, criava imagens aleatórias de gênero e diversidade racial em imagens históricas.

Como, por exemplo, a participação de mulheres e negros entre os “pais fundadores” dos Estados Unidos e imagens de nazistas negros, deixando os usuários de internet perplexos.

A empresa de tecnologia desativou a geração de imagens para fazer aprimoramentos.

+ Google pausa gerador de imagens de IA do Gemini após erros de diversidade e gênero

Como funcionam?

Estes modelos de geração de vídeos por IA generativa são treinados em um grande volume de dados disponíveis em sites públicos, publicações de blogs, transcrições de mídia, fóruns de discussão e dados na web.

Estas informações fazem a diferença entre o sucesso e o fracasso de um modelo de inteligência artificial generativa para vídeos e imagens.

O sucesso está no momento em que o usuário faz o comando de texto, “pedindo” para a ferramenta a geração de um vídeo conforme as características da criação que deseja, onde a ferramenta “entrega” tudo que foi relatado no prompt.

O fracasso acontece no fenômeno chamado “regurgitação”, semelhante às “alucinações” em IA, o evento acontece quando o modelo generativo “cospe” uma cópia espelhada, revelando a base usada para fazer a geração da imagem.
Por exemplo, quando a IA tem uma falha, gera uma imagem igual à base original em que foi treinado. Ou seja, ao gerar uma imagem baseada na fonte original, a IA pode divulgar fotos identificáveis de pessoas, obras de artistas protegidas por direitos autorais, os expondo sem autorização. Isso pode gerar incômodo para quem foi exposto e provoca possíveis problemas judiciais para a empresa de tecnologia.

O ponto importante é que o Google não revela em quais fontes públicas ou bases de dados a inteligência artificial generativa é treinada.

Imagen 2: o que é o gerador IA de vídeo do Google?

Assim como o Sora, da OpenAI, a ferramenta de inteligência artificial generativa cria imagens de vídeo ao vivo a partir de comandos de texto

O que o Imagen 2 faz?

Marca d'água criptografada no Imagen 2

Sora, Pika, Runway e outros concorrentes

Gemini deixou usuários perplexos com imagens imprecisas

Como funcionam?

Assuntos relacionados

Últimas Notícias

China enviará ajuda humanitária ao Oriente Médio para auxiliar afetados pela guerra no Irã

Sono ruim, estresse e dor: os 3 ladrões que estão encurtando sua vida; entenda

VÍDEO: veja momento em que tenente-coronel acusado de matar esposa é preso no interior de SP

Haddad vai propor aos estados transição de até 60 dias no ICMS para conter alta dos combustíveis

Doenças renais: caso do ator Jackson Antunes acende alerta e reforça cuidados com o rim; saiba como se prevenir

Estudante sofre racismo dentro de escola e irmã, que foi defender, leva soco de colega

Linha 4-Amarela do Metrô de SP tem falha operacional na Estação da Luz nesta quarta (18)

Investidores dos EUA participam de evento em SP nesta sexta de olho em minerais críticos

Fazenda convoca reunião com secretários estaduais para discutir redução do ICMS sobre diesel

Tenente-coronel acusado de matar soldado Gisele e forjar suicídio é preso em SP