Imagen 2: o que é o gerador IA de vídeo do Google?
Assim como o Sora, da OpenAI, a ferramenta de inteligência artificial generativa cria imagens de vídeo ao vivo a partir de comandos de texto
Durante o evento da divisão de nuvem do Google, o Cloud Next, que acontece em Las Vegas, até esta quinta-feira (11), foi anunciada uma nova ferramenta para geração de imagens, o Imagen 2 (sim, com 'n' de nariz). Ela será integrada à plataforma de desenvolvedor Vertex AI, voltada para o público corporativo.
O Imagen 2 renderiza (converte símbolos em imagens) textos, emblemas e logotipos em vários idiomas e a IA generativa consegue sobrepor esses elementos em imagens existentes, como, por exemplo, a aplicação da sua foto em cartões de visita, camisas e outros produtos.
Para quem usa o Vertex AI, já terá acesso ao modo de edição de imagens do Imagen 2, que terá dois novos recursos: o impainting e outpainting.
Em bom português, a pintura interna e externa, recursos que já existem em outros geradores de IA criativos, como o DALL-E, da OpenAI.
Eles podem ser usados para remover partes de uma imagem, acrescentar novos componentes e expandir as bordas de uma imagem para criar um campo de visão mais amplo.
O Google ressalta que a principal finalidade do Imagen 2 é gerar “imagens de texto para live”.
A ferramenta pode criar vídeos curtos de até quatro segundos a partir de comandos (prompts) de texto, nos moldes de outras ferramentas de geração de clipes com tecnologia de inteligência artificial, como o Pika, Irreverent Labs e Runway.
Direcionado para o público corporativo, o Imagen 2 torna-se um aliado para profissionais de marketing, publicidade, além de outros criativos.
Funciona também como um gerador de GIF (imagem animada) para anúncios e também a ferramenta foi aprimorada para gerar imagens sobre natureza, comida e animais.
O Google afirma que as imagens ao vivo podem capturar “uma variedade de ângulos e movimentos de câmera”, ao mesmo tempo que “mantém consistência em toda a sequência [de imagens]”.
O que o Imagen 2 faz?
- Usa comandos de texto (prompt) “em linguagem natural” para geração de imagens e vídeos realistas;
- Renderização de textos em vários idiomas para gerar imagens mais precisas;
- Desenvolve logo para produtos, empresas e sites em vários formatos que vão dos realistas, fotográficos, abstratos e até tipográficos;
- Avalia fotos para criação de legendas, como, por exemplo, em anúncios, e extrai informações detalhadas da imagem;
Marca d'água criptografada no Imagen 2
Em relação ao possível uso maléfico da IA para geração de deepfakes, o Google implantou a tecnologia SynthID, uma marca d'água criptografada invisível desenvolvida pela divisão de IA, Google DeepMind, para imagens ao vivo.
O Google garante que estas marcas são resistentes a edições, filtros e ajustes de tons de cores. A única forma de quebrar essa criptografia seria por outra ferramenta desenvolvida pela empresa, que não está disponível externamente.
A big tech garante que as imagens geradas ao vivo serão “filtradas por segurança” e não terão os problemas do Gemini.
Um porta-voz da empresa falou ao site TechCrunch que “o Imagen 2 no Vertex AI não apresentou os mesmos problemas que o aplicativo Gemini. Continuamos testando extensivamente e interagindo com nossos clientes.”
Sora, Pika, Runway e outros concorrentes
Apesar da geração de vídeos em baixa resolução, o Imagen 2 é promissor. Mas o Google precisa observar seus concorrentes, que já estão bem avançados no segmento de IA generativa em vídeo. Apenas para comparar a característica de alguns concorrentes:
- Runway gera clipes de 18 segundos em resoluções muito mais altas;
- Pika é gratuito e popular por ter simplicidade no processo de geração de vídeos de IA com qualidade;
- Stability AI oferece mais personalização, com maior taxa de quadros, e assim, com uma imagem mais 'definida' e fluida;
- Stable Video Diffusion consegue fornecer vídeos estáveis com opções personalizáveis de movimento de câmera e efeitos;
- Sora, da OpenAI, mesmo ainda não disponível no mercado, aparentemente parece um modelo IA de geração de vídeos mais pronto em relação a todos os seus concorrentes, por produzir vídeos com melhor qualidade, fluência e realismo.
No momento, ou pelo que foi apresentado, o Google Imagen 2 gera ao vivo clipes de 4 segundos no tamanho 360 pixels por 640 pixels, ou seja, vídeos em baixa resolução.
Gemini deixou usuários perplexos com imagens imprecisas
Esta não é a primeira vez que o Google desenvolve uma ferramenta de inteligência artificial que desenvolve imagens. Em fevereiro, a empresa entrou em uma polêmica quando o seu chatbot de IA, Gemini, criava imagens aleatórias de gênero e diversidade racial em imagens históricas.
Como, por exemplo, a participação de mulheres e negros entre os “pais fundadores” dos Estados Unidos e imagens de nazistas negros, deixando os usuários de internet perplexos.
A empresa de tecnologia desativou a geração de imagens para fazer aprimoramentos.
+ Google pausa gerador de imagens de IA do Gemini após erros de diversidade e gênero
Como funcionam?
Estes modelos de geração de vídeos por IA generativa são treinados em um grande volume de dados disponíveis em sites públicos, publicações de blogs, transcrições de mídia, fóruns de discussão e dados na web.
Estas informações fazem a diferença entre o sucesso e o fracasso de um modelo de inteligência artificial generativa para vídeos e imagens.
- O sucesso está no momento em que o usuário faz o comando de texto, “pedindo” para a ferramenta a geração de um vídeo conforme as características da criação que deseja, onde a ferramenta “entrega” tudo que foi relatado no prompt.
- O fracasso acontece no fenômeno chamado “regurgitação”, semelhante às “alucinações” em IA, o evento acontece quando o modelo generativo “cospe” uma cópia espelhada, revelando a base usada para fazer a geração da imagem.
- Por exemplo, quando a IA tem uma falha, gera uma imagem igual à base original em que foi treinado. Ou seja, ao gerar uma imagem baseada na fonte original, a IA pode divulgar fotos identificáveis de pessoas, obras de artistas protegidas por direitos autorais, os expondo sem autorização. Isso pode gerar incômodo para quem foi exposto e provoca possíveis problemas judiciais para a empresa de tecnologia.
O ponto importante é que o Google não revela em quais fontes públicas ou bases de dados a inteligência artificial generativa é treinada.