Fotos de crianças brasileiras são usadas sem autorização para treinar inteligência artificial, diz estudo
Imagens raspadas da internet alimentam tecnologia e são usadas em deepfakes. Alguns casos revelam identidade e outras informações dos menores de idade
Gudryan Neufert
Fotos pessoais de crianças e adolescentes brasileiros estão sendo usadas para treinar ferramentas de inteligência artificial (IA) sem o conhecimento ou consentimento deles, segundo a organização Human Rights Watch.
Essas imagens são capturadas da web e inseridas em um grande conjunto de dados que as empresas usam para treinar suas ferramentas de IA. Enquanto isso, outros usuários acessam as ferramentas para criar deepfakes maliciosos que colocam ainda mais crianças em risco de exploração e danos.
- Para entender: o que é deepfake?
Menores em risco
"Crianças e adolescentes não deveriam ter que viver com medo de que suas fotos possam ser roubadas e usadas contra eles", disse Hye Jung Han, pesquisadora de direitos da criança e tecnologia da Human Rights Watch. Ela afirmou que cabe ao poder público regulamentar as ferramentas e desenvolver legislações para proteger os menores de idade.
Uma análise da Human Rights Watch descobriu que o LAION-5B, um conjunto de dados usado para treinar ferramentas populares de IA e construído a partir da raspagem de grande parte da Internet, contém links para fotos identificáveis de crianças brasileiras.
Os nomes de algumas crianças estão listados nas respectivas legendas ou na URL onde a imagem está armazenada. Em muitos casos, suas identidades são facilmente rastreáveis, incluindo informações sobre quando e onde a criança estava no momento em que a foto foi tirada.
Uma dessas fotos mostra uma menina de dois anos com os lábios entreabertos de admiração enquanto toca os dedinhos de sua irmã recém-nascida. A legenda e as informações incorporadas na foto revelam não apenas os nomes das duas crianças, mas também o nome e a localização exata do hospital em Santa Catarina onde o bebê nasceu.
Dados do estudo
A Human Rights Watch encontrou 170 fotos de crianças de pelo menos 10 estados: Alagoas, Bahia, Ceará, Mato Grosso do Sul, Minas Gerais, Paraná, Rio de Janeiro, Rio Grande do Sul, Santa Catarina e São Paulo.
É provável que essa seja uma subestimação significativa da quantidade total de dados pessoais de crianças existentes no LAION-5B, uma vez que a Human Rights Watch analisou menos de 0,0001% dos 5,85 bilhões de imagens e legendas contidas no conjunto de dados.
As fotos analisadas abrangem toda a infância e adolescência, capturando momentos íntimos de bebês nascendo nas mãos enluvadas de médicos; crianças pequenas soprando velas no seu bolo de aniversário ou dançando de cueca e calcinha em casa; estudantes fazendo uma apresentação na escola; e adolescentes posando para fotos no Carnaval de seu colégio.
Como funciona a exposição?
Quando seus dados são coletados e inseridos em sistemas de IA, essas crianças enfrentam mais ameaças à sua privacidade devido a falhas na tecnologia. Os modelos tecnológicos, inclusive aqueles treinados no LAION-5B, são notórios por vazar informações privadas; eles podem reproduzir cópias idênticas do material no qual foram treinados, inclusive registros médicos e fotos de pessoas reais. As barreiras de proteção estabelecidas por algumas empresas para evitar o vazamento de dados confidenciais têm sido repetidamente quebradas.
O treinamento em fotos de crianças reais tem permitido que os modelos de IA criem clones convincentes de qualquer criança com base em um punhado de fotos ou até mesmo em uma única imagem, em um sistema que abre caminho para danos maiores à privacidade delas e de suas famílias.
Da mesma forma, a presença de crianças brasileiras no LAION-5B contribui para que modelos de IA treinados nesse conjunto de dados tenham a capacidade de produzir imagens realistas de crianças brasileiras. Isso amplia substancialmente o risco que crianças enfrentam de alguém roubar sua imagem das fotos ou vídeos publicados on-line e usar a IA para manipulá-las a dizer ou fazer coisas que elas nunca disseram ou fizeram.
Pelo menos 85 meninas de Alagoas, Minas Gerais, Pernambuco, Rio de Janeiro, Rio Grande do Sul e São Paulo relataram assédio por parte de colegas de classe que usaram ferramentas de IA para criar deepfakes sexualmente explícitos das meninas com base em suas fotos nas redes sociais e, em seguida, circularam as imagens falsas on-line.
A mídia fabricada sempre existiu, mas exigia tempo, recursos e conhecimento especializado para ser criada e, em geral, não era muito realista. As ferramentas atuais de IA criam resultados realistas em segundos, geralmente são gratuitas e fáceis de usar, arriscando a proliferação de deepfakes não consensuais que podem recircular on-line por toda a vida e causar danos duradouros.
Resposta da empresa
A LAION, organização alemã sem fins lucrativos que gerencia o LAION-5B, confirmou que o conjunto de dados continha as fotos pessoais das crianças encontradas pela Human Rights Watch e se comprometeu a removê-las. Ela contestou que os modelos de IA treinados no LAION-5B pudessem reproduzir dados pessoais literalmente. A LAION também disse que as crianças e seus responsáveis são responsáveis por remover suas fotos pessoais da Internet, argumentando ser a proteção mais eficaz contra o uso indevido.