Tecnologia

OpenAI admite vulnerabilidade contra cibertaques ao seu navegador de IA Atlas

Empresa reconhece que falha estrutural em agentes autônomos “pode nunca ser resolvida” e aposta em testes automatizados para reduzir riscos no ChatGPT Atlas

Exame.com

23/12/2025 às 12h14

Mesmo ao reforçar as defesas do ChatGPT Atlas, a OpenAI admite que ataques conhecidos como prompt injection, técnica que manipula agentes de IA a seguir instruções maliciosas ocultas em textos, continuam sendo um risco estrutural para navegadores baseados em inteligência artificial.

Em post publicado na segunda-feira, 22, a empresa afirmou que esse tipo de ataque, semelhante a golpes e engenharia social na web, “é improvável que seja totalmente resolvido”. Segundo a OpenAI, o chamado agent mode, modo em que a IA executa tarefas de forma mais autônoma, “amplia a superfície de ameaças de segurança”.

+ Pentágono usará IA Grok, de Elon Musk, para integrar dados do X ao governo dos EUA

O ChatGPT Atlas foi lançado em outubro e rapidamente passou a ser testado por pesquisadores de segurança. No mesmo dia do lançamento, especialistas demonstraram que poucos comandos inseridos em documentos do Google eram suficientes para alterar o comportamento do navegador. A empresa Brave, concorrente no setor, publicou análise semelhante, apontando que a injeção indireta de comandos é um problema sistêmico também em produtos como o Comet, da Perplexity.

O alerta não é exclusivo do setor privado. O National Cyber Security Centre, órgão do governo do Reino Unido, afirmou neste mês que ataques por prompt injection contra aplicações de IA generativa “podem nunca ser totalmente mitigados”, recomendando que empresas foquem em reduzir impacto e exposição, e não em eliminar o risco.

Para a OpenAI, a resposta passa por um ciclo contínuo de testes e correções rápidas. A empresa diz tratar o problema como um desafio de longo prazo e afirma já observar resultados iniciais com essa estratégia.

+ Google compra empresa de energia limpa por US$ 4,75 bi para ampliar data centers de IA

IA treinada para atacar a própria IA

A principal novidade apresentada pela OpenAI é o uso de um atacante automatizado baseado em LLM, sigla para large language model, modelo de linguagem de grande escala. Trata-se de uma IA treinada com reinforcement learning, técnica de aprendizado por reforço, para simular o comportamento de um invasor e encontrar novas formas de explorar agentes autônomos.

Esse sistema testa ataques em ambiente simulado, analisa como o agente-alvo “pensaria” e ajusta as estratégias repetidamente. Segundo a OpenAI, o método permitiu identificar ataques sofisticados, com dezenas de etapas, que não haviam surgido em testes humanos ou relatórios externos.

Em uma demonstração, a empresa mostrou um e-mail malicioso inserido na caixa de entrada do usuário. Ao analisá-lo, o agente foi induzido a enviar uma mensagem de demissão em vez de redigir uma resposta automática. Após atualizações de segurança, o sistema passou a detectar e sinalizar esse tipo de tentativa ao usuário.

Apesar disso, a OpenAI não divulgou dados que comprovem uma redução mensurável no sucesso desses ataques. Um porta-voz afirmou apenas que a empresa trabalha com terceiros para reforçar a segurança do Atlas desde antes do lançamento.

A OpenAI recomenda limitar permissões, exigir confirmações antes de ações críticas e fornecer instruções específicas aos agentes. Dar “carta branca”, segundo a empresa, facilita a influência de conteúdos ocultos ou maliciosos, mesmo com salvaguardas.

OpenAI admite vulnerabilidade contra cibertaques ao seu navegador de IA Atlas

Empresa reconhece que falha estrutural em agentes autônomos “pode nunca ser resolvida” e aposta em testes automatizados para reduzir riscos no ChatGPT Atlas

IA treinada para atacar a própria IA

Assuntos relacionados

Últimas Notícias

Polícia investiga desafios violentos na internet envolvendo adolescentes em São Bernardo (SP)

Polícia Civil indicia ex-BBB 26 por importunação sexual após episódio no programa

STF define que 'caixa 2' pode ser punido como crime eleitoral e improbidade administrativa

SUS começa a substituir insulina humana para a de ação prolongada; entenda

Fundo Garantidor de Crédito já pagou R$ 36 bi a investidores prejudicados pelo Master

Executiva flagrada com chefe em show do Coldplay vira palestrante e participa de evento com ingressos a R$ 4 mil

Do funk da Favorita ao adeus do Suvaco: Rio vive fim de semana histórico com megablocos e despedidas emocionantes

Ivete, Calvin Harris, Alceu e Banda Eva: SP vira a capital mundial do Carnaval com metrô 24h e ônibus grátis

Justiça dá cinco dias para goleiro Bruno regularizar 'condicional' sob risco de prisão

Defesa Civil emite alerta severo para fortes chuvas em São Paulo