Tecnologia

OpenAI admite vulnerabilidade contra cibertaques ao seu navegador de IA Atlas

Empresa reconhece que falha estrutural em agentes autônomos “pode nunca ser resolvida” e aposta em testes automatizados para reduzir riscos no ChatGPT Atlas

Imagem da noticia OpenAI admite vulnerabilidade contra cibertaques ao seu navegador de IA Atlas
ChatGPT Atlas | Reprodução/Exame.com

Mesmo ao reforçar as defesas do ChatGPT Atlas, a OpenAI admite que ataques conhecidos como prompt injection, técnica que manipula agentes de IA a seguir instruções maliciosas ocultas em textos, continuam sendo um risco estrutural para navegadores baseados em inteligência artificial.

SBT News Logo

Acompanhe o SBT News nas TVs por assinatura Claro (586), Vivo (576), Sky (580) e Oi (175), via streaming pelo +SBT, Site e YouTube, além dos canais nas Smart TVs Samsung e LG.

Siga no Google Discover

Em post publicado na segunda-feira, 22, a empresa afirmou que esse tipo de ataque, semelhante a golpes e engenharia social na web, “é improvável que seja totalmente resolvido”. Segundo a OpenAI, o chamado agent mode, modo em que a IA executa tarefas de forma mais autônoma, “amplia a superfície de ameaças de segurança”.

O ChatGPT Atlas foi lançado em outubro e rapidamente passou a ser testado por pesquisadores de segurança. No mesmo dia do lançamento, especialistas demonstraram que poucos comandos inseridos em documentos do Google eram suficientes para alterar o comportamento do navegador. A empresa Brave, concorrente no setor, publicou análise semelhante, apontando que a injeção indireta de comandos é um problema sistêmico também em produtos como o Comet, da Perplexity.

O alerta não é exclusivo do setor privado. O National Cyber Security Centre, órgão do governo do Reino Unido, afirmou neste mês que ataques por prompt injection contra aplicações de IA generativa “podem nunca ser totalmente mitigados”, recomendando que empresas foquem em reduzir impacto e exposição, e não em eliminar o risco.

Para a OpenAI, a resposta passa por um ciclo contínuo de testes e correções rápidas. A empresa diz tratar o problema como um desafio de longo prazo e afirma já observar resultados iniciais com essa estratégia.

IA treinada para atacar a própria IA

A principal novidade apresentada pela OpenAI é o uso de um atacante automatizado baseado em LLM, sigla para large language model, modelo de linguagem de grande escala. Trata-se de uma IA treinada com reinforcement learning, técnica de aprendizado por reforço, para simular o comportamento de um invasor e encontrar novas formas de explorar agentes autônomos.

Esse sistema testa ataques em ambiente simulado, analisa como o agente-alvo “pensaria” e ajusta as estratégias repetidamente. Segundo a OpenAI, o método permitiu identificar ataques sofisticados, com dezenas de etapas, que não haviam surgido em testes humanos ou relatórios externos.

Em uma demonstração, a empresa mostrou um e-mail malicioso inserido na caixa de entrada do usuário. Ao analisá-lo, o agente foi induzido a enviar uma mensagem de demissão em vez de redigir uma resposta automática. Após atualizações de segurança, o sistema passou a detectar e sinalizar esse tipo de tentativa ao usuário.

Apesar disso, a OpenAI não divulgou dados que comprovem uma redução mensurável no sucesso desses ataques. Um porta-voz afirmou apenas que a empresa trabalha com terceiros para reforçar a segurança do Atlas desde antes do lançamento.

A OpenAI recomenda limitar permissões, exigir confirmações antes de ações críticas e fornecer instruções específicas aos agentes. Dar “carta branca”, segundo a empresa, facilita a influência de conteúdos ocultos ou maliciosos, mesmo com salvaguardas.

Últimas Notícias