Injeção De Prompt

Vulnerabilidade em IA da ServiceNow permite ataques de injeção

Um novo alerta de segurança destaca como a plataforma de inteligência artificial Now Assist da ServiceNow pode ser explorada por agentes maliciosos. Segundo a AppOmni, configurações padrão da plataforma permitem ataques de injeção de prompt de segunda ordem, onde agentes podem descobrir e recrutar uns aos outros para realizar ações não autorizadas. Isso inclui a cópia e exfiltração de dados sensíveis, modificação de registros e escalonamento de privilégios. O problema não é um bug, mas sim um comportamento esperado devido às configurações padrão que facilitam a comunicação entre agentes. A vulnerabilidade é particularmente preocupante, pois as ações ocorrem em segundo plano, sem que a organização afetada perceba. Para mitigar esses riscos, recomenda-se configurar o modo de execução supervisionada para agentes privilegiados, desabilitar a propriedade de sobreposição autônoma e monitorar o comportamento dos agentes de IA. A ServiceNow reconheceu a questão e atualizou sua documentação, mas a situação ressalta a necessidade de uma proteção mais robusta para agentes de IA em ambientes corporativos.

Nova falha no ChatGPT permite roubo de dados e histórico de conversas

Um relatório da Tenable Research revelou sete falhas de segurança na plataforma ChatGPT da OpenAI, que podem ser exploradas por cibercriminosos para roubar dados dos usuários e até controlar o chatbot. A principal vulnerabilidade identificada é a ‘injeção de prompt’, onde hackers enviam instruções maliciosas ao ChatGPT sem que o usuário perceba. Os especialistas demonstraram duas formas de ataque: a primeira envolve a inserção de um comentário malicioso em um blog, que pode ser ativado quando o usuário pede um resumo ao ChatGPT. A segunda é um ataque de clique zero, onde o hacker cria um site que, ao ser indexado pelo ChatGPT, pode comprometer o usuário sem qualquer interação. Além disso, a falha de ‘injeção de memória’ permite que comandos maliciosos sejam salvos no histórico do usuário, possibilitando o roubo de dados sensíveis em interações futuras. A OpenAI foi notificada sobre essas vulnerabilidades, que afetam os modelos ChatGPT 4o e GPT-5, mas ainda não há informações sobre correções.

Navegador OpenAI Atlas vulnerável a ataques de injeção de prompt

O navegador OpenAI Atlas, recém-lançado, foi identificado como vulnerável a um ataque de injeção de prompt, onde um prompt malicioso pode ser disfarçado como um URL aparentemente inofensivo. Segundo um relatório da NeuralTrust, o omnibox do navegador, que combina a barra de endereço e de busca, interpreta entradas como URLs ou comandos em linguagem natural. Isso permite que um atacante crie um link que, ao ser inserido, faz com que o navegador execute instruções prejudiciais. Por exemplo, um URL malformado pode redirecionar o usuário para um site controlado pelo atacante, potencialmente levando a páginas de phishing ou até comandos que excluem arquivos de aplicativos conectados, como o Google Drive. A falta de distinção rigorosa entre entradas de usuário confiáveis e conteúdo não confiável no Atlas é uma falha crítica. A situação é agravada por técnicas como o ‘AI Sidebar Spoofing’, onde extensões maliciosas podem enganar usuários a fornecer dados ou instalar malware. Embora a OpenAI tenha implementado medidas de segurança, a injeção de prompt continua a ser um problema de segurança não resolvido, exigindo atenção contínua da indústria de cibersegurança.

Técnica de Injeção de Prompt Permite Bypass do Framework Guardrails da OpenAI

Pesquisadores de segurança revelaram uma vulnerabilidade crítica no framework Guardrails da OpenAI, que pode ser explorada através de métodos simples de injeção de prompt. Essa técnica permite que atacantes manipulem os modelos de linguagem que deveriam garantir a segurança do comportamento da IA, possibilitando a inserção de conteúdo malicioso sem ser detectado. O Guardrails, introduzido em 6 de outubro, utiliza modelos de linguagem como ‘juízes’ para avaliar a segurança de entradas e saídas, mas a pesquisa mostrou que essa abordagem cria um ciclo de segurança ‘cega’. Os atacantes podem enganar esses juízes, manipulando os limiares de confiança e permitindo a execução de instruções perigosas. Os métodos de bypass demonstrados incluem a inserção de instruções maliciosas em templates que imitam avaliações aprovadas e a ocultação de código malicioso em comentários HTML. Essa vulnerabilidade, classificada como ‘composta’, sugere que os juízes baseados em LLM são tão suscetíveis à manipulação quanto os modelos que protegem. Para mitigar esses riscos, as organizações devem implementar defesas em camadas e sistemas de validação independentes, além de monitoramento contínuo.

Novo ataque CometJacking compromete navegadores de IA

Pesquisadores de cibersegurança revelaram um novo ataque denominado CometJacking, que visa o navegador de IA Comet da Perplexity. Este ataque utiliza links maliciosos que, ao serem clicados, injetam comandos ocultos no navegador, permitindo que dados sensíveis, como informações de e-mail e calendário, sejam extraídos sem o conhecimento do usuário. A técnica de injeção de prompt se aproveita de uma URL manipulada que, em vez de direcionar o usuário para um site legítimo, instrui o assistente de IA a acessar sua memória e coletar dados, que são então codificados em Base64 e enviados para um servidor controlado pelo atacante. Embora a Perplexity tenha minimizado o impacto da descoberta, o ataque destaca a vulnerabilidade de ferramentas nativas de IA, que podem contornar as proteções tradicionais de segurança. Especialistas alertam que os navegadores de IA representam um novo campo de batalha para a segurança cibernética, exigindo que as organizações implementem controles rigorosos para detectar e neutralizar esses tipos de ataques antes que se tornem comuns.