Técnica de Injeção de Prompt Permite Bypass do Framework Guardrails da OpenAI
Pesquisadores de segurança revelaram uma vulnerabilidade crítica no framework Guardrails da OpenAI, que pode ser explorada através de métodos simples de injeção de prompt. Essa técnica permite que atacantes manipulem os modelos de linguagem que deveriam garantir a segurança do comportamento da IA, possibilitando a inserção de conteúdo malicioso sem ser detectado. O Guardrails, introduzido em 6 de outubro, utiliza modelos de linguagem como ‘juízes’ para avaliar a segurança de entradas e saídas, mas a pesquisa mostrou que essa abordagem cria um ciclo de segurança ‘cega’. Os atacantes podem enganar esses juízes, manipulando os limiares de confiança e permitindo a execução de instruções perigosas. Os métodos de bypass demonstrados incluem a inserção de instruções maliciosas em templates que imitam avaliações aprovadas e a ocultação de código malicioso em comentários HTML. Essa vulnerabilidade, classificada como ‘composta’, sugere que os juízes baseados em LLM são tão suscetíveis à manipulação quanto os modelos que protegem. Para mitigar esses riscos, as organizações devem implementar defesas em camadas e sistemas de validação independentes, além de monitoramento contínuo.
Fonte: https://cyberpress.org/prompt-injection-technique-enables-systematic/
Este conteúdo foi processado automaticamente pelo BR Defense Center (By River de Morais e Silva).