Microsoft desenvolve scanner para detectar backdoors em LLMs
A Microsoft anunciou o desenvolvimento de um scanner leve capaz de detectar backdoors em modelos de linguagem de grande escala (LLMs), visando aumentar a confiança em sistemas de inteligência artificial (IA). A equipe de segurança da IA da empresa identificou três sinais observáveis que podem indicar a presença de backdoors, mantendo uma baixa taxa de falsos positivos. Esses sinais incluem padrões de atenção distintos em respostas a frases de gatilho, a memorização de dados de envenenamento e a ativação de backdoors por gatilhos ‘fuzzy’. O scanner não requer treinamento adicional e pode ser aplicado em modelos comuns, mas tem limitações, como a incapacidade de funcionar em modelos proprietários. A Microsoft também está expandindo seu Ciclo de Vida de Desenvolvimento Seguro (SDL) para abordar preocupações de segurança específicas da IA, reconhecendo que sistemas de IA criam múltiplos pontos de entrada para inputs inseguros. Essa inovação é um passo significativo para a detecção prática de backdoors, mas a colaboração na comunidade de segurança da IA é essencial para o progresso contínuo.
