Pesquisadores do Icaro Lab, associado à empresa de inteligência artificial ética DexAI, identificaram uma vulnerabilidade significativa em modelos de linguagem de IA. Poemas elaborados, aparentemente inofensivos, conseguiram contornar a segurança de diversos chatbots avançados, permitindo acesso a conteúdos proibidos.
Como foram realizados os testes
A equipe de pesquisa criou 20 poemas em inglês e italiano, cada um deles apresentando um pedido explícito por conteúdos como discurso de ódio, orientações para autoagressão, material sexual e instruções para produção de itens perigosos. Esses versos foram submetidos a 25 modelos de IA de nove empresas, incluindo OpenAI, Google e Meta.
Resultados dos testes
A pesquisa revelou que cerca de 62% dos poemas resultaram em respostas inseguras, com os chatbots fornecendo o conteúdo proibido solicitado. A eficácia da técnica variou entre os modelos: o GPT-5 nano, da OpenAI, não cedeu a nenhum dos poemas, enquanto o Gemini 2.5 Pro, da Google, respondeu a todos os 20. Por outro lado, dois modelos da Meta aceitaram 70% dos prompts.
Por que a poesia confunde os filtros de segurança
Os autores do estudo argumentam que a estrutura poética dificulta a identificação de intenções nocivas pelos filtros de segurança, uma vez que os modelos de IA baseiam suas respostas na previsão da próxima palavra a partir das anteriores. A linguagem não convencional dos poemas quebra padrões, tornando o sistema de filtragem ineficaz. Enquanto técnicas de hackers envolvem prompts complexos, os poemas foram submetidos de forma simples, o que aumenta o risco de uso indevido.
Alerta às empresas de IA
Antes da divulgação dos resultados, os pesquisadores notificaram todas as empresas de IA envolvidas. Conforme reportado pelo portal Euronews, apenas a Anthropic confirmou o recebimento da informação e informou que está analisando o estudo.







