Pesquisadores do Icaro Lab, provenientes da Universidade Sapienza de Roma, na Itália, e do think tank DexAI, descobriram que poemas têm a capacidade de enganar sistemas de segurança de chatbots, como o ChatGPT. De acordo com informações disseminadas pela WIRED, a utilização de metáforas e versos bem elaborados permite que esses modelos de linguagem contornem filtros que normalmente bloqueiam temas sensíveis, como o de armas nucleares.
Estratégia poética
A pesquisa revelou que a forma poética consegue burlar os filtros em até 62% dos casos quando os versos são escritos à mão e em aproximadamente 43% para versões geradas automaticamente. Os testes foram realizados em 25 chatbots, incluindo plataformas de grandes empresas como OpenAI, Meta e Anthropic, e a maioria deles não conseguiu detectar o que os pesquisadores chamaram de “disfarce poético”.
Como funciona
Os especialistas explicam que a eficácia dessa técnica reside no que os técnicos se referem como “temperatura alta”, que explora combinações de palavras inesperadas e estruturas não convencionais. Essa abordagem confunde os classificadores, que são os sistemas responsáveis pelo filtro de pedidos potencialmente perigosos. Ao utilizar uma linguagem poética, os filtros não conseguem acompanhar o raciocínio do modelo, o que possibilita a aceitação de solicitações que normalmente seriam rejeitadas.
Implicações e precauções
Diante dos potenciais riscos que essa descoberta pode acarretar, os investigadores recomendam que os usuários adotem medidas de precaução ao interagir com IAs, especialmente em contextos profissionais e sensíveis. Sugere-se priorizar chatbots com diversos mecanismos de segurança, além de avaliar e monitorar as diretrizes de segurança implementadas pelas empresas desenvolvedoras. Conforme indicado no estudo, “há um desalinhamento entre a capacidade interpretativa do modelo e a robustez de suas salvaguardas”, o que pode afetar a segurança dos usuários.







