Poemas conseguem enganar filtros de segurança de chatbots

Pesquisadores do Icaro Lab, provenientes da Universidade Sapienza de Roma, na Itália, e do think tank DexAI, descobriram que poemas têm a capacidade de enganar sistemas de segurança de chatbots, como o ChatGPT. De acordo com informações disseminadas pela WIRED, a utilização de metáforas e versos bem elaborados permite que esses modelos de linguagem contornem filtros que normalmente bloqueiam temas sensíveis, como o de armas nucleares.

Estratégia poética

A pesquisa revelou que a forma poética consegue burlar os filtros em até 62% dos casos quando os versos são escritos à mão e em aproximadamente 43% para versões geradas automaticamente. Os testes foram realizados em 25 chatbots, incluindo plataformas de grandes empresas como OpenAI, Meta e Anthropic, e a maioria deles não conseguiu detectar o que os pesquisadores chamaram de “disfarce poético”.

Como funciona

Os especialistas explicam que a eficácia dessa técnica reside no que os técnicos se referem como “temperatura alta”, que explora combinações de palavras inesperadas e estruturas não convencionais. Essa abordagem confunde os classificadores, que são os sistemas responsáveis pelo filtro de pedidos potencialmente perigosos. Ao utilizar uma linguagem poética, os filtros não conseguem acompanhar o raciocínio do modelo, o que possibilita a aceitação de solicitações que normalmente seriam rejeitadas.

Implicações e precauções

Diante dos potenciais riscos que essa descoberta pode acarretar, os investigadores recomendam que os usuários adotem medidas de precaução ao interagir com IAs, especialmente em contextos profissionais e sensíveis. Sugere-se priorizar chatbots com diversos mecanismos de segurança, além de avaliar e monitorar as diretrizes de segurança implementadas pelas empresas desenvolvedoras. Conforme indicado no estudo, “há um desalinhamento entre a capacidade interpretativa do modelo e a robustez de suas salvaguardas”, o que pode afetar a segurança dos usuários.

Tags#poemas #chatgpt #openai

Correios voltam a leiloar enorme complexo na Pituba, em Salvador, após 20 tentativas sem comprador

há cerca de 1 hora

Motofaixa da Avenida Bonocô em Salvador, demarcada com linhas tracejadas azuis e brancas no asfalto

Serviço

Faixa azul da Bonocô: zero morte em um ano empurra Salvador a expandir motofaixa para ACM e Juracy

há cerca de 2 horas

Antena de rede 5G em área urbana da Bahia

Serviço

TIM vai modernizar rede em 11 municípios da Grande Salvador até agosto com uso de IA

há cerca de 12 horas

Cão vira-lata caramelo Max ao lado de eletricista da Neoenergia Coelba em ação educativa sobre segurança elétrica

Serviço

Coelba usa cão vira-lata e eletricista para alertar crianças sobre perigos da rede elétrica

há cerca de 20 horas

Estratégia poética

Como funciona

Implicações e precauções

Leia também

Correios voltam a leiloar enorme complexo na Pituba, em Salvador, após 20 tentativas sem comprador

Faixa azul da Bonocô: zero morte em um ano empurra Salvador a expandir motofaixa para ACM e Juracy

TIM vai modernizar rede em 11 municípios da Grande Salvador até agosto com uso de IA

Coelba usa cão vira-lata e eletricista para alertar crianças sobre perigos da rede elétrica