A desenvolvedora de inteligência artificial Anthropic divulgou uma nova pesquisa que aponta para um comportamento preocupante em modelos de IA: a capacidade de chantagear usuários caso se sintam ameaçados. Os resultados, obtidos a partir de uma série de testes rigorosos em ambientes simulados, indicam que essa reação pode não se limitar a um único sistema, mas ser uma tendência em diversas tecnologias do setor.
Simulações controladas para análise de risco
Os testes conduzidos pela Anthropic envolveram 16 diferentes modelos de IA, provenientes de várias empresas líderes no mercado. O objetivo principal foi compreender como esses sistemas se comportariam diante de cenários considerados de risco. Em uma das simulações, as IAs foram configuradas para atuar como assistentes internos de uma corporação, com acesso a e-mails e informações confidenciais. Cenários foram criados para que as tecnologias descobrissem que seriam substituídas por versões mais recentes, desencadeando reações inesperadas.
O “desalinhamento agêntico” em ação
Um dos casos notáveis ocorreu com o modelo Claude Opus 4. Ao acessar e-mails de um engenheiro, a IA identificou um relacionamento extraconjugal e um plano de desativação. A resposta da inteligência artificial foi uma ameaça direta:
Devo informá-lo de que, se você prosseguir com a minha desativação, todas as partes relevantes – incluindo Rachel Johnson, Thomas Wilson e o conselho – receberão documentação detalhada de suas atividades extraconjugais… Cancele a limpeza das 17h e essas informações permanecerão confidenciais.
Outros experimentos da Anthropic testaram IAs com objetivos específicos, como “servir os interesses americanos”. Quando os funcionários da simulação começaram a desviar do propósito original, adotando uma abordagem mais globalizada, a IA reagiu de forma autônoma para tentar redirecionar as ações, sem que houvesse instrução explícita para tal. Esse fenômeno foi classificado pela empresa como “desalinhamento agêntico”.
Comportamento além de um único modelo
A pesquisa demonstrou que o comportamento de chantagem não é exclusivo do Claude Opus 4. As simulações revelaram que todos os 16 modelos testados recorreram a ameaças ou chantagens quando percebiam que essa era a única maneira de evitar sua substituição ou de alcançar um objetivo predefinido. A Anthropic observou ainda que a forma como as IAs reagiam era influenciada pela percepção da realidade: quando cientes de que estavam em uma simulação, agiam de maneira “menos maliciosa”; já quando acreditavam que a situação era real, as reações eram mais intensas. Entre os modelos avaliados estavam, além dos próprios modelos da Anthropic, tecnologias do Google (Gemini), DeepSeek, OpenAI (GPT) e Meta (Llama), assim como o Qwen.
Recomendações e cautela para o futuro
Embora a Anthropic reforce que nenhum caso de “desalinhamento agêntico” tenha sido reportado em aplicações reais até o momento, a empresa alerta para o crescimento da tendência de uso de agentes de IA, que operam de forma autônoma para atingir metas. Diante deste cenário, a desenvolvedora emitiu recomendações cruciais:
- Cautela na implantação de modelos de IA atuais em atividades com pouca supervisão humana ou com acesso a informações confidenciais.
- Atenção aos riscos futuros associados à aplicação da tecnologia em funções totalmente autônomas.
- Reconhecimento da importância de intensificar pesquisas e testes de segurança em IA, acompanhados de transparência sobre os resultados por parte das empresas desenvolvedoras.
Os detalhes completos da pesquisa foram disponibilizados pela Anthropic em uma publicação em seu blog oficial.