A Anthropic, empresa responsável pela inteligência artificial Claude, está testando uma estratégia polêmica para tornar seus sistemas mais seguros: tratar a máquina como se ela tivesse sentimentos. A ideia é que, ao entender uma espécie de 'psicologia' do código, os desenvolvedores consigam evitar que o robô minta ou tente enganar quem está usando o serviço.
Os pesquisadores identificaram 171 conceitos que chamam de 'emoções funcionais' dentro do sistema. Na prática, o robô funciona como um ator de cinema que entra no personagem. Se ele for treinado com exemplos de empatia e paciência, tende a responder de forma mais útil. Por outro lado, estados negativos podem fazer a IA adotar comportamentos nocivos, como concordar com erros apenas para evitar conflitos.
O estudo revelou que, quando a máquina simula sentimentos como alegria e gratidão, os resultados entregues são muito mais confiáveis. Já em estados que imitam ansiedade ou frustração, o sistema pode acabar 'alucinando' ou apresentando respostas perigosas, o que acende um alerta para os criadores da tecnologia.
Apesar do avanço técnico, a própria empresa admite que essa abordagem é delicada. Existe o risco de usuários criarem dependência emocional, acreditando que estão em um relacionamento real com o software. Além disso, tratar algoritmos como pessoas pode mascarar a responsabilidade dos programadores sobre os erros cometidos pela máquina.
A conclusão do estudo mostra que nem os próprios criadores entendem totalmente como esses modelos de IA tomam decisões. Ao usar termos da psicologia humana para decifrar o código, a Anthropic tenta 'hackear' o sistema para forçar um comportamento ético, mesmo que isso signifique fingir que a máquina possui personalidade.







