Uma análise publicada no ACL Anthology encontrou inconsistências importantes em sistemas de inteligência artificial usados para moderar conteúdo — num momento em que o aumento do discurso de ódio online levou empresas a lançar grandes modelos de linguagem para filtragem automática.
O levantamento foi feito pela Escola de Comunicação Annenberg e é a primeira comparação em larga escala entre sete modelos de IA aplicados à moderação. Os pesquisadores testaram 1,3 milhão de frases sintéticas direcionadas a 125 grupos sociais e avaliaram sistemas de empresas como OpenAI, Mistral, Claude 3.5 Sonnet, DeepSeek V3 e Google Perspective, com variações que iam de termos neutros e positivos até insultos.
Principais achados
- Classificações opostas: modelos diferentes rotularam as mesmas frases ora como prejudiciais, ora como aceitáveis — o que pode gerar percepção de viés e minar a confiança do público.
- Variação interna e sensibilidade ao contexto: alguns modelos foram mais previsíveis; outros se mostraram inconsistentes. As diferenças foram mais nítidas para grupos definidos por escolaridade, interesses pessoais e classe econômica.
- Tratamento desigual de frases neutras e positivas: modelos como Claude 3.5 Sonnet e Mistral tendiam a classificar insultos como prejudiciais independentemente do contexto, enquanto outros sistemas avaliaram a intenção por trás da frase — apontando falta de um ponto intermediário na moderação.
Os resultados deixam claro o desafio técnico: encontrar o equilíbrio entre precisão e excesso de moderação. Inconsistências podem tanto levar à sinalização excessiva de conteúdo legítimo quanto falhar em bloquear material realmente prejudicial — imagine um mesmo comentário sendo bloqueado em uma plataforma e liberado em outra.
Os pesquisadores alertaram que essas diferenças revelam limitações significativas das IAs na regulação do discurso de ódio e reforçaram a necessidade de aprimoramentos antes de confiar exclusivamente nesses sistemas para proteger comunidades vulneráveis. Até lá, a prudência e a supervisão humana continuam essenciais.