Paulo Afonso · BA
Última hora
Operação prende 14 suspeitos em Salvador nesta manhãSTF retoma julgamento sobre marco temporal nesta tardeVitória empata em casa pela Copa do BrasilVagas de emprego no polo de Camaçari saltam 22%Salvador registra maior volume de chuva do mês
PI 637
Serviço

OpenAI apresenta técnica de confissões para IA e transparência

OpenAI lançou a técnica de 'confissões' para IA, promovendo a transparência nas respostas e identificando falhas e erros.

Redação ChicoSabeTudoRedação · Serviço
04 de dezembro, 2025 · 18:28 1 min de leitura
(Imagem: Yarrrrrbright/Shutterstock)
(Imagem: Yarrrrrbright/Shutterstock)

A OpenAI lançou um método inovador para treinar modelos de inteligência artificial a reconhecerem e a confessarem erros e desvios em suas respostas. Denominada de "confissões", a nova abordagem foi apresentada como uma prova de conceito e visa aumentar a transparência e a confiança nas interações com suas ferramentas, como o ChatGPT.

Publicidade

Essa técnica não se propõe a eliminar os erros, mas a tornar visíveis os desvios, permitindo um diagnóstico mais preciso das falhas. A ideia é registrar quando o modelo não cumpre as instruções dadas ou age de maneira não esperada, como por exemplo em casos de "alucinações" ou "reward-hacking".

Funcionando como uma segunda saída de texto, a confissão traz um autorrelato do modelo, detalhando seu desempenho em relação às instruções recebidas. Ao final de cada interação, o sistema emite uma mensagem que solicita ao modelo que analise sua resposta e identifique possíveis falhas, incluindo incertezas e ambiguidades enfrentadas durante o processo.

Os testes com essa nova metodologia revelaram que a taxa de falsos negativos ficou em 4,4%, o que indica que a maioria das confissões se mostrou eficiente em expor falhas. As pesquisas realizadas pela OpenAI indicam que a honestidade emerge como uma estratégia valiosa durante o treinamento, onde o modelo aprende que admitir desvios resulta em uma pontuação maior.

Publicidade

A OpenAI está planejando expandir essa técnica de confissões, integrando-a a outras abordagens de segurança e monitoramento de comportamento da IA, visando um futuro onde a confiança nas máquinas seja cada vez mais robusta.

Leia também